[PYTHON] Comparaison de la précision de la reconnaissance vocale dans le cloud de 4 grandes entreprises

J'ai comparé la précision de la reconnaissance vocale d'Amazon, Google, IBM, Microsoft

――Les données audio utilisées cette fois sont un enregistrement de ma réunion de recherche (un séminaire d'études supérieures) avec les AirPods. Le nombre de participants à la réunion est de 3 à 5. Veuillez noter que l'audio contient des informations personnelles et ne peut être divulgué.

Comparaison de la précision de la reconnaissance

--En plus d'Amazon, Google, IBM et Microsoft, la précision de reconnaissance de Kaldi (apprise avec CSJ, JNS, S-JNAS, CEJC) est également répertoriée.

        GCP
        WER: 0.3344722854973424
        CER: 0.2765527007889945

        AWS
        WER: 0.36209150326797385
        CER: 0.2218905472636816

        Azure
        WER: 0.28109824430332464
        CER: 0.21596337579617833

        Watson
        WER: 0.4107744107744108
        CER: 0.29126794258373206

        Kaldi
        WER: 0.616504854368932
        CER: 0.47915630285543725

――Je publierai un des résultats de reconnaissance pour le moment

Bonne réponse:Puisqu'il est possible de calculer la proximité, en utilisant ceci, le son de frappe est exprimé comme une matrice de distance pour chaque matériau, et la densité est exprimée comme ceci, de sorte que cette carte bidimensionnelle puisse être utilisée. J'ai essayé de le remplacer, mais c'est incroyable de faire quelque chose

Google:La proximité peut être calculée, donc même si vous l'utilisez, vous pouvez remplacer le son frappant par une matrice de distance pour chaque matériau et la remplacer par cette carte bidimensionnelle qui est devenue comme ça. Mais c'est incroyable de faire quelque chose

Amazon:Puisqu'il est possible de calculer la proximité, même si cela est utilisé, le son frappant est représenté par un nœud comme celui-ci dans la matrice de distance pour chaque matériau, donc cet être humain Le remplacer par une carte est une évidence!Je l'ai essayé, mais c'est incroyable de faire quelque chose

Microsoft:Je l'ai utilisé parce que je peux calculer la proximité, mais j'ai utilisé cette carte bidimensionnelle parce qu'il y avait un moyen d'exprimer le son frappant pour chaque matériau dans une matrice de distance avec le même sentiment qu'avant. J'ai essayé de le remplacer par un, mais c'est incroyable de faire quelque chose

IBM:Puisqu'il est possible de calculer le contrôle, même s'il est utilisé, on ne peut pas dire que le son de frappe est représenté par une matrice pour chaque matériau sur l'horloge, comme c'était le cas ci-dessus. Remplacez-le par la carte humaine ici. J'ai essayé de le faire pour le moment, mais c'est incroyable de faire quelque chose

Kaldi:Comme il est possible de calculer la proximité pendant 5 jours, il n'est pas nécessaire de l'utiliser, de sorte que le son de frappe est supprimé pour chaque matériau. J'ai été passif une fois, surtout pour le remplacer, mais c'est pratique de faire quelque chose.

Recommended Posts

Comparaison de la précision de la reconnaissance vocale dans le cloud de 4 grandes entreprises
Comment utiliser les services de reconnaissance vocale cloud de 4 grandes entreprises
Reconnaissance vocale des fichiers wav avec Google Cloud Speech API Beta
Introduction facile de la reconnaissance vocale avec Python
Étude de la relation entre le prétraitement de la voix et la précision de la transcription dans l'API Google Cloud Speech