Ich habe die Spracherkennungsgenauigkeit von Amazon, Google, IBM, Microsoft verglichen

――Die diesmal verwendeten Audiodaten sind eine Aufzeichnung meines Forschungstreffens (eines Graduiertenseminars) mit AirPods. Die Anzahl der Teilnehmer an der Besprechung beträgt 3-5. Bitte beachten Sie, dass das Audio persönliche Informationen enthält und nicht weitergegeben werden kann.

Datenmenge: 300 Bemerkungen (ca. 27 Minuten) ――Die Qualität der Stimme beinhaltet viele Geräusche und Geräusche des täglichen Lebens. Die Qualität der Stimme ist nicht gut (im Vergleich zum Korpus für die Spracherkennung wie CSJ) ――Die Spracherkennungsgenauigkeit von Google usw. ist recht gut (WER einstellig, auch auf Japanisch), wie in der Veröffentlichung veröffentlicht.
Die Genauigkeit ist ziemlich gut, da für die Forschung Audio von guter Qualität verwendet wird. ―― *** Es gibt nicht viele Berichte über die Erkennungsgenauigkeit von Stimmen im täglichen Leben *** ――Dieses Mal habe ich untersucht ***, wie genau Sie die Stimmen in Ihrem täglichen Leben erkennen können. Da es sich um eine forschungsbezogene Stimme handelt, enthält sie außerdem viele Fachbegriffe. Ich frage mich auch, wie viel es technischen Begriffen entspricht.
Eine Zusammenfassung der Verwendung der API finden Sie im Artikel Verwenden von Amazon, Google, IBM, dem Spracherkennungsdienst von Microsoft.

Vergleich der Erkennungsgenauigkeit

Neben Amazon, Google, IBM und Microsoft wird auch die Erkennungsgenauigkeit von Kaldi (gelernt mit CSJ, JNS, S-JNAS, CEJC) aufgeführt.

        GCP
        WER: 0.3344722854973424
        CER: 0.2765527007889945

        AWS
        WER: 0.36209150326797385
        CER: 0.2218905472636816

        Azure
        WER: 0.28109824430332464
        CER: 0.21596337579617833

        Watson
        WER: 0.4107744107744108
        CER: 0.29126794258373206

        Kaldi
        WER: 0.616504854368932
        CER: 0.47915630285543725

Die Ergebnisse zeigen, dass Microsoft am genauesten ist. Ich dachte, Google sei das Beste, aber das war es nicht. Wenn Sie sich WER ansehen, können Sie sehen, dass selbst das beste Microsoft etwa 28% beträgt. Wenn die Qualität der Stimme gut ist, wird die WER auf eine Ziffer verbessert, aber es wurde festgestellt, dass die Genauigkeit in einer Umgebung mit vielen Geräuschen und Geräuschen des täglichen Lebens wie der Stimme des täglichen Lebens in diesem Ausmaß abnimmt. Da Kaldi jedoch miserabel ist, denke ich, dass Spracherkenner wie Google und Microsoft mit Rauschen umgehen können.

――Ich werde vorerst eines der Erkennungsergebnisse veröffentlichen

Richtige Antwort:Da es möglich ist, die Nähe zu berechnen, wird auf diese Weise der Schlagschall in der Abstandsmatrix für jedes Material ausgedrückt, und die Dichte wird auf diese Weise ausgedrückt, so dass diese zweidimensionale Karte verwendet werden kann. Ich habe versucht, es zu ersetzen, aber es ist erstaunlich, etwas zu tun

Google:Die Nähe kann berechnet werden. Selbst wenn Sie diese verwenden, können Sie den Schlagklang durch eine Distanzmatrix für jedes Material ersetzen und durch diese zweidimensionale Karte ersetzen, die so geworden ist. Aber es ist erstaunlich, etwas zu tun

Amazon:Da es möglich ist, die Nähe zu berechnen, selbst wenn dies verwendet wird, wird der Schlagklang durch einen Knoten wie diesen in der Distanzmatrix für jedes Material dargestellt, also für diesen Menschen Das Ersetzen durch eine Karte ist nur eine Selbstverständlichkeit!Ich habe es versucht, aber es ist erstaunlich, etwas zu tun

Microsoft:Ich habe dies verwendet, weil ich die Nähe berechnen kann, aber ich habe diese zweidimensionale Karte verwendet, weil es eine Möglichkeit gab, den auffälligen Klang für jedes Material in einer Distanzmatrix mit dem gleichen Gefühl wie zuvor auszudrücken. Ich habe versucht, es durch eines zu ersetzen, aber es ist erstaunlich, etwas zu tun

IBM:Da es möglich ist, die Steuerung zu berechnen, kann nicht gesagt werden, dass der Schlagton durch eine Matrix für jedes Material auf der Uhr dargestellt wird, wie es oben war. Ersetzen Sie ihn hier durch die menschliche Karte. Ich habe es vorerst versucht, aber es ist erstaunlich, etwas zu tun

Kaldi:Da es möglich ist, die Nähe für 5 Tage zu berechnen, ist es nicht erforderlich, diese zu verwenden, sodass das auffällige Geräusch für jedes Material entfernt wird. 7 Für die Forstrate 7 Das Stimmgefühl, das vom untergeordneten Knoten ausgedrückt wurde. Ich war einmal passiv, vor allem, um es zu ersetzen, aber es ist praktisch, etwas zu tun.

[PYTHON] Vergleich der Genauigkeit der Cloud-Spracherkennung von 4 großen Unternehmen

Ich habe die Spracherkennungsgenauigkeit von Amazon, Google, IBM, Microsoft verglichen

Vergleich der Erkennungsgenauigkeit