[PYTHON] Vergleich der Genauigkeit der Cloud-Spracherkennung von 4 großen Unternehmen

Ich habe die Spracherkennungsgenauigkeit von Amazon, Google, IBM, Microsoft verglichen

――Die diesmal verwendeten Audiodaten sind eine Aufzeichnung meines Forschungstreffens (eines Graduiertenseminars) mit AirPods. Die Anzahl der Teilnehmer an der Besprechung beträgt 3-5. Bitte beachten Sie, dass das Audio persönliche Informationen enthält und nicht weitergegeben werden kann.

Vergleich der Erkennungsgenauigkeit

        GCP
        WER: 0.3344722854973424
        CER: 0.2765527007889945

        AWS
        WER: 0.36209150326797385
        CER: 0.2218905472636816

        Azure
        WER: 0.28109824430332464
        CER: 0.21596337579617833

        Watson
        WER: 0.4107744107744108
        CER: 0.29126794258373206

        Kaldi
        WER: 0.616504854368932
        CER: 0.47915630285543725

――Ich werde vorerst eines der Erkennungsergebnisse veröffentlichen

Richtige Antwort:Da es möglich ist, die Nähe zu berechnen, wird auf diese Weise der Schlagschall in der Abstandsmatrix für jedes Material ausgedrückt, und die Dichte wird auf diese Weise ausgedrückt, so dass diese zweidimensionale Karte verwendet werden kann. Ich habe versucht, es zu ersetzen, aber es ist erstaunlich, etwas zu tun

Google:Die Nähe kann berechnet werden. Selbst wenn Sie diese verwenden, können Sie den Schlagklang durch eine Distanzmatrix für jedes Material ersetzen und durch diese zweidimensionale Karte ersetzen, die so geworden ist. Aber es ist erstaunlich, etwas zu tun

Amazon:Da es möglich ist, die Nähe zu berechnen, selbst wenn dies verwendet wird, wird der Schlagklang durch einen Knoten wie diesen in der Distanzmatrix für jedes Material dargestellt, also für diesen Menschen Das Ersetzen durch eine Karte ist nur eine Selbstverständlichkeit!Ich habe es versucht, aber es ist erstaunlich, etwas zu tun

Microsoft:Ich habe dies verwendet, weil ich die Nähe berechnen kann, aber ich habe diese zweidimensionale Karte verwendet, weil es eine Möglichkeit gab, den auffälligen Klang für jedes Material in einer Distanzmatrix mit dem gleichen Gefühl wie zuvor auszudrücken. Ich habe versucht, es durch eines zu ersetzen, aber es ist erstaunlich, etwas zu tun

IBM:Da es möglich ist, die Steuerung zu berechnen, kann nicht gesagt werden, dass der Schlagton durch eine Matrix für jedes Material auf der Uhr dargestellt wird, wie es oben war. Ersetzen Sie ihn hier durch die menschliche Karte. Ich habe es vorerst versucht, aber es ist erstaunlich, etwas zu tun

Kaldi:Da es möglich ist, die Nähe für 5 Tage zu berechnen, ist es nicht erforderlich, diese zu verwenden, sodass das auffällige Geräusch für jedes Material entfernt wird. 7 Für die Forstrate 7 Das Stimmgefühl, das vom untergeordneten Knoten ausgedrückt wurde. Ich war einmal passiv, vor allem, um es zu ersetzen, aber es ist praktisch, etwas zu tun.

Recommended Posts

Vergleich der Genauigkeit der Cloud-Spracherkennung von 4 großen Unternehmen
Verwendung von Cloud-Spracherkennungsdiensten von 4 großen Unternehmen
Spracherkennung von WAV-Dateien mit der Google Cloud Speech API Beta
Einfache Einführung der Spracherkennung mit Python
Untersuchung der Beziehung zwischen Sprachvorverarbeitung und Transkriptionsgenauigkeit in der Google Cloud Speech API