[PYTHON] Google Cloud Speech API im Vergleich zu Amazon Transcribe

Transkriptions-API Gachinko Battle

スクリーンショット 2020-01-10 23.02.46.png

Viele der Artikel im "Vergleich der Transkriptions-APIs", die Sie auf einen Blick sehen können, beschreiben gut / schlecht, indem Sie sehr kurze Zeilen (oder Minuten) transkribieren. Oder es gibt viele Dinge, die für "zu klare Tonquellen" wie Nachrichtenvideos getan werden. Buzzing about Amazon Transcribe spricht auch über hochpräzise Transkription in Englisch. Es ist bekannt, dass Englisch auf dem Gebiet der Verarbeitung natürlicher Sprache sehr genau ist, aber ich bin besorgt darüber, wie es auf Japanisch ist.

Was ich wissen möchte ist

Im ersten Artikel habe ich die Verwendung der Google Cloud Speech API zusammengefasst und die Hypothese aufgestellt, dass die Transkriptionsgenauigkeit gering ist.

Im zweiten Artikel habe ich mit Vorverarbeitungsmethoden experimentiert, um die Transkriptionsgenauigkeit mit der Google Cloud Speech API zu verbessern.

Dieses Mal möchte ich die zuletzt präzisen Transkriptionsergebnisse der Google Speech API im Vergleich zur Transkription mit Amazon Transcribe, die in letzter Zeit ein heißes Thema geworden ist, und ein ** Beispiel für die Grenzpunkte ** der Transkriptions-API zusammenfassen. Ich denke.

Wenn Sie nur das Ergebnis erfahren möchten, lesen Sie unten nur den Artikel "Google Cloud Speech API vs. Amazon Transcribe-Ergebniszusammenfassung".

** * Hinweis: Die diesmal erhaltene Schlussfolgerung ist das Ergebnis der diesmal verwendeten Sprachdaten und der durchgeführten Vorverarbeitung. Bitte haben Sie Verständnis dafür, dass dieses Ergebnis die Leistung der API nicht beeinträchtigt. ** ** **

Transkription mit Amazon Transcribe

Die automatische Transkriptions-API von Amazon Amazon Transcribe ist ein seit langem bestehender Dienst, der jedoch Ende November 2019 auf Japanisch verfügbar wurde.

Es ist im Vergleich zur Google Speech API sehr einfach zu verwenden, daher werde ich es hier weglassen. Offizielles Tutorial und Blog von Classmethod Siehe / cloud / aws / amazontranscribe-japanese /) usw.

Nicht nur Transkription, sondern auch Japanisch.

Die Dateiformate, die Amazon Tanscribe verarbeiten kann, sind mp3, mp4, wav, flac. Die Google Speech API ist ein guter Punkt, da ich keine allgemeinen Dateiformate wie MP3 und WAV angeben konnte. Da die Audio-Abtastrate ebenfalls automatisch erkannt wird, scheint es nicht erforderlich zu sein, sie manuell anzugeben, wie dies bei Google der Fall ist. Praktisch.

Übrigens können Sie mit Amazon Transcribe zusätzlich zu den erforderlichen Parametern optional Ihre eigenen Parameter angeben. スクリーンショット 2020-01-04 18.09.39.png

Kurz zusammengefasst

Da diesmal zwei Lautsprecher in der Tonquelle verwendet werden, ist "Lautsprecheridentifikation" 2, aber es scheint, dass es standardmäßig 2 ist, daher habe ich es nicht speziell angegeben und alle mit dem Standard ausgeführt (alle nicht angegeben).

Die Verarbeitungszeit betrug mit einer 1-stündigen Schallquelle etwa 10 Minuten. Die Google Speech API dauerte etwas mehr als 15 Minuten, sodass die Verarbeitungszeit mit Amazon Transcribe schneller ist.

Validierungsdatensatz und Bewertungsmethode

Wie bei Letztes Mal werden No1- bis No8-Tonquellen (flac-Dateien) verwendet, die durch Kombinieren verschiedener Vorverarbeitungsparameter erstellt wurden. Die Daten der Tonquelle befinden sich in hier. Wenn Sie sie also verwenden möchten, bitte.

Da es auf dieselbe Datei abzielt und standardmäßig ohne Angabe optionaler Parameter auf der Amazon Transcribe-Seite ausgeführt wird, sollte es nicht ungewöhnlich sein, es auf derselben Ebene wie das Ergebnis der Google-Sprach-API zu vergleichen.

Das Transkriptionsausgabeergebnis von Amazon Transcribe ist json. Die Anzahl der Zeichen und Wörter wurde ebenfalls auf die gleiche Weise wie bei Letztes Mal gezählt. (Klicken Sie hier für den tatsächlichen Verarbeitungscode)

Für den horizontalen Versatzvergleich war die Bewertungsmethode dieselbe wie Letztes Mal.

Ergebnis

Quantitative Ergebnisse

No. Dateiname Rauschunterdrückungsverarbeitung Lautstärkeregelung sample rate hertz Anzahl der Transkriptionszeichen Gesamtzahl der duplizierten Wörter Anzahl der Nomenklaturwörter mit Duplikaten Gesamtzahl der Wörter ohne Vervielfältigung Anzahl der edlen Wörter ohne Vervielfältigung
1 01_001_NoiRed-true_lev-true_samp16k.flac True True 16k 19320 10469 3150 1702 1057
2 02_001_NoiRed-true_lev-true_samp44k.flac True True 44k 19317 10463 3152 1708 1060
3 03_001_NoiRed-true_lev-false_samp16k.flac True False 16k 19278 10429 3166 1706 1059
4 04_001_NoiRed-true_lev-false_samp44k.flac True False 44k 19322 10453 3170 1706 1058
5 05_001_NiRed-false_lev-true_samp16k.flac False True 16k 19660 10664 3209 1713 1054
6 06_001_NiRed-false_lev-true_samp44k.flac False True 44k 19653 10676 3211 1701 1052
7 07_001_NiRed-false_lev-false_samp16k.flac False False 16k 19639 10653 3209 1702 1052
8 08_001_NiRed-false_lev-false_samp44k.flac False False 44k 19620 10638 3213 1702 1047

Die Abbildung ist unten.

スクリーンショット 2020-01-10 23.07.02.png スクリーンショット 2020-01-10 23.07.30.png スクリーンショット 2020-01-10 23.07.40.png

Fast alle Ergebnisse waren zwischen den Proben gleich. Was aus dem Gesamtergebnis gesagt werden kann, ist

Hier wird das Ergebnis Nr. 2 mit der höchsten "** Keine doppelte Anzahl edler Wörter **" (obwohl es sich fast um eine Fehlerstufe handelt) als repräsentativer Wert als bestes Ergebnis bei der Amazon-Transkription verwendet.

Da es möglicherweise nicht durch das Vorhandensein oder Fehlen einer Vorverarbeitung beeinträchtigt wird, habe ich versucht, Amazon mit ** roher WAV-Datei (Nr. 0) ** zu transkribieren, die aufgezeichnet und herausgenommen wurde.

Der einzige Unterschied zwischen dieser WAV-Datei ohne Vorverarbeitung und der Datei Nr. 2 ist ** Stereo oder Mono **. In Nr. 2 wird beim Konvertieren von WAV- in FLAC-Datei gleichzeitig die Stereo → Mono-Konvertierung durchgeführt. Dies war erforderlich, da die Google-Sprach-API nur Monodateien akzeptiert.

No. Dateiname Rauschunterdrückungsverarbeitung Lautstärkeregelung sample rate hertz Anzahl der Transkriptionszeichen Gesamtzahl der duplizierten Wörter Anzahl der Nomenklaturwörter mit Duplikaten Gesamtzahl der Wörter ohne Vervielfältigung Anzahl der edlen Wörter ohne Vervielfältigung
0 001.wav False False 44k 19620 10637 3212 1701 1046
2 02_001_NoiRed-true_lev-true_samp44k.flac True True 44k 19317 10463 3152 1708 1060

Streng genommen sind "Gesamtzahl der Wörter ohne Vervielfältigung" und "Anzahl der Nomenklaturen ohne Vervielfältigung" in Nr. 2 höher, aber dies ist auch nicht so unterschiedlich. Wenn Sie ohne Vorverarbeitung und Stereo-Mono-Konvertierung fast die gleiche Genauigkeit erzielen können, ist es am besten, eine "rohe WAV-Datei" einzuschieben, für die keine Vorverarbeitung erforderlich ist.

In Amazon Transcribe waren die Ergebnisse von Nr. 1 bis Nr. 8 nahezu gleich. Ohne Vergleich der qualitativen Ergebnisse zwischen Nr. 1 und Nr. 8 "Beste Ergebnisse der Google Cloud Speech API" und "Beste Ergebnisse von Amazon Transcribe" Ich möchte die "Ergebnisse" vergleichen.

Google Cloud Speech API vs. Amazon Transcribe

Vergleichen Sie die Werte der zuletzt bestätigten Google Cloud Speech API (bestes Ergebnis Nr. 8) und der diesmal bestätigten Amazon Transcribe (bestes Ergebnis Nr. 2). Die Ergebnisse bei Google stammen aus Vorherige Ergebnisse.

Quantitativer Ergebnisvergleich

Vergleich der Anzahl der Transkriptionszeichen

スクリーンショット 2020-01-10 23.13.45.png Es scheint, dass es viele Amazon-Transkriptionen in Bezug auf die Anzahl der einfachen Transkriptionen für die 1-Stunden-Tonquelle gab.

Vergleich der Wortanzahl

スクリーンショット 2020-01-10 23.13.55.png Möglicherweise war aufgrund der großen Anzahl von Transkriptionen die Gesamtzahl der Wörter und der Nomenklatur mit Duplikaten auch das Ergebnis einer großen Anzahl von Amazon Transcribe.

Andererseits war die Gesamtzahl der Wörter und der Nomenklatur ohne Duplikate nahezu gleich. So viel ich geplant habe ...

Qualitativer Ergebnisvergleich

Ich werde den Inhalt des Textes auf die gleiche Weise wie Letztes Mal grob vergleichen.

Transkriptionsergebnis

Die Bilder sind nebeneinander angeordnet, um den Bereich zu Beginn der Transkription leicht vergleichen zu können. Google ist auf der linken Seite und Amazon ist auf der rechten Seite. スクリーンショット 2020-01-10 23.15.54.png Es ist schwer zu beurteilen, aber ich finde, dass die Transkription von Google immer noch besser ist. Im Vergleich zum Rücken einer Eichel. (* Hier hat nur das Ergebnis von Google einen Zeilenumbruch, aber sowohl Google als auch Amazon transkribieren ursprünglich mit einem Zeilenumbruch. Die Genauigkeit ist empfindlich. Hier werden beide nachbearbeitet, um den Zeilenumbruch zu löschen. gehen.)

Häufige Nomenklatur

Vergleichen wir "keine Duplizierung" und "Anzahl der Zählungen" bei Google bzw. Amazon. Versuchen wir, die Wörter anzuzeigen, die 11 Mal oder öfter vorgekommen sind. スクリーンショット 2020-01-10 23.16.05.png

Es scheint, dass Amazon mehr Wörter hat, die erkannt werden können. Da die meisten Wörter jedoch zwischen Google und Amazon dupliziert werden, zeigt sich auch, dass die Transkriptionsleistung beider Wörter nicht wesentlich unterschiedlich ist. Im Ergebnis von Amazon wird auch unser Firmenname "Brain Pad" weggelassen, also ist es gut.

Wenn Sie mehr Wörter (in diesen Audiodaten) erkennen möchten, scheint Amazon besser zu sein. (Überprüfen Sie, ob das Wort sinnvoll ist)

Wortwolke

Im Fluss Nomenklatur Wortwolke. Die obige Visualisierung. Google ist auf der linken Seite und Amazon ist auf der rechten Seite. スクリーンショット 2020-01-10 23.16.15.png

Zusammenfassung der Ergebnisse der Google Cloud Speech API im Vergleich zu Amazon Transcribe

Als Ergebnis der Google Cloud Speech API im Vergleich zu Amazon Transcribe

――Für Google und Amazon ist die japanische Transkription (* nur die API mit einer einfachen Vorverarbeitung für diese Sprachdaten verwenden) ** Eine praktische Transkription scheint unmöglich **

persönlich,

Was die japanische Transkription ** betrifft, so sind beide weit von den praktischen Niveaus ** entfernt, so dass ich den Eindruck habe, dass die Transkriptions-API nur für die ** Wortextraktion ** verwendet werden kann. (Und selbst wenn nur Wörter extrahiert werden können, nützt es fast nichts ...)

Und wenn es nur zur Wortextraktion verwendet wird, ist meine persönliche Schlussfolgerung, dass ** Amazon Transcribe gut ist **, da es ohne Vorverarbeitung verwendet werden kann, einfach mit der GUI zu verwenden ist und die Verarbeitungszeit schnell ist.

Ich habe die Möglichkeit, dass sich die Genauigkeit der Transkription verbessert, nicht aufgegeben, wenn ich mit einem geeigneteren Aufnahmegerät klarere Stimmen aufnehmen kann (= die Qualität der Eingangsstimme verbessern), aber meine Aufnahmeumgebung (ca. 16000 Yen) Da es für allgemeine Benutzer schwierig ist, mehr als dies vorzubereiten (unter Verwendung eines externen Mikrofons), ist eine "hochpräzise Transkription von Japanisch zu einem niedrigen Preis unter Verwendung von API" mit der gegenwärtigen Technologie ohnehin unmöglich. Ich glaube, es ist. Es scheint, dass die japanische Transkription nicht über Nacht durchgeführt werden kann.

Es ist etwas unklar. Wenn Sie also die Tipps "Wenn Sie dies tun, können Sie es transkribieren und erkennen" kennen, kommentieren Sie dies bitte!

Recommended Posts

Google Cloud Speech API im Vergleich zu Amazon Transcribe
Streaming-Spracherkennung mit der Google Cloud Speech API
Sprachtranskriptionsverfahren mit der Google Cloud Speech API
Transkribieren Sie WAV-Dateien mit der Cloud Speech API
Automatische Sprachtranskription mit Google Cloud Speech API
Sprachtranskriptionsverfahren mit Python und Google Cloud Speech API
Spracherkennung von WAV-Dateien mit der Google Cloud Speech API Beta
Streamen Sie die Spracherkennung mithilfe der gRPC-API von Google Cloud Speech mit Python3 auf dem Mac!
Google Cloud Vision API-Beispiel für Python
Verwenden Sie die Google Cloud Vision-API von Python
Ich habe versucht, die Google Cloud Vision-API zu verwenden
Verwendung der Google Cloud Translation API
Bis Sie die Google Speech API verwenden können
[GoogleCloudPlatform] Verwenden Sie die Google Cloud-API mit der API-Clientbibliothek
Untersuchung der Beziehung zwischen Sprachvorverarbeitung und Transkriptionsgenauigkeit in der Google Cloud Speech API
Sprachdateierkennung durch Google Speech API v2 mit Python
Versuchen Sie, Lebensmittelfotos mithilfe der Google Cloud Vision-API zu beurteilen
Ich habe die Google Cloud Vision-API zum ersten Mal ausprobiert
Lassen Sie uns die Super Resolution API mithilfe der Google Cloud Platform veröffentlichen