Viele der Artikel im "Vergleich der Transkriptions-APIs", die Sie auf einen Blick sehen können, beschreiben gut / schlecht, indem Sie sehr kurze Zeilen (oder Minuten) transkribieren. Oder es gibt viele Dinge, die für "zu klare Tonquellen" wie Nachrichtenvideos getan werden. Buzzing about Amazon Transcribe spricht auch über hochpräzise Transkription in Englisch. Es ist bekannt, dass Englisch auf dem Gebiet der Verarbeitung natürlicher Sprache sehr genau ist, aber ich bin besorgt darüber, wie es auf Japanisch ist.
Was ich wissen möchte ist
Im ersten Artikel habe ich die Verwendung der Google Cloud Speech API zusammengefasst und die Hypothese aufgestellt, dass die Transkriptionsgenauigkeit gering ist.
Im zweiten Artikel habe ich mit Vorverarbeitungsmethoden experimentiert, um die Transkriptionsgenauigkeit mit der Google Cloud Speech API zu verbessern.
Dieses Mal möchte ich die zuletzt präzisen Transkriptionsergebnisse der Google Speech API im Vergleich zur Transkription mit Amazon Transcribe, die in letzter Zeit ein heißes Thema geworden ist, und ein ** Beispiel für die Grenzpunkte ** der Transkriptions-API zusammenfassen. Ich denke.
Wenn Sie nur das Ergebnis erfahren möchten, lesen Sie unten nur den Artikel "Google Cloud Speech API vs. Amazon Transcribe-Ergebniszusammenfassung".
** * Hinweis: Die diesmal erhaltene Schlussfolgerung ist das Ergebnis der diesmal verwendeten Sprachdaten und der durchgeführten Vorverarbeitung. Bitte haben Sie Verständnis dafür, dass dieses Ergebnis die Leistung der API nicht beeinträchtigt. ** ** **
Die automatische Transkriptions-API von Amazon Amazon Transcribe ist ein seit langem bestehender Dienst, der jedoch Ende November 2019 auf Japanisch verfügbar wurde.
Es ist im Vergleich zur Google Speech API sehr einfach zu verwenden, daher werde ich es hier weglassen. Offizielles Tutorial und Blog von Classmethod Siehe / cloud / aws / amazontranscribe-japanese /) usw.
Nicht nur Transkription, sondern auch Japanisch.
Die Dateiformate, die Amazon Tanscribe verarbeiten kann, sind mp3, mp4, wav, flac. Die Google Speech API ist ein guter Punkt, da ich keine allgemeinen Dateiformate wie MP3 und WAV angeben konnte. Da die Audio-Abtastrate ebenfalls automatisch erkannt wird, scheint es nicht erforderlich zu sein, sie manuell anzugeben, wie dies bei Google der Fall ist. Praktisch.
Übrigens können Sie mit Amazon Transcribe zusätzlich zu den erforderlichen Parametern optional Ihre eigenen Parameter angeben.
Kurz zusammengefasst
Da diesmal zwei Lautsprecher in der Tonquelle verwendet werden, ist "Lautsprecheridentifikation" 2, aber es scheint, dass es standardmäßig 2 ist, daher habe ich es nicht speziell angegeben und alle mit dem Standard ausgeführt (alle nicht angegeben).
Die Verarbeitungszeit betrug mit einer 1-stündigen Schallquelle etwa 10 Minuten. Die Google Speech API dauerte etwas mehr als 15 Minuten, sodass die Verarbeitungszeit mit Amazon Transcribe schneller ist.
Wie bei Letztes Mal werden No1- bis No8-Tonquellen (flac-Dateien) verwendet, die durch Kombinieren verschiedener Vorverarbeitungsparameter erstellt wurden. Die Daten der Tonquelle befinden sich in hier. Wenn Sie sie also verwenden möchten, bitte.
Da es auf dieselbe Datei abzielt und standardmäßig ohne Angabe optionaler Parameter auf der Amazon Transcribe-Seite ausgeführt wird, sollte es nicht ungewöhnlich sein, es auf derselben Ebene wie das Ergebnis der Google-Sprach-API zu vergleichen.
Das Transkriptionsausgabeergebnis von Amazon Transcribe ist json. Die Anzahl der Zeichen und Wörter wurde ebenfalls auf die gleiche Weise wie bei Letztes Mal gezählt. (Klicken Sie hier für den tatsächlichen Verarbeitungscode)
Für den horizontalen Versatzvergleich war die Bewertungsmethode dieselbe wie Letztes Mal.
No. | Dateiname | Rauschunterdrückungsverarbeitung | Lautstärkeregelung | sample rate hertz | Anzahl der Transkriptionszeichen | Gesamtzahl der duplizierten Wörter | Anzahl der Nomenklaturwörter mit Duplikaten | Gesamtzahl der Wörter ohne Vervielfältigung | Anzahl der edlen Wörter ohne Vervielfältigung |
---|---|---|---|---|---|---|---|---|---|
1 | 01_001_NoiRed-true_lev-true_samp16k.flac | True | True | 16k | 19320 | 10469 | 3150 | 1702 | 1057 |
2 | 02_001_NoiRed-true_lev-true_samp44k.flac | True | True | 44k | 19317 | 10463 | 3152 | 1708 | 1060 |
3 | 03_001_NoiRed-true_lev-false_samp16k.flac | True | False | 16k | 19278 | 10429 | 3166 | 1706 | 1059 |
4 | 04_001_NoiRed-true_lev-false_samp44k.flac | True | False | 44k | 19322 | 10453 | 3170 | 1706 | 1058 |
5 | 05_001_NiRed-false_lev-true_samp16k.flac | False | True | 16k | 19660 | 10664 | 3209 | 1713 | 1054 |
6 | 06_001_NiRed-false_lev-true_samp44k.flac | False | True | 44k | 19653 | 10676 | 3211 | 1701 | 1052 |
7 | 07_001_NiRed-false_lev-false_samp16k.flac | False | False | 16k | 19639 | 10653 | 3209 | 1702 | 1052 |
8 | 08_001_NiRed-false_lev-false_samp44k.flac | False | False | 44k | 19620 | 10638 | 3213 | 1702 | 1047 |
Die Abbildung ist unten.
Fast alle Ergebnisse waren zwischen den Proben gleich. Was aus dem Gesamtergebnis gesagt werden kann, ist
Hier wird das Ergebnis Nr. 2 mit der höchsten "** Keine doppelte Anzahl edler Wörter **" (obwohl es sich fast um eine Fehlerstufe handelt) als repräsentativer Wert als bestes Ergebnis bei der Amazon-Transkription verwendet.
Da es möglicherweise nicht durch das Vorhandensein oder Fehlen einer Vorverarbeitung beeinträchtigt wird, habe ich versucht, Amazon mit ** roher WAV-Datei (Nr. 0) ** zu transkribieren, die aufgezeichnet und herausgenommen wurde.
Der einzige Unterschied zwischen dieser WAV-Datei ohne Vorverarbeitung und der Datei Nr. 2 ist ** Stereo oder Mono **. In Nr. 2 wird beim Konvertieren von WAV- in FLAC-Datei gleichzeitig die Stereo → Mono-Konvertierung durchgeführt. Dies war erforderlich, da die Google-Sprach-API nur Monodateien akzeptiert.
No. | Dateiname | Rauschunterdrückungsverarbeitung | Lautstärkeregelung | sample rate hertz | Anzahl der Transkriptionszeichen | Gesamtzahl der duplizierten Wörter | Anzahl der Nomenklaturwörter mit Duplikaten | Gesamtzahl der Wörter ohne Vervielfältigung | Anzahl der edlen Wörter ohne Vervielfältigung |
---|---|---|---|---|---|---|---|---|---|
0 | 001.wav | False | False | 44k | 19620 | 10637 | 3212 | 1701 | 1046 |
2 | 02_001_NoiRed-true_lev-true_samp44k.flac | True | True | 44k | 19317 | 10463 | 3152 | 1708 | 1060 |
Streng genommen sind "Gesamtzahl der Wörter ohne Vervielfältigung" und "Anzahl der Nomenklaturen ohne Vervielfältigung" in Nr. 2 höher, aber dies ist auch nicht so unterschiedlich. Wenn Sie ohne Vorverarbeitung und Stereo-Mono-Konvertierung fast die gleiche Genauigkeit erzielen können, ist es am besten, eine "rohe WAV-Datei" einzuschieben, für die keine Vorverarbeitung erforderlich ist.
In Amazon Transcribe waren die Ergebnisse von Nr. 1 bis Nr. 8 nahezu gleich. Ohne Vergleich der qualitativen Ergebnisse zwischen Nr. 1 und Nr. 8 "Beste Ergebnisse der Google Cloud Speech API" und "Beste Ergebnisse von Amazon Transcribe" Ich möchte die "Ergebnisse" vergleichen.
Google Cloud Speech API vs. Amazon Transcribe
Vergleichen Sie die Werte der zuletzt bestätigten Google Cloud Speech API (bestes Ergebnis Nr. 8) und der diesmal bestätigten Amazon Transcribe (bestes Ergebnis Nr. 2). Die Ergebnisse bei Google stammen aus Vorherige Ergebnisse.
Andererseits war die Gesamtzahl der Wörter und der Nomenklatur ohne Duplikate nahezu gleich. So viel ich geplant habe ...
Ich werde den Inhalt des Textes auf die gleiche Weise wie Letztes Mal grob vergleichen.
Die Bilder sind nebeneinander angeordnet, um den Bereich zu Beginn der Transkription leicht vergleichen zu können. Google ist auf der linken Seite und Amazon ist auf der rechten Seite. Es ist schwer zu beurteilen, aber ich finde, dass die Transkription von Google immer noch besser ist. Im Vergleich zum Rücken einer Eichel. (* Hier hat nur das Ergebnis von Google einen Zeilenumbruch, aber sowohl Google als auch Amazon transkribieren ursprünglich mit einem Zeilenumbruch. Die Genauigkeit ist empfindlich. Hier werden beide nachbearbeitet, um den Zeilenumbruch zu löschen. gehen.)
Vergleichen wir "keine Duplizierung" und "Anzahl der Zählungen" bei Google bzw. Amazon. Versuchen wir, die Wörter anzuzeigen, die 11 Mal oder öfter vorgekommen sind.
Es scheint, dass Amazon mehr Wörter hat, die erkannt werden können. Da die meisten Wörter jedoch zwischen Google und Amazon dupliziert werden, zeigt sich auch, dass die Transkriptionsleistung beider Wörter nicht wesentlich unterschiedlich ist. Im Ergebnis von Amazon wird auch unser Firmenname "Brain Pad" weggelassen, also ist es gut.
Wenn Sie mehr Wörter (in diesen Audiodaten) erkennen möchten, scheint Amazon besser zu sein. (Überprüfen Sie, ob das Wort sinnvoll ist)
Im Fluss Nomenklatur Wortwolke. Die obige Visualisierung. Google ist auf der linken Seite und Amazon ist auf der rechten Seite.
Als Ergebnis der Google Cloud Speech API im Vergleich zu Amazon Transcribe
――Für Google und Amazon ist die japanische Transkription (* nur die API mit einer einfachen Vorverarbeitung für diese Sprachdaten verwenden) ** Eine praktische Transkription scheint unmöglich **
persönlich,
Was die japanische Transkription ** betrifft, so sind beide weit von den praktischen Niveaus ** entfernt, so dass ich den Eindruck habe, dass die Transkriptions-API nur für die ** Wortextraktion ** verwendet werden kann. (Und selbst wenn nur Wörter extrahiert werden können, nützt es fast nichts ...)
Und wenn es nur zur Wortextraktion verwendet wird, ist meine persönliche Schlussfolgerung, dass ** Amazon Transcribe gut ist **, da es ohne Vorverarbeitung verwendet werden kann, einfach mit der GUI zu verwenden ist und die Verarbeitungszeit schnell ist.
Ich habe die Möglichkeit, dass sich die Genauigkeit der Transkription verbessert, nicht aufgegeben, wenn ich mit einem geeigneteren Aufnahmegerät klarere Stimmen aufnehmen kann (= die Qualität der Eingangsstimme verbessern), aber meine Aufnahmeumgebung (ca. 16000 Yen) Da es für allgemeine Benutzer schwierig ist, mehr als dies vorzubereiten (unter Verwendung eines externen Mikrofons), ist eine "hochpräzise Transkription von Japanisch zu einem niedrigen Preis unter Verwendung von API" mit der gegenwärtigen Technologie ohnehin unmöglich. Ich glaube, es ist. Es scheint, dass die japanische Transkription nicht über Nacht durchgeführt werden kann.
Es ist etwas unklar. Wenn Sie also die Tipps "Wenn Sie dies tun, können Sie es transkribieren und erkennen" kennen, kommentieren Sie dies bitte!
Recommended Posts