[PYTHON] Streaming-Spracherkennung mit der Google Cloud Speech API

Versuchen Sie, die Spracherkennung von der Mikrofoneingabe mit der Google Cloud Speech API zu streamen.

Zuvor habe ich versucht, aufgezeichnete Dateien mit der REST-API-Version zu erkennen, daher werde ich diesmal versuchen, die Streaming-Erkennung mit der gRPC-Version durchzuführen.

Verfahren

Offizielles Google-Beispiel Befolgen Sie die Schritte in READ ME.

Dieses Mal werde ich die Streaming-Erkennung transcript_streaming.py ausprobieren.

Gleiches Verfahren wie bei der REST-Version, bis json of Service Account abgerufen wird.

  1. Melden Sie sich für die Google Cloud-Plattform an
  2. Erstellen Sie ein Projekt in der Entwicklerkonsole, aktivieren Sie die Sprach-API und rufen Sie die json-Datei des Dienstkontos zur Authentifizierung ab.
  3. Setzen Sie die heruntergeladene JSON-Datei auf die Umgebungsvariable "GOOGLE_APPLICATION_CREDENTIALS"
  4. Führen Sie ein Beispielskript aus
  5. Aktivieren Sie Port-Audio
  6. Installation des erforderlichen Pip-Moduls (virtualenv empfohlen)
  7. Setzen Sie transcribe_streaming.py, um Japanisch zu erkennen
  8. Ändern Sie language_code in Recognition_config von en-US in ja-JP
  9. Passen Sie die Abtastrate usw. an Ihre Umgebung an
  10. Die Einstellung um das Gerät ist record_audio, die Methode von pyaudio.
  11. Führen Sie das Sample in `` `$ python transcribe_streaming.py``` aus und sprechen Sie in das Mikrofon

Beim Start wird die Erkennung so lange fortgesetzt, wie service.StreamingRecognize einen Wert in listen_print_loop zurückgibt. (Sie endet mit einem Timeout, wenn die Anzahl der Sekunden von DEADLINE_SECS abgelaufen ist.)

Dieses Beispiel beendet die Verarbeitung, wenn die Anweisung die Wörter "exit" oder "quit" enthält (die zweite Hälfte von * listen_print_loop *), sodass diese Wörter als "stop" oder "end" gestoppt werden können. Wenn Sie es ändern, können Sie dasselbe auf Japanisch tun.

Erkennungsverhalten

――Wenn für einen bestimmten Zeitraum Stille herrscht, wird sie auch dann als fortlaufende Rede erkannt, wenn einige Zeit vergeht.

Es scheint, dass die Erkennung in der Mitte der Rede auf Wortebene erfolgt, und ich bin überrascht über eine Geschwindigkeit, die ich nicht durch das Netzwerk denken kann. Das Erkennungsergebnis in der Mitte kann jedoch falsch sein. Wenn Sie sich also nicht beeilen, endet alles Es ist besser zu warten.

Weitere Optionen finden Sie im gRPC-API-Handbuch.

Der Github-Code wird häufig aktualisiert, daher sollten Sie ihn täglich überprüfen.

Fehler

Ich habe es mit dem eingebauten Mikrofon des Laptops / externen Mikrofons von USB mit MAC bzw. Linux versucht, aber nach ca. 3-10 Reden oder 15-30 Sekunden erkennen sie nicht ohne Fehler. Untersuchung erforderlich.

Verschiedene Gefühle

Da es sich um v1beta1 handelt, scheint es sich noch in der Testphase zu befinden. Es scheint schwierig zu sein, es richtig zu verwenden, es sei denn, Sie sind an gRPC gewöhnt (und wie man mit Pyton umgeht).

Recommended Posts

Streaming-Spracherkennung mit der Google Cloud Speech API
Spracherkennung von WAV-Dateien mit der Google Cloud Speech API Beta
Automatische Sprachtranskription mit Google Cloud Speech API
Google Cloud Speech API im Vergleich zu Amazon Transcribe
Sprachtranskriptionsverfahren mit der Google Cloud Speech API
Transkribieren Sie WAV-Dateien mit der Cloud Speech API
Streamen Sie die Spracherkennung mithilfe der gRPC-API von Google Cloud Speech mit Python3 auf dem Mac!
Sprachtranskriptionsverfahren mit Python und Google Cloud Speech API
Sprachdateierkennung durch Google Speech API v2 mit Python
Einführung der Google Map API mit Schienen
Ich habe versucht, die Docomo-Spracherkennungs-API und die Google Speech-API in Java zu verwenden
Google Cloud Vision API-Beispiel für Python
Englische Spracherkennung mit Python [Rede zu Text]
Einfache Einführung der Spracherkennung mit Python
Versuchen Sie, Python mit Google Cloud-Funktionen zu verwenden
Verwenden Sie die Google Cloud Vision-API von Python
[GCP] Betreiben Sie Google Cloud Storage mit Python
Holen Sie sich Urlaub mit der Google Kalender-API
Serverlose Gesichtserkennungs-API mit Python
Extrahieren Sie plötzliche beliebte Wörter mit der Twitter-Streaming-API
Automatisches Follow-Back mit Streaming-API mit Tweepy
Textextraktion mit GCP Cloud Vision API (Python3.6)
Ich habe "License OCR" mit der Google Vision API ausprobiert
Zeigen Sie die Google Maps-API mit Rails und Pin-Anzeige an
Ich habe versucht, die Google Cloud Vision-API zu verwenden
Vergleich der Genauigkeit der Cloud-Spracherkennung von 4 großen Unternehmen
Verwendung der Google Cloud Translation API
Bis Sie die Google Speech API verwenden können
Ich habe "Receipt OCR" mit der Google Vision API ausprobiert
[GoogleCloudPlatform] Verwenden Sie die Google Cloud-API mit der API-Clientbibliothek
Erhalten Sie Datenbeschriftungen, indem Sie bei der Vorschau von Bildern mit Rails eine Verknüpfung mit der Google Cloud Vision-API herstellen
Untersuchung der Beziehung zwischen Sprachvorverarbeitung und Transkriptionsgenauigkeit in der Google Cloud Speech API
Einfache Buchregistrierung mit Google Books API und Rails
Erstellen Sie eine Tweet-Heatmap mit der Google Maps-API
Eine Geschichte, die mit ein wenig Einfallsreichtum mit Google Cloud Storage verknüpft ist
Nutzung von Google Cloud Storage (GCS) durch "GAE / Py"
Analysieren mit Google Colaboratory mithilfe der Kaggle-API
Hochladen auf ein freigegebenes Laufwerk mit Google Drive API V3
Erhalten Sie Tweets mit beliebigen Schlüsselwörtern mithilfe der Streaming-API von Twitter
Mit der Twitter-Streaming-API können Sie nur knuspriges Japanisch lernen
Gesichtserkennung mit Edison
Bilderkennung mit Keras
Spracherkennung mit Python
Extrudieren Sie mit der Fusion360-API
Punktwolke mit Pfeffer
Einfache Verwendung der Nifty Cloud API mit Botocore und Python
Ablauf des Extrahierens von Text in PDF mit der Cloud Vision API
Hallo Welt mit Google App Engine (Java 8) + Servlet API 3.1 + Gradle
Ich habe versucht, mich mit Spring Boot + Spring Security REST API anzumelden
Bilderkennung mit API aus null Wissen mit AutoML Vision
Machen Sie Objekte mit IBM Watson Developer Cloud Visual Recognition erkennbar
Versuchen Sie, Lebensmittelfotos mithilfe der Google Cloud Vision-API zu beurteilen
Abrufen von Daten aus der Analyse-API mit Google API Client für Python
Ich habe die Google Cloud Vision-API zum ersten Mal ausprobiert
Lassen Sie uns die Super Resolution API mithilfe der Google Cloud Platform veröffentlichen
Stellen Sie die umgekehrte Geokodierung auf Japanisch mit der Python Google Maps-API bereit
Laden Sie Dateien mit Django-Speicher in Google Cloud Storages hoch und löschen Sie sie
Spielen Sie mit der YouTube Data API v3 mit dem Google API Python Client