Sprachdateierkennung durch Google Speech API v2 mit Python

Die Spracherkennung von Sprachdateien erfolgt über Google-Dienste.

Umgebung

· Python3.5 64-Bit von Anaconda ・ Win10 -Die Audiodatei ist WAV. Ich muss es nur separat mit Sox konvertieren.

Zu installierendes Paket

SpeechRecognition https://github.com/Uberi/speech_recognition Es ist ein Paket, das die Verwendung verschiedener Cloud-Dienste zur Spracherkennung vereinfacht. Hohe Funktionalität. pyaudio Es scheint notwendig zu sein, dass die Spracherkennung funktioniert. google-api-python-client Dieses Paket wird verwendet, wenn die Beispielquelle für die Spracherkennung umgeleitet wird. Installieren Sie es daher. pydub Wird verwendet, um Audiodateien in stillen Abschnitten zu trennen. pip install pydub ist. FFMPEG Ich bin nicht sicher, warum ich es installieren muss, http://chachay.hatenablog.com/entry/2016/10/03/215841 Ich mache wie geschrieben.

So verwenden Sie die Sprach-API v2 von Google

CA, http://qiita.com/lethe2211/items/7c9b1b82c7eda40dafa9 Ich denke das ist richtig. Es ist problematisch, dass es nicht herauskommt, wenn Sie nicht ML beitreten.

wichtiger Punkt

Wenn die Audiodatei zu lang ist, weiß ich nicht, was die Ursache ist (Stand: 11. Januar 2017), aber ich erhalte eine Fehlermeldung. In meiner Umgebung wird das Ergebnis einer Audiodatei von ungefähr 10 Sekunden zurückgegeben, aber wenn es 20 Sekunden erreicht, tritt ein Fehler auf.

Wenn Sie das Spracherkennungsbeispiel verwenden, Versuchen Sie, die Zeit mit einer Dauer wie "audio = r.record (Quelle, Dauer = 10") anzupassen, und überprüfen Sie das Ergebnis. Wenn es lang ist, tritt ein Fehler auf, oder?

Dateiaufteilung im stillen Teil

im Grunde genommen http://chachay.hatenablog.com/entry/2016/10/03/215841 Es ist wie folgt.

Wenn Sie versuchen, Sprache mit der Google Speech API v2 zu erkennen, tritt bei einer großen Datei ein Fehler auf (obwohl die Ursache unbekannt ist). Daher wird versucht, die Datei zur Erkennung in stille Teile zu unterteilen.

Quelle bei der Spracherkennung

Ich benutze verschiedene Bibliotheken und führe Datenkonvertierungen zwischen ihnen über WAV-Dateien durch. Ich denke, es gibt viel Abfall, aber ich werde die Quelle veröffentlichen.

Importieren, ich denke, es gibt etwas Nutzloses, also lassen Sie es bitte entsprechend weg.

import speech_recognition as sr
from os import path
from googleapiclient import discovery
import httplib2
import base64, json
import urllib
import os
from pydub import AudioSegment
from pydub.silence import split_on_silence


if __name__ == '__main__':
    r = sr.Recognizer()
    audio_data = []
    sound = AudioSegment.from_file('./filename.wav', format='wav')
    chunks = split_on_silence(sound, min_silence_len=1500, silence_thresh=-30, keep_silence=500)
    
    for chunk in chunks:
        chunk.export('./temp.wav', format='wav')
        AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), "temp.wav") 

        with sr.AudioFile(AUDIO_FILE) as source:
            audio = r.record(source)
            audio_data.append(audio)
    for audio in audio_data:
        try:
            print("Google Speech Recognition thinks you said " + r.recognize_google(audio,key='your API key', language='ja'))
        except sr.UnknownValueError:
            print("Google Speech Recognition could not understand audio")
        except sr.RequestError as e:
            print("Could not request results from Google Speech Recognition service; {0}".format(e))

Referenzseite

http://chachay.hatenablog.com/entry/2016/10/03/215841 https://pypi.python.org/pypi/SpeechRecognition/

Recommended Posts

Sprachdateierkennung durch Google Speech API v2 mit Python
Streamen Sie die Spracherkennung mithilfe der gRPC-API von Google Cloud Speech mit Python3 auf dem Mac!
Spracherkennung durch Python MFCC
Laden Sie eine JPG-Datei mit der Google Drive-API in Python hoch
Sprachtranskriptionsverfahren mit Python und Google Cloud Speech API
Spielen Sie mit der YouTube Data API v3 mit dem Google API Python Client
Streaming-Spracherkennung mit der Google Cloud Speech API
Erstellen einer Google-Tabelle mit der Python / Google Data-API
Ich habe versucht, die Docomo-Spracherkennungs-API und die Google Speech-API in Java zu verwenden
Führen Sie die Google Analytics-API (Core v3) in Python aus
Spracherkennung mit Python
[Python] Abrufen von Insight-Daten mithilfe der Google My Business-API
EXE Web API von Python
Alterserkennung mit Peppers API
Google Drive API-Tipps (Python)
Aufblasen von Textdaten durch erneute Übersetzung mithilfe der Google-Übersetzung in Python
Rufen Sie die Bing Image Search API v5 von Python auf, um Bilder zu sammeln
Datenerfassung mit Python Googlemap API
[Python] Klicken Sie auf die Google Übersetzungs-API
Versuchen Sie es mit der Pleasant-API (Python / FastAPI).
Betriebssystembestimmung durch Makefile mit Python
Extrahieren Sie die Targz-Datei mit Python
Gesichtserkennung mit Peppers API
Führen Sie Ansible über Python mithilfe der API aus
Handschriftliche Zeichenerkennung mit KNN in Python
[Python] Dateivorgang mit der if-Anweisung
[SEO] Flow / Beispielcode bei Verwendung der Google Analytics-API in Python
Verwenden Sie die Google Analytics-API von Python
Google Cloud Speech API im Vergleich zu Amazon Transcribe
Google Cloud Vision API-Beispiel für Python
Python: Grundlagen der Bilderkennung mit CNN
Mausbedienung mit Windows-API in Python
Python> Wörterbuch> Werte ()> Alle Werte mithilfe von Werten abrufen ()
Kategorieschätzung mit der Bilderkennungs-API von docomo
Englische Spracherkennung mit Python [Rede zu Text]
Versuchen Sie es mit der Wunderlist-API in Python
Versuchen Sie, die Kraken-API mit Python zu verwenden
[Anfänger] Leicht verständliches Python-Web-Scraping mit Google Colaboratory
Ich habe versucht, YOUTUBE Data API V3 zu verwenden
Python: Anwendung der Bilderkennung mit CNN
Holen Sie sich Google Fit API-Daten in Python
Versuchen Sie, Python mit Google Cloud-Funktionen zu verwenden
Holen Sie sich Youtube-Daten in Python mithilfe der Youtube-Daten-API
Verwenden Sie die Google Cloud Vision-API von Python
Ich habe versucht, die UnityCloudBuild-API von Python zu verwenden
Lesen Sie die Datei Zeile für Zeile mit Python
[Python] Fortschrittsanzeige nach Fortschrittsbalken mit tqdm
Bildersammlung mit der benutzerdefinierten Such-API von Google
Serverlose Gesichtserkennungs-API mit Python
Implementierter Python-Wrapper für Qiita API v2
Szenenerkennung nach GIST-Feature-Quantität in Python
Fügen Sie dem Slack Bot (erstellt von Python) mithilfe der Talk-API von Recruit eine Konversationsfunktion hinzu
Holen Sie sich eine Liste der Artikel, die von Benutzern mit Python 3 Qiita API v2 veröffentlicht wurden
[Python] Summiert automatisch die Gesamtzahl der von Qiita mithilfe der API veröffentlichten Artikel
So zeigen Sie eine Karte mit der Google Map API (Android) an
Erstellen Sie eine GIF-Datei mit Pillow in Python
Sprachsynthese und Spracherkennung durch Microsoft Project Oxford
[Python] Teilen Sie eine große Flask-Datei mit Blueprint