[PYTHON] Ich habe versucht, Azure Speech to Text zu verwenden.

Verwendung der Microsoft Azure-Spracherkennungs-API

In diesem Abschnitt wird die Verwendung der Spracherkennungs-API in MacOS Catalina (Version 10.15.4) beschrieben. Ich habe versucht, Japanisch mithilfe von Speech to Text von Cognitive Services zu erkennen. Da die Shell zsh ist, kann bash dies möglicherweise nicht.

Ressourcenerstellung

Erstellen Sie zunächst ein Azure-Konto als Voraussetzung. Sie können kostenlos ein Konto erstellen. Es wird empfohlen, da eine Einzahlung von 200 $ erforderlich ist und Sie verschiedene APIs ein Jahr lang kostenlos verwenden können.

** Bitte stellen Sie sicher, dass Ihr Abonnementschlüssel niemals von anderen gesehen wird. ** **. Dies ist die Erstellung der Spracherkennungsinstanz.

Implementierung

Nehmen Sie als Nächstes die Einstellungen auf dem PC vor. Installieren Sie zunächst das Speech SDK.

.zsh


python3 -m pip install --upgrade pip
pip install azure-cognitiveservices-speech

Da sich der von MicroSoft erstellte Beispielcode für die Spracherkennung in GIT befindet, erstellen Sie lokal eine Datei quickstart.py und kopieren Sie sie. git hat ** quickstart.py **, den Code für jupyter (Quickstart.ipynb) und README.md, also kopiere den Inhalt von ** quickstart.py **. (Der Code lautet hier) Der Code wie dieser ist geschrieben. Wenn Sie es kopieren, gibt es einen Ort zum Ändern und eine zusätzliche Notiz.

quickstart.py


# Copyright (c) Microsoft. All rights reserved.
# Licensed under the MIT license. See LICENSE.md file in the project root for full license information.

# <code>
import azure.cognitiveservices.speech as speechsdk

# Creates an instance of a speech config with specified subscription key and service region.
# Replace with your own subscription key and service region (e.g., "westus").

'''
Die folgenden Änderungen
Abonnementschlüssel: Einer der beiden Schlüssel, die Sie in der soeben überprüften Ressourcenübersicht sehen können
Lage: Im Osten Japans'japaneast',In Westjapan'japanwest'Bitte.
'''
speech_key, service_region = "Abonnementschlüssel", "Ort"

speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)

'''
Nachtrag unten
Einstellungen zum Erkennen von Japanisch. Ohne dies wird standardmäßig nur Englisch erkannt.
'''
speech_config.speech_recognition_language="ja-JP"

# Creates a recognizer with the given settings
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config)

print("Say something...")


# Starts speech recognition, and returns after a single utterance is recognized. The end of a
# single utterance is determined by listening for silence at the end or until a maximum of 15
# seconds of audio is processed.  The task returns the recognition text as result. 
# Note: Since recognize_once() returns only a single utterance, it is suitable only for single
# shot recognition like command or query. 
# For long-running multi-utterance recognition, use start_continuous_recognition() instead.
result = speech_recognizer.recognize_once()

# Checks result.
if result.reason == speechsdk.ResultReason.RecognizedSpeech:
    print("Recognized: {}".format(result.text))
elif result.reason == speechsdk.ResultReason.NoMatch:
    print("No speech could be recognized: {}".format(result.no_match_details))
elif result.reason == speechsdk.ResultReason.Canceled:
    cancellation_details = result.cancellation_details
    print("Speech Recognition canceled: {}".format(cancellation_details.reason))
    if cancellation_details.reason == speechsdk.CancellationReason.Error:
        print("Error details: {}".format(cancellation_details.error_details))
# </code>

Führen Sie jetzt, da Sie bereit sind, Folgendes von Ihrem Terminal aus aus:

.zsh


python quickstart.py

In meinem Fall wurde die Stimme nicht erkannt, als ich sie über VScode ausführte. Wenn dies passiert, führen Sie sie im Terminal aus. Wenn Sie wissen, wie man es mit VScode macht und wie man es einstellt, lassen Sie es mich bitte wissen. Wenn du rennst

say something...

Wird angezeigt, also bitte etwas sagen. Das Erkennungsergebnis sollte ausgegeben werden. Aufgrund der Einstellung wird nur ein Wort erkannt, es ist jedoch möglich, zur Sequenzerkennung zu wechseln.

Das ist es.

Recommended Posts

Ich habe versucht, Azure Speech to Text zu verwenden.
Ich habe Watson Voice Authentication (Speech to Text) ausprobiert.
Ich habe versucht, Text mit TensorFlow zu klassifizieren
Konvertieren Sie Sprache mit dem Azure Speech SDK in Text
Ich habe versucht, Pilze Pepper x IBM Bluemix Text to Speech
Ich habe mit PyQt einen einfachen Texteditor erstellt
Ich habe versucht, parametrisiert zu verwenden
Ich habe versucht, Argparse zu verwenden
Ich habe versucht, Mimesis zu verwenden
Ich habe versucht, anytree zu verwenden
Ich habe versucht, aiomysql zu verwenden
Ich habe versucht, Summpy zu verwenden
Ich habe versucht, Coturn zu verwenden
Ich habe versucht, Pipenv zu verwenden
Ich habe versucht, Matplotlib zu verwenden
Ich habe versucht, "Anvil" zu verwenden.
Ich habe versucht, Hubot zu verwenden
Ich habe versucht, ESPCN zu verwenden
Ich habe versucht, openpyxl zu verwenden
Ich habe versucht, Ipython zu verwenden
Ich habe versucht zu debuggen.
Ich habe versucht, PyCaret zu verwenden
Ich habe versucht, Cron zu verwenden
Ich habe versucht, ngrok zu verwenden
Ich habe versucht, face_recognition zu verwenden
Ich habe versucht, Jupyter zu verwenden
Ich habe versucht, doctest zu verwenden
Ich habe versucht, Folium zu verwenden
Ich habe versucht, jinja2 zu verwenden
Ich habe versucht, Folium zu verwenden
Ich habe versucht, das Zeitfenster zu verwenden
Ich habe versucht, WAV-Dateien mit Pydub zu synthetisieren.
Ich habe ein ○ ✕ Spiel mit TensorFlow gemacht
Ich habe versucht, PredNet zu lernen
[Ich habe versucht, Pythonista 3 zu verwenden] Einführung
Ich habe versucht, easydict (Memo) zu verwenden.
Ich habe versucht, SVM zu organisieren.
Ich habe versucht, das Gesicht mit Face ++ zu erkennen
Ich habe versucht, RandomForest zu verwenden
Ich habe versucht, BigQuery ML zu verwenden
Ich habe versucht, PCANet zu implementieren
Ich habe versucht, Amazon Glacier zu verwenden
Ich habe versucht, mit AWS Lambda einen AMI zu erhalten
Ich habe versucht, die Sündenfunktion mit Chainer zu approximieren
Ich habe versucht, mit OpenCV Ann Man zu werden
Ich habe versucht, Git Inspector zu verwenden
Ich habe versucht, Linux wieder einzuführen
Sprechen mit Python [Text zu Sprache]
Ich habe versucht, Pylint vorzustellen
Ich habe versucht, SparseMatrix zusammenzufassen
Ich habe versucht, Magenta / TensorFlow zu verwenden
jupyter ich habe es berührt
Ich habe versucht, StarGAN (1) zu implementieren.
Ich habe versucht, die Sprache mit CNN + Melspectogram zu identifizieren