[PYTHON] J'ai essayé d'utiliser Azure Speech to Text.

Comment utiliser l'API de reconnaissance vocale Microsoft Azure

Cette section décrit comment utiliser l'API de reconnaissance vocale dans MacOS Catalina (ver. 10.15.4). J'ai essayé de reconnaître le japonais en utilisant Speech to Text de Cognitive Services. Puisque le shell est zsh, bash ne pourra peut-être pas le faire.

Création de ressources

Tout d'abord, créez un compte Azure comme condition préalable. Vous pouvez créer un compte gratuitement. Il est recommandé car il est livré avec un dépôt de 200 $ et vous pouvez utiliser diverses API gratuitement pendant un an.

--Une fois que vous avez créé un compte, cliquez sur ** Créer une ressource ** sur le site portail.

** Veuillez vous assurer que votre clé d'abonnement n'est jamais vue par les autres. ** ** Il s'agit de la création de l'instance de reconnaissance vocale.

la mise en oeuvre

Ensuite, effectuez les réglages sur le PC. Tout d'abord, installez le SDK Speech.

.zsh


python3 -m pip install --upgrade pip
pip install azure-cognitiveservices-speech

Ensuite, puisque l'exemple de code pour la reconnaissance vocale préparé par MicroSoft est sur GIT, créez un fichier quickstart.py localement et copiez-le. git a ** quickstart.py **, le code pour jupyter (Quickstart.ipynb) et README.md, donc copiez le contenu de ** quickstart.py **. (Le code est ici) Le code comme celui-ci est écrit. Si vous le copiez, il y a un endroit pour changer et une note supplémentaire.

quickstart.py


# Copyright (c) Microsoft. All rights reserved.
# Licensed under the MIT license. See LICENSE.md file in the project root for full license information.

# <code>
import azure.cognitiveservices.speech as speechsdk

# Creates an instance of a speech config with specified subscription key and service region.
# Replace with your own subscription key and service region (e.g., "westus").

'''
Les changements suivants
Clé d'abonnement: l'une des deux clés que vous pouvez voir dans l'aperçu des ressources que vous venez de vérifier
Lieu: dans l'est du Japon'japaneast',Dans l'ouest du Japon'japanwest'S'il vous plaît.
'''
speech_key, service_region = "Clé d'abonnement", "endroit"

speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)

'''
Addendum ci-dessous
Paramètres de reconnaissance du japonais. Sans cela, seul l'anglais est reconnu par défaut.
'''
speech_config.speech_recognition_language="ja-JP"

# Creates a recognizer with the given settings
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config)

print("Say something...")


# Starts speech recognition, and returns after a single utterance is recognized. The end of a
# single utterance is determined by listening for silence at the end or until a maximum of 15
# seconds of audio is processed.  The task returns the recognition text as result. 
# Note: Since recognize_once() returns only a single utterance, it is suitable only for single
# shot recognition like command or query. 
# For long-running multi-utterance recognition, use start_continuous_recognition() instead.
result = speech_recognizer.recognize_once()

# Checks result.
if result.reason == speechsdk.ResultReason.RecognizedSpeech:
    print("Recognized: {}".format(result.text))
elif result.reason == speechsdk.ResultReason.NoMatch:
    print("No speech could be recognized: {}".format(result.no_match_details))
elif result.reason == speechsdk.ResultReason.Canceled:
    cancellation_details = result.cancellation_details
    print("Speech Recognition canceled: {}".format(cancellation_details.reason))
    if cancellation_details.reason == speechsdk.CancellationReason.Error:
        print("Error details: {}".format(cancellation_details.error_details))
# </code>

Maintenant que vous êtes prêt, exécutez ce qui suit depuis votre terminal:

.zsh


python quickstart.py

Dans mon cas, la voix n'était pas reconnue lorsque je l'ai exécutée via VScode, donc si cela se produit, exécutez-la dans le terminal. Si vous savez comment le faire avec VScode et comment le configurer, faites-le moi savoir. Quand tu cours

say something...

Est affiché, alors dites quelque chose. Le résultat de la reconnaissance doit être sorti. En raison du réglage, un seul mot est reconnu, mais il est possible de passer à la reconnaissance de séquence.

C'est tout.

Recommended Posts

J'ai essayé d'utiliser Azure Speech to Text.
J'ai essayé l'authentification vocale Watson (Speech to Text)
J'ai essayé de classer le texte en utilisant TensorFlow
Convertir la voix en texte à l'aide du SDK Azure Speech
J'ai essayé les champignons Pepper x IBM Bluemix Text to Speech
J'ai créé un éditeur de texte simple en utilisant PyQt
J'ai essayé d'utiliser paramétré
J'ai essayé d'utiliser argparse
J'ai essayé d'utiliser la mimesis
J'ai essayé d'utiliser anytree
J'ai essayé d'utiliser aiomysql
J'ai essayé d'utiliser Summpy
J'ai essayé d'utiliser coturn
J'ai essayé d'utiliser Pipenv
J'ai essayé d'utiliser matplotlib
J'ai essayé d'utiliser "Anvil".
J'ai essayé d'utiliser Hubot
J'ai essayé d'utiliser ESPCN
J'ai essayé d'utiliser openpyxl
J'ai essayé d'utiliser Ipython
J'ai essayé de déboguer.
J'ai essayé d'utiliser PyCaret
J'ai essayé d'utiliser cron
J'ai essayé d'utiliser ngrok
J'ai essayé d'utiliser face_recognition
J'ai essayé d'utiliser Jupyter
J'ai essayé d'utiliser doctest
J'ai essayé d'utiliser du folium
J'ai essayé d'utiliser jinja2
J'ai essayé d'utiliser du folium
J'ai essayé d'utiliser la fenêtre de temps
J'ai essayé de synthétiser des fichiers WAV en utilisant Pydub.
J'ai créé un jeu ○ ✕ avec TensorFlow
J'ai essayé d'apprendre PredNet
[J'ai essayé d'utiliser Pythonista 3] Introduction
J'ai essayé d'utiliser easydict (mémo).
J'ai essayé d'organiser SVM.
J'ai essayé la reconnaissance faciale avec Face ++
J'ai essayé d'utiliser RandomForest
J'ai essayé d'utiliser BigQuery ML
J'ai essayé d'implémenter PCANet
J'ai essayé d'utiliser Amazon Glacier
J'ai essayé d'obtenir une AMI en utilisant AWS Lambda
J'ai essayé d'approcher la fonction sin en utilisant le chainer
J'ai essayé de devenir un Ann Man en utilisant OpenCV
J'ai essayé d'utiliser git inspector
J'ai essayé de réintroduire Linux
Parler avec Python [synthèse vocale]
J'ai essayé de présenter Pylint
J'ai essayé de résumer SparseMatrix
J'ai essayé d'utiliser magenta / TensorFlow
jupyter je l'ai touché
J'ai essayé d'implémenter StarGAN (1)
J'ai essayé d'identifier la langue en utilisant CNN + Melspectogram