Cette section décrit comment utiliser l'API de reconnaissance vocale dans MacOS Catalina (ver. 10.15.4). J'ai essayé de reconnaître le japonais en utilisant Speech to Text de Cognitive Services. Puisque le shell est zsh, bash ne pourra peut-être pas le faire.
Tout d'abord, créez un compte Azure comme condition préalable. Vous pouvez créer un compte gratuitement. Il est recommandé car il est livré avec un dépôt de 200 $ et vous pouvez utiliser diverses API gratuitement pendant un an.
--Une fois que vous avez créé un compte, cliquez sur ** Créer une ressource ** sur le site portail.
** Veuillez vous assurer que votre clé d'abonnement n'est jamais vue par les autres. ** ** Il s'agit de la création de l'instance de reconnaissance vocale.
Ensuite, effectuez les réglages sur le PC. Tout d'abord, installez le SDK Speech.
.zsh
python3 -m pip install --upgrade pip
pip install azure-cognitiveservices-speech
Ensuite, puisque l'exemple de code pour la reconnaissance vocale préparé par MicroSoft est sur GIT, créez un fichier quickstart.py localement et copiez-le. git a ** quickstart.py **, le code pour jupyter (Quickstart.ipynb) et README.md, donc copiez le contenu de ** quickstart.py **. (Le code est ici) Le code comme celui-ci est écrit. Si vous le copiez, il y a un endroit pour changer et une note supplémentaire.
quickstart.py
# Copyright (c) Microsoft. All rights reserved.
# Licensed under the MIT license. See LICENSE.md file in the project root for full license information.
# <code>
import azure.cognitiveservices.speech as speechsdk
# Creates an instance of a speech config with specified subscription key and service region.
# Replace with your own subscription key and service region (e.g., "westus").
'''
Les changements suivants
Clé d'abonnement: l'une des deux clés que vous pouvez voir dans l'aperçu des ressources que vous venez de vérifier
Lieu: dans l'est du Japon'japaneast',Dans l'ouest du Japon'japanwest'S'il vous plaît.
'''
speech_key, service_region = "Clé d'abonnement", "endroit"
speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
'''
Addendum ci-dessous
Paramètres de reconnaissance du japonais. Sans cela, seul l'anglais est reconnu par défaut.
'''
speech_config.speech_recognition_language="ja-JP"
# Creates a recognizer with the given settings
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config)
print("Say something...")
# Starts speech recognition, and returns after a single utterance is recognized. The end of a
# single utterance is determined by listening for silence at the end or until a maximum of 15
# seconds of audio is processed. The task returns the recognition text as result.
# Note: Since recognize_once() returns only a single utterance, it is suitable only for single
# shot recognition like command or query.
# For long-running multi-utterance recognition, use start_continuous_recognition() instead.
result = speech_recognizer.recognize_once()
# Checks result.
if result.reason == speechsdk.ResultReason.RecognizedSpeech:
print("Recognized: {}".format(result.text))
elif result.reason == speechsdk.ResultReason.NoMatch:
print("No speech could be recognized: {}".format(result.no_match_details))
elif result.reason == speechsdk.ResultReason.Canceled:
cancellation_details = result.cancellation_details
print("Speech Recognition canceled: {}".format(cancellation_details.reason))
if cancellation_details.reason == speechsdk.CancellationReason.Error:
print("Error details: {}".format(cancellation_details.error_details))
# </code>
Maintenant que vous êtes prêt, exécutez ce qui suit depuis votre terminal:
.zsh
python quickstart.py
Dans mon cas, la voix n'était pas reconnue lorsque je l'ai exécutée via VScode, donc si cela se produit, exécutez-la dans le terminal. Si vous savez comment le faire avec VScode et comment le configurer, faites-le moi savoir. Quand tu cours
say something...
Est affiché, alors dites quelque chose. Le résultat de la reconnaissance doit être sorti. En raison du réglage, un seul mot est reconnu, mais il est possible de passer à la reconnaissance de séquence.
C'est tout.
Recommended Posts