Essayez de diffuser la reconnaissance vocale à partir de l'entrée du microphone avec l'API Google Cloud Speech.
Auparavant j'ai essayé de reconnaître les fichiers enregistrés avec la version API REST, donc cette fois j'essaierai la reconnaissance en continu avec la version gRPC.
Exemple officiel de Google Suivez les étapes de LISEZ-MOI.
Cette fois, je vais essayer la reconnaissance en continu transcript_streaming.py.
Même procédure que la version REST jusqu'à l'obtention du json du compte de service.
GOOGLE_APPLICATION_CREDENTIALS
record_audio
, qui est la méthode de pyaudio.
$ python transcribe_streaming.py``` et parlez dans le microphoneUne fois lancée, la reconnaissance se poursuit tant que service.StreamingRecognize renvoie une valeur dans listen_print_loop (elle se termine par un délai d'expiration lorsque le nombre de secondes de DEADLINE_SECS s'écoule).
Cet exemple termine le traitement si l'instruction contient les mots ʻexit ou
quit(la seconde moitié de * listen_print_loop *), donc ces mots doivent être
arrêtés ou
finis` Si vous le modifiez, vous pouvez faire de même en japonais.
Jusqu'à ce qu'il y ait silence pendant un certain temps, il sera reconnu comme un discours continu même s'il y a un certain temps.
--Une fois reconnu, ʻis_final = Trueet
confidence sont renvoyés avec le texte résultant. -Si vous spécifiez ʻinterim_results = True
dans * streaming_config *, vous pouvez obtenir le résultat de la reconnaissance pendant le discours.
Il semble que la reconnaissance au milieu du discours se fait au niveau des mots, et je suis surpris de la vitesse à laquelle je ne peux pas penser à travers le réseau. Cependant, le résultat de la reconnaissance au milieu peut être faux, donc si vous ne vous dépêchez pas, cela mettra fin à tout Il vaut mieux attendre.
Pour d'autres options, consultez le Manuel de l'API gRPC
Le code Github est mis à jour assez souvent, vous devriez donc le vérifier quotidiennement.
Je l'ai essayé avec un ordinateur portable / microphone externe USB intégré sur MAC et Linux respectivement, mais après environ 3-10 discours ou 15-30 secondes, ils ont disparu sans aucune erreur. Enquête requise.
Puisqu'il s'agit de v1beta1, il semble qu'il soit encore en phase de test. Il semble difficile de l'utiliser correctement à moins d'être habitué à gRPC (et comment le gérer à partir de pyton).
Recommended Posts