Article sur la transcription de la voix à l'aide de l'API Google Cloud Speech comme l'un des moyens de sauvegarder la source sonore enregistrée sous forme de données texte en participant à des cours et conférences en anglais items / 659bde4cdc8ce5c78e29) a été utile, je vais donc réorganiser la procédure ci-dessous (mémo de procédure).
Étant donné que Google Cloud Platform est utilisé dans cette procédure, il est supposé que le projet a été créé après avoir terminé l'édition commune du service (P9-P20) du Guide de démarrage facile de Google Cloud Platform. Je vais.
On suppose que la source sonore convertie au format suivant a été créée (Référence: Site de conversion audio, Source sonore réelle (PyConJP2017 en anglais) Discours d'ouverture)).
Monaural
Accédez à l'URL de Google Cloud Platform (https://cloud.google.com/?hl=ja) et appuyez sur Ouvrir la console pour accéder à l'écran de la console.
Écran de connexion à la console Google Cloud Platform:
Écran de la console:
Sélectionnez Outils et services> API et services> Bibliothèque en haut à gauche de l'écran de la console, sélectionnez API Speech dans la liste des API et appuyez sur Activer pour activer l'API Google Speech.
Écran de la liste des API
Activer l'API ([Désactiver] s'affiche car il est déjà activé)
Vous pouvez vérifier l'activation de l'API Google Speech dans [API et services]> [Tableau de bord]:
Sélectionnez [API et services]> [Credentials]> [Create Credentials]> [Service Account Key] sur la gauche, définissez un [Service Account Name] approprié (supposé être arkbbb ici), puis cliquez sur le bouton Créer. Appuyez sur pour télécharger le fichier JSON.
Écran de création de clé de compte de service:
Démarrez Google Cloud Shell avec le bouton Google Cloud Shell en haut à droite de l'écran de la console Google Cloud Platform, importez le JSON obtenu en 3. et définissez-le dans la variable d'environnement.
Bouton Google Cloud Shell:
Téléchargement JSON:
Commande de paramétrage des variables d'environnement
$ export GOOGLE_APPLICATION_CREDENTIALS=[3.Nom JSON obtenu dans].json
Importez les données vocales préparées dans Google Cloud Storage. Tout d'abord, sélectionnez [Outils et services]> [Stockage]> [Navigateur] en haut à gauche de l'écran, créez un bucket avec [Create Bucket], double-cliquez sur le bucket créé et cliquez sur [Upload File] pour les données audio. Télécharger.
Accédez à l'écran Google Cloud Storage:
Création d'un bucket (le nom du bucket et les autres paramètres sont dans le texte):
Téléchargement de fichiers dans le bucket:
Créez un script Python pour l'exécution de la transcription sur Google Cloud Shell.
Commande d'édition de fichier Python (éditeur comme vous le souhaitez)
$ nano transcribe.py
Script Python pour la transcription (pour la voix anglaise):
transcribe.py
# !/usr/bin/env python
# coding: utf-8
import argparse
import io
import sys
import codecs
import datetime
import locale
def transcribe_gcs(gcs_uri):
from google.cloud import speech
from google.cloud.speech import enums
from google.cloud.speech import types
client = speech.SpeechClient()
audio = types.RecognitionAudio(uri=gcs_uri)
config = types.RecognitionConfig(
sample_rate_hertz=16000,
encoding=enums.RecognitionConfig.AudioEncoding.FLAC,
language_code='en-US')
operation = client.long_running_recognize(config, audio)
print('Waiting for operation to complete...')
operationResult = operation.result()
d = datetime.datetime.today()
today = d.strftime("%Y%m%d-%H%M%S")
fout = codecs.open('output{}.txt'.format(today), 'a', 'shift_jis')
for result in operationResult.results:
for alternative in result.alternatives:
fout.write(u'{}\n'.format(alternative.transcript))
fout.close()
if __name__ == '__main__':
parser = argparse.ArgumentParser(
description=__doc__,
formatter_class=argparse.RawDescriptionHelpFormatter)
parser.add_argument(
'path', help='GCS path for audio file to be recognized')
args = parser.parse_args()
transcribe_gcs(args.path)
Si vous souhaitez transcrire le japonais, modifiez la ligne suivante:
language_code='en-US')
↓
language_code='ja-JP')
Exécutez la transcription avec la commande suivante sur Google Cloud Console.
$ python transcribe.py gs://Nom du godet/Nom des données vocales.flac
Si vous vérifiez le fichier créé par la commande ls sur la console Google Cloud après son exécution, un fichier texte nommé [output * .txt] sera créé afin que vous puissiez l'ouvrir et vérifier le résultat. Le résultat pour les 1-2 premières minutes était ci-dessous. Si vous l'écoutez avec Sound source, il y a des erreurs, mais vous pouvez voir qu'il est principalement transcrit.
and not.
We have just attended this big Tatum Outlet
and we held a pydata event it was actually the first I did it
and some of these slides are actually problem, says talk to and so at strata we saw many people talking about the Duke talking about Big Data there were looking at using Java in a management
and there was a whole lot of our versus Python language rewards on Facebook
the Travis and I were not content with the state of things we saw that python to play a very significant role Travis made the slide that's from The Little Prince that shows a snake swallowing the open
he was also talking about using compilers make python faster
it was also not that pilot event that we were very fortunate to have weido been awesome stopping by and we talked to him about things like the matrix multiplication operator we talked about coding expressions and things like that
and so this actually his picture show does Travis and West McKinney who's the greater pandas and Guido van Rossum
add
and we ask we don't fix the packaging problem he told us that we should do it ourselves
and so we did and that's how it came up with Honda and Anaconda which I think quite elegantly solves the difficult packaging problems for the Scientific Games
so we accepted the challenge and so for those who don't know what Anaconda is very quickly I'll give you it is basically a very simple way and very reliable way to get final versions of many very popular typical to build packages in libraries in the python ecosystem
À propos, les données de résultat réelles sont ici
Recommended Posts