[PYTHON] Transkription von YouTube-Videos mit GCPs Cloud Speech-to-Text

Ich möchte ein YouTube-Video transkribieren. Mit GCPs Cloud Speech-to-Text können Sie auch lange Videos transkribieren.

Natürlich sollten Sie in der Lage sein, andere Audiodateien sowie YouTube-Audio zu verwenden.

Was ich benutzt habe

Hinweis

Es wird eine Gebühr erhoben. Wenn Sie die kostenlose 60-Minuten-Stufe überschreiten, wird Ihnen die Sprachverarbeitung alle 15 Sekunden in Rechnung gestellt. Den Preis entnehmen Sie bitte dieser Seite.

Verfahren

Laden Sie nur YouTube-Videos mit Audio herunter

Ich konnte nur das Audio des Videos auf [dieser Website] herunterladen (https://www.y2mate.com/jp/youtube-to-mp3). Es ist eine verdächtige Seite mit Werbung, aber ich konnte sie richtig herunterladen.

Nennen wir die heruntergeladene Datei "sample_audio.mp3".

Diesmal ist Ikeda Hayato, auch bekannt als professioneller Blogger Ikehaya, [Erklärung des Grundes] Das Frühstück von Buffett, dem weltweit führenden Investor, ein Mac-Hamburger. wurde ausgewählt.

Der Grund ist so.

Ein Video mit mehreren Personen, die gleichzeitig oder mit Umgebungsgeräuschen sprechen, scheint ungenau zu sein. Beginnen wir also mit diesem Video.

Konvertieren Sie von MP3 in Flac

Wie Sie auf [dieser Seite] sehen können (https://cloud.google.com/speech-to-text/docs/encoding), scheint Cloud Speech-to-Text MP3 ab November 2019 nicht mehr zu unterstützen. Sie müssen es also in flac konvertieren.

Sie können einfach mit ffmpeg konvertieren.

ffmpeg -i sample_audio.mp3 -ar 16000 -ac 1 sample_audio.flac

-ar ist die Abtastfrequenz. Stellen Sie gemäß diesem Schnellstart-Beispiel 16.000 Hz ein. -ac ist die Anzahl der Kanäle. Ein Fehler ist aufgetreten, wenn er nicht auf monaural (= 1) gesetzt wurde.

Durch Ausführen des Befehls wird eine Datei mit dem Namen "sample_audio.flac" erstellt.

In den Cloud-Speicher hochladen

Es scheint, dass es lokal transkribiert werden kann, aber dieses Mal werden wir auf Dateien im Cloud-Speicher abzielen. Erstellen Sie einen geeigneten Bucket und laden Sie ihn mit dem folgenden Befehl hoch, wenn das Cloud SDK installiert ist.

gsutil cp sample_audio.flac gs://[YOUR BACKET]

Wenn die Datei klein ist, können Sie sie von Ihrem Browser hochladen.

Transkription

Es ist fast die gleiche wie die Funktion in der offiziellen Dokumentation.

transcribe.py


def transcribe_gcs(gcs_uri):
    print(f'Processing {gcs_uri}')
    client = speech.SpeechClient()

    audio = types.RecognitionAudio(uri=gcs_uri)
    config = types.RecognitionConfig(
        encoding=enums.RecognitionConfig.AudioEncoding.FLAC,
        sample_rate_hertz=16000,
        language_code='ja-JP')

    operation = client.long_running_recognize(config, audio)
    print('Waiting for operation to complete...')
    response = operation.result()
    text = ''.join([result.alternatives[0].transcript for result in response.results])
    return text

Der vollständige Text wird transkribiert und zurückgegeben, sodass Sie ihn als Textdatei oder CSV-Datei verwenden können.

Ergebnis

Die Transkription wird sofort für einige Minuten Video abgeschlossen. Das vorherige Video von Herrn Ikehaya war 4 Minuten 08 Sekunden, aber es wurde in ungefähr 2 Minuten fertiggestellt. Klicken Sie hier für den vollständigen Text der Transkription. (Es ist lang, also ist es gefaltet)

Transkriptionsergebnis Volltext

Ja, heute ist IKEA. Heute heißt es in der Broschüre des Millionärs, dass es an McDonald's geht. Ich möchte Ihnen die bekannte Tatsache mitteilen, dass ich 1000 mm unterstützen kann. 183 Da ich an einem Tag 100 Millionen Yen überschritten habe, bin ich in einer Situation, in der ich nicht hart arbeiten muss. Richtig, ich bin neulich zu Kaiten Sushi gegangen und habe es auf Twitter hochgeladen. Wie immer kam der Scheißreis an. Was für ein verdammter Reis ist das, dass Neko sagt, dass es absolut Liebe und Lüge ist, rotierendes Sushi zu essen, obwohl sie 100 Millionen Yen hat. Heute habe ich ein Versprechen gemacht wie ein cooles Lachen mit Brillenkindern. Ich habe es von ungefähr Schülern der Mittelstufe erhalten. Ich werde Sushi mit einem Gefühl von Hey gehen. Ich werde Sushi mit Sushi machen. Ich werde mich mit Sushi anlegen. Das stimmt, es stimmt, es tut mir sehr leid zu sagen, dass es nicht so lecker ist, und selbst wenn meine Mutter ihr Bestes gibt, fühlt es sich nicht so gut an, wenn sie unter Tränen steht Es ist eine sehr schöne Einrichtung, nicht wahr? Warum gehst du zu so einem rotierenden Sushi? Ich möchte wieder zum Gegen-Sushi gehen. Eine Person sagt, du solltest mit deiner Frau gehen, die ein gutes Preis-Leistungs-Verhältnis für Sushi hat. Es ist sehr berühmt, aber es ist eine Situation, in der es wirklich ein Traum ist, wenn Sie das Gefühl haben, dass es schwierig ist, ein Kind zu betreten, aber es spielt keine Rolle, es spielt keine Rolle. Es ist das Unglück der Spitze. Kennen Sie das Frühstück dieser Person? Dies wurde in Buffetts Dokumentarfilm aufgegriffen und wurde zu einem heißen Thema auf der ganzen Welt, aber es ist McDonald. Es ist erstaunlich. Aber für wen das Frühstück Mac ist, es ist erstaunlich, es scheint Mac am Morgen zu sein, es ist erstaunlich, ich war überrascht, dass die linke Seite ungefähr 8 bis 9 Billionen Yen hat, also hat das Paar 8 bis 9 Billionen Yen Aber Mac ist erstaunlich, nicht wahr? Es ist ziemlich wirkungsvoll und ich finde es interessant, nicht wahr? Warum ist dieser Hebel auf Set 3 eingestellt und ich bin wirklich reich, wenn ich darauf zusteuere? Wenn nicht, warum isst du das nicht? Ich bin sicher, es macht Sinn für ihn. Ich nehme an, es gibt viele Leute, die denken, dass Katze Mac schlecht für die Gesundheit ist, dachte ich, aber dieser Eimer war 88 Jahre alt, als ich das Alter überprüfte. Es ist ein knuspriger aktiver Dienst, nicht wahr? Das Haus ist auch gesund. Selbst wenn der Mac gesundheitsschädlich ist, finde ich es immer noch in Ordnung, wenn ich bis zum Alter von 88 Jahren aktiv werden kann. Schließlich ist das Essen von Mac wahrscheinlich diese Person. Ich denke, es ist eine Woche her, ist es nicht in Ordnung, dass das Dojo zum Frühstück verloren geht? Mauchimo, ich habe Kinder, also sage ich immer das gleiche Frühstück, also denke ich über das Frühstück nach. Ich denke heute darüber nach, Brot zu machen, aber das ist ein ziemlicher Aufwand, nicht wahr? Das ist wirklich dumm, nicht wahr? Es macht Spaß, aber es macht Spaß, aber es ist schwer. Ich frage mich, ob es wichtig ist, einen anderen zu nehmen, damit Sie sich an einem solchen Ort nicht verlaufen. Ich frühstücke nicht. Nun, schließlich ist es Frühstück. Vielleicht denkt Buffett das und geht von pechschwarz in die Welt. Sie können es überall in der Mitte essen. Zögern Sie nicht. Selbst wenn Sie es auf einem Mac sagen, denke ich, dass es das Beste ist, was Sie mitgebracht haben, als Sie es bestellt haben. Bei Steve Jobs ist es genauso. Es heißt, Steve Jobs habe jeden Tag die gleichen Kleider getragen, und es sind tatsächlich noch einige Fotos übrig. Die hellen Fotos tragen die ganze Zeit den gleichen Rollkragenpullover. Ich weiß nicht, welche Kleidung ich heute anziehen soll, damit ich mich nicht verliere. Ich mag Japan nicht und ich hasse es, also trage ich immer die gleichen Kleider. Ich frage mich immer, welche Kleider ich heute trage Es ist wirklich Zeitverschwendung, es zu tragen. Ich habe es zu einer Person gemacht, die Kleidung hasst. Ich habe das Gefühl, dass ich das hasse. Es ist sehr wichtig, eine solche Gewohnheit zu machen Ich denke, deshalb können Sie mit Buffet 3 8 bis 9 Billionen Yen mitbringen. Warum ist es Ihrer Meinung nach wirklich zweifelhaft, Mac zu essen? Diese Art von Ort ist sicherlich eine Woche für ihn Ich esse einen Mac wie diesen, damit ich diese zusätzliche Willenskraft nicht benutze, und ich warte auf mich selbst, auch wenn er weiß ist, ich benutze ihn für verschiedene Entscheidungen, also werde ich Millionär Ich hoffe ich kann das Gefühl verstehen, dass es geworden ist Ich denke, der Einfluss ist so. Max Es beginnt mit Reis. Rotierendes Sushi geht. Ich begann mit der Geschichte, dass rotierendes Sushi normal läuft. Ich habe versucht, die Geschichte von Mr. Buffett fallen zu lassen. Machen Sie jeden Tag weiter so. Ich möchte Ihnen eine lustige Geschichte erzählen. Nun, bitte geben Sie mir einen Poti vom Typ 6000. Vielen Dank für Ihre Aufmerksamkeit.

Die Eröffnung ** "Ja, heute ist IKEA" ** ist plötzlich enttäuschend, aber auch gesprochene Worte wie "Ah" werden angesprochen. Es ist ziemlich genau, aber die richtige Nomenklatur ist danach immer noch schwach. Es ist unvermeidlich.

Ich bin jedoch allein dafür sehr dankbar, denn es wäre schmerzhaft, den ganzen Satz zu tippen, während ich selbst auf die Stimme höre. Weil Sätze dieser Stufe automatisch in 2 Minuten erstellt werden! ??

danach

Danach habe ich versucht, ein 1-stündiges und 40-minütiges Video zu transkribieren. Es dauerte ungefähr 20 Minuten, aber der ganze Satz wurde richtig transkribiert. Es ist ziemlich gut. Möglicherweise können Sie das Video einer bestimmten Person auf YouTube transkribieren und als Datenquelle für die Verarbeitung natürlicher Sprache verwenden.

das ist alles

Verweise

Vielen Dank für die nützlichen Informationen.

Recommended Posts

Transkription von YouTube-Videos mit GCPs Cloud Speech-to-Text
Laden Sie Videos mit der YouTube-API hoch
Sprachtranskriptionsverfahren mit der Google Cloud Speech API
Transkription von Bildern mit der Vision API von GCP
Identifizieren Sie den YouTube-Kanal des Hikakin-Videos anhand von Miniaturbildern mithilfe von CNN
So laden Sie YouTube-Videos mit pytube3 herunter
Sprachtranskriptionsverfahren mit Python und Google Cloud Speech API