Lassen Sie von Google Text-to-Speech Audiodaten (Kommentare) für Videomaterial erstellen (mit C # - und Python-Beispielen).

Überblick

Dies ist eine Einführung in den von Google bereitgestellten Sprachsynthesedienst "** Cloud Text-to-Speech **". Ich habe den Ablauf von der Aktivierung des API-Dienstes bis zum Abrufen der Authentifizierungsdatei und dem Aufrufen von Ihrem eigenen Programm (C # oder Python) so detailliert wie möglich erläutert.

Überprüfen Sie grundsätzlich den Inhalt des offiziellen "Schnellstart: Client-Bibliothek verwenden". Es wird mit einem Schuss erklärt (beachten Sie, dass Schritte, die unnötig erscheinen, übersprungen werden).

** Cloud Text-to-Speech ** ist ein Cloud-Dienst, der ** vorgelesene Audiodaten ** (.mp3) aus Textdaten generiert (japanisch OK). Es ist möglich, eine natürliche Stimme auszugeben, die dem Menschen sehr nahe kommt. Sie können die Qualität überprüfen, indem Sie einen Text (Japanisch ist auch in Ordnung) von hier angeben.

Registrieren Sie sich bei Google Cloud Platform

Registrieren Sie sich als Nutzer in Google Cloud (https://cloud.google.com/?hl=ja).

Sie können Ihren Google Count für eine kostenlose Testversion verwenden. Zum Zeitpunkt der Registrierung ist jedoch eine Kreditkarte erforderlich. Nach Ablauf des Zeitraums wird es jedoch nicht automatisch auf ein bezahltes Konto ** übertragen, und selbst wenn Sie zu einer bezahlten Zählung wechseln, ist die Gebühr (persönlich) sehr angemessen. Lassen Sie uns ohne großen Aufwand registrieren.

2020-04-30_10h18_41.png

Geschätzte Nutzungsgebühr

Im Folgenden werden wir mit der Erklärung fortfahren, die in Google Cloud als ** registriert ** registriert ist.
2020-04-30_14h35_05.png

Aktivierung des Text-to-Speech-Dienstes und Erfassung von Authentifizierungsdateien

Greifen Sie auf Google Cloud Platform zu und melden Sie sich an.
2020-04-30_13h13_35.png

Ein Dialogfeld wird angezeigt. Wählen Sie "** Neues Projekt **".
2020-04-30_13h23_04.png

Geben Sie einen geeigneten Projektnamen ein (hier "Text To Speech 20xxx") und klicken Sie auf "** Erstellen **".
2020-04-30_13h24_501.png

Sie kehren zum Dashboard zurück. Wechseln Sie also zu dem gerade erstellten Projekt.
2020-04-30_13h27_19.png

Klicken Sie auf das Menü oben links, um zu "** APIs und Dienste ", " Dashboard **" zu gelangen.
2020-04-30_13h32_01.png

Wählen Sie ** APIs und Dienste aktivieren **.
2020-04-30_13h34_24.png

Geben Sie Text to Speech in das Textfeld ein.
2020-04-30_13h36_53.png

Wählen Sie ** Cloud Text-to-Speech API **. 2020-04-30_13h37_58.png

Wählen Sie ** Aktivieren **.
2020-04-30_13h39_35.png

Wählen Sie "** Anmeldeinformationen erstellen **", um den Dienst aus Ihrem eigenen Programm zu nutzen.
2020-04-30_13h40_59.png

Sie werden zum Bildschirm "** Anmeldeinformationen zum Projekt hinzufügen " weitergeleitet. Wählen Sie " Cloud-Text-zu-Sprache-API " aus der Dropdown-Liste unten und dann " Erforderliche Authentifizierung". Klicken Sie auf "Information **".

Die Anzeige wechselt, wählen Sie also "** Nein, nicht verwendet " und klicken Sie erneut auf " Erforderliche Anmeldeinformationen **".
2020-04-30_13h53_29.png

Geben Sie einen geeigneten ** Dienstkontonamen ** ein (hier test). ** Es ist keine Rolle ausgewählt **. Zusätzlich wird automatisch die "Service Account ID" generiert. Wählen Sie ** Weiter **.
2020-04-30_13h54_42.png

Der folgende Dialog wird angezeigt. Wählen Sie "** Ohne Rolle erstellen **".
2020-04-30_13h57_51.png

Das folgende Dialogfeld wird angezeigt und die ** JSON-Datei ** mit den Authentifizierungsinformationen wird auf Ihren PC heruntergeladen.
2020-04-30_13h58_37.png

Angenommen, Sie benennen diese Datei in " credentials.json "um und platzieren sie in" C: \ Users \ xxx \ Desktop".

Im offiziellen Schnellstart lautet der Pfad dieser Datei ** Umgebungsvariable **. Erklärt, wie Sie sich als "GOOGLE_APPLICATION_CREDENTIALS" registrieren und über Umgebungsvariablen im Programm auf die Informationen verweisen. Auf der anderen Seite ** Hier besteht die Methode darin, auf die Informationen zu verweisen, indem der Pfad aus dem Programm direkt angegeben wird, ohne ihn in der Umgebungsvariablen </ font> ** zu registrieren.

Aufruf von einem C # -Programm (.NET Core)

Starten Sie VisualStudio und wählen Sie [** Datei ] - [ Neu ] - [ Projekt ]. Wählen Sie dann " Visual C # " - " Konsolen-App (.NET Core) *. *"Wählen.

Wählen Sie im Menü die Option [** Tools ] - [ NuGet Package Manager ] - [ Package Manager Console **]. Geben Sie "Install-Package Google.Cloud.TextToSpeech.V1 -Pre" in die Konsole ein, um es auszuführen.

PM> Install-Package Google.Cloud.TextToSpeech.V1 -Pre

Schreiben Sie den Inhalt von Program.cs wie folgt um.

Program.cs


using System;
using System.IO;
using Google.Cloud.TextToSpeech.V1;
using System.Diagnostics;

public class QuickStart {
  public static void Main(string[] args) {

    var credentialsFilePath = @"C:\Users\xxx\Desktop\credentials.json";

    var textToSpeechClientBuilder = new TextToSpeechClientBuilder() {
      CredentialsPath = credentialsFilePath
    };
    var client = textToSpeechClientBuilder.Build();

    //Vorlesetexteinstellungen
    SynthesisInput input = new SynthesisInput {
      Text = "Das Ziel ist Nihonbashi."
    };

    //Einstellung des Sprachtyps
    VoiceSelectionParams voice = new VoiceSelectionParams {
      Name = "ja-JP-Wavenet-D",
      LanguageCode = "ja-JP",
      SsmlGender = SsmlVoiceGender.Neutral
    };

    //Audioausgabeeinstellungen
    AudioConfig config = new AudioConfig {
      AudioEncoding = AudioEncoding.Mp3,
      Pitch = -2.0
    };

    // Text-to-Sprachanforderung generieren
    var response = client.SynthesizeSpeech(new SynthesizeSpeechRequest {
      Input = input,
      Voice = voice,
      AudioConfig = config
    });

    // Text-to-Speichern der Sprachantwort (Sprachdatei)
    var fileName = DateTime.Now.ToString("yyyy-MM-dd_HHmmss") + ".mp3";
    using (Stream output = File.Create(fileName)) {
      response.AudioContent.WriteTo(output);
      Console.WriteLine($"Audioinhalt'{fileName}'Gespeichert als.");
    }

    Console.WriteLine("Möchten Sie den Ordner öffnen, in dem Sie die Datei ausgeben?[Y]/n");
    var k = Console.ReadKey();
    if (k.Key != ConsoleKey.N && k.Key != ConsoleKey.Escape) {
      Process.Start("explorer.exe", Directory.GetCurrentDirectory());
    }
  }
}

Bei der Ausführung wird eine MP3-Datei "Mokukichi is Nihonbashi" generiert.

Darüber hinaus wird auch die Sprachsynthese-Markup-Sprache ** (SSML) unterstützt, und wenn Sie sie wie folgt ändern Es lautet: "Mokukichi ist nicht ** Nihonbashi **, sondern ** Nipponbashi **." Sie können auch ** Intervalle ** einfügen, z. B. durch "".

SSML-Format


SynthesisInput input = new SynthesisInput {
  Ssml = "<speak>Das Ziel ist nicht Nihonbashi,<sub alias='Nipponbashi'>Nihonbashi</sub>ist.</speak>".Replace("'", "\"")
};

Aufruf von einem Python-Programm

pip install --upgrade google-cloud-texttospeech

python


from datetime import datetime
from pytz import timezone
from google.cloud import texttospeech
from google.oauth2 import service_account

credentials = service_account.Credentials.from_service_account_file('credentials.json')
client = texttospeech.TextToSpeechClient(credentials=credentials)

synthesis_input = texttospeech.types.SynthesisInput(
  text='Das Ziel ist Akihabara.')

voice = texttospeech.types.VoiceSelectionParams(
  language_code='ja-JP',
  name='ja-JP-Wavenet-D',
  ssml_gender=texttospeech.enums.SsmlVoiceGender.NEUTRAL)

audio_config = texttospeech.types.AudioConfig(
  audio_encoding=texttospeech.enums.AudioEncoding.MP3,
  pitch = -2.0
  )

response = client.synthesize_speech(synthesis_input, voice, audio_config)

now = datetime.now(timezone('Asia/Tokyo'))
filename = now.strftime('%Y-%m-%d_%H%M%S.mp3')
with open(filename, 'wb') as out:
  out.write(response.audio_content)
  print(f'Audio content written to file {filename}')

Recommended Posts

Lassen Sie von Google Text-to-Speech Audiodaten (Kommentare) für Videomaterial erstellen (mit C # - und Python-Beispielen).
C-Sprache, Java, Python-Benchmarks mit Primfaktorisierung
Abrufen von Daten aus der Analyse-API mit Google API Client für Python
Erstellen Sie mit Google Text To Speak eine Audiodatei mit der Text-to-Speech-Funktion und überprüfen Sie den Text 3 Minuten lang als Leitfaden für das Sprechen.
Erstellen Sie mit Python und GAS Termine für AtCoder-Wettbewerbe in Google Kalender
Erstellen Sie eine gestreifte Illusion mit Gammakorrektur für Python3 und openCV3
Erstellen Sie ein USB-Boot-Ubuntu mit einer Python-Umgebung für die Datenanalyse
Erstellen Sie Awaitable mit der Python / C-API
Erstellen Sie mit SoX rauschgefüllte Audiodaten
Erstellen und bearbeiten Sie Tabellenkalkulationen in einem beliebigen Ordner auf Google Drive mit Python
Erfassung und Visualisierung von Sensordaten für das Pflanzenwachstum mit Intel Edison und Python
Ich habe 0 Jahre Programmiererfahrung und fordere die Datenverarbeitung mit Python heraus
Folie bearbeiten (Powerpo für Google) mit Python (kostengünstiger RPA-Fall mit Google API und Python)
Erstellen und entschlüsseln Sie Caesar-Code mit Python
RaspberryPi L Chika mit Python und C #
Kommunikation verschlüsselter Daten zwischen Python und C #
Datenerfassung von der Analytics-API mit dem Google API-Client für die Python Part 2-Webanwendung
Verwendung von OAuth und API für Dienstkonten mit Google API Client für Python
Richten Sie die Anzahl der Stichproben zwischen Datenklassen für maschinelles Lernen mit Python aus
Erstellen Sie solche Testdaten mit Python (Teil 1)
Kausales Denken und kausale Suche von Python (für Anfänger)
Versuchen Sie, Google Chrome mit Python und Selenium auszuführen
Erstellen Sie mit Minette für Python einen LINE BOT
Wickeln Sie C mit Cython für Python ein
Wrap C ++ mit Cython zur Verwendung von Python
Testen Sie online bereitgestellte Python-Modelle und -Funktionen mit Cloud Pack for Data mit formularformatierten Eingabedaten
Erstellen Sie mit Streamlit schnell ein Python-Datenanalyse-Dashboard und stellen Sie es in AWS bereit
Für diejenigen, die neu in der Programmierung sind, sich aber entschieden haben, Daten mit Python zu analysieren