[PYTHON] Japanische Sprachsynthese beginnend mit Tacotron2

Einführung

Ich denke, das Interessanteste ist, wie viel Sie tun können. Fragen Sie zuerst hier. Bitte gib mir.

Dieses Modell ist

Ich lerne und schließe daraus. Ich werde Ihnen zeigen, wie es für diejenigen geht, die gerade erst anfangen.

Hier ist eine Referenz für Tacotron 2. Forschung und Entwicklung von japanischem TTS (Text-to-Speech) mit Tacotron2 [Zusammenfassung]

Was vorzubereiten?

Audiodatei

Schließen Sie Dinge aus, die laut sind, lachen und andere Dinge, die schwer in Text umzuwandeln sind. Wenn es zu lang ist, kann während des Lernens ein Speicherfehler auftreten. Ich mache Dinge nur innerhalb von 10 Sekunden.

Text

train.txt Erstellen Sie val.txt

Siehe ljs_audio_text_val_filelist.txt FILE PATH|TEXT Ich werde es schreiben als. Ich habe ein 9: 1-Gleichgewicht zwischen Zug und Wert. Das phonetische Gleichgewicht wird nicht berücksichtigt.

Phonetische Notation

TEXT wird in Phonemen unter Bezugnahme auf Folgendes geschrieben. [Wiki Japanese Phonetic](https://ja.wikipedia.org/wiki/phonetic #Japanese Phonetic) Voice Actor Statistics Corpus Sonic Balance Statement

Es kann nur das Element symbols.py verwendet werden.

Wenn Sie zu diesem Zeitpunkt in Tacotron2 "koNnichiwa" als zu beachtenden Punkt eingeben, wird "['k', 'o', 'n', 'n', 'i', 'c', 'h', 'i', Konvertiert in 'w', 'a'] `. Wenn Sie "[" k "," o "," N "," n "," i "," ch "," i "," w "," a "]" möchten, verwenden Sie "{}" Muss beigefügt sein. Sie können jedoch nur die Elemente in "valid_symbols" in cmudict.py verwenden. Sie müssen also "ko {N} ni {CH} iwa" sagen.

Ich denke auch, dass die Notation wie "k o {N} n i {CH} i w a" verwendet werden kann. Ich bin konnnichiwa.

EOS am Ende des Satzes hinzugefügt

Model can not converge #254 Es scheint, dass die Konvergenz der Aufmerksamkeit während des Lernens beschleunigt wird.

Beispiel

Ich mache das

train.txt


/wav/0126.wav|na&tanndesukedo-.
/wav/0022.wav|biyo-inndake-yoyakuwasimasita.
/wav/0149.wav|tasikani,ari!.
/wav/0092.wav|sositara-.
/wav/0063.wav|teyu-ne.
/wav/0202.wav|donndonn,tama&tekunndesuyo.

Aufbau

Bearbeiten Sie hparams.py

Exponentielle Lernratenabnahme zu train.py hinzugefügt

Model can not converge #254

Lernen

Wir werden anhand des vorgefertigten Modells lernen. Das Ergebnis von 10k iter. Mit Colab T4 dauerte es ungefähr 6 ½ Stunden. grad.norm grad.norm.png

training.loss training.loss.png

Inferenz

Das Ergebnis jedes Kontrollpunkts. Sigma = 1, Denoiser unbenutzt

―― Außerdem wird es oft in der Mitte des Haupt-Myo platziert, das wie Toji die Fünf Großen Myo genannt wird. 2500|5000|7500|10000 --New England Style ist eine weiße Cremesuppe auf Milchbasis, auch bekannt als Boston Clam Chowder. 2500|5000|7500|10000

Recommended Posts

Japanische Sprachsynthese beginnend mit Tacotron2
End-to-End-Text-Sprachsynthese ab ESPnet2
Verwenden Sie die Windows 10-Sprachsynthese mit Python
Japanisch mit Matplotlib
Japanische Eingabe mit Pyautogui
Python ab Windows 7
Mit OpenJtalk auf Japanisch sprechen
GRPC beginnend mit Python
Verbessertes Lernen ab Python
PySpark Leben beginnt mit Docker
Neuronales Netz beginnend mit Chainer
Japanische morphologische Analyse mit Python
Python beginnend mit Hallo Welt!