Einführung

Ich denke, das Interessanteste ist, wie viel Sie tun können. Fragen Sie zuerst hier. Bitte gib mir.

Dieses Modell ist

Übertragen Sie das Lernen mit einem vorab trainierten Modell
Vorverarbeitete Daten für ca. 1 Stunde
WaveGlow (published model)

Ich lerne und schließe daraus. Ich werde Ihnen zeigen, wie es für diejenigen geht, die gerade erst anfangen.

Hier ist eine Referenz für Tacotron 2. Forschung und Entwicklung von japanischem TTS (Text-to-Speech) mit Tacotron2 [Zusammenfassung]

Es wird davon ausgegangen, dass die Demo bereits ausgeführt wird.

Was vorzubereiten?

Audiodatei

22050 Hz 16-Bit-Monowellen
Geteilt nach Sprachbereich

Schließen Sie Dinge aus, die laut sind, lachen und andere Dinge, die schwer in Text umzuwandeln sind. Wenn es zu lang ist, kann während des Lernens ein Speicherfehler auftreten. Ich mache Dinge nur innerhalb von 10 Sekunden.

Text

train.txt Erstellen Sie val.txt

Siehe ljs_audio_text_val_filelist.txt FILE PATH|TEXT Ich werde es schreiben als. Ich habe ein 9: 1-Gleichgewicht zwischen Zug und Wert. Das phonetische Gleichgewicht wird nicht berücksichtigt.

Phonetische Notation

TEXT wird in Phonemen unter Bezugnahme auf Folgendes geschrieben. [Wiki Japanese Phonetic](https://ja.wikipedia.org/wiki/phonetic #Japanese Phonetic) Voice Actor Statistics Corpus Sonic Balance Statement

Es kann nur das Element symbols.py verwendet werden.

Wenn Sie zu diesem Zeitpunkt in Tacotron2 "koNnichiwa" als zu beachtenden Punkt eingeben, wird "['k', 'o', 'n', 'n', 'i', 'c', 'h', 'i', Konvertiert in 'w', 'a'] `. Wenn Sie "[" k "," o "," N "," n "," i "," ch "," i "," w "," a "]" möchten, verwenden Sie "{}" Muss beigefügt sein. Sie können jedoch nur die Elemente in "valid_symbols" in cmudict.py verwenden. Sie müssen also "ko {N} ni {CH} iwa" sagen.

Ich denke auch, dass die Notation wie "k o {N} n i {CH} i w a" verwendet werden kann. Ich bin konnnichiwa.

EOS am Ende des Satzes hinzugefügt

Model can not converge #254 Es scheint, dass die Konvergenz der Aufmerksamkeit während des Lernens beschleunigt wird.

Beispiel

Ich mache das

`train.txt`


/wav/0126.wav|na&tanndesukedo-.
/wav/0022.wav|biyo-inndake-yoyakuwasimasita.
/wav/0149.wav|tasikani,ari!.
/wav/0092.wav|sositara-.
/wav/0063.wav|teyu-ne.
/wav/0202.wav|donndonn,tama&tekunndesuyo.

Aufbau

Bearbeiten Sie hparams.py

iters_per_checkpoint
Wechseln Sie zu Ihrer Lieblingsnummer
training_files
train.txt Pfad
validation_files
val.txt Pfad
text_cleaners
Geändert zu ['basic_cleaners'] Hier ist eine Referenz für transliteration_cleaners. Unsicherheit des japanischen Unite-Codes in der Tacotron 2-Serie
batch_size
Ich habe 32. Wenn man sich Themen usw. ansieht, scheint es, dass es viele Leute gibt, die es auf ungefähr 8 ~ 16 setzen. Bitte wenden Sie sich an die GPU, um eine Entscheidung zu treffen.

Exponentielle Lernratenabnahme zu train.py hinzugefügt

Model can not converge #254

Lernen

Wir werden anhand des vorgefertigten Modells lernen. Das Ergebnis von 10k iter. Mit Colab T4 dauerte es ungefähr 6 ½ Stunden. grad.norm grad.norm.png

training.loss training.loss.png

Inferenz

Das Ergebnis jedes Kontrollpunkts. Sigma = 1, Denoiser unbenutzt

―― Außerdem wird es oft in der Mitte des Haupt-Myo platziert, das wie Toji die Fünf Großen Myo genannt wird. 2500|5000|7500|10000 --New England Style ist eine weiße Cremesuppe auf Milchbasis, auch bekannt als Boston Clam Chowder. 2500|5000|7500|10000

Kategorie von Personen, die mit Herstellern von Computerspielen, Branchengruppen usw. verwandt sind. 2500|5000|7500|10000

[PYTHON] Japanische Sprachsynthese beginnend mit Tacotron2