Ich denke, das Interessanteste ist, wie viel Sie tun können. Fragen Sie zuerst hier. Bitte gib mir.
Dieses Modell ist
Ich lerne und schließe daraus. Ich werde Ihnen zeigen, wie es für diejenigen geht, die gerade erst anfangen.
Hier ist eine Referenz für Tacotron 2. Forschung und Entwicklung von japanischem TTS (Text-to-Speech) mit Tacotron2 [Zusammenfassung]
Schließen Sie Dinge aus, die laut sind, lachen und andere Dinge, die schwer in Text umzuwandeln sind. Wenn es zu lang ist, kann während des Lernens ein Speicherfehler auftreten. Ich mache Dinge nur innerhalb von 10 Sekunden.
Siehe ljs_audio_text_val_filelist.txt
FILE PATH|TEXT
Ich werde es schreiben als.
Ich habe ein 9: 1-Gleichgewicht zwischen Zug und Wert. Das phonetische Gleichgewicht wird nicht berücksichtigt.
TEXT wird in Phonemen unter Bezugnahme auf Folgendes geschrieben. [Wiki Japanese Phonetic](https://ja.wikipedia.org/wiki/phonetic #Japanese Phonetic) Voice Actor Statistics Corpus Sonic Balance Statement
Es kann nur das Element symbols.py verwendet werden.
Wenn Sie zu diesem Zeitpunkt in Tacotron2 "koNnichiwa" als zu beachtenden Punkt eingeben, wird "['k', 'o', 'n', 'n', 'i', 'c', 'h', 'i', Konvertiert in 'w', 'a'] `. Wenn Sie "[" k "," o "," N "," n "," i "," ch "," i "," w "," a "]" möchten, verwenden Sie "{}" Muss beigefügt sein. Sie können jedoch nur die Elemente in "valid_symbols" in cmudict.py verwenden. Sie müssen also "ko {N} ni {CH} iwa" sagen.
Ich denke auch, dass die Notation wie "k o {N} n i {CH} i w a" verwendet werden kann. Ich bin konnnichiwa
.
Model can not converge #254 Es scheint, dass die Konvergenz der Aufmerksamkeit während des Lernens beschleunigt wird.
Ich mache das
train.txt
/wav/0126.wav|na&tanndesukedo-.
/wav/0022.wav|biyo-inndake-yoyakuwasimasita.
/wav/0149.wav|tasikani,ari!.
/wav/0092.wav|sositara-.
/wav/0063.wav|teyu-ne.
/wav/0202.wav|donndonn,tama&tekunndesuyo.
['basic_cleaners']
Hier ist eine Referenz für transliteration_cleaners.
Unsicherheit des japanischen Unite-Codes in der Tacotron 2-SerieWir werden anhand des vorgefertigten Modells lernen. Das Ergebnis von 10k iter. Mit Colab T4 dauerte es ungefähr 6 ½ Stunden. grad.norm
training.loss
Das Ergebnis jedes Kontrollpunkts. Sigma = 1, Denoiser unbenutzt
―― Außerdem wird es oft in der Mitte des Haupt-Myo platziert, das wie Toji die Fünf Großen Myo genannt wird. 2500|5000|7500|10000 --New England Style ist eine weiße Cremesuppe auf Milchbasis, auch bekannt als Boston Clam Chowder. 2500|5000|7500|10000
Recommended Posts