[PYTHON] [Fehler] Entwicklung des japanischen TTS mit Tacotron2 ~ 2. Arbeit ~

Einführung

Mellotron, der Nachfolger von Tacotron 2, wurde bekannt gegeben. Heutzutage bekommt die Sprachsynthesebranche endlich Rückenwind. Ich entwickle immer noch TTS mit Taco2

Obwohl Meron auf Taco2 basiert, Es ist eine schlampige englische Spezifikation Lesen Sie etwas mehr, um es ins Japanische zu übersetzen ──

»Nein, nein Bisher denke ich nicht an Migration

Als ich mit Taco2 entwickelt habe Ich habe so einen Satz gesehen

"Die Menge und Qualität der Daten im Datensatz ist sehr wichtig" </ b>

Ich stimme im Allgemeinen zu, Zu vage

Dies ist eine Herausforderung, die nicht weiter beantwortet werden kann. Es besteht kein Zweifel, dass die Qualität davon abhängt

danach, [Lentos Blog](https://medium.com/@crosssceneofwindff/%E7%BE%8E%E5%B0%91%E5%A5%B3%E5%A3%B0%E3%81%B8%E3 % 81% AE% E5% A4% 89% E6% 8F% 9B% E3% 81% A8% E5% 90% 88% E6% 88% 90-fe251a8e6933) dachte ich

"Egal wie viel Lärm es gibt Auch wenn es nur wenige Daten gibt Wenn Sie es so schaffen Kannst du TTS machen? ""

Beschlossen, es zu versuchen

Ergebnis

Aus dem Ergebnis konnte ich vorerst nichts sagen Nein, ich sollte sagen, dass ich nicht zufrieden war

  • Verwendetes Beispielaudio: 86.12s (von librosa)

Taco2

  • 120k steps Screenshot_2019-11-21 TensorBoard(3).png Screenshot_2019-11-21 TensorBoard(2).png Screenshot_2019-11-21 TensorBoard.png Screenshot_2019-11-21 TensorBoard(1).png

  • target individualImage2.png

  • inference individualImage.png

WaveGlow Screenshot_2019-12-03 TensorBoard.png

Erwägung

Taco2 Die Taco2-Inferenz scheint bei der qualitativen Bewertung in Ordnung zu sein

Wie im vorherigen Artikel erwähnt, Die Inferenzausgabe hat eine schöne Abstufung, Dies ist das gleiche Ergebnis mit TOA-TTS

Und noch etwas "Es gibt Lärm, aber es ist nicht so wichtig." Meine (Gefühls-) Erwartung basierend auf der vorherigen Entwicklung ist Weil es durch diese Abstufung gelöscht wird Immerhin komme ich zu dem Schluss, dass es nicht wirklich wichtig ist </ b>

Das Taco2-Lernen wurde bei 121.000 Schritten gestoppt. Wenn Sie so weitermachen, kann sich die Qualität etwas verbessern.

WaveGlow Dies ist eine wunderbar abweichende Berechnung

Wie viel muss WaveGlow lernen? Nach dem Gedächtnis des Problems ist 1 Million notwendig </ b>

Versuchen Sie Compositing bei 120k, 600k, Ich hatte den Eindruck, dass das Geräusch reduziert wurde, und setzte die Berechnung fort. Das Ergebnis war so

Dieses Ergebnis entspricht vollständig dem von TOA-TTS (HP, Verfahren zur Erstellung von Datensätzen usw.). Die Sprachqualität scheint hier zu beeinträchtigen

Selbst wenn man bedenkt, dass es kein Problem mit der Argumentation von Taco2 gibt Der Grund, warum die Komposition so laut ist Es gibt wahrscheinlich ein Problem mit diesem Modell der Erzeugung von Sprachwellenformen

Ende

Irgendwie möchte ich ein Modell erstellen, das bis zur Sprachregeneration gut funktioniert Als nächstes werde ich versuchen, ein wenig mehr mit der Politik der Verbesserung der Genauigkeit der Sprachsynthese zu kratzen

Nachtrag: 19.12.13

Als Ergebnis der Synthese dieses Taco2-Modells und des WvGw-Modells von TOA-TTS Weil es normal mit der Stimme von TOA synthetisieren konnte Immerhin wurde bestätigt, dass die Abnormalität in diesem WvGw-Modell liegt

Derzeit wird die laute Stimme entfernt Wieder lernen

350k Schritte jetzt Es scheint, dass der Bewertungswert höher ist als die vorherige Synthese

Nachtrag: 19.12.16

Beispiel-Audio-Update Wavglw wurde nur mit weniger verrauschten Daten neu gelernt und synthetisiert.

Hörbeispiel (taco2: 121k, wavglw: 458k)

Die Stimme wurde klar, aber sie war anders als ich erwartet hatte Es wurde eine Sprachqualität synthetisiert, die fast der von TOA-TTS entspricht

Möglicherweise haben Sie einen Fehler gemacht, um die Sprachqualität zu erlernen.