Mellotron, der Nachfolger von Tacotron 2, wurde bekannt gegeben. Heutzutage bekommt die Sprachsynthesebranche endlich Rückenwind. Ich entwickle immer noch TTS mit Taco2
Obwohl Meron auf Taco2 basiert, Es ist eine schlampige englische Spezifikation Lesen Sie etwas mehr, um es ins Japanische zu übersetzen ──
»Nein, nein Bisher denke ich nicht an Migration
Als ich mit Taco2 entwickelt habe Ich habe so einen Satz gesehen
"Die Menge und Qualität der Daten im Datensatz ist sehr wichtig" </ b>
Ich stimme im Allgemeinen zu, Zu vage
Dies ist eine Herausforderung, die nicht weiter beantwortet werden kann. Es besteht kein Zweifel, dass die Qualität davon abhängt
danach, [Lentos Blog](https://medium.com/@crosssceneofwindff/%E7%BE%8E%E5%B0%91%E5%A5%B3%E5%A3%B0%E3%81%B8%E3 % 81% AE% E5% A4% 89% E6% 8F% 9B% E3% 81% A8% E5% 90% 88% E6% 88% 90-fe251a8e6933) dachte ich
"Egal wie viel Lärm es gibt Auch wenn es nur wenige Daten gibt Wenn Sie es so schaffen Kannst du TTS machen? ""
Beschlossen, es zu versuchen
Aus dem Ergebnis konnte ich vorerst nichts sagen Nein, ich sollte sagen, dass ich nicht zufrieden war
Taco2
120k steps
target
inference
WaveGlow
Taco2 Die Taco2-Inferenz scheint bei der qualitativen Bewertung in Ordnung zu sein
Wie im vorherigen Artikel erwähnt, Die Inferenzausgabe hat eine schöne Abstufung, Dies ist das gleiche Ergebnis mit TOA-TTS
Und noch etwas "Es gibt Lärm, aber es ist nicht so wichtig." Meine (Gefühls-) Erwartung basierend auf der vorherigen Entwicklung ist Weil es durch diese Abstufung gelöscht wird Immerhin komme ich zu dem Schluss, dass es nicht wirklich wichtig ist </ b>
Das Taco2-Lernen wurde bei 121.000 Schritten gestoppt. Wenn Sie so weitermachen, kann sich die Qualität etwas verbessern.
WaveGlow Dies ist eine wunderbar abweichende Berechnung
Wie viel muss WaveGlow lernen? Nach dem Gedächtnis des Problems ist 1 Million notwendig </ b>
Versuchen Sie Compositing bei 120k, 600k, Ich hatte den Eindruck, dass das Geräusch reduziert wurde, und setzte die Berechnung fort. Das Ergebnis war so
Dieses Ergebnis entspricht vollständig dem von TOA-TTS (HP, Verfahren zur Erstellung von Datensätzen usw.). Die Sprachqualität scheint hier zu beeinträchtigen
Selbst wenn man bedenkt, dass es kein Problem mit der Argumentation von Taco2 gibt Der Grund, warum die Komposition so laut ist Es gibt wahrscheinlich ein Problem mit diesem Modell der Erzeugung von Sprachwellenformen
Irgendwie möchte ich ein Modell erstellen, das bis zur Sprachregeneration gut funktioniert Als nächstes werde ich versuchen, ein wenig mehr mit der Politik der Verbesserung der Genauigkeit der Sprachsynthese zu kratzen
Als Ergebnis der Synthese dieses Taco2-Modells und des WvGw-Modells von TOA-TTS Weil es normal mit der Stimme von TOA synthetisieren konnte Immerhin wurde bestätigt, dass die Abnormalität in diesem WvGw-Modell liegt
Derzeit wird die laute Stimme entfernt Wieder lernen
350k Schritte jetzt Es scheint, dass der Bewertungswert höher ist als die vorherige Synthese
Beispiel-Audio-Update Wavglw wurde nur mit weniger verrauschten Daten neu gelernt und synthetisiert.
Hörbeispiel (taco2: 121k, wavglw: 458k)
Die Stimme wurde klar, aber sie war anders als ich erwartet hatte Es wurde eine Sprachqualität synthetisiert, die fast der von TOA-TTS entspricht
Möglicherweise haben Sie einen Fehler gemacht, um die Sprachqualität zu erlernen.