[PYTHON] [Échec] Développement de TTS japonais en utilisant Tacotron2 ~ 2e travail ~

introduction

Mellotron, le successeur de Tacotron 2, a été annoncé. De nos jours, l'industrie de la synthèse vocale a enfin un vent arrière. Je développe toujours TTS avec Taco2

Bien que Meron soit basé sur Taco2, C'est une spécification anglaise bâclée Lisez un peu plus pour le traduire en japonais ──

── Non, Jusqu'à présent, je ne pense pas à la migration

Quand je développais avec Taco2 J'ai vu une phrase comme celle-ci

"La quantité et la qualité des données de l'ensemble de données sont très importantes" </ b>

Je suis généralement d'accord, Trop vague

C'est un défi auquel on ne peut plus répondre, Il ne fait aucun doute que la qualité en dépend

ensuite, [Blog de Lento](https://medium.com/@crosssceneofwindff/%E7%BE%8E%E5%B0%91%E5%A5%B3%E5%A3%B0%E3%81%B8%E3 % 81% AE% E5% A4% 89% E6% 8F% 9B% E3% 81% A8% E5% 90% 88% E6% 88% 90-fe251a8e6933) Je pensais

"Peu importe le bruit qu'il y a Même s'il y a peu de données Si vous parvenez à le faire de cette façon Pouvez-vous faire du TTS? ""

Décidé d'essayer

résultat

Pour le moment, je ne pourrais pas dire du résultat Non, je devrais dire que je n'étais pas satisfait

  • Échantillon audio utilisé: 86.12s (par librosa)

Taco2

  • 120k steps Screenshot_2019-11-21 TensorBoard(3).png Screenshot_2019-11-21 TensorBoard(2).png Screenshot_2019-11-21 TensorBoard.png Screenshot_2019-11-21 TensorBoard(1).png

  • target individualImage2.png

  • inference individualImage.png

WaveGlow Screenshot_2019-12-03 TensorBoard.png

Considération

Taco2 L'inférence Taco2 semble être bonne dans l'évaluation qualitative

Comme mentionné dans l'article précédent, La sortie d'inférence a une belle gradation, C'est le même résultat avec TOA-TTS

Et encore une chose "Il y a du bruit, mais ce n'est pas grave." Mon attente (de sentiment) basée sur le développement précédent est Parce qu'il est effacé par cette gradation Après tout, j'arrive à la conclusion que cela n'a pas vraiment d'importance </ b>

L'apprentissage Taco2 s'est arrêté à 121 000 pas, Si vous continuez tel quel, la qualité peut s'améliorer un peu plus.

WaveGlow C'est un calcul merveilleusement différent

Combien WaveGlow doit-il apprendre? Selon la mémoire du problème, 1 million est nécessaire </ b>

Essayez de composer à 120k, 600k, J'ai eu l'impression que le bruit était réduit, j'ai donc continué le calcul. Le résultat était comme ça

Ce résultat est tout à fait le même que TOA-TTS (HP, procédure de création de jeu de données, etc.). La qualité de la voix semble affecter ici

Même en considérant qu'il n'y a pas de problème avec le raisonnement de Taco2 La raison pour laquelle il y a tant de bruit dans la composition Il y a probablement un problème avec ce modèle de génération de forme d'onde vocale

Fin

D'une manière ou d'une autre, je veux créer un modèle qui fonctionne bien jusqu'à la régénération de la voix Ensuite, je vais essayer de gratter un peu plus avec la politique d'amélioration de la précision de la synthèse vocale

Post-scriptum: 19/12/13

À la suite de la synthèse de ce modèle Taco2 et du modèle WvGw de TOA-TTS, Parce qu'il était capable de synthétiser normalement avec la voix de TOA Après tout, il a été confirmé que l'anomalie est dans ce modèle WvGw

Suppression actuelle de la voix bruyante Apprendre à nouveau

350k pas maintenant Il semble que la valeur d'évaluation soit supérieure à la synthèse effectuée précédemment

Post-scriptum: 19/12/16

Exemple de mise à jour audio Wavglw a été réappris et synthétisé uniquement avec des données moins bruyantes.

Extrait audio (taco2: 121k, wavglw: 458k)

La voix est devenue claire, mais c'était différent de ce à quoi je m'attendais Une qualité de voix presque identique à celle du TOA-TTS a été synthétisée

Vous avez peut-être fait une erreur pour apprendre la qualité de la voix.