Mit VQ-VAE (Variant Self-Encoder) wurde ein Modell vorgestellt, das Musik mit singender Stimme (≈ Musik erzeugen) abtasten kann. Ich habe dieses Papier für meine eigene Studie übersetzt und den Inhalt zusammengefasst. Die Implementierung wurde auch auf Github veröffentlicht, also probiere ich es aus. Ich möchte es beim nächsten Mal leicht zusammenfassen.
** Ich wäre Ihnen dankbar, wenn Sie auf Ausdrücke hinweisen könnten, die nicht richtig übersetzt wurden. ** ** **
Jukebox: A Generative Model for Music Prafulla https://arxiv.org/abs/2005.00341
Abstract
Vorstellung des Modells Jukebox, das Musik mit singender Stimme erzeugt. In dieser Studie wurde gezeigt, dass ** Multi-Scale-VQ-VAE ** verwendet werden kann, um eine Vielzahl von originalgetreu wiedergegebenen Songs mit einer Kohärenz (≈ hohe Reproduzierbarkeit) von bis zu einigen Minuten zu erzeugen. ** Durch das Festlegen von Bedingungen für Künstler und Genres war es auch möglich, den Musik- und Gesangsstil zu steuern, und durch Nichtausrichten der Texte konnte das Singen leichter gesteuert werden.
1.Introduction
Die Modelle der Autoren ermöglichen es uns, fortgeschrittene Songs zu generieren. Es gibt verschiedene Musikgenres wie Rock, Hip Hop und Jazz. Sie können Melodie, Rhythmus, Komposition mit großer Reichweite, Töne für verschiedene Instrumente sowie den Stil und die Sprachqualität des mit der Musik produzierten Sängers sowie vorhandene Songs erfassen.
Der Ansatz der Autoren verwendet eine ** hierarchische VQ-VAE-Architektur (Razavi et al., 2019). Es verwendet eine Verlustfunktion, die die maximale Menge an Musikinformationen speichert, während das Audio in einen diskreten Raum komprimiert und der Komprimierungspegel erhöht wird. ** Wir verwenden einen selbstregressiven Transformator mit geringer Dichte (Child et al., 2019; Vaswani et al., 2017), der mit maximaler Wahrscheinlichkeitsschätzung für diesen komprimierten Raum trainiert wurde. Wir trainieren auch einen selbstregressiven Upsampler, um die bei jeder Komprimierungsstufe verlorenen Informationen zu reproduzieren.
** Neue Ergänzungen zu bestehenden Songs sind ebenfalls möglich **. Der Ansatz der Autoren kann den Generierungsprozess beeinflussen. Durch Vertauschen des oberen Vorgängers und des bedingten Vorhergehenden können Sie die Texte konditionieren, um dem Sänger mitzuteilen, was er singen soll, oder das MIDI, um die Komposition zu steuern.
2.Background
Musik wird durch eine kontinuierliche Wellenform $ x ∈ [-1,1] ^ T $ dargestellt, und die Anzahl der Abtastwerte T ist das Produkt aus der Dauer der Stimme und der Abtastrate und wird allgemein als im Bereich von 16 kHz bis 48 kHz liegend angesehen. .. Eine ausreichende Qualität für CD-Audio sind normalerweise ** 44,1-kHz-Samples, die mit 16-Bit-Genauigkeit gespeichert werden **.
** Das Lernen und Generieren von Musik erfordert im Vergleich zur Bilderzeugung viel Berechnung **. Beispielsweise hätte ein 4-minütiges Audio mit einer 16-Bit-Bitrate eine Eingangslänge von 10 Millionen. Andererseits verfügt ein qualitativ hochwertiges RGB-Bild über 3 Millionen Eingänge mit 24 Bit. Um dieses Problem zu lösen, wird ** VQ-VAE verwendet, um die Originalmusik in einen niedrigdimensionalen Raum umzuwandeln. ** ** ** Dekodieren Sie den eingebetteten Vektor mit dem Encoder $ E (x) $, der den eingebetteten Vektor codiert, dem Engpass, der den eingebetteten Vektor aus dem Codebuch $ C = {\ bf e_k} ^ K_ {k = 1} $ quantisiert Es besteht aus einem Decoder $ D (e) $, der in den Eingaberaum zurückkehrt.
Die Zielfunktion für das Lernen ist wie folgt.
Beachten Sie, dass $ sg $ eine Abkürzung für Stop Gradient ist, was bedeutet, dass der Gradient nicht berechnet wird. Hier trainieren Sie einen einzelnen Encoder und Decoder. Teilen Sie die latente Folge $ h $ in mehrwertige Darstellungen $ [h (1), ..., h (L)] $, deren Sequenzlänge abnimmt, wobei jede ihr eigenes Codebuch $ C (l) $ lernt Ich bin. Sie verwenden einen nicht automatisch regressiven Codierer / Decodierer und arbeiten auf allen Ebenen mit einem einfachen durchschnittlichen quadratischen Verlust zusammen.
Dies ist ein Algorithmus namens Vector Quantization Variational Auto Encoder. ** Um das Problem des posterioren Kollapses * zu lösen, das für VAE typisch ist, haben wir versucht, es durch Einführung der Vektorquantisierung zu lösen. ** ** **
Quantisieren ist ein Wort, das Quantisierung bedeutet. Die Vektorquantisierung ist die ungefähre Darstellung kontinuierlicher Größen wie analoger Signale als diskrete Werte wie ** ganze Zahlen und diskrete latente Räume. ** ** ** Der latente Raum zu diesem Zeitpunkt wird wie folgt ausgedrückt (als Codebuch bezeichnet).
e = [e_1,e_2,....e_K] \in\mathbb{R}^{D×K}
Die Größe dieses Raums beträgt $ K $, und jeder Punkt $ e_i $ wird weiter durch einen $ D $ dimensionalen reellen Vektor dargestellt. Dieser Raum selbst wird zur gleichen Zeit später gelernt.
Ein Phänomen, das als * posteriorer Kollaps bezeichnet wird, ist ein Phänomen, bei dem latente Variablen ignoriert werden, wenn ein starker Decoder wie PixelCNN verwendet wird.
Wenn es sich nur um einen Auto-Encoder handelt, definieren Sie als Lernpunkt die Verlustfunktion wie folgt. $ E (x) $ ist die Codiererfunktion, $ Q (x) $ ist die Quantisierungsfunktion und $ D (x) $ ist die Decodierungsfunktion.
L = ||x - D(Q(E(x)))||^2
L = log p(x|D(Q(E(x))))
** VQ-VAE fügt dem folgenden $ e $ update-Element hinzu. ** ** **
L = ||sg[Q(E(x))] - E(x)||^2 +\beta ||Q(E(x))-sg[E(x)]||^2
$ \ Beta $ ist ein Hyperparameter, und es scheint, dass es ein Wert zwischen 0,1 und 2 sein sollte.
Referenzmaterial
Reise durch Modelle der tiefen Generation (2): VAE https://qiita.com/shionhonda/items/e2cf9fe93ae1034dd771
3.Music VQ-VAE
Inspiriert von den Ergebnissen der Anwendung der hierarchischen VQ-VAE auf Bilder (Link unten) erwogen die Autoren, dieselbe Technologie auf Musik anzuwenden.
Generating Diverse High-Fidelity Images with VQ-VAE-2 https://arxiv.org/abs/1906.00446
Trainieren Sie zunächst drei VQ-VAE-Modelle. Die Musikeingabe in jeder der drei Ebenen wird im Vektor $ h_t $ klassifiziert und codiert. Es wird dann quantisiert, um dem Codebuchvektor $ e_ {z_t} $ am nächsten zu sein. Der Code $ z_t $ lernt diskrete Darstellungen von Audio. Der Decoder empfängt eine Folge von Codebuchvektoren und rekonstruiert die Musik.
Abbildung 1
3.1.Random restarts for embeddings
Die Herausforderung bei VQ-VAE besteht darin, dass es unter einem ** Zusammenbruch des Codebuchs ** leidet. Codebuchkollaps bedeutet, dass alle Codierungen einem einzelnen oder einer kleinen Anzahl eingebetteter Vektoren zugeordnet werden, während kein anderer eingebetteter Vektor im Codebuch verwendet wird, wodurch die Informationskapazität des Engpasses verringert wird. Es ist ein Phänomen. Um dies zu verhindern, starten Sie nach dem Zufallsprinzip neu.
Setzt zufällig einen der Encoderausgänge im aktuellen Stapel zurück, wenn die durchschnittliche Verwendung des Codebuchvektors unter den Schwellenwert fällt. Dadurch wird sichergestellt, dass alle Vektoren im Codebuch verwendet werden, sodass Sie einen Lerngradienten beibehalten können, um den Zusammenbruch des Codebuchs zu verringern.
3.2.Separated Autoencoders
Bei Verwendung der hierarchischen VQ-VAE für Musik wurde der Engpass der obersten Ebene selten verwendet. Ein vollständiger Zusammenbruch hätte gesehen werden können, als das Modell alle Informationen an die unteren Ebenen weitergab, wo es nicht der Engpass war. Um die auf jeder Ebene gespeicherte Informationsmenge zu maximieren, trainierten die Autoren separate Autoencoder mit unterschiedlichen Sprunglängen. Diskrete Codes auf jeder Ebene können jetzt als unabhängige Codierungen von Eingaben auf verschiedenen Komprimierungsstufen behandelt werden.
3.3.Spectral Loss Beim Umgang mit Rekonstruktionsverlusten auf Probenebene lernt das Modell, nur niedrige Frequenzen zu rekonstruieren. Fügen Sie zum Erfassen des mittleren bis hohen Frequenzbereichs einen Spektralverlust hinzu, der wie folgt definiert ist:
Dadurch kann das Modell die Spektralkomponenten anpassen, ohne auf die Phasen zu achten, die schwieriger zu trainieren sind.
Jedes davon ist ein selbstregressives Modellierungsproblem in dem von VQ-VAE erzeugten diskreten Tokenraum.
4.1.Artist, Genre, and Timing Conditioning
Das von den Autoren generierte Modell kann durch Hinzufügen eines Konditionierungssignals während des ** Trainings kontrollierbarer gemacht werden. ** Das erste Modell gibt dem Song ein Künstlerlabel und ein Genre-Label. Dies hat zwei Vorteile. Erstens wird die Entropie von Audio-Vorhersagen reduziert, sodass das Modell in einem bestimmten Stil eine bessere Qualität erzielen kann. Zweitens können Sie das Modell so bearbeiten, dass es in einem beliebigen Stil generiert wird, den Sie während der Generierung auswählen. Darüber hinaus wird jedem Segment während des Lernens ein Zeitsignal hinzugefügt. Dieses Signal enthält die Gesamtdauer des Songs, die Startzeit eines bestimmten Samples und wie viel des Songs vergangen ist. Dadurch kann das Modell musikalische Muster lernen, die von der Gesamtstruktur abhängen.
4.2. Lyrics Conditioning
Das obige bedingte Modell kann Songs verschiedener Genres und künstlerischer Stile erzeugen. Die von diesen Modellen produzierten Gesangsstimmen werden jedoch oft mit überzeugenden Melodien gesungen. ** Es war jedoch nicht möglich, erkennbare englische Wörter zu generieren, da die meisten aus Wörtern bestanden, die wie ein einzelnes Wort klangen. ** ** **
Um das Generierungsmodell mit Texten steuern zu können, haben wir durch Konditionieren der für jedes Musiksegment entsprechenden Texte mehr Kontext bereitgestellt und es ermöglicht, gleichzeitig mit der Musik eine singende Stimme zu erzeugen.
4.3. Decoder Pretraining
Um den Rechenaufwand für das Trainieren des Textmodells zu verringern, verwendeten die Autoren ein vorab trainiertes bedingungsloses Prio der obersten Ebene als Decoder und führten einen Textcodierer mithilfe der Modellchirurgie ein. Bei der Initialisierung verhält sich das Modell also wie ein vorab trainierter Decoder, es gibt jedoch immer noch einen Gradienten in Bezug auf den Codiererzustand und die Parameter. Dadurch kann das Modell lernen, den Encoder zu verwenden.
4.4Decoder Pretraining Ancestral sampling
Jedes Modell verwendet bedingte Informationen wie Genre, Künstler, Timing, Texte usw., und das Upsampler-Modell erfordert auch einen Code höherer Ebene. Um Musik zu erzeugen, werden Konditionierungsinformationen verwendet, um den VQ-VAE-Code von oben nach unten abzutasten und zu steuern. Anschließend konvertiert der VQ-VAE-Decoder den zugrunde liegenden Code in Audio.
Windowed sampling
Um Musik zu generieren, die länger als die Kontextlänge des Modells ist (12 in dieser Abbildung), nehmen wir die überlappenden Fenster des vorherigen Akkords als Kontext und probieren die Fortsetzung auf jeder Ebene iterativ aus. Das Ausmaß der Überlappung ist ein Hyperparameter und die Abbildung zeigt ein Beispiel für eine 75% ige Überlappung mit einer Sprunglänge von 3.
Primed sampling: Sie können die Kontinuität eines vorhandenen Audiosignals erzeugen, indem Sie das vorhandene Audiosignal in einen VQ-VAE-Code konvertieren und den nachfolgenden Code auf jeder Ebene abtasten.
5.Experiments
5.1. Dataset
Die Autoren haben einen neuen Datensatz mit ** 1,2 Millionen Songs (davon 600.000 auf Englisch) erstellt und mit ** Texten und Metadaten aus LyricWiki gepaart. Die Metadaten enthalten Schlüsselwörter für Künstler, Alben, Genres, Erscheinungsjahr sowie allgemeine Stimmungen und Wiedergabelisten, die jedem Song zugeordnet sind. Das Training wird mit 32-Bit-, 44,1-kHz-Live-Audio durchgeführt, und die Daten werden durch zufälliges Heruntermischen des rechten und linken Kanals verbessert, um Einkanal-Audio zu erzeugen.
5.2. Training Details
In VQ-VAE für Musik wird ** 44-kHz-Audio mit einer Codebuchgröße von 2048 auf jeder Ebene dimensional komprimiert, wobei drei Engpässe verwendet werden: 8x, 32x und 128x. ** VQ-VAE hat 2 Millionen Parameter und hat 3 Tage lang 9 Sekunden lang Audioclips auf 256 V100s gelernt.
Upsampler hat 2 Wochen lang 1 Milliarde Parameter und 128 V100s, Pre-Learning auf höchstem Niveau 5 Milliarden Parameter und 4 Wochen lang 512 V100s. Adam mit einer Lernrate von 0,00015 und einer Gewichtsabschwächung von 0,002 wird verwendet. Um die Texte zu konditionieren, habe ich die Vorverarbeitung wiederverwendet, einen kleinen Encoder hinzugefügt und dann zwei Wochen lang auf 512 V100s studiert.
5.3.Samples
Die Autoren lernten eine Reihe von Modellen und verbesserten gleichzeitig die Probenqualität. ** Das erste Modell wurde mit einem 22-kHz-VQ-VAE-Code und einem Modell mit relativ niedriger Priorität auf dem MAESTRO-Datensatz trainiert. ** Wir fanden heraus, dass dies uns ermöglichte, klassische Musikbeispiele mit hoher Wiedergabetreue zu erzeugen, einschließlich Klavier und Violine. Als nächstes haben wir eine größere und vielfältigere Reihe von Songs mit Genre- und Künstlerlabels gesammelt. Mit demselben Modell auf diesen neuen Datensatz konnten wir eine Vielzahl nicht klassischer Samples generieren, die mehr als eine Minute Musikalität und Kohärenz demonstrieren.
Coherence Während der gesamten Länge des Vorverarbeitungskontexts der obersten Ebene (ca. 24 Sekunden) wurde festgestellt, dass die Probe musikalisch sehr konsistent bleibt. Wir fanden auch heraus, dass das Verschieben des Fensters zur Erzeugung längerer Samples ähnliche Harmonische und Texturen beibehielt.
Musicality
Die Samples ahmen die oft auftretenden musikalischen Harmonien nach, und die Texte sind normalerweise sehr natürlich eingestellt. Die höchsten und längsten Noten einer Melodie stimmen oft mit den von einem menschlichen Sänger hervorgehobenen Wörtern überein, und die Texte werden fast immer so wiedergegeben, dass die Prosodie der Phrase erfasst wird.
Novel styles
Die Autoren produzieren Songs ungewöhnlicher Genres, die nichts mit dem Künstler zu tun haben. Im Allgemeinen kann es ziemlich schwierig sein, auf einen neuen Gesangsstil zu verallgemeinern, während dieselbe Stimme wie der Künstler verwendet wird. Die Mischung des Country-Sängers Alan Jackson mit ungewöhnlichen Genres wie Hip Hop und Punk führte jedoch nicht zu einer Stichprobe, die vom Country-Stil abwich.
Novel riffs Eine weitere nützliche Entwicklung von Jukebox ist, dass Sie verschiedene Fortsetzungen untersuchen können, indem Sie unvollständige Ideen aufzeichnen. Die Autoren kuratierten eine neuartige Riffaufnahme eines Musikers und bereiteten das Modell während des Samplings vor. Beispiel 6 beginnt mit einem Musikstil, der in Elton Johns Liedern selten verwendet wird. Beispiel 6 beginnt mit einem Musikstil, der in Elton Johns Songs nicht oft verwendet wird, aber das Modell geht noch einen Schritt weiter.
5.4. VQ-VAE Ablations
** Die obige Abbildung zeigt einen Vergleich von Rekonstruktionen aus verschiedenen VQ-VAEs, wobei die x-Achse die Zeit und die y-Achse die Frequenz ist. ** Von der linken zur rechten Spalte gibt es eine Rekonstruktion der unteren, mittleren und oberen Ebene mit Sprunglängen von 8, 32 und 128. Jedes wird als Mel-Spektrum-Gramm dargestellt. In der dritten Zeile können wir sehen, dass der Spektrumverlust entfernt wird und Hochfrequenzinformationen auf der Zwischenebene und der obersten Ebene verloren gehen. Zeile 4 verwendet eine hierarchische VQ-VAE (Razavi et al., 2019) anstelle eines separaten Auto-Encoders (Abbildung 1). Schließlich zeigt Zeile 5 die Basislinie unter Verwendung des Opus-Codecs, der Audio mit einer konstanten Bitrate codiert, die mit VQ-VAE vergleichbar ist. Es konnten auch keine hohen Frequenzen erfasst werden, wodurch signifikante Artefakte bei höchster Komprimierung hinzugefügt wurden.
6.Related Work
Generative models for music: Die Geschichte der Modelle der symbolischen Musikgeneration reicht mehr als ein halbes Jahrhundert zurück. Frühe Ansätze umfassen regelbasierte Systeme (Moorer, 1972), Chaos und Selbstähnlichkeit (Pressing, 1988), zelluläre Automaten (Beyls, 1989), verkettete Synthese (Jehan, 2005) und Constraint-Planung (Anders & Mi). Es gibt verschiedene Ansätze wie Randa (2011). Neuere datengetriebene Ansätze umfassen DeepBach (Hadjeres et al., 2017) und Coconet (Huang et al., 2017), die Gibbs-Sampling verwenden, um Noten im Stil von Bachs Chor zu erzeugen. Beispiele hierfür sind MidiNet (Yang et al., 2017) und MuseGAN (Dong et al., 2018), die ad lib verwenden.
Für symbolische Musikinformationen wie N Synth (Engel et al., 2017), Mel2Mel (Kim et al., 2019), Wave2Midi2Wave (Hawthorne et al., 2019) unter Verwendung eines automatischen Encoders im WaveNet-Stil. Es gibt auch viele Ansätze, um darauf basierende Musik zu synthetisieren.
Sample-level generation of audio:
In den letzten Jahren wurden verschiedene Sprachgenerierungsmodelle angekündigt. WaveNet (Oord et al., 2016) kann eine erweiterte Faltungsreihe verwenden, um die Länge des Kontexts exponentiell zu erhöhen. Dann wird eine selbstregressive probabilistische Modellierung der Rohwellenform von Probe zu Probe durchgeführt. Dies ermöglicht es, realistisches Audio auf dimensionslose Weise oder durch Konditionieren von akustischen Merkmalen und Spezifikationsprogrammen zu erzeugen.
Parallel WaveNet (Oord et al., 2018) ist eine Verbesserung, indem stattdessen eine Mischung aus Logistikverteilung und kontinuierlicher Wahrscheinlichkeitsverteilung sowie eine Wahrscheinlichkeitsdichteverteilung verwendet wird, die ein paralleles Feedforward-Netzwerk aus einem vorab trainierten Self-Return-Modell lernt. Durch Ausführen ist eine Hochgeschwindigkeitsabtastung von hoch reproduzierbarem Audio möglich.
WaveGlow (Prenger et al., 2019) ist ein flussbasiertes Modell für die parallele Audiosynthese auf Sample-Ebene, das mit einfachen, wahrscheinlichsten Schätzungen und daher den beiden für die Wissensdestillation erforderlichen Schritten trainiert werden kann Es ist vorteilhaft für den Trainingsprozess.
VQ-VAE Oord et al. (2017) führten VQ-VAE ein, einen Ansatz, bei dem sehr lange Kontexteingaben mithilfe der Vektorquantisierung auf eine diskrete latente Codierung mit längerer Länge heruntergesampelt werden. Als Ergebnis wurde gezeigt, dass es möglich ist, qualitativ hochwertige Bilder und Töne zu erzeugen und unbeaufsichtigte Ausdrücke von Phonemen zu lernen. Razavi et al. (2019) erweiterten das obige Modell, indem sie eine Hierarchie diskreter iterativer Darstellungen in das Bild einführten, und das resultierende Modell war lokal, wie eine Textur, in der unteren Hierarchie mit einem kleinen Rezeptorbereich. Wir haben gezeigt, dass es möglich ist, zu lernen, die Semantik auf hoher Ebene in die höchsten Schichten diskreter Codes mit den größten akzeptierenden Feldern zu trennen, während Features erfasst werden.
Speech synthesis Um eine natürliche menschliche Stimme zu erzeugen, müssen sprachliche Merkmale, Kartengeräusche und Steuerausdrücke verstanden werden. Viele Text-to-Speech-Systeme (TTS) verfügen über hochentwickelte Funktionen (Klatt, 1980), sorgfältig abgestimmte Tonsegmente (Hunt & Black, 1996) und statistische parametrische Modellierung (Zen et al., 2009). , Und (Arık et al., 2017) stützt sich auf mehr als ein Dutzend komplexer Pipelines.
Neuere Arbeiten wie Deep Voice3 (Ping et al., 2018), Tacotron 2 (Shen et al., 2018) und Char2Wav (Sotelo et al., 2017) verwenden eine Architektur zwischen Sequenzen, um die Stimme zu synthetisieren. Lernen Sie Ende-zu-Ende (Sutskever et al., 2014). Obwohl der Entwurfsraum sehr groß ist, besteht ein typischer Ansatz im Allgemeinen aus Textdarstellungen, Audiofunktionen und einem bidirektionalen Codierer, Decodierer und Vokabular zum Erstellen der endgültigen Rohwellenform.
7.Future work
Der Ansatz der Autoren konnte die Fähigkeit verbessern, konstant lange Musikbeispiele zu produzieren. Wir erkennen jedoch an, dass es für die zukünftige Arbeit mehrere Richtungen gibt. Die Produktion großartiger Musik muss über alle Zeitskalen hinweg von hoher Qualität sein. Die Autoren glauben, dass das aktuelle Modell im mittleren Bereich stark ist. Modelle produzieren oft sehr gute Klangbeispiele vor Ort mit einer Vielzahl interessanter Harmonien, Rhythmen, Instrumente und Stimmen.
Die Autoren waren beeindruckt, dass die erzeugte Melodie und der Rhythmus sehr gut zu den jeweiligen Texten passen. Obwohl das Sample über einen langen Zeitraum konsistent ist, stellt sich heraus, dass es nicht die traditionelle große musikalische Struktur aufweist (wie sich wiederholende Refrains oder Frage-und-Antwort-Melodie). Sie können auch Geräusche und Kratzer in den kleinen Tönen hören.
Außerdem dauert es beim aktuellen Modell ungefähr eine Stunde, um einen ** 1-minütigen Token der obersten Ebene zu generieren. ** Der Upsampling-Prozess ist sehr zeitaufwändig, da die Samples nacheinander verarbeitet werden. Derzeit dauert es ungefähr 8 Stunden, um eine Minute Token der obersten Ebene zu testen.
8.Conclusion Jukebox ist ein Modell, das Musik produziert, die verschiedene Stile und Künstler imitiert. In Jukebox können Sie Beispieltexte angeben, die auf Songs eines bestimmten Künstlers oder Genres basieren. Die Autoren trainierten die hierarchische VQ-VAE und legten die Details fest, die erforderlich sind, um die Musik effektiv in Token zu komprimieren. Frühere Studien haben Live-Audiomusik im Bereich von 20 bis 30 Sekunden produziert. Unser Modell hat es jedoch ermöglicht, Songs zu generieren, die Minuten lang sind und den natürlichen Klang einer erkennbaren Singstimme haben.
Ich möchte etwaige Fehler im Verständnis des Papiers während der Implementierung korrigieren.
Recommended Posts