Einführung

Der Titel lautet "Was sagt diese Person?" (Lacht). Ich habe versucht, es mit 4 aufeinander folgenden Feiertagen zu schaffen und die Verarbeitung natürlicher Sprache zu studieren. In naher Zukunft werde ich es irgendwo im Web verfügbar machen.

Konzept und fertiges Bild

In dem Moment, als ich diese Geschichte fand, schrieb ich die aktuelle Situation auf (wie sie ist) → Probleme → was sie sein sollte (sein). Wie erwartet ein Geschäftsmann (lacht)

Der folgende Mechanismus kam auf, als ich darüber nachdachte, wie ich es machen sollte. ↓ Erstellen Sie intern einen Mistil-Lyrics-Datensatz und konvertieren Sie ihn in Word2Vec. Die Word2Vec-Verarbeitung wird auch nach meinen Gefühlen durchgeführt, und ähnliche Texte werden durch Ähnlichkeit gezogen.

PoC war fertig!

Ich habe schnell versucht, das obige Gesamtbild zu realisieren. Ergebnis ... ** Für mein Gefühl, dass "Ich kann nicht schlafen" ** ** "Mitglied der Gesellschaft werden und die Last tragen, an das Licht erinnert zu werden" ** ist das erste Ich kam zurück zu. Eh ... ich habe es so tief gelesen ... lol

Was Sie verwenden

Morphologische Analyse: janome.tokenizer Word2Vec: word2vec in gensim.models

from janome.tokenizer import Tokenizer
from gensim.models import word2vec

Die Texte werden durch morphologische Analyse zerstört und Word2Vec wird für jedes Wort verwendet. Schließlich wird Word2Vec mit einem Satz von Texten vervollständigt, indem der Durchschnitt der Vektoren ermittelt wird.

↓ Ergebnisse der morphologischen Analyse

Word2Vec Teil des Textes

# skip-gram Mr.Kindertexte(sentences)Machen Sie also ein w2v-Modell.
skipgram_model = word2vec.Word2Vec(sentences,
                                   sg=1,
                                   size=250,
                                   min_count=2,
                                   window=10, seed=1234)



#Verwenden Sie Word2Vec für jedes Wort, das morphologisch analysiert wurde, und mitteln Sie schließlich die Funktion => Kann Word2Vec den Kontext der Texte widerspiegeln?
def avg_document_vector(data, num_features):
    document_vec = np.zeros((len(data), num_features))
    for i, doc_word_list in enumerate(data):
        feature_vec = np.zeros((num_features,), dtype="float32")
        for word in doc_word_list:
            try:
                feature_vec = np.add(
                    feature_vec, skipgram_model.wv.__getitem__(word))
            except:
                pass

        feature_vec = np.divide(feature_vec, len(doc_word_list))
        document_vec[i] = feature_vec
    return document_vec

abschließend

Ich fand es interessant, Wörter in Vektoren umzuwandeln und den Grad der Übereinstimmung zu sehen. Ich möchte auch BERT studieren. Es ist dringend erforderlich, die Anzahl der Songs zu erhöhen, um dieses Spiel zu einem Dienst zu machen. (Stand 29. Juli 2020: 5 Lieder .. lol) Ich werde weiterhin stetig Songs sammeln.

Trotzdem bin ich froh, dass ich diese Art von Spiel in den vier aufeinander folgenden Ferien spielen kann, da ich mehr Fähigkeiten bekomme! !!

[PYTHON] Ich möchte meine Gefühle mit den Texten von Mr. Children ausdrücken

Einführung

Konzept und fertiges Bild

PoC war fertig!

Was Sie verwenden

abschließend