Ich habe mich für Wordcloud entschieden und es als Memorandum veröffentlicht
Wenn Sie "Was ist Mecab?" Fragen, klicken Sie bitte [hier] 1, da Mecab verwendet wird.
Ich habe versucht, von der Installation von Wordcloud bis zur Bildausgabe zusammenzufassen
Die Artikelbeschreibung lautet wie folgt
Da es eine große Sache ist, werde ich das Problem ausgeben, das von wordcloud ausgegeben wird (lacht)
Ich werde die Antwort in ** Fazit ** schreiben!
Eine Methode zum Auswählen mehrerer Wörter, die häufig in einem Satz vorkommen, und Anzeigen in einer Größe entsprechend der Häufigkeit.
Der Beamte ist [hier] 2
Die Installation kann sofort durch Installation mit Pip usw. verwendet werden.
pip install wordcloud
Ich denke, es ist schneller, Bilder zu erklären, deshalb habe ich versucht, sie sofort zu verschieben Die hier verwendete Geschichte ist "Rotkäppchen"
import MeCab
from wordcloud import WordCloud
FILE_NAME = "sample.txt"
with open(FILE_NAME, "r", encoding="utf-8") as f:
CONTENT = f.read()
tagger = MeCab.Tagger("-Owakati")
parse = tagger.parse(CONTENT)
wordcloud = WordCloud()
wordcloud.generate(CONTENT)
wordcloud.to_file("wordcloud.png ")
wordcloud = WordCloud()
Wortwolkenobjekt zum Erzeugen und Zeichnen
wordcloud.generate ("string")
Erstellen Sie eine Wortwolke aus Text (Zeichenfolge)
wordcloud.to_file ("Fotoname")
In Bilddatei exportieren
Mit den obigen Schritten wird ein Wordcloud-Bild erstellt
In der Wortwolke werden häufig verwendete Wörter in großer Größe angezeigt
Beachten Sie jedoch, dass ** Ein-Buchstaben-Wörter ** wie A und ich nicht angezeigt werden!
Es ist zu sehen, dass Großmutter, Rotkäppchen und Rotreiten häufig in "Rotreiten" verwendet werden.
Sie können in WordCloud Einstellungen hinzufügen, z. B. Hintergründe und Zeichenbeschränkungen
Hier sind einige der Einstellungen, die Sie am häufigsten verwenden.
parameter | Standard | Erläuterung |
---|---|---|
width | 400 | Breite |
height | 200 | Vertikale Breite |
background_color | "black" | Hintergrundfarbe |
colormap | None | Buchstabenfarbe |
collocations | True | Gemeinsame Sprache |
stopwords | None | Auszuschließende Wörter (Liste) |
max_words | 200 | Maximale Anzahl der anzuzeigenden Wörter |
regexp | r"\w[\w']+" | Regulärer Ausdruck des angezeigten Zeichens |
Das vorherige Bild ist etwas klein (weil es für Qiita ist)
Wenn Sie versuchen, 1080 vertikal und 1920 horizontal festzulegen, was auch der Größe des Desktops entspricht, sieht es wie folgt aus
wordcloud = WordCloud(width=1920, height=1080)
Der Hintergrund und die Textfarbe sind schwer zu erkennen ...
Deklarieren Sie die Hintergrundfarbe, die Sie angeben möchten Da es mehrere Bildfarben von Zeichen gibt, deklarieren Sie diese.
Diesmal ist die Hintergrundfarbe weiß und die Bildfarbe der Zeichen ist Sommer.
wordcloud = WordCloud(background_color="white", colormap="summer")
Auf dem Bildschirm wird häufig "Rot" angezeigt, z. B. "Reiten" und "Rot".
Versuchen Sie also, die Einstellungen wie folgt vorzunehmen Sehr praktisch, da Sie eine Kombination von Wörtern als separate Wörter beurteilen können
wordcloud = WordCloud(background_color="white", colormap="summer", collocations=False)
Es macht nicht viel Sinn, Wörter wie "the, and, to" auf wordcloud zu setzen
Wenn Sie diese Wörter nicht anzeigen möchten, können Sie sie mithilfe eines Arrays wie folgt deklarieren. (Versuchen Sie diesmal aus Gründen der Klarheit, ["Little", "Großmutter"] nicht anzuzeigen.)
wordcloud = WordCloud(background_color="white", colormap="summer", collocations=False, stopwords=["Little", "grandmother"])
wordcloud ist standardmäßig auf 200 Zeichen eingestellt Sie können festlegen, wie viele Zeichen ausgegeben werden sollen, indem Sie die folgenden Einstellungen vornehmen.
wordcloud = WordCloud(background_color="white", colormap="summer", collocations=False, stopwords=["Little", "grandmother"], max_words=10])
Wenn Sie dies betrachten, scheint es, dass Sie Daten erhalten können, die gut zu sein scheinen, wenn Sie um [das, und, bis] löschen? ??
Wie oben erwähnt, kann wordcloud keine Wörter mit einem Buchstaben ausgeben. Durch die Einschränkung mit regulärem Ausdruck können sogar Wörter mit einem oder mehreren Zeichen unterstützt werden.
wordcloud = WordCloud(background_color="white", colormap="summmer", collocations=False, stopwords=["the", "and", "to"], max_words=20, regexp=r"[\w']+")
Es ist verständlich, dass ** a ** am häufigsten vorkommt ...
Erzähl mir mehr! Aus [Offiziell] 2
Wenn Sie mit dem obigen Programm einen japanischen Satz spielen, sehen Sie das folgende Bild ...
Dies liegt daran, dass die in Wordcloud verwendete Schriftart kein Japanisch unterstützt.
So können Sie die Schriftart einstellen
Die Schriftarteinstellungen sind wie folgt
FONT_FILE = "C:\Windows\Fonts\MSGOTHIC.TTC" wordcloud = WordCloud(font_path=FONT_FILE, background_color="white", colormap="summer", collocations=False, regexp=r"[\w']+")
e? Warum MS Gothic? ** Ehemaliger Coboler ** Deshalb! (Diejenigen, die verstehen ... denke ich)
Deshalb war die Ausgabe so
Ich habe die Wortwolke grob zusammengefasst
Die Antwort auf die vorherige Frage lautet übrigens ...
** Drei Ferkel **!
Wortwolke ist ein Wort, das oft große Buchstaben hat Das Bild betrachten
little pig house
Die obigen drei sind die Wörter, die oft vorkommen!
Indem Sie es zu einer solchen Wortwolke machen, Es kann auch als Index verwendet werden, z. B. was die Zeichenfolge darstellt (˘ω˘).
Recommended Posts