GReeeen hörte in seiner Jugend verrückt zu. Ich frage mich, warum ich es jetzt nicht gehört habe, obwohl ich es so oft gehört habe ... Ich fing an, so zu denken. Wir werden die Nachrichtentendenz von GReeeen's Songs visualisieren und die Texte analysieren, um zu verstehen, warum Sie aufgehört haben zuzuhören = warum Sie nicht mit dem Song sympathisieren konnten.
[Python] Ich habe den Text von Arashi mit WordCloud visualisiert und versucht, das zu enträtseln, was ich den Fans im 20. Jahr der Gründung vermitteln wollte.
https://qiita.com/yuuuusuke1997/items/122ca7597c909e73aad5
Uta-Net
https://www.uta-net.com/
Schaben aus Uta Net.
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
#Erstellen Sie eine Tabelle mit den Scraped-Daten
list_df = pd.DataFrame(columns=['Text'])
for page in range(1, 3):
#Top-Adresse der Song-Seite
base_url = 'https://www.uta-net.com'
#Textliste Seite
url = 'https://www.uta-net.com/artist/5384/' + str(page) + '/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
links = soup.find_all('td', class_='side td1')
for link in links:
a = base_url + (link.a.get('href'))
#Lyrics Detail Seite
response = requests.get(a)
soup = BeautifulSoup(response.text, 'lxml')
song_lyrics = soup.find('div', itemprop='lyrics')
song_lyric = song_lyrics.text
song_lyric = song_lyric.replace('\n','')
#Warten Sie 1 Sekunde, bis der Server nicht geladen ist
time.sleep(1)
#Fügen Sie die erworbenen Texte zur Tabelle hinzu
tmp_se = pd.DataFrame([song_lyric], index=list_df.columns).T
list_df = list_df.append(tmp_se)
print(list_df)
#CSV speichern
list_df.to_csv('/Users/Nutzername/greeeen/list.csv', mode = 'a', encoding='cp932')
from janome.tokenizer import Tokenizer
import pandas as pd
import re
#list.CSV-Datei lesen
df_file = pd.read_csv('/Users/Nutzername/greeeen/list.csv', encoding='cp932')
song_lyrics = df_file['Text'].tolist()
t = Tokenizer()
results = []
for s in song_lyrics:
tokens = t.tokenize(s)
r = []
for tok in tokens:
if tok.base_form == '*':
word = tok.surface
else:
word = tok.base_form
ps = tok.part_of_speech
hinshi = ps.split(',')[0]
if hinshi in ['Substantiv', 'Adjektiv', 'Verb', 'Adverb']:
r.append(word)
rl = (' '.join(r)).strip()
results.append(rl)
#Ersetzen des zusätzlichen Zeichencodes
result = [i.replace('\u3000','') for i in results]
print(result)
text_file = '/Users/Nutzername/greeeen/wakati_list.txt'
with open(text_file, 'w', encoding='utf-8') as fp:
fp.write("\n".join(result))
from wordcloud import WordCloud
text_file = open('/Users/Nutzername/greeeen/wakati_list.txt', encoding='utf-8')
text = text_file.read()
#Japanischer Schriftpfad
fpath = '/System/Library/Fonts/Hiragino Mincho ProN.ttc'
#Wortentfernung, die bedeutungslos erscheint
stop_words = ['damit', 'Abwesend', 'Ist', 'Machen', 'Wie es ist', 'Yo', 'Teru', 'Werden', 'Ding', 'Bereits', 'Gut', 'Gibt es', 'gehen', 'Sein']
wordcloud = WordCloud(background_color='white',
font_path=fpath, width=800, height=600, stopwords=set(stop_words)).generate(text)
#Das Bild ist Wordcloud.Speichern Sie png im selben Verzeichnis wie die py-Datei
wordcloud.to_file('./wordcloud.png')
Es gibt viele Wörter wie "wir" und "heute", die zeitlich und räumlich der Person oder der Gegenwart nahe stehen. Andere sind mit Fortschritt / Veränderung verbunden, wie "gehen", "vorrücken" und "ändern", und "wahrscheinlich" mit Unsicherheit tritt häufig auf. Danach können Sie "lachen" und "lächeln" sehen.
Diese Analyse hat gezeigt, dass mein erwachsener Verstand ziemlich rau ist.
Ich glaube, ich hatte ein kaltes Herz, um mich an die Gesellschaft anzupassen, aber es scheint, dass ich das heiße und gläubige Herz verloren habe, das ich in meiner Jugend hatte.
Basierend auf diesem Ergebnis werde ich mein Bestes geben, um Jugendlichkeit wie Jugend zu haben.
Ich denke, ich werde vorerst mehr lachen ...
Recommended Posts