[PYTHON] Was sind die Merkmale von AV-Schauspielerinnen? Ich habe aus dem Titel der Arbeit geraten! (^ _ ^) / ~~

Einführung

Haben Sie sich jemals Sorgen um ** AV-Titel ** gemacht?

In diesem Moment hatte ich eine Frage.

"Der Titel der AV-Arbeit repräsentiert die Eigenschaften der AV-Schauspielerin, oder?" "Wenn ja, können Sie Ihre AV-Gewohnheit an ihren Eigenschaften erkennen."

Wenn Sie so denken, handeln Sie! Machen wir das

Dieses Mal werden wir die Hypothese mit einer Methode namens ** Wortwolke ** beweisen. (Ich möchte meine Lieblings ** Mia Nanasawa ** um Zusammenarbeit bitten.)

Was ist Word Cloud?

Eine "Wortwolke" ist ein einzelnes Bild von Wörtern, die häufig in einem Satz vorkommen. Dies ist eine der schnellsten und einfachsten Möglichkeiten, ein Gefühl für einen Satz zu bekommen, da Sie visuell sehen können, wie er ist.

HTML-Erfassung

import requests #Bibliothek zum Abrufen von Webseiten
from bs4 import BeautifulSoup #Eine Bibliothek, die Tags aus den erfassten HTML-Daten lesen und bedienen kann
url = "https://ja.wikipedia.org/wiki/%E4%B8%83%E6%B2%A2%E3%81%BF%E3%81%82" #Mia Nanasawas Wiki-URL
response = requests.get(url)
response.encoding = response.apparent_encoding #response.apparent_SHIFT ist der richtige Zeichencode für die Codierung_JIS wird gespeichert(Sie können verstümmelte Zeichen verhindern)
soup = BeautifulSoup(response.text, "html.parser") #BeautifulSoup(Zu analysierendes HTML/XML,Parser zu verwenden(Analysator))
#HTML kann eingerückt werden
print(soup.prettify())

image.png

Ich konnte den HTML-Code korrekt abrufen.

Erwerb von Arbeitsnamen

span_list1=soup.findAll("td")
titles=[]
for i in span_list1:
    tmp=i.find("b")
    if tmp==None:
        continue
    else:
        print(tmp.text)
        titles.append(tmp.text)
データ Die obige Ausgabe enthält Elemente, die für diese Analyse nicht benötigt werden, z. B. die Markierung "!" Und die Markierung "-", sodass wir sie von nun an entfernen werden.

Crazing

import re
changed_titles1=[]

for i in titles:
    tmp=re.sub("!","",i)
    tmp=re.sub(" ","",tmp)
    tmp=re.sub("!","",tmp)
    tmp=re.sub("!!","",tmp)
    tmp=re.sub("〜","",tmp)
    tmp=re.sub("~","",tmp)
    tmp=re.sub("-","",tmp)
    tmp=re.sub("・","",tmp)
    tmp=re.sub("「","",tmp)
    tmp=re.sub("」","",tmp)
    tmp=re.sub("Mia Nanasawa","",tmp)
    if tmp=="":
        continue
    else:
        changed_titles1.append(tmp)
changed_titles1
データ

Jetzt haben Sie die unnötigen Zeichen entfernt. Von hier aus beginnen wir mit der morphologischen Analyse.

Morphologische Analyse

import MeCab

changed_titles2=''.join(changed_titles1) #Muss eine Zeichenfolge aus der Liste sein
text = changed_titles2
m = MeCab.Tagger("-Ochasen")#Tagger-Instanziierung zum Parsen von Text

#Ich werde versuchen, nur die Nomenklatur zu entfernen
nouns = [line for line in m.parse(text).splitlines()#Bei Verwendung der Analysemethode der Tagger-Klasse wird das Ergebnis der morphologischen Analyse des Textes zurückgegeben
               if "Substantiv" in line.split()[-1]]
for str in nouns:
    print(str.split())
データ
nouns = [line.split()[0] for line in m.parse(text).splitlines()
               if "Substantiv" in line.split()[-1]]
print(nouns)
データ

Ergebnis ist! ??

from wordcloud import WordCloud
import matplotlib.pyplot as plt

text_new=""
for i in nouns:
    text_new = text_new + " " + i

word_cloud=WordCloud(background_color='white',font_path=r"C:\Users\tomoh\Maschinelles Lernen möglich\Wortwolke\meiryo.ttc",min_font_size=5,prefer_horizontal=1)
word_cloud.generate(text_new)

plt.figure(figsize=(10,8))
plt.imshow(word_cloud)
plt.axis("off")
plt.show()

七沢みあ七沢みあ

Sie können sehen, dass die obigen Ergebnisse die Eigenschaften von Mia Nanasawa ** korrekt ** darstellen.

Das liegt daran, dass ich die Erfahrung gemacht habe, Mia Nanasawas Videos anzuschauen, ohne ein einziges zu verpassen. (Es tut mir leid für meine Erfahrung.)

Zurückblicken, ** ・ Tundele ** ** ・ Provokation ** ** ・ Frauenuniversität ** Ich fühlte etwas, das mich sehr anzog.

Wenn ich eine Freundin hätte, wünschte ich, ich hätte diese drei Punkte ...

Vergleiche mit anderen Schauspielerinnen

高橋しょうこ高橋しょうこ

** Shoko Takahashi ** ist eine berühmte Schauspielerin, die ihr Debüt in der Tiefdruckwelt gab. Aus diesem Ergebnis können Sie nicht nur das Merkmal "Idol, Tiefdruck", sondern auch das Merkmal "älteres S-ki" aus dem Wort "Chef, ältere Schwester" ** lesen.

** Empfohlen für diejenigen mit M Temperament, die den Wunsch haben, wütend zu werden **.

三上悠亜三上悠亜

** Yua Mikami ** ist eine beliebte Schauspielerin, die zur ehemaligen SKE gehört. Aus diesem Ergebnis kann nicht nur das Merkmal von "Idol", sondern auch das Merkmal von ** Luxusseifendame ** aus dem Wort ** "Luxus, große Brüste, Seife" ** abgelesen werden.

Es wird für diejenigen empfohlen, die kein Geld haben, aber hochwertige Seife probieren möchten.

水卜さくら水卜さくら

** Sakura Miura ** ist eine Schauspielerin, die sich um Mia Nanasawa gekümmert hat, bevor sie sich in sie verliebt hat. Aus diesem Ergebnis können wir die Eigenschaften von ** "Brüsten, großen Brüsten, nüchtern" ** ablesen. Wahrscheinlich denke ich, dass es für diejenigen empfohlen wird, die Aniotas nüchterne vollbusige Frauen mögen.

Aus den obigen Ergebnissen ergibt sich Ich fand aus WordCloud heraus, dass ich ** "eine nüchterne, vollbusige, gestimmte Studentin" ** mag.

** Das kann sehr gut richtig sein **

In Bezug auf "große Brüste" stimmen Shoko Takahashi und Yua Mikami überein, Da es mehr Möglichkeiten gibt, Videos von Mia Nanasawa und Sakura Miura anzusehen, ** Diese Hypothese ist ein Beweis. ** ** **

Bitte probieren Sie es aus.

Recommended Posts

Was sind die Merkmale von AV-Schauspielerinnen? Ich habe aus dem Titel der Arbeit geraten! (^ _ ^) / ~~
Woran ich in der Aufnahmeprüfungsfrage "Bayes Statistics from the Basics" gedacht habe
Wenn ich einen ECR-Scan von einem CDK erstellt habe, konnte ich die Rückseite des Scans sehen
Nicht überraschend bekannt! ?? Was ist mit den eingebauten Funktionsargumenten? Aus welcher Schule kommst du? [Python]
Ich habe versucht, das Musikgenre anhand des Songtitels im Recurrent Neural Network vorherzusagen
Ich habe eine Emotionsradarkarte von Aozora Bunkos Arbeit erstellt
Was ich bei der Analyse der Daten des Ingenieurmarktes gesehen habe
Ich habe einen Linienbot erstellt, der das Geschlecht und das Alter einer Person anhand des Bildes errät
Ich möchte mit Python eine beliebige URL aus der Zeichenfolge der HTML-Quelle extrahieren