[PYTHON] Kaggle Memorandum ~ NLP mit Katastrophen-Tweets Teil 1 ~

Fordern Sie Kaggle heraus

Ich versuchte es mit Kaggle, das ich nach langer Zeit eine Weile nicht mehr berührt hatte.

Klicken Sie hier, um ↓ herauszufordern Real or Not? NLP with Disaster Tweets https://www.kaggle.com/c/nlp-getting-started

Legen Sie das Dataset zunächst in einem DataFrame ab.

import os
import pandas as pd

for dirname, _, filenames in os.walk('../input/nlp-getting-started'):
    for filename in filenames:
        path = os.path.join(dirname, filename)
        exec("{0}_df = pd.read_csv(path)".format(filename.replace(".csv","")))

Ich habe den folgenden Code erstellt, in dem ich dachte, dass möglicherweise eine Korrelation zwischen einem bestimmten Wort und dem Katastrophenereignis Tweet besteht.

# Trennen Sie Tweet-Anweisungen nach Wort und speichern Sie sie in DataFrame
words_df = pd.DataFrame([], columns = ['words' , 'target_count'])
for index,item in train_df[['text','target']].iterrows():
    word_df = pd.DataFrame([], columns = ['words' , 'target_count'])
    word_df['words'] = item[0].split(' ')
    word_df['target_count'] = item[1]
    words_df = pd.concat([words_df,word_df])

# Grenzen Sie Wörter mit 5 oder mehr Zeichen ein, um Stoppwörter auszuschließen
long_words_df = words_df[words_df['words'].str.len() > 5]
# Gruppieren Sie das gleiche Wort und zeigen Sie das aggregierte Ergebnis an
long_words_df.groupby(['words']).sum().sort_values("target_count", ascending=False)

Das Ergebnis ist wie folgt. Ich bin neugierig, dass das Wort Hiroshima in die Spitze gräbt.

words target_count
California 86
killed 86
people 83
suicide 71
disaster 59
Hiroshima 58

Recommended Posts

Kaggle Memorandum ~ NLP mit Katastrophen-Tweets Teil 1 ~
Kaggle Competition Hands On: Echt oder nicht? NLP mit Katastrophen-Tweets ~ EDA / Preprocessing ~
Maschinelles Lernen beginnend mit Python Personal Memorandum Part2
Maschinelles Lernen beginnend mit Python Personal Memorandum Part1
Kaggle Zusammenfassung: Redhat (Teil 1)
Kaggle ~ Gehäuseanalyse Part ~ Teil1
Tweets mit Python sammeln
Python Basic Memorandum Teil 2
Sandkasten mit neo4j Teil 10
Holen Sie sich Tweets mit Tweepy
Kaggle Zusammenfassung: Redhat (Teil 2)