[PYTHON] Emotionale Analyse umfangreicher Tweet-Daten durch NLTK

Einführung

Dieses Mal analysierte ich die Tweet-Daten von ** English ** für ungefähr ein Jahr mit der in ICWSM-14 vorgeschlagenen Emotionsanalysemethode namens VADER. Für VADER habe ich auf den Artikel Sentiment Analysis ist bei NLTK eingetroffen verwiesen. Vielen Dank.

VADER VADER ist in Pythons Paket zur Verarbeitung natürlicher Sprache nltk implementiert. Versuchen Sie es.


In [1]: from nltk.sentiment.vader import SentimentIntensityAnalyzer

In [2]: analyzer = SentimentIntensityAnalyzer()

In [3]: analyzer.polarity_scores("I am happy!!!")
Out[3]: {'compound': 0.6784, 'neg': 0.0, 'neu': 0.179, 'pos': 0.821}

Und "Verbindung", "Neg" (Nagativ), "Neu" (Neutral), "Pos" (Positiv) werden von 0 bis 1 ausgegeben.

Datensatz und Experiment

Englische Tweets, die von der Twitter Streaming API vom 31.10.2014 bis zum 28.10.2015 erhalten wurden (ich habe sie von meinem Senior erhalten!). Es gab 1089358 Tweets pro Tag. Für jeden Tweet wurde eine emotionale Analyse durchgeführt, und der Wert von "pos" wurde täglich gemittelt. Darüber hinaus wurden die endgültigen Daten so standardisiert, dass der Durchschnitt 0 und die Standardabweichung 1 betrug.

Verwandte Forschung (?)

In einem Artikel mit dem Titel Twitter-Stimmung sagt den Aktienmarkt voraus wurden die folgenden Ergebnisse mit OpinionFinder, einem Polaritätsanalysetool, und GPOMS erzielt, das sechs Arten von Emotionsfaktoren analysiert. Wurde erhalten. bollen.png Es wird erwartet, dass der Wert von "pos" dieses Mal nahe am Happy-Ergebnis von Opinion Finder und GPOMS liegt.

Ergebnis

Die erhaltenen Ergebnisse werden als Zeitreihendiagramm gezeichnet. figure_1.png Achten Sie darauf, dass einige Teile oben hervorstehen.

Thanksgiving (27.11.2014)

figure_1.png

Weihnachts- und Neujahrsfeiertage

figure_1.png

Valentinstag

figure_1.png

abschließend

Jeder ist positiv, wenn es eine Veranstaltung gibt, um Spaß zu haben! !! Ich wollte den Teil analysieren, in dem der Wert von "neg" groß ist, aber ich habe die Ursache doch nicht verstanden.

Recommended Posts

Emotionale Analyse umfangreicher Tweet-Daten durch NLTK
Analyse von Finanzdaten durch Pandas und deren Visualisierung (1)
Visualisierung von Daten nach Präfektur
Erste Satellitendatenanalyse von Tellus
10 Auswahlen der Datenextraktion durch pandas.DataFrame.query
Animation von Geodaten durch Geopandas
Empfehlung zur Datenanalyse mit MessagePack
Zeitreihenanalyse 3 Vorverarbeitung von Zeitreihendaten
Datenverarbeitung 2 Analyse verschiedener Datenformate
Eine einfache Datenanalyse von Bitcoin, die von CoinMetrics in Python bereitgestellt wird
Praxis der Datenanalyse durch Python und Pandas (Tokyo COVID-19 Data Edition)
Analysieren Sie die Mundpropaganda-Daten von Karriere-Change-Meetings mithilfe von Deep Learning emotional
Beispiel einer dreidimensionalen Skelettanalyse von Python
Emotionale Analyse von Tweets mit Deep Learning
Analyse des Röntgenmikrotomographiebildes durch Python
Vorhersage kurzlebiger Arbeiten von Weekly Shonen Jump durch maschinelles Lernen (Teil 1: Datenanalyse)
Analyse der gemeinsamen Raumnutzung durch maschinelles Lernen
Aufgezeichnete Umgebung für die Datenanalyse mit Python
Geschichte rund um die Datenanalyse durch maschinelles Lernen
Datenanalyse Python
Datenanalyse Titanic 1
Datenanalyse Titanic 3
[Python] [Word] [python-docx] Einfache Analyse von Diff-Daten mit Python
Lassen Sie uns die Daten der Fragebogenumfrage analysieren [4 .: Emotionsanalyse]
Abnormalitätserkennung von Zeitreihendaten durch LSTM (Keras)
Versuchen Sie eine rudimentäre Stimmungsanalyse für Twitter Stream API-Daten.
Analyse der Messdaten ①-Memorandum of Scipy Fitting-
Geschichte der Bildanalyse von PDF-Dateien und Datenextraktion
Analyse der Messdaten (2) -Hydrobacter und Anpassung, lmfit Empfehlung-
Visualisierung von Daten anhand einer erklärenden Variablen und einer objektiven Variablen
Lassen Sie uns die Emotionen von Tweet mit Chainer (1.) analysieren.