[PYTHON] Vorsichtsmaßnahmen bei der Verwendung der TextBlob-Merkmalsanalyse

Vorsichtsmaßnahmen bei der Verwendung der TextBlob-Merkmalsanalyse

Es ist eine sehr rudimentäre Geschichte, aber ich habe einige Punkte gefunden, die bei der Verwendung einer Bibliothek, die Stimmungsanalysen durchführen kann, zu beachten sind.

Informationen zur TextBlob-Charakteristikanalyse

In Bezug auf TextBlob der Python-Bibliothek, wenn Sie die -.sentiment-Methode dieser Bibliothek verwenden, die Polarität und Subjektivität (Polarität: Polarität. Text) einfacher Sätze Ist positiv oder negativ. Subjektivität: Unabhängigkeit. Ob die Haltung des Sprechers positiv oder negativ ist, kann analysiert werden. Bitte werfen Sie einen Blick auf den analysierten Bericht unter hier.

Die TextBlob-Merkmalsanalyse ist eine Black Box

Sie können auch die .sentiment-Methode verwenden, um Trends in Büchern und den Bewusstseinsfluss fiktiver Charaktere zu analysieren. Das Problem ist jedoch, dass die Stimmungsanalyse von TextBlob eine Black Box ist.

In den offiziellen Dokumenten, Muster der Universität Antwerpen, Computerlinguistik und Psycholinguistik Es gibt eine Anleitung, die das Text Mining-Modul und den Datensatz sowie den Naive Bayes-Klassifikator der NLTK-Bibliothek verwendet. Mit anderen Worten, wenn Sie die Quellen dieser beiden nicht kennen, können Sie nicht verstehen, warum dieser Wert für Polarität / Unabhängigkeit herausgekommen ist. Es scheint notwendig zu sein, zu überprüfen, welche Art von Klassifizierungsergebnis in Zukunft mit der .sentiment-Methode erzielt wird.

Eine charakteristische Analyse unter Berücksichtigung des Kontexts ist nicht möglich

Am wichtigsten ist: "Die .sentiment-Methode von TextBlob ermöglicht keine kontextsensitive Analyse von Merkmalen." Im Rahmen der Überprüfung schrieb ich 10 Textzeilen mit ethischen Ritualen wie Moses '10 Geboten und verglich die Texte mit den genau entgegengesetzten Ritualen ...

We must be ethical. We must have the independence of will. We must be based on the concept of duty. We must think universally. We must not tell lies. We must not kill ourselves. We must cultivate our talent very arbitrary. We must be kind to each other. We must preserve our own lives. We must secure our happiness. E_pos2.png

We must not be ethical. We must not have the independence of will. We must not be based on the concept of duty. We must not think universally. We must tell lies. We must kill ourselves. We must not cultivate our talent very arbitrary. We must not be kind to each other. We must not preserve our own lives. We must not secure our happiness. E_neg2.png

Das Ergebnis ist, dass beide Texte fast die gleiche Polarität und Unabhängigkeit haben. Ich hatte vorausgesagt, dass Hilfsverben, die persönliche Synonyme und Modalitäten darstellen, einschließlich meiner selbst, wie „Wir“ und „Muss“, die Subjektivität erhöhen würden, aber anscheinend ist dies nicht der Fall. Beachten Sie auch, dass das Hinzufügen von "nicht", um die Bedeutung des Satzes vollständig umzukehren, die Polarität oder Unabhängigkeit überhaupt nicht ändert. Insbesondere,

  • "Wir dürfen nicht ethisch sein." *

Solche Sätze gelten auch als "positive und unabhängige Texte".

Richtige Verwendung der TextBlob-Charakterisierung

Die .sentiment-Methode von TextBlob kann nur einen abstrakten Eindruck analysieren, z. B. "ob das verwendete Wort vollständig positiv ist oder nicht?" Und "Ist die Person, die es geschrieben hat, wirklich unabhängig und positiv?" Es stellt sich heraus, dass es unangemessen ist, ein bestimmtes Profil wie "?" Zu kennen. Um es für den letzteren Zweck zu verwenden, ist es notwendig, eine andere Bibliothek zu verwenden, die Merkmale aus dem Kontext analysieren kann, oder die Bedeutung von Sätzen bis zu einem gewissen Grad durch syntaktische Analyse zu erfassen und zur Kennzeichnung zu verwenden. Mein aktuelles Ziel ist es, die Merkmale ethischer Lebensmethoden in Datensätzen für maschinelles Lernen zu verwenden. Daher möchte ich einen weiteren Bericht schreiben, sobald ich eine gute Lösung gefunden habe.

Recommended Posts

Vorsichtsmaßnahmen bei der Verwendung der TextBlob-Merkmalsanalyse
Vorsichtsmaßnahmen bei der Verwendung von Chainer
Vorsichtsmaßnahmen bei der Verwendung von Pit mit Python
Vorsichtsmaßnahmen bei der Verwendung von Codecs und Pandas
Vorsichtsmaßnahmen bei Verwendung der Funktion urllib.parse.quote
Vorsichtsmaßnahmen bei der Verwendung von Phantomjs aus Python
Vorsichtsmaßnahmen bei Verwendung von sechs mit Python 2.5
Vorsichtsmaßnahmen bei Verwendung der for-Anweisung in Pandas
Vorsichtsmaßnahmen bei der Verwendung von tf.keras.layers.TimeDistributed für die benutzerdefinierte Ebene von tf.keras
Vorsichtsmaßnahmen bei Verwendung der Google Cloud-Bibliothek mit GAE / py
Datenanalyse mit xarray
Zusammenfassung bei Verwendung von Fabric
Vorsichtsmaßnahmen beim Umgang mit Luigi
Vorsichtsmaßnahmen bei Verwendung von sqlite3 von macOS Sierra (10.12) mit Multiprocessing
Vorsichtsmaßnahmen bei der Installation von fbprophet
Orthologe Analyse mit OrthoFinder
(Persönliche) Punkte bei Verwendung von ctypes
Umgebungsvariablen bei Verwendung von Tkinter
Vorsichtsmaßnahmen für das TensorFlow-Upgrade (auf 1.3)
Bei Verwendung von optparse mit iPython
Japanische morphologische Analyse mit Janome
DEBUG-Einstellungen bei Verwendung von Django
Bei Verwendung von if und bei Verwendung von while
Dateistruktur bei Verwendung von Serverless-Python-Anforderungen
Verwenden Sie configparser, wenn Sie die API verwenden
Datenanalyse mit Python-Pandas
Vorsichtsmaßnahmen bei Verwendung einer Liste oder eines Wörterbuchs als Standardargument