[PYTHON] Précautions lors de l'utilisation de l'analyse des traits TextBlob

Précautions lors de l'utilisation de l'analyse des traits TextBlob

C'est une histoire très rudimentaire, mais j'ai trouvé quelques points à noter lors de l'utilisation d'une bibliothèque qui peut effectuer une analyse des sentiments.

A propos de l'analyse des caractéristiques TextBlob

Concernant TextBlob de la bibliothèque Python, si vous utilisez la méthode -.sentiment de cette bibliothèque, la Polarité et la Subjectivité (Polarité: polarité. Texte) des phrases simples Est positive ou négative. Subjectivité: indépendance. Que l'attitude de l'orateur soit positive ou négative) peut être analysée. Veuillez consulter le rapport analysé sur ici.

L'analyse des traits TextBlob est une boîte noire

Vous pouvez également utiliser la méthode .sentiment pour analyser les tendances dans les livres et le flux de conscience des personnages fictifs, mais le problème est que l'analyse des sentiments de TextBlob est une boîte noire.

Dans Documents officiels, Pattern of the University of Antwerp, Computational Linguistics and Psycholinguistics Il existe un guide qui utilise le module d'exploration de texte et l'ensemble de données, ainsi que le classificateur Naive Bayes de la bibliothèque NLTK. En d'autres termes, si vous ne connaissez pas les sources de ces deux, vous ne pouvez pas comprendre "Pourquoi cette valeur de polarité / indépendance est-elle sortie?" Il semble qu'il sera nécessaire de vérifier quel type de résultat de classification sera obtenu à l'avenir par la méthode .sentiment.

L'analyse des caractéristiques en tenant compte du contexte n'est pas possible

Plus important encore, "la méthode .sentiment de TextBlob ne permet pas l'analyse des traits contextuels." Dans le cadre de la vérification, j'ai écrit 10 lignes de texte contenant des rituels éthiques tels que les 10 commandements de Moïse, et j'ai comparé les textes avec les rituels exactement opposés ...

We must be ethical. We must have the independence of will. We must be based on the concept of duty. We must think universally. We must not tell lies. We must not kill ourselves. We must cultivate our talent very arbitrary. We must be kind to each other. We must preserve our own lives. We must secure our happiness. E_pos2.png

We must not be ethical. We must not have the independence of will. We must not be based on the concept of duty. We must not think universally. We must tell lies. We must kill ourselves. We must not cultivate our talent very arbitrary. We must not be kind to each other. We must not preserve our own lives. We must not secure our happiness. E_neg2.png

Le résultat est que les deux textes ont presque la même polarité et la même indépendance. J'avais prédit que les synonymes personnels et les verbes auxiliaires modaux, y compris moi-même, tels que «nous» et «devons» augmenteraient la subjectivité, mais apparemment ce n'est pas le cas. Notez également que l'ajout de «non» pour inverser complètement le sens de la phrase ne change pas du tout la polarité ou l'indépendance. En particulier,

  • "Nous ne devons pas être éthiques." *

Ces phrases sont également considérées comme des "textes positifs et indépendants".

Utilisation correcte de la caractérisation TextBlob

La méthode .sentiment de TextBlob ne peut analyser qu'une impression abstraite telle que "si le mot utilisé est totalement positif ou non?" Et "La personne qui l'a écrit est-elle vraiment indépendante et positive?" Il s'avère qu'il est inapproprié de connaître un profil spécifique tel que "?". Pour l'utiliser dans ce dernier but, il est nécessaire d'utiliser une autre bibliothèque capable d'analyser les caractéristiques du contexte, ou de saisir dans une certaine mesure le sens des phrases par analyse syntaxique et de l'utiliser pour l'étiquetage. Mon objectif actuel est d'utiliser les caractéristiques des modes de vie éthiques dans les ensembles de données d'apprentissage automatique, je voudrais donc rédiger un autre rapport une fois que j'ai trouvé une bonne solution.

Recommended Posts

Précautions lors de l'utilisation de l'analyse des traits TextBlob
Précautions lors de l'utilisation de Chainer
Précautions lors de l'utilisation de Pit avec Python
Précautions lors de l'utilisation de codecs et de pandas
Précautions lors de l'utilisation de la fonction urllib.parse.quote
Précautions lors de l'utilisation de phantomjs de python
Précautions lors de l'utilisation de six avec Python 2.5
Précautions lors de l'utilisation de l'instruction for dans les pandas
Précautions lors de l'utilisation de tf.keras.layers.TimeDistributed pour la couche personnalisée tf.keras
Précautions lors de l'utilisation de la bibliothèque google-cloud avec GAE / py
Analyse des données à l'aide de xarray
Résumé lors de l'utilisation de Fabric
Précautions à prendre lors de la manipulation de Luigi
Précautions lors de l'utilisation de sqlite3 de macOS Sierra (10.12) avec le multitraitement
Précautions lors de l'installation de fbprophet
Analyse orthologue à l'aide d'OrthoFinder
Points (personnels) lors de l'utilisation de ctypes
Variables d'environnement lors de l'utilisation de Tkinter
Précautions pour la mise à niveau de TensorFlow (vers la version 1.3)
Lors de l'utilisation d'optparse avec iPython
Analyse morphologique japonaise avec Janome
Paramètres de DEBUG lors de l'utilisation de Django
Lors de l'utilisation si et lors de l'utilisation pendant
Structure de fichier lors de l'utilisation d'exigences python sans serveur
Utilisez configparser lors de l'utilisation de l'API
Analyse de données à l'aide de pandas python
Précautions lors de l'utilisation d'une liste ou d'un dictionnaire comme argument par défaut