Dies ist die Aufzeichnung der 76. "Kennzeichnung" von Language Processing 100 Knock 2015. Knocks Frageninhalt ist mit Vorhersagen für Trainingsdaten gekennzeichnet, aber diesmal wage ich es, dies mit Testdaten zu tun. Bis jetzt habe ich es nicht in den Block gepostet, da es im Grunde dasselbe war wie "Amateur-Sprachverarbeitung 100 Klopfen". , "Kapitel 8: Maschinelles Lernen" wurde ernst genommen und teilweise geändert. Ich werde posten. Ich benutze hauptsächlich scikit-learn.
Verknüpfung | Bemerkungen |
---|---|
076.Beschriftung.ipynb | Antwortprogramm GitHub Link |
100 Klicks Amateur-Sprachverarbeitung:76 | Ich bin Ihnen immer zu Dank verpflichtet, wenn ich auf 100 Sprachverarbeitung klopfe |
Einführung in Python mit 100 Klopfen Sprachverarbeitung#76 -Maschinelles Lernen, Scikit-Vorhersagewahrscheinlichkeit beim Lernen | scikit-Klopfen Sie das Ergebnis mit lernen |
Art | Ausführung | Inhalt |
---|---|---|
OS | Ubuntu18.04.01 LTS | Es läuft virtuell |
pyenv | 1.2.15 | Ich benutze pyenv, weil ich manchmal mehrere Python-Umgebungen benutze |
Python | 3.6.9 | python3 auf pyenv.6.Ich benutze 9 3.7 oder 3.Es gibt keinen tiefen Grund, keine 8er-Serie zu verwenden Pakete werden mit venv verwaltet |
In der obigen Umgebung verwende ich die folgenden zusätzlichen Python-Pakete. Einfach mit normalem Pip installieren.
Art | Ausführung |
---|---|
matplotlib | 3.1.1 |
numpy | 1.17.4 |
pandas | 0.25.3 |
scikit-learn | 0.21.3 |
In diesem Kapitel [Satzpolaritätsdatensatz] von Movie Review Data, veröffentlicht von Bo Pang und Lillian Lee. v1.0](http://www.cs.cornell.edu/people/pabo/movie-review-data/rt-polaritydata.README.1.0.txt) wird verwendet, um den Satz positiv oder negativ zu machen. Arbeiten Sie an der Aufgabe (Polaritätsanalyse), um sie als (negativ) zu klassifizieren.
Wenden Sie das logistische Regressionsmodell auf die Trainingsdaten an und geben Sie das richtige Etikett, das vorhergesagte Etikett und die vorhergesagte Wahrscheinlichkeit in tabulatorgetrenntem Format aus.
Dieses Mal wird der Teil "für Trainingsdaten" ignoriert und die Testdaten werden verwendet. Ich dachte, dass Testdaten nützlicher wären als Trainingsdaten.
Grundsätzlich [vorheriges "Antwortprogramm (Analyse) 075. Gewicht von identity.ipynb"](https://github.com/YoheiFukuhara/nlp100/blob/master/08.%E6%A9%9F%E6% A2% B0% E5% AD% A6% E7% BF% 92 / 075.% E7% B4% A0% E6% 80% A7% E3% 81% AE% E9% 87% 8D% E3% 81% BF.ipynb ) Mit Vorhersage- und Dateiausgabelogik.
import csv
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin
#Klasse zur Verwendung der Wortvektorisierung in GridSearchCV
class myVectorizer(BaseEstimator, TransformerMixin):
def __init__(self, method='tfidf', min_df=0.0005, max_df=0.10):
self.method = method
self.min_df = min_df
self.max_df = max_df
def fit(self, x, y=None):
if self.method == 'tfidf':
self.vectorizer = TfidfVectorizer(min_df=self.min_df, max_df=self.max_df)
else:
self.vectorizer = CountVectorizer(min_df=self.min_df, max_df=self.max_df)
self.vectorizer.fit(x)
return self
def transform(self, x, y=None):
return self.vectorizer.transform(x)
#Parameter für GridSearchCV
PARAMETERS = [
{
'vectorizer__method':['tfidf', 'count'],
'vectorizer__min_df': [0.0003, 0.0004],
'vectorizer__max_df': [0.07, 0.10],
'classifier__C': [1, 3], #Ich habe auch 10 ausprobiert, aber der SCORE ist niedrig, nur weil er langsam ist
'classifier__solver': ['newton-cg', 'liblinear']},
]
#Datei lesen
def read_csv_column(col):
with open('./sentiment_stem.txt') as file:
reader = csv.reader(file, delimiter='\t')
header = next(reader)
return [row[col] for row in reader]
x_all = read_csv_column(1)
y_all = read_csv_column(0)
x_train, x_test, y_train, y_test = train_test_split(x_all, y_all)
def train(x_train, y_train, file):
pipline = Pipeline([('vectorizer', myVectorizer()), ('classifier', LogisticRegression())])
#clf steht für Klassifizierung
clf = GridSearchCV(
pipline, #
PARAMETERS, #Parametersatz, den Sie optimieren möchten
cv = 5) #Anzahl der Kreuztests
clf.fit(x_train, y_train)
pd.DataFrame.from_dict(clf.cv_results_).to_csv(file)
print('Grid Search Best parameters:', clf.best_params_)
print('Grid Search Best validation score:', clf.best_score_)
print('Grid Search Best training score:', clf.best_estimator_.score(x_train, y_train))
#Ausgabe des Elementgewichts
output_coef(clf.best_estimator_)
return clf.best_estimator_
#Ausgabe des Elementgewichts
def output_coef(estimator):
vec = estimator.named_steps['vectorizer']
clf = estimator.named_steps['classifier']
coef_df = pd.DataFrame([clf.coef_[0]]).T.rename(columns={0: 'Coefficients'})
coef_df.index = vec.vectorizer.get_feature_names()
coef_sort = coef_df.sort_values('Coefficients')
coef_sort[:10].plot.barh()
coef_sort.tail(10).plot.barh()
def validate(estimator, x_test, y_test):
for i, (x, y) in enumerate(zip(x_test, y_test)):
y_pred = estimator.predict_proba([x])
if y == np.argmax(y_pred).astype( str ):
if y == '1':
result = 'TP:Die richtige Antwort ist positiv und die Vorhersage ist positiv'
else:
result = 'TN:Die richtige Antwort ist negativ und die Vorhersage ist negativ'
else:
if y == '1':
result = 'FN:Die richtige Antwort ist positiv und die Vorhersage ist negativ'
else:
result = 'FP:Die richtige Antwort ist negativ und die Vorhersage ist positiv'
print(result, y_pred, x)
if i == 29:
break
#TSV-Listenausgabe
y_pred = estimator.predict(x_test)
y_prob = estimator.predict_proba(x_test)
results = pd.DataFrame([y_test, y_pred, y_prob.T[1], x_test]).T.rename(columns={ 0: 'Richtige Antwort', 1 : 'Prognose', 2: 'Prognose確率(positiv)', 3 :'Wortzeichenfolge'})
results.to_csv('./predict.txt' , sep='\t')
estimator = train(x_train, y_train, 'gs_result.csv')
validate(estimator, x_test, y_test)
Die folgende tabulatorgetrennte Datei wird von der Funktion "to_csv" von "pandas" ausgegeben.
Säule | Artikel | Beispiel | |
---|---|---|---|
1. Reihe | Richtiges Antwortetikett | もともと持っていたRichtiges Antwortetikett | 0(0 ist negativ) |
2. Reihe | Vorhersage-Label | predict_proba Vorhersageergebnis erhalten mit der Funktion |
0(0 ist negativ) |
3. Reihe | Vorhersagewahrscheinlichkeit | predict_proba 関数を使って取得したVorhersagewahrscheinlichkeit。Die zweite Spalte des Rückgabewerts der Funktion ist die Wahrscheinlichkeit, positiv zu sein |
0.4436 |
4. Reihe | Wortzeichenfolge | もともと持っていたWortzeichenfolgeの説明変数 | empti shell epic rather real deal |
#TSV-Listenausgabe
y_pred = estimator.predict(x_test)
y_prob = estimator.predict_proba(x_test)
results = pd.DataFrame([y_test, y_pred, y_prob.T[1], x_test]).T.rename(columns={ 0: 'Richtige Antwort', 1 : 'Prognose', 2: 'Prognose確率(positiv)', 3 :'Wortzeichenfolge'})
results.to_csv('./predict.txt' , sep='\t')
Ausgabedatei [Predict.txt](https://github.com/YoheiFukuhara/nlp100/blob/master/08.%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF% 92 / Predict.txt) ist auf GitHub.