[PYTHON] Das Geschlecht wird aus dem Namen bestimmt.

pip install nltk

import nltk
import random
from nltk import classify
from nltk import NaiveBayesClassifier as NBC

Daten

Bereiten Sie eine Liste mit männlichen Namen (männliche Liste) und eine Liste mit weiblichen Namen (weibliche Liste) vor. (Romaji) (Die Anzahl der Proben ist gleich) (Nur der Vorname unter dem Vor- und Nachnamen)

Beispiel: malelist = ['kazuo', 'kenji', ...]

`name.py`


def feature_extraction(word):
    return {"last":word[-3:]}
#Funktion zum Extrahieren nur der letzten 3 Zeichen des Namens

maleNames=[(name, "male")for name in malelist]
femaleNames = [(name, 'female')for name in femalelist]
allNames = maleNames + femaleNames #Treten Sie der Liste der Männer und der Liste der Frauen bei
random.shuffle(allNames) #Mische den Inhalt der Liste

featureData=[(feature_extraction(n),gender) for (n,gender) in allNames]
#[(Drei Buchstaben dahinter,Sex),(Drei Buchstaben dahinter,Sex),(Drei Buchstaben dahinter,Sex)・ ・ ・]In Form von

genderIdentifier=NBC.train(featureData)

#Wenn Sie die Genauigkeit überprüfen möchten, fühlen Sie sich wie Sie,
#num=7*len(featureData)//Von 10 Daten
#train_data=featureData[num:]
#test_data=featureData[:num]
#genderIdentifier=NBC.train(train_data)

So speichern Sie das von Ihnen erstellte Modell

import pickle
f = open('my_classifier.pickle', 'wb')
pickle.dump(genderIdentifier, f)
f.close()

So laden Sie ein gespeichertes Modell

import pickle
f = open('my_classifier.pickle', 'rb')
classifier = pickle.load(f)
f.close()

Referenz

Save Naive Bayes Trained Classifier in NLTK

Machine Learning Model - Gender Identifier with NLTK in less than 15 lines of code