[PYTHON] 100 coups de traitement du langage amateur: 88

C'est un record de défi de 100 langues de traitement knock 2015. L'environnement est Ubuntu 16.04 LTS + Python 3.5.2 : : Anaconda 4.1.1 (64 bits). Cliquez ici pour une liste des coups passés (http://qiita.com/segavvy/items/fb50ba8097d59475f760).

Chapitre 9: Méthode de l'espace vectoriel (I)

enwiki-20150112-400-r10-105752.txt.bz2 Le texte de 105 752 articles est-il échantillonné au hasard au 1/10 des articles composés d'environ 400 mots ou plus parmi les articles de Wikipedia anglais au 12 janvier 2015, compressé au format bzip2. y a-t-il. En utilisant ce texte comme corpus, je souhaite apprendre un vecteur (expression distribuée) qui exprime le sens d'un mot. Dans la première moitié du chapitre 9, le processus d'apprentissage du vecteur de mot est mis en œuvre en le divisant en plusieurs processus en appliquant l'analyse en composantes principales à la matrice de cooccurrence de contexte de mot créée à partir du corpus. Dans la seconde moitié du chapitre 9, le vecteur de mots (300 dimensions) obtenu par apprentissage est utilisé pour calculer la similitude des mots et analyser (analogique).

Notez que si le problème 83 est implémenté de manière obéissante, une grande quantité (environ 7 Go) de stockage principal sera nécessaire. Si vous manquez de mémoire, concevez un processus ou un corpus d'échantillonnage 1/100 enwiki-20150112-400-r100-10576.txt.bz2 Utilisez /nlp100/data/enwiki-20150112-400-r100-10576.txt.bz2).

88. 10 mots avec une grande similitude

Lisez le vecteur de signification du mot obtenu en> 85, et sortez 10 mots avec une forte similitude cosinus avec «England» et leur similitude.

Le code fini:

`main.py`


# coding: utf-8
import pickle
from collections import OrderedDict
from scipy import io
import numpy as np

fname_dict_index_t = 'dict_index_t'
fname_matrix_x300 = 'matrix_x300'


def cos_sim(vec_a, vec_b):
	'''Calcul de la similitude cosinus
Vecteur vec_a、vec_Trouver la similitude cosinus de b

Valeur de retour:
Similitude cosinus
	'''
	norm_ab = np.linalg.norm(vec_a) * np.linalg.norm(vec_b)
	if norm_ab != 0:
		return np.dot(vec_a, vec_b) / norm_ab
	else:
		#La valeur la plus basse car il n'est même pas possible de juger si la norme vectorielle est similaire à 0
		return -1


#Lire le dictionnaire
with open(fname_dict_index_t, 'rb') as data_file:
		dict_index_t = pickle.load(data_file)

#Lecture de la matrice
matrix_x300 = io.loadmat(fname_matrix_x300)['matrix_x300']

# 'England'Calcul de similarité cosinus avec
vec_England = matrix_x300[dict_index_t['England']]
distances = [cos_sim(vec_England, matrix_x300[i])
		for i in range(0, len(dict_index_t))]

#Afficher le top 10
index_sorted = np.argsort(distances)
keys = list(dict_index_t.keys())
for index in index_sorted[-2:-12:-1]:		#Hors de moi qui arrive au sommet
	print('{}\t{}'.format(keys[index], distances[index]))

Résultat de l'exécution:

`Résultat d'exécution`


Scotland	0.6780631362432838
Australia	0.6439496692044923
Wales	0.6352223096061712
Italy	0.5993389833593241
Spain	0.5810143958505265
France	0.5711030646029182
Japan	0.5709618229888032
Germany	0.5377148103064543
Ireland	0.5374312543293124
Europe	0.4868884673753479

À propos du résultat de l'exécution

En regardant les résultats, les noms de pays sont alignés, il semble donc que "l'Angleterre" soit un pays en tant que caractéristique. Il est également surprenant que des pays britanniques tels que «Écosse», «Pays de Galles» et «Irlande» figurent dans le Top 10. Je ne suis pas en train d'analyser syntaxiquement une phrase ou d'utiliser un dictionnaire de synonymes, mais simplement vectoriser les mots contextuels utilisés autour du mot peut présenter des mots qui ressemblent au sens humain jusqu'à présent. C'est intéressant car cela me fait ressentir diverses possibilités.

C'est tout pour le 89e coup. Si vous avez des erreurs, j'apprécierais que vous les signaliez.

Le résultat de l'exécution inclut une partie des données distribuées dans Données Corpus utilisées pour 100 coups. Je vais. La licence de données utilisée dans ce chapitre 9 est Creative Commons Attribution-Inheritance 3.0 Non-Portable (Japanese translation //creativecommons.org/licenses/by-sa/3.0/deed.ja)). *