[PYTHON] Gestion des matrices clairsemées dans Scipy

Un mémo qui calcule la similitude et la distance des vecteurs de documents clairsemés avec python

Opérations de base lors de l'utilisation de matrices éparses dans Scipy Je l'ai écrit il y a longtemps, alors peut-être que quelque chose ne va pas

`Calcul matriciel`


import scipy.sparse as sp
import numpy as np

a = sp.lil_matrix((1, 10000)) # 1*10000 matrices creuses sont créées
b = sp.lil_matrix((1, 10000))
# a.shape => (1, 10000)
for i in xrange(a.shape[1]):
	r = np.random.rand()
	if r < 0.9:
		r = 0.0
	a[0, i] = r
#Les valeurs numériques sont stockées aléatoirement dans chaque élément d'un
a
# => <1x10000 sparse matrix of type '<type 'numpy.float64'>'
        with 947 stored elements in LInked List format>
#b fait de même

`conversion`


ca = a.tocsr()
ca
# => <1x10000 sparse matrix of type '<type 'numpy.float64'>'
        with 947 stored elements in Compressed Sparse Row format>
#lil =>est devenu rse

`Produit matriciel`


#Matrice de translocation
ta = a.T
#Produit matriciel
print a.dot(ta) # (1,1), Mais cela est également représenté par une matrice clairsemée
# => (0, 0)        853.19504342

`Ampleur du vecteur`


v = np.array([[1, 1]])
math.sqrt(np.dot(v, v.T))
# => 1.4142135623730951
np.linalg.norm(v)
# => 1.4142135623730951

np.linalg.norm(a)
# =>Erreur se produit
np.linalg.norm(a.todense())
np.linalg.norm(a.toarray())
# => 29.209502621916037

#Similitude cosinus
import scipy.spatial.distance as dis
dis.cosine(a.todense(), b.todense())
# => 0.91347774109309299

`Distance euclidienne à matrice clairsemée`


# -*- encoding: utf-8 -*-

import scipy.spatial.distance as dis
import scipy.sparse as sp
import numpy as np, scipy.io as io
import math

def sparse_distance(v1, v2):
    """1*Trouver la distance euclidienne entre N vecteurs
    args:
        v1, v2 : 1 *De N(Clairsemé)queue
    """
    if not sp.issparse(v1) or not sp.issparse(v2):
        #Utilisez l'euclidien intégré s'il ne s'agit pas d'une matrice clairsemée
        if v1.size != v2.size:
            raise ValueError
        return dis.euclidean(v1, v2)
    indexes1 = v1.rows.item()[:]
    indexes2 = v2.rows.item()[:]
    if indexes1.length != indexes2.length:
        raise ValueError
    indexes = indexes1 + indexes2  #Index où les deux vecteurs ne sont pas clairsemés
    euc_dis = 0.0
    for index in indexes:
        _dis = v1[0, index] - v2[0, index]
        euc_dis += _dis ** 2
    return math.sqrt(euc_dis)