Extrait de "Niko Niko Encyclopedia Data" (par Future Search Brazil Co., Ltd.) sur Site Web de l'Institut national d'informatique Générez et appliquez le dictionnaire de MeCab. Cette méthode peut être disponible pour l'exploration de texte à des fins de recherche.
http://www.nii.ac.jp/cscenter/idr/nico/nicopedia-apply.html
nc2mecab.py
# -*- encoding: utf-8 -*-
import os
import csv
import re
def main():
#Nom du dossier d'entrée
pth = 'head'
#Nom du fichier de sortie
wtnme = 'ncnc.csv'
#Modèle de chaîne supprimé pour le formatage des mots
rmvptn = re.compile(r'(^\d[1,2]Mois\d[1,2]journée$)|((\(|().+(\)|))$)') #Moisjournéeタグとタグ後ろのジャンル名は削除
with open(wtnme,'wb') as wtfh:
wt = csv.writer(wtfh)
fnmes = os.listdir(pth)
for fnme in fnmes:
with open(os.path.join(pth,fnme),'rb') as rdfh:
rd = csv.reader(rdfh)
for row in rd:
if row[3]=='a':
wrd = rmvptn.sub('',row[1]).lower()
if(0 < len(wrd)):
wt.writerow(
[wrd,'0','0',int(max(-32768.0, (6000 - 200 *(len(wrd)**1.3)))),'nom','Général','*','*','*','*',wrd,row[2],row[2],'Encyclopédie Nico Nico']
)
if __name__ == '__main__':
main()
python nc2mecab.py
En utilisant le CSV de sortie, "Ajouter au dictionnaire utilisateur" de MeCab: Comment ajouter des mots a été exécuté. Cependant, la commande de génération de dictionnaire est la suivante.
/usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/ipadic -u ncnc.dic -f utf-8 -t utf-8 ncnc.csv
vocaloid et l'amour en direct! C'est le goût de Nico Kitchen.
nomenclature vocaloïde, général, *, *, *, *, vocaloïde, vocaloïde, vocaloïde, Encyclopédie Nico Nico Et remplisseur, *, *, *, *, *, et, à, à lovelive! Nomenclature, Général, *, *, *, *, Love Live! , Love Live, Love Live, Encyclopédie Nico Nico Est un assistant, un assistant, *, *, *, *, est, ha, wa Nico Kitchen Nomenclature, Général, *, *, *, *, Nico Kitchen, Nicochu, Nicochu, Niconico Encyclopedia Auxiliaire, syndicalisation, *, *, *, *, de, non, non Nomenclature du goût, général, *, *, *, *, goût, tashinami, tashinami .. Symboles, signes de ponctuation, *, *, *, *,. ,. ,. EOS
Recommended Posts