Mac Mecab installiert
#Hatena-Schlüsselwort
curl -L http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv | iconv -f euc-jp -t utf-8 > keywordlist_furigana.csv
# Wikipedia
curl -L http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz | gunzip > jawiki-latest-all-titles-in-ns0
sample.rb
require 'csv'
original_data = {
wikipedia: 'jawiki-latest-all-titles-in-ns0',
hatena: 'keywordlist_furigana.csv'
}
CSV.open("custom.csv", 'w') do |csv|
original_data.each do |type, filename|
next unless File.file? filename
open(filename).each do |title|
title.strip!
next if title =~ %r(^[+-.$()?*/&%!"'_,]+)
next if title =~ /^[-.0-9]+$/
next if title =~ /Begriffsklärung/
next if title =~ /_\(/
next if title =~ /^PJ:/
next if title =~ /Figuren/
next if title =~ /Aufführen/
title_length = title.length
if title_length > 3
score = [-36000.0, -400 * (title_length ** 1.5)].max.to_i
csv << [title, nil, nil, score, 'Substantiv', 'Allgemeines', '*', '*', '*', '*', title, '*', '*', type]
end
end
end
end
Führen Sie danach sample.rb aus
ruby sample.rb
Erstellen Sie ein Benutzerwörterbuch custom.dic mit dem Befehl mecab-dict-index basierend auf der auf diese Weise erstellten CSV-Datei.
/usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u custom.dic -f utf-8 -t utf-8 custom.csv
Stellen Sie sicher, dass Sie hier custom.dic haben.
Gehen Sie danach im Terminal zu / usr / local / lib / mecab / dic / ipadic und
$ sudo vi dicrc
Und
Erstellen Sie abschließend ein Verzeichnis custom.dic.
userdic ="Speicherort des Verzeichnisses des erstellten Wörterbuchs"
Einstellen.
Lassen Sie uns den folgenden Code implementieren.
sample01.py
#coding:utf-8
import MeCab
tagger = MeCab.Tagger("-Ochasen")
result = tagger.parse("Wolke")
print result
Wenn Sie kein Wörterbuch hinzufügen, wird zunächst "Cloud" angezeigt.
Kura Kura Kura Nomen-Proprietäre Nomenklatur-Allgemeines
Udo Udo Nomen-Allgemeines
Während es war
Cloud Cloud Substantiv-Allgemeines
wurde.
Wenn Sie dies tun können, sind Sie fertig. Danke für deine harte Arbeit.
Recommended Posts