Ein Memo, in dem ChaSen installiert ist, ein japanisches Verarbeitungssystem für natürliche Sprache, das auf morphologischen Analysen basiert. Umwelt: centos6.3
[Hier](http://getassoc.cs.nii.ac.jp/?%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC% E3% 83% AB% 2FChasen% E3% 81% AE% E3% 82% A4% E3% 83% B3% E3% 82% B9% E3% 83% 88% E3% 83% BC% E3% 83% AB) Und hier habe ich versucht zu installieren Umwelt: centos6.3
Schauen Sie sich zuerst die Informationen zu ChaSen an http://chasen-legacy.sourceforge.jp/ http://sourceforge.jp/projects/chasen-legacy/
Es scheint, dass iconv und Darts-0.31 erforderlich sind.
Zuerst von Darts. Es gab 3 und 2, also setzen Sie das ein.
$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
gtar xvzf darts-0.32.tar.gz
cd darts-0.32
./configure
make
make check
sudo make install
Abgeschlossen mit.
Da iconv bereits enthalten ist, werde ich es weglassen.
$ wget http://iij.dl.sourceforge.jp/chasen-legacy/56305/chasen-2.4.5.tar.gz
$ tar xzf chasen-2.4.5.tar.gz
$ cd chasen-2.4.5
$ sudo ./configure
$ sudo make
$ sudo make install
$wget http://jaist.dl.sourceforge.jp/ipadic/24435/ipadic-2.7.0.tar.gz
# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure
Konvertieren Sie die Wörterbuchdatei in UTF-8
convert.sh
#!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
echo $file
iconv -f euc-jp -t utf-8 $file > tmpfile
mv tmpfile $file
fi
done
exit
Führen Sie das obige Shell-Skript aus, um die Wörterbuchdatei in UTF-8 zu konvertieren und zu generieren.
$ sh ./convert.sh
$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
$ make install
chasenrc wurde ebenfalls in UTF-8 konvertiert
$ cd /usr/local/etc
$ iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp
$ mv chasenrc.tmp chasenrc
Sie können jetzt mit UTF8 arbeiten.
Recommended Posts