[PYTHON] ChaSen-Installation

Ein Memo, in dem ChaSen installiert ist, ein japanisches Verarbeitungssystem für natürliche Sprache, das auf morphologischen Analysen basiert. Umwelt: centos6.3

[Hier](http://getassoc.cs.nii.ac.jp/?%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC% E3% 83% AB% 2FChasen% E3% 81% AE% E3% 82% A4% E3% 83% B3% E3% 82% B9% E3% 83% 88% E3% 83% BC% E3% 83% AB) Und hier habe ich versucht zu installieren Umwelt: centos6.3

Schauen Sie sich zuerst die Informationen zu ChaSen an http://chasen-legacy.sourceforge.jp/ http://sourceforge.jp/projects/chasen-legacy/

Es scheint, dass iconv und Darts-0.31 erforderlich sind.

Zuerst von Darts. Es gab 3 und 2, also setzen Sie das ein.

$ wget http://chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
gtar xvzf darts-0.32.tar.gz
cd darts-0.32
./configure
make
make check
sudo make install

Abgeschlossen mit.

Da iconv bereits enthalten ist, werde ich es weglassen.

ChaSen-Installation

$ wget http://iij.dl.sourceforge.jp/chasen-legacy/56305/chasen-2.4.5.tar.gz
$ tar xzf chasen-2.4.5.tar.gz 
$ cd chasen-2.4.5
$ sudo ./configure
$ sudo make 
$ sudo make install

Installieren Sie ipadic

$wget http://jaist.dl.sourceforge.jp/ipadic/24435/ipadic-2.7.0.tar.gz
# tar zxf ipadic-2.7.0.tar.gz
# cd ipadic-2.7.0
# ./configure

Konvertieren Sie die Wörterbuchdatei in UTF-8

`convert.sh`


#!/bin/sh
for file in *.dic *.cha
do
if [ -f $file ]; then
echo $file
iconv -f euc-jp -t utf-8 $file > tmpfile
mv tmpfile $file
fi
done
exit

Führen Sie das obige Shell-Skript aus, um die Wörterbuchdatei in UTF-8 zu konvertieren und zu generieren.

$ sh ./convert.sh
$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
$ make install

chasenrc wurde ebenfalls in UTF-8 konvertiert

$ cd /usr/local/etc
$ iconv -f euc-jp -t utf-8 chasenrc > chasenrc.tmp
$ mv chasenrc.tmp chasenrc

Sie können jetzt mit UTF8 arbeiten.