Chao ... †
Le traitement du langage naturel est accompagné d'un prétraitement. Le prétraitement n'a jamais été rapide. J'ai donc comparé les modules de conversion japonais en Python3.
Conversion pleine largeur / demi-largeur et conversion de hiragana à katakana. Voir les chaînes cibles longues et courtes.
Cliquez ici pour plus de détails
jaconv | cnvk | mojimoji | zenhan | rfZenHan | mohayonao | nkf | |
---|---|---|---|---|---|---|---|
Phrases courtes de la demi-largeur à la pleine largeur | 27.1 µs | 96.4 µs | 5.04 µs | 75.8 µs | 222 µs | 23 µs | |
Longue phrase de la demi-largeur à la pleine largeur | 89.9 ms | 38.6 ms | 23.1 ms | 360 ms | 237 ms | 95.4 ms | |
Hiragana → Katakana pour des phrases courtes | 18.1 µs | 79.1 µs | 25.4 µs | 23.2 µs | |||
Hiragana → Katakana pour de longues phrases | 51.6 ms | 41.8 ms | 246 ms | 98.6 ms |
Mojimoji est rapide car j'utilise Cython. En Python pur, jaconv semble bien fonctionner dans les phrases courtes, et cnvk semble être bon dans les phrases longues.
Recommended Posts