Chao ... †
Die Verarbeitung natürlicher Sprache wird von einer Vorverarbeitung begleitet. Die Vorverarbeitung war noch nie so schnell. Also habe ich die japanischen Konvertierungsmodule in Python3 verglichen.
Umwandlung in voller / halber Breite und Umwandlung von Hiragana in Katakana. Siehe sowohl lange als auch kurze Zielzeichenfolgen.
jaconv | cnvk | mojimoji | zenhan | rfZenHan | mohayonao | nkf | |
---|---|---|---|---|---|---|---|
Kurze Sätze von halber bis voller Breite | 27.1 µs | 96.4 µs | 5.04 µs | 75.8 µs | 222 µs | 23 µs | |
Langer Satz von halber bis voller Breite | 89.9 ms | 38.6 ms | 23.1 ms | 360 ms | 237 ms | 95.4 ms | |
Hiragana → Katakana für kurze Sätze | 18.1 µs | 79.1 µs | 25.4 µs | 23.2 µs | |||
Hiragana → Katakana für lange Sätze | 51.6 ms | 41.8 ms | 246 ms | 98.6 ms |
Mojimoji ist schnell, weil ich Cython benutze. In Pure Python scheint jaconv in kurzen Sätzen gut zu funktionieren, und cnvk scheint in langen Sätzen gut zu sein.
Recommended Posts