LangID ist eine Bibliothek, die die Sprachidentifikation durchführt. Wenn Sie eine Zeichenfolge als Eingabe angeben, wird angezeigt, zu welcher Sprache die Zeichenfolge gehört.
Die einfache Verwendung ist wie folgt.
# -*- coding: utf-8 -*-
import langid
result = langid.classify('Das ist japanisch')
print(result) #=> ('ja', -197.7628321647644)
Die Algorithmen in dieser Bibliothek stammen aus bekannten Forschungsergebnissen. Referenzen finden Sie unter hier.
Der Punkt, über den man sich Sorgen machen muss, ist die Schwierigkeit der Geschwindigkeit. Da der obige einfache Test fast 3 Sekunden dauert, scheint er in der Welt des Webs, in der Echtzeitleistung wichtig ist, nicht sehr häufig verwendet zu werden.
Recommended Posts