Es gibt Fälle, in denen ich eine vorhandene Textanalysefunktion, die in einer anderen Sprache geschrieben ist, für die Textanalyse verwenden möchte. Deshalb habe ich es versucht. Rufen wir ein Python-basiertes Dokumentinitialisierungstool namens neologdn von MATLAB auf. Ich bin neu in Python und es tut mir leid, wenn ich viele Fehler mache.
MATLAB R2020a Python 3.6
Es gibt eine offizielle Seite mit dem Namen "Aufrufen von Python-Bibliotheksfunktionen". Bereiten Sie sich also darauf vor. Es sind sowohl MATLAB- als auch Python-Umgebungen erforderlich, aber selbst wenn Sie Python in einem Wort sagen, gibt es eine, die das Aufrufen von MATLAB unterstützt, und dies scheint einfacher zu sein, so die offizielle Seite Ich habe es installiert.
Geben Sie auf der MATLAB-Seite Folgendes als Testversion ein.
MATLAB
py.os.listdir('.')
Dann konnte ich die Liste der Dateien mit os.listdir auf der Python-Seite anzeigen.
Bereiten Sie sich als Nächstes auf die Verwendung von neologdn vor, einem Tool, das Japanisch normalisiert.
neologdn is a Japanese text normalizer for mecab-neologd. The normalization is based on the neologd's rules: https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja
Installieren Sie neologd.
Eingabeaufforderung
py -m pip install neologdn
Sie sind jetzt bereit.
Lassen Sie uns den Beispielsatz in der Readme-Datei von neologd in MATLAB ausführen.
MATLAB
>> py.neologdn.normalize("Hankaku Kana")
ans =
Python str hat keine Eigenschaften.
Taschentuch
>> py.neologdn.normalize("Symbol in voller Breite! ?? @ #")
ans =
Python str hat keine Eigenschaften.
Symbol in voller Breite!?@#
>> py.neologdn.normalize("Symbolausnahme in voller Breite "・"")
ans =
Python str hat keine Eigenschaften.
Symbolausnahme in voller Breite "・"
>> py.neologdn.normalize("Lange Tonverkürzung")
ans =
Python str hat keine Eigenschaften.
Lange Tonverkürzung
>> py.neologdn.normalize("Tilda Lösche wir~~ ∾ ~ 〰 ~ i")
ans =
Python str hat keine Eigenschaften.
Tilda Entfernungsweg
>> py.neologdn.normalize("Verschiedene Bindestriche ˗֊ ------ - ⁃⁻₋−")
ans =
Python str hat keine Eigenschaften.
Verschiedene Bindestriche-
>> py.neologdn.normalize("PRML ergänzendes Lesebuch")
ans =
Python str hat keine Eigenschaften.
PRML-Zusatzleser
>> py.neologdn.normalize(" Natural Language Processing ")
ans =
Python str hat keine Eigenschaften.
Natural Language Processing
>> py.neologdn.normalize("Süß gut gut gut", pyargs('repeat',6))
ans =
Python str hat keine Eigenschaften.
Süß gut gut
>> py.neologdn.normalize("Abfall Abfall Abfall Abfall", pyargs('repeat',1))
ans =
Python str hat keine Eigenschaften.
Abfall
>>
Sie können es nach dem Read Me verarbeiten. Das Ergebnis scheint übrigens in str-Typ zurückgegeben zu werden.
Es wäre nützlich, diese normalisieren zu können, bevor Sie sie mit der Text Analytics Toolbox in Token aufteilen.
Recommended Posts