SAMPLE
ich|Ist|Katze|damit|Gibt es|。|Name|Ist|noch|Nichts|ich|。
REFERENCE
Morphologische Analyse der Abkürzung durch regulären Ausdruck
PYTHON Subtil modifiziert.
text_m = []
text = "Ich bin eine Katze. Es gibt noch keinen Namen."
p = re.compile(r"/|[A-Z]+|[a-z]+|[EIN-Hmm]+|[Ah-Hmm-]+|[EIN-Monat]+|[einer-Drachen]+|[。、]|/")
m = p.findall(text)
for row in m:
if re.compile(r'^[Ah-Hmm]+$').fullmatch(row):
if row[0] in 'Peeling':
prefix = row[0]
token = row[1:]
text_m.append(prefix)
if (len(token)>0):
text_m.append(token)
elif row[-2:] in 'Also von':
token = row[0:-2]
suffix = row[-2:]
text_m.append(token)
text_m.append(suffix)
elif row[-1:] in 'Mohagade':
token = row[0:-1]
suffix = row[-1:]
text_m.append(token)
text_m.append(suffix)
else:
text_m.append(row)
else:
text_m.append(row)
## output
'|'.join(text_m)
Recommended Posts