SAMPLE
ich|Ist|Katze|damit|Gibt es|。|Name|Ist|noch|Nichts|ich|。
REFERENCE
Morphologische Analyse der Abkürzung durch regulären Ausdruck
PYTHON Subtil modifiziert.
text_m = []
text = "Ich bin eine Katze. Es gibt noch keinen Namen."
p = re.compile(r"/|[A-Z]+|[a-z]+|[EIN-Hmm]+|[Ah-Hmm-]+|[EIN-Monat]+|[einer-Drachen]+|[。、]|/")
m = p.findall(text)
for row in m:
   if re.compile(r'^[Ah-Hmm]+$').fullmatch(row):
      if row[0] in 'Peeling':
         prefix = row[0]
         token = row[1:]
         text_m.append(prefix)
         if (len(token)>0):
            text_m.append(token)
      elif row[-2:] in 'Also von':
         token = row[0:-2]
         suffix = row[-2:]
         text_m.append(token)
         text_m.append(suffix)
      elif row[-1:] in 'Mohagade':
         token = row[0:-1]
         suffix = row[-1:]
         text_m.append(token)
         text_m.append(suffix)
      else:
         text_m.append(row)
   else:
      text_m.append(row)
## output
'|'.join(text_m)
Recommended Posts