Ich war beeindruckt, SKK vorgestern kennenzulernen. (Benutzerleben 3. Tag w) Ich möchte keinen Google-basierten CGI-Server verwenden, daher habe ich mich für das Wörterbuchleben entschieden. Das Hatena-Wörterbuch scheint gut zu sein.
Ich habe mich übrigens nie damit befasst, sondern mit der Quelle
make_skk_dic.py
# coding=utf-8
import pandas as pd
import numpy as np
import codecs
import re
def furi_del_norm(txt):
r = re.match(r"[EIN-Monat]", txt)
if r:
return np.Nan
return txt
def main():
df = pd.DataFrame()
with codecs.open("keywordlist_furigana.csv", 'r', "euc_jp", "ignore") as file:
df = pd.read_table(file, delimiter="\t")
df.columns = ["furi", "word"]
df = df.dropna()
df["word"] = df["word"].replace('\r')
df["furi"] = df["furi"].replace('\r')
df["furi"] = df["furi"].apply(furi_del_norm)
df = df.dropna()
df = df.sort(columns=["furi"], ascending=True)
# to_CSV nicht gut
TMP_FILE_PATH = "SKK-JISHO.hatena"
with codecs.open(TMP_FILE_PATH, 'w', "utf-8", "ignore") as file:
#Aktivieren Sie mit Corvus SKK Folgendes(Nachtrag:2017/03/03)
# file.write(";; okuri-ari entries.")
# file.write(";; okuri-nasi entries.")
for i, row in df.iterrows():
file.write("%s /%s/" % (str(row["furi"]), str(row["word"])))
file.write("\n")
if __name__ == "__main__":
main()
Recommended Posts