__ (Referenz) __ Es gibt zwei Arten von automatischen Textzusammenfassungsmodellen: * Extraktive Zusammenfassung * und * Abstrakte Zusammenfassung *.
・ @ Koreyous Qiita-Artikel "Einführung des Papiers: Zusammenfassung neuronaler latenter extraktiver Dokumente" ・ [[DL Round Reading] Abstrakte Zusammenfassung von Reddit-Posts mit mehrstufigen Speichernetzwerken](https://www.slideshare.net/DeepLearningJP2016/dlabstractive-summarization-of-reddit-posts-with-multilevel-memory-networks- 132350977)
Terminal
pip install spacy
pip install "https://github.com/megagonlabs/ginza/releases/download/latest/ginza-latest.tar.gz"
extract_words_by_entity_label
Python3
def extract_words_by_entity_label(text, label):
if label in ["PERSON", "NORP", "FAC", "ORG", "GPE", "LOC", "PRODUCT", "EVENT", "WORK_OF_ART", "LAW", "LANGUAGE", "DATE", "TIME", "PERCENT", "MONEY", "QUANTITY", "ORDINAL", "CARDINAL"]:
text = text.replace("\n", "")
doc = nlp(text)
words_list = [ent.text for ent in doc.ents if ent.label_ == label]
else:
print("Das eindeutige Darstellungsetikett existiert nicht.")
words_list = []
return words_list
__ Die folgende offizielle * spaCy * Website enthält eine Liste der in * spaCy * __ definierten * Entity * -Label-Namen
Etikettentyp
PERSON People, including fictional.
NORP Nationalities or religious or political groups.
FAC Buildings, airports, highways, bridges, etc.
ORG Companies, agencies, institutions, etc.
GPE Countries, cities, states.
LOC Non-GPE locations, mountain ranges, bodies of water.
PRODUCT Objects, vehicles, foods, etc. (Not services.)
EVENT Named hurricanes, battles, wars, sports events, etc.
WORK_OF_ART Titles of books, songs, etc.
LAW Named documents made into laws.
LANGUAGE Any named language.
DATE Absolute or relative dates or periods.
TIME Times smaller than a day.
PERCENT Percentage, including ”%“.
MONEY Monetary values, including unit.
QUANTITY Measurements, as of weight or distance.
ORDINAL “first”, “second”, etc.
CARDINAL Numerals that do not fall under another type.
Sekretär Kato betonte, dass er ein Radioprogramm aufnehmen werde, das von der Regierung und anderen an die Entführten in Nordkorea gesendet wurde, und alle Anstrengungen unternehmen werde, um so schnell wie möglich nach Hause zurückzukehren, und sagte: "Umarmen mit Ihrer Familie. Bitte haben Sie weiterhin das starke Gefühl, dass der Tag kommen und überleben wird. "
Am 16. sagte Außenminister Kato, der auch als Minister für die Entführungsfrage zuständig ist, dass sich das "Specified Disappearance Problem Investigation Committee", das das sogenannte spezifische Verschwinden untersucht, das die Möglichkeit einer Entführung durch die Regierung und Nordkorea nicht ausschließen kann, in Nordkorea befindet. Wir haben ein Radioprogramm aufgenommen, das an die Entführten in Japan gesendet wird.
In diesem Zusammenhang sagte Generalsekretär Kato: "Das Thema Entführung wird als das wichtigste Thema im Kan-Kabinett angesehen. Ich habe mich mit meiner Familie zusammen mit Premierminister Kan getroffen und den ernsthaften Wunsch geteilt," um jeden Preis Ergebnisse zu erzielen ". ".
Danach sagte er: "Es ändert nichts an unserer Entschlossenheit, die Hülle des gegenseitigen Misstrauens zu durchbrechen, die unglückliche Vergangenheit zu regeln und die diplomatischen Beziehungen mit Nordkorea zu normalisieren." Ich habe betont, dass ich mein Bestes geben werde.
A Und er sagte: "Denken Sie daran, dass der Tag kommen wird, an dem Sie wieder auf den Boden Ihres Heimatlandes treten und Ihre Familie umarmen, die darauf wartet, dass Sie nach Hause zurückkehren. Bitte passen Sie gut auf sich auf und überleben Sie."
Python3
>>> text = """Sekretärin Kato betonte, dass die Regierung und andere Radioprogramme aufzeichnen werden, die an Entführte in Nordkorea gesendet werden, und ihr Möglichstes tun werden, um so schnell wie möglich nach Hause zurückzukehren. Bitte haben Sie weiterhin das starke Gefühl, dass der Tag kommen und überleben wird. "
Am 16. sagte Außenminister Kato, der auch als Minister für die Entführungsfrage zuständig ist, dass sich das "Specified Disappearance Problem Investigation Committee", das das sogenannte spezifische Verschwinden untersucht, das die Möglichkeit einer Entführung durch die Regierung und Nordkorea nicht ausschließen kann, in Nordkorea befindet. Wir haben ein Radioprogramm aufgenommen, das an die Entführten in Japan gesendet wird.
In diesem Zusammenhang sagte Generalsekretär Kato: "Das Thema Entführung wird als das wichtigste Thema im Kan-Kabinett angesehen. Ich habe mich mit meiner Familie zusammen mit Premierminister Kan getroffen und den ernsthaften Wunsch geteilt," um jeden Preis Ergebnisse zu erzielen ". ".
Dann "Brechen Sie die Hülle des gegenseitigen Misstrauens. Dann" Brechen Sie die Hülle des gegenseitigen Misstrauens. Dann "Brechen Sie die Hülle des gegenseitigen Misstrauens. Dann" Brechen Sie die Hülle des gegenseitigen Misstrauens. Dann "Brechen Sie die Hülle des gegenseitigen Misstrauens." Brechen Sie die Hülle, dann "brechen Sie die Hülle des gegenseitigen Misstrauens und brechen Sie dann" die Hülle des gegenseitigen Misstrauens und dann "Phase....Am 16. sagte Außenminister Kato, der auch als Minister für die Entführungsfrage zuständig ist, dass sich das "Specified Disappearance Problem Investigation Committee", das das sogenannte spezifische Verschwinden untersucht, das die Möglichkeit einer Entführung durch die Regierung und Nordkorea nicht ausschließen kann, in Nordkorea befindet. Wir haben ein Radioprogramm aufgenommen, das an die Entführten in Japan gesendet wird.
...Generalsekretär Kato sagte dazu: "Das Problem der Entführung wird als das wichtigste Problem im Kan-Kabinett angesehen. Wir haben uns mit der Familie zusammen mit Premierminister Kan getroffen und den ernsthaften Wunsch geteilt," um jeden Preis Ergebnisse zu erzielen ". Ich tat. "
...Dann: "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen". "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen", "Behalten Sie ein starkes Gefühl der Kameradschaft, bitte kümmern Sie sich gut um Ihren Körper und überleben Sie." Ich rief."""
>>>
>>> text = text.replace("\n", "")
>>> text
'Sekretärin Kato betonte, dass die Regierung und andere Radioprogramme aufzeichnen werden, die an Entführte in Nordkorea gesendet werden, und alle Anstrengungen unternehmen werden, um so schnell wie möglich nach Hause zurückzukehren, und sagte: "Umarmen Sie sich mit Ihrer Familie. Bitte haben Sie weiterhin das starke Gefühl, dass der Tag kommen und überleben wird. " Am 16. sagte Außenminister Kato, der auch als Minister für die Entführungsfrage zuständig ist, dass das "Specified Disappearance Problem Investigation Committee", das das sogenannte spezifische Verschwinden untersucht, das von der Regierung und Nordkorea nicht ausgeschlossen werden kann, sagte Wir haben ein Radioprogramm aufgenommen, das an die Entführten in Japan gesendet wird. Generalsekretär Kato sagte dazu: "Das Problem der Entführung wird als das wichtigste Problem im Kan-Kabinett angesehen. Ich habe mich mit meiner Familie zusammen mit Premierminister Kan getroffen und den ernsthaften Wunsch geteilt," um jeden Preis Ergebnisse zu erzielen ". ". Dann: "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen", "Die Hülle des gegenseitigen Misstrauens brechen". Nach dem Brechen der Hülle, "Brechen der Hülle des gegenseitigen Misstrauens", Brechen der Hülle des gegenseitigen Misstrauens, "Behalten Sie ein starkes Gefühl der Gegenseitigkeit, bitte kümmern Sie sich gut um Ihren Körper und überleben Sie." Ich tat.'
Python3
>>> import spacy
>>> from spacy.matcher import Matcher
>>> nlp = spacy.load('ja_ginza')
>>>
>>> tmp = ["Markenname: {label}Wort: {word}".format(label=ent.label_, word= ent.text) for ent in doc.ents]
>>> tmp
['Markenname:PERSON Wort:Staatssekretär Kato', 'Markenname:LOC-Wort:Nord Korea', 'Markenname:PERSON Wort:Staatssekretär Kato', 'Markenname:DATUM Wort:16 ..', 'Markenname:LOC-Wort:Nord Korea', 'Markenname:LOC-Wort:Nord Korea', 'Markenname:PERSON Wort:Staatssekretär Kato', 'Markenname:PERSON Wort:Suga', 'Markenname:PERSON Wort:Suga']
>>>
>>> from pprint import pprint
>>> pprint(tmp)
['Markenname:PERSON Wort:Staatssekretär Kato',
'Markenname:LOC-Wort:Nord Korea',
'Markenname:PERSON Wort:Staatssekretär Kato',
'Markenname:DATUM Wort:16 ..',
'Markenname:LOC-Wort:Nord Korea',
'Markenname:LOC-Wort:Nord Korea',
'Markenname:PERSON Wort:Staatssekretär Kato',
'Markenname:PERSON Wort:Suga',
'Markenname:PERSON Wort:Suga']
>>>
Python3
>>> words_list = extract_words_by_entity_label(text, "aaa")
Das eindeutige Darstellungsetikett existiert nicht.
>>>
>>> print(words_list)
[]
>>>
>>> label = "LOC"
>>> words_list = extract_words_by_entity_label(text, label)
>>> print(words_list)
['Nord Korea', 'Nord Korea', 'Nord Korea']
>>>
>>> for label in ["LOC", "DATE", "PERSON"]:
... print(label, " : ", extract_words_by_entity_label(text, label))
...
LOC : ['Nord Korea', 'Nord Korea', 'Nord Korea']
DATE : ['16 ..']
PERSON : ['Staatssekretär Kato', 'Staatssekretär Kato', 'Staatssekretär Kato', 'Suga', 'Suga']
>>>
__ Es kann sinnvoll sein, ein Wort mit einem bestimmten Attribut (* Entity *) aus dem Zieltext zu extrahieren und anschließend die folgende Verarbeitung durchzuführen. __ __
Recommended Posts