Extrahieren von Artikeln aus ACL2020, einer internationalen Konferenz zur Verarbeitung natürlicher Sprache, mithilfe der arXiv-API von Python

Einführung

ACL2020-Artikel wurden inzwischen an arXiv übermittelt, daher habe ich die arXiv-API verwendet, um sie (für mich selbst) aufzulisten.

Umgebung

$ pip install arxiv
import arxiv
import pandas as pd

Suchbedingungen

Extrahieren Sie Artikel mit "ACL2020" in der Kommentarspalte aus Artikeln in der Kategorie "Berechnung und Sprache".

Ich habe auf dieser Seite beschrieben, wie die API verwendet wird.

#Suchanfrage
l = arxiv.query(query='(co="ACL2020" OR co:"ACL 2020") AND cat:cs.CL', sort_by='submittedDate')

#Da irrelevante Papiere enthalten waren, habe ich daraus einen DataFrame gemacht und ihn gefiltert
df = pd.io.json.json_normalize(l)
acl_df = df[df["arxiv_comment"].str.contains("ACL", na=False)]
acl2020_df = acl_df[acl_df["arxiv_comment"].str.contains("2020", na=False)]

len(acl2020_df)
#Es gab 102 Fälle

Liste der Beiträge (Stand 26. April 2020)

Ich habe versucht, die von arxiv API an ACL2020 angenommenen (eingereichten) Papiere zu extrahieren. Systemdemopapier, Student Research Workshop, lang / kurz sind gemischt.

** Kann einige Fehler enthalten. ** ** ** ** Nur als Referenz verwenden. ** ** **

Referenz

Recommended Posts

Extrahieren von Artikeln aus ACL2020, einer internationalen Konferenz zur Verarbeitung natürlicher Sprache, mithilfe der arXiv-API von Python
Ich habe ein Einführungsbuch über die Verarbeitung natürlicher Sprache gelesen
Lassen Sie uns die Verarbeitung natürlicher Sprache mit der COTOHA-API genießen
[Für Anfänger] Sprachanalyse mit dem Verarbeitungswerkzeug "GiNZA" (von der morphologischen Analyse bis zur Vektorisierung)