0. Einleitung

Motivation

Bei der Analyse von Patentinformationen wurde lange gesagt, dass wir uns andere Informationen sowie Patente ansehen sollten, aber für mich, abgesehen von der Patentsuche, drücke ich mich in die Online-Suche ein und schreibe Notizen in Excel. Es war ziemlich ärgerlich, während der Aufnahme zwischen Patentinformationen und anderen Informationen hin und her zu wechseln. Daher dachte ich, es wäre schön, ein Dashboard zu haben, in dem ich auf verschiedene Informationen verweisen kann, während ich mich auf die Patentrecherche konzentriere. Deshalb habe ich beschlossen, es zu erstellen. Zunächst überlegte ich, ob ich versuchen sollte, den Wertpapierbericht aufzulisten, der ziemlich ordentliche Informationen und den Text des Teils "Über Forschung und Entwicklung" enthält. .. Der Text im Abschnitt "Über F & E" sieht folgendermaßen aus und ist hilfreich, da er beschreibt, welche Art von F & E das Unternehmen versucht.

6 [Forschungs- und Entwicklungsaktivitäten] Die Gruppe wird die Wettbewerbsfähigkeit der Produkte stärken, neue Produkte entwickeln und neue Geschäftsprodukte in jedem Segment von elektronischen Gerätesystemen, Fine-Tech-Systemen, wissenschaftlichen / medizinischen Systemen und Industrie- / IT-Systemen entwickeln. Wir arbeiten daran. Die mit diesen Aktivitäten verbundenen F & E-Aufwendungen für das laufende konsolidierte Geschäftsjahr betrugen 20.163 Millionen Yen, und die F & E-Ergebnisse für jedes Segment sind wie folgt. Auf dem Halbleitermarkt für elektronische Gerätesysteme waren Anwendungsprozessoren und Speicher (NAND, DRAM) für mobile Geräte aufgrund des Wachstums von Servern und Smartphones stark, während die Nachfrage nach PCs zurückging. Bei fortschrittlichen Geräten hat das Massenproduktionsverhältnis von Produkten der Generation 14 bis 16 nm unter Verwendung der Multi-Patterning-Technologie zugenommen, und der Bau einer Prototyplinie der Generation 10 nm und die Entwicklung der Generation 7 nm haben begonnen. Darüber hinaus konzentriert sich jeder Speicherhersteller auf die Massenproduktion von 3D-NAND. Auf diese Weise hat sich zusammen mit der Miniaturisierung die dreidimensionale Strukturierung von Logik und Speicher weiterentwickelt, und bei der Herstellung modernster Geräte werden eine hohe Produktivität und eine komplizierte Strukturierung unterstützt, die der Zunahme der Anzahl von Prozessen entspricht ... (unten weggelassen)

Gibt es etwas, das in den vorhergehenden Diensten verwendet werden kann?

Ich fragte mich, ob es einen Dienst gab, der Textdaten für Wertpapierberichte über API usw. bereitstellte, und fand Buffet Code und [CoARiJ]. Es gab (https://github.com/chakki-works/CoARiJ), aber keiner von ihnen erfüllte die Anforderungen. Ich kann nicht anders, deshalb habe ich beschlossen, den Text des F & E-Teils zu extrahieren und selbst in BiGQuery zu speichern.

1. Ergebnis

Erstellt
DataStudio ist bequem!

2. Konfiguration

2-1 Konfiguration

2-2 Verwendete Codes und Daten

*CoARiJ

Beziehen Sie Wertpapierberichtsdaten von EDINET dieser Artikel
Vertraute Öffentliche Google Patents-Datensätze

2-3 Erläuterungen wie SQL

SQL-Teil zur Informationserfassung von Google Patents: Die URL zu Google-Patenten und die charakteristischen Wörter im von Google extrahierten Patenttext sind nicht in der normalen Patenttabelle enthalten, daher werden zwei Tabellen verwendet. JOIN hatte ein kleines Problem.

Patentiertes SQL


WITH gpat AS (
SELECT 
      publication_number as pubnum,
      top_terms,
      url
FROM patents-public-data.google_patents_research.publications
),

pat AS (
SELECT publication_number as pubnum,
       filing_date as appday,
       STRING_AGG(DISTINCT title.text) as title,
       #STRING_AGG(DISTINCT abstract.text) as abst,
       STRING_AGG(DISTINCT appls.name,'|') as applicants
FROM `patents-public-data.patents.publications`,UNNEST(title_localized) as title,UNNEST(abstract_localized) as abstract,UNNEST(assignee_harmonized) as appls
WHERE SUBSTR(publication_number,0,2) = 'JP' AND filing_date > 20100101
GROUP BY pubnum,filing_date
)

SELECT gpat.pubnum,
       gpat.url,
       gpat.top_terms,
       pat.title,
       #pat.abst,
       pat.applicants,
       pat.appday
FROM gpat
INNER JOIN pat
ON gpat.pubnum = pat.pubnum

Die Tabelle, die schließlich an Data Studio ausgegeben wurde

Field name	Type	Mode	Erläuterung
pubnum	STRING	NULLABLE	Veröffentlichungsnummer
url	STRING	NULLABLE	Link-URL zum Google-Patent
top_terms	STRING	REPEATED	Charakteristische Wörter der Google-Extraktion
title	STRING	NULLABLE	Titel
applicants	STRING	NULLABLE	Antragsteller
appday	INTEGER	NULLABLE	Abgabedatum

* Seite mit Wertpapierberichten

Verwenden Sie Python, um Daten im XBRL-Format aus EDINET abzurufen, und verwenden Sie Coalij, um den F & E-Teil zu extrahieren (Teil "Über Forschung und Entwicklung"). Schreiben Sie es gleichzeitig separat mit sudachi, fügen Sie es in BigQuery ein und berechnen und speichern Sie tfidf mit zuletzt erstelltes SQL.

Wertpapierberichtsseite SQL

↓ Tabelle für die tfidf-Berechnung erstellen


#SQL zum Berechnen und Speichern von tfidf aus dem geschriebenen Text
#~ SQL wurde zu viel ausgegeben und verschwand irgendwo aus dem Verlauf \(^o^)/ Ota

SQL extrahiert mit tfidf> 0,01 ↓


SELECT id,
      year,
      comname,
      secCode,
      wakatiwd,
      STRING_AGG(tfidf.word) as tfidf_word,
      COUNT(tfidf.word) as tfidf_count,
      LENGTH(wakatiwd) as textlen 
FROM ~~(Geheimnis).SecuritiesReport_tfidf,UNNEST(tfidfs) as tfidf
WHERE tfidf.tf_idf > 0.01
GROUP BY id,year,comname,secCode,wakatiwd

Die Tabelle, die schließlich an Data Studio ausgegeben wurde

Field name	Type	Mode	Erläuterung
id	STRING	NULLABLE	Dokument-ID von EDINET
year	INTEGER	NULLABLE	Berichtseinreichungsjahr
comname	STRING	NULLABLE	Name der Firma
secCode	INTEGER	NULLABLE	Wertpapiercode
wakatiwd	STRING	NULLABLE	R&Das Ergebnis der Teilung des D-Teils mit Sudachi
tfidf_word	STRING	NULLABLE	mit tfidf
tfidf_count	INTEGER	NULLABLE	tfidf
textlen	INTEGER	NULLABLE

3. Abgeschlossene Version

Gefällt mir. Wenn Sie beim Betrachten des Textes im F & E-Teil des Wertpapierberichts auf der linken Seite auf technische Begriffe stoßen, die Sie interessieren, setzen Sie ein Suchwort auf Englisch und geben Sie die Ergebnisse in der Patentliste auf der rechten Seite wieder.

4. Upgrade

Liste der Funktionen, die Sie als Nächstes hinzufügen möchten

Extrahieren Sie aus den Wörtern, die links aus dem F & E-Text extrahiert wurden, Wörter, die wie Fachbegriffe aussehen, und geben Sie sie in das Suchfeld rechts ein.
Worterweiterung (in Patentversion word2vec, Fachbegriffwörterbuch usw.)
Pipeline (Diesmal waren es Wertpapierberichtsdaten bis Juni 2020, aber ich möchte sie ungefähr jeden Monat automatisch in BigQuery ablegen, anstatt sie stapelweise zu erstellen.)
Eigentlich ist es einfacher, ein fremdes zu bekommen (BigQuerys Public DataSet hat so etwas )))
Wir erwägen, andere Datenquellen (gesetzliche Bestimmungen, soziale Trends usw.) zusammen zu sehen. ..
Ich mag das Bildschirmdesign nicht. Es scheint, dass das Layout der BI-Tools und einige Schulungen erforderlich sind.
Es gab auch diese Art von, also hätte ich auch die anderen Textteile erwerben sollen!
Ändert tfidf in Echtzeit je nach Bevölkerung. Als ich es dieses Mal zum ersten Mal geschafft habe, war es so schwer, dass es oft gefroren ist, also habe ich es als Ganzes berechnet. Da der Ausgangszustand von tfidf in erster Linie ideal ist, überlegen wir, was zu tun ist.

[PYTHON] Suchen Sie nach Patentdaten, während Sie den F & E-Teil des Wertpapierberichts betrachten (erstellen Sie ein Dashboard).