[PYTHON] Suchen Sie nach Patentdaten, während Sie den F & E-Teil des Wertpapierberichts betrachten (erstellen Sie ein Dashboard).

0. Einleitung

Motivation

Bei der Analyse von Patentinformationen wurde lange gesagt, dass wir uns andere Informationen sowie Patente ansehen sollten, aber für mich, abgesehen von der Patentsuche, drücke ich mich in die Online-Suche ein und schreibe Notizen in Excel. Es war ziemlich ärgerlich, während der Aufnahme zwischen Patentinformationen und anderen Informationen hin und her zu wechseln. Daher dachte ich, es wäre schön, ein Dashboard zu haben, in dem ich auf verschiedene Informationen verweisen kann, während ich mich auf die Patentrecherche konzentriere. Deshalb habe ich beschlossen, es zu erstellen. Zunächst überlegte ich, ob ich versuchen sollte, den Wertpapierbericht aufzulisten, der ziemlich ordentliche Informationen und den Text des Teils "Über Forschung und Entwicklung" enthält. .. Der Text im Abschnitt "Über F & E" sieht folgendermaßen aus und ist hilfreich, da er beschreibt, welche Art von F & E das Unternehmen versucht.

6 [Forschungs- und Entwicklungsaktivitäten] Die Gruppe wird die Wettbewerbsfähigkeit der Produkte stärken, neue Produkte entwickeln und neue Geschäftsprodukte in jedem Segment von elektronischen Gerätesystemen, Fine-Tech-Systemen, wissenschaftlichen / medizinischen Systemen und Industrie- / IT-Systemen entwickeln. Wir arbeiten daran. Die mit diesen Aktivitäten verbundenen F & E-Aufwendungen für das laufende konsolidierte Geschäftsjahr betrugen 20.163 Millionen Yen, und die F & E-Ergebnisse für jedes Segment sind wie folgt. Auf dem Halbleitermarkt für elektronische Gerätesysteme waren Anwendungsprozessoren und Speicher (NAND, DRAM) für mobile Geräte aufgrund des Wachstums von Servern und Smartphones stark, während die Nachfrage nach PCs zurückging. Bei fortschrittlichen Geräten hat das Massenproduktionsverhältnis von Produkten der Generation 14 bis 16 nm unter Verwendung der Multi-Patterning-Technologie zugenommen, und der Bau einer Prototyplinie der Generation 10 nm und die Entwicklung der Generation 7 nm haben begonnen. Darüber hinaus konzentriert sich jeder Speicherhersteller auf die Massenproduktion von 3D-NAND. Auf diese Weise hat sich zusammen mit der Miniaturisierung die dreidimensionale Strukturierung von Logik und Speicher weiterentwickelt, und bei der Herstellung modernster Geräte werden eine hohe Produktivität und eine komplizierte Strukturierung unterstützt, die der Zunahme der Anzahl von Prozessen entspricht ... (unten weggelassen)

Gibt es etwas, das in den vorhergehenden Diensten verwendet werden kann?

Ich fragte mich, ob es einen Dienst gab, der Textdaten für Wertpapierberichte über API usw. bereitstellte, und fand Buffet Code und [CoARiJ]. Es gab (https://github.com/chakki-works/CoARiJ), aber keiner von ihnen erfüllte die Anforderungen. Ich kann nicht anders, deshalb habe ich beschlossen, den Text des F & E-Teils zu extrahieren und selbst in BiGQuery zu speichern.

1. Ergebnis

2. Konfiguration

2-1 Konfiguration

image.png

2-2 Verwendete Codes und Daten

*CoARiJ

2-3 Erläuterungen wie SQL

Patentiertes SQL

WITH gpat AS (
SELECT 
      publication_number as pubnum,
      top_terms,
      url
FROM patents-public-data.google_patents_research.publications
),

pat AS (
SELECT publication_number as pubnum,
       filing_date as appday,
       STRING_AGG(DISTINCT title.text) as title,
       #STRING_AGG(DISTINCT abstract.text) as abst,
       STRING_AGG(DISTINCT appls.name,'|') as applicants
FROM `patents-public-data.patents.publications`,UNNEST(title_localized) as title,UNNEST(abstract_localized) as abstract,UNNEST(assignee_harmonized) as appls
WHERE SUBSTR(publication_number,0,2) = 'JP' AND filing_date > 20100101
GROUP BY pubnum,filing_date
)

SELECT gpat.pubnum,
       gpat.url,
       gpat.top_terms,
       pat.title,
       #pat.abst,
       pat.applicants,
       pat.appday
FROM gpat
INNER JOIN pat
ON gpat.pubnum = pat.pubnum

Die Tabelle, die schließlich an Data Studio ausgegeben wurde

Field name Type Mode Erläuterung
pubnum STRING NULLABLE Veröffentlichungsnummer
url STRING NULLABLE Link-URL zum Google-Patent
top_terms STRING REPEATED Charakteristische Wörter der Google-Extraktion
title STRING NULLABLE Titel
applicants STRING NULLABLE Antragsteller
appday INTEGER NULLABLE Abgabedatum

* Seite mit Wertpapierberichten

Verwenden Sie Python, um Daten im XBRL-Format aus EDINET abzurufen, und verwenden Sie Coalij, um den F & E-Teil zu extrahieren (Teil "Über Forschung und Entwicklung"). Schreiben Sie es gleichzeitig separat mit sudachi, fügen Sie es in BigQuery ein und berechnen und speichern Sie tfidf mit zuletzt erstelltes SQL.

Wertpapierberichtsseite SQL
↓ Tabelle für die tfidf-Berechnung erstellen

#SQL zum Berechnen und Speichern von tfidf aus dem geschriebenen Text
#~ SQL wurde zu viel ausgegeben und verschwand irgendwo aus dem Verlauf \(^o^)/ Ota

SQL extrahiert mit tfidf> 0,01 ↓


SELECT id,
      year,
      comname,
      secCode,
      wakatiwd,
      STRING_AGG(tfidf.word) as tfidf_word,
      COUNT(tfidf.word) as tfidf_count,
      LENGTH(wakatiwd) as textlen 
FROM ~~(Geheimnis).SecuritiesReport_tfidf,UNNEST(tfidfs) as tfidf
WHERE tfidf.tf_idf > 0.01
GROUP BY id,year,comname,secCode,wakatiwd

Die Tabelle, die schließlich an Data Studio ausgegeben wurde

Field name Type Mode Erläuterung
id STRING NULLABLE Dokument-ID von EDINET
year INTEGER NULLABLE Berichtseinreichungsjahr
comname STRING NULLABLE Name der Firma
secCode INTEGER NULLABLE Wertpapiercode
wakatiwd STRING NULLABLE R&Das Ergebnis der Teilung des D-Teils mit Sudachi
tfidf_word STRING NULLABLE mit tfidf
tfidf_count INTEGER NULLABLE tfidf
textlen INTEGER NULLABLE

3. Abgeschlossene Version

Gefällt mir. Wenn Sie beim Betrachten des Textes im F & E-Teil des Wertpapierberichts auf der linken Seite auf technische Begriffe stoßen, die Sie interessieren, setzen Sie ein Suchwort auf Englisch und geben Sie die Ergebnisse in der Patentliste auf der rechten Seite wieder. image.png

4. Upgrade

Liste der Funktionen, die Sie als Nächstes hinzufügen möchten

Recommended Posts

Suchen Sie nach Patentdaten, während Sie den F & E-Teil des Wertpapierberichts betrachten (erstellen Sie ein Dashboard).
Erstellen Sie schnell Daten für die Serienkennzeichnung (Partizipationskennzeichnung)