Bei der Analyse von Patentinformationen wurde lange gesagt, dass wir uns andere Informationen sowie Patente ansehen sollten, aber für mich, abgesehen von der Patentsuche, drücke ich mich in die Online-Suche ein und schreibe Notizen in Excel. Es war ziemlich ärgerlich, während der Aufnahme zwischen Patentinformationen und anderen Informationen hin und her zu wechseln. Daher dachte ich, es wäre schön, ein Dashboard zu haben, in dem ich auf verschiedene Informationen verweisen kann, während ich mich auf die Patentrecherche konzentriere. Deshalb habe ich beschlossen, es zu erstellen. Zunächst überlegte ich, ob ich versuchen sollte, den Wertpapierbericht aufzulisten, der ziemlich ordentliche Informationen und den Text des Teils "Über Forschung und Entwicklung" enthält. .. Der Text im Abschnitt "Über F & E" sieht folgendermaßen aus und ist hilfreich, da er beschreibt, welche Art von F & E das Unternehmen versucht.
6 [Forschungs- und Entwicklungsaktivitäten] Die Gruppe wird die Wettbewerbsfähigkeit der Produkte stärken, neue Produkte entwickeln und neue Geschäftsprodukte in jedem Segment von elektronischen Gerätesystemen, Fine-Tech-Systemen, wissenschaftlichen / medizinischen Systemen und Industrie- / IT-Systemen entwickeln. Wir arbeiten daran. Die mit diesen Aktivitäten verbundenen F & E-Aufwendungen für das laufende konsolidierte Geschäftsjahr betrugen 20.163 Millionen Yen, und die F & E-Ergebnisse für jedes Segment sind wie folgt. Auf dem Halbleitermarkt für elektronische Gerätesysteme waren Anwendungsprozessoren und Speicher (NAND, DRAM) für mobile Geräte aufgrund des Wachstums von Servern und Smartphones stark, während die Nachfrage nach PCs zurückging. Bei fortschrittlichen Geräten hat das Massenproduktionsverhältnis von Produkten der Generation 14 bis 16 nm unter Verwendung der Multi-Patterning-Technologie zugenommen, und der Bau einer Prototyplinie der Generation 10 nm und die Entwicklung der Generation 7 nm haben begonnen. Darüber hinaus konzentriert sich jeder Speicherhersteller auf die Massenproduktion von 3D-NAND. Auf diese Weise hat sich zusammen mit der Miniaturisierung die dreidimensionale Strukturierung von Logik und Speicher weiterentwickelt, und bei der Herstellung modernster Geräte werden eine hohe Produktivität und eine komplizierte Strukturierung unterstützt, die der Zunahme der Anzahl von Prozessen entspricht ... (unten weggelassen)
Ich fragte mich, ob es einen Dienst gab, der Textdaten für Wertpapierberichte über API usw. bereitstellte, und fand Buffet Code und [CoARiJ]. Es gab (https://github.com/chakki-works/CoARiJ), aber keiner von ihnen erfüllte die Anforderungen. Ich kann nicht anders, deshalb habe ich beschlossen, den Text des F & E-Teils zu extrahieren und selbst in BiGQuery zu speichern.
WITH gpat AS (
SELECT
publication_number as pubnum,
top_terms,
url
FROM patents-public-data.google_patents_research.publications
),
pat AS (
SELECT publication_number as pubnum,
filing_date as appday,
STRING_AGG(DISTINCT title.text) as title,
#STRING_AGG(DISTINCT abstract.text) as abst,
STRING_AGG(DISTINCT appls.name,'|') as applicants
FROM `patents-public-data.patents.publications`,UNNEST(title_localized) as title,UNNEST(abstract_localized) as abstract,UNNEST(assignee_harmonized) as appls
WHERE SUBSTR(publication_number,0,2) = 'JP' AND filing_date > 20100101
GROUP BY pubnum,filing_date
)
SELECT gpat.pubnum,
gpat.url,
gpat.top_terms,
pat.title,
#pat.abst,
pat.applicants,
pat.appday
FROM gpat
INNER JOIN pat
ON gpat.pubnum = pat.pubnum
Die Tabelle, die schließlich an Data Studio ausgegeben wurde
Field name | Type | Mode | Erläuterung |
---|---|---|---|
pubnum | STRING | NULLABLE | Veröffentlichungsnummer |
url | STRING | NULLABLE | Link-URL zum Google-Patent |
top_terms | STRING | REPEATED | Charakteristische Wörter der Google-Extraktion |
title | STRING | NULLABLE | Titel |
applicants | STRING | NULLABLE | Antragsteller |
appday | INTEGER | NULLABLE | Abgabedatum |
Verwenden Sie Python, um Daten im XBRL-Format aus EDINET abzurufen, und verwenden Sie Coalij, um den F & E-Teil zu extrahieren (Teil "Über Forschung und Entwicklung"). Schreiben Sie es gleichzeitig separat mit sudachi, fügen Sie es in BigQuery ein und berechnen und speichern Sie tfidf mit zuletzt erstelltes SQL.
#SQL zum Berechnen und Speichern von tfidf aus dem geschriebenen Text
#~ SQL wurde zu viel ausgegeben und verschwand irgendwo aus dem Verlauf \(^o^)/ Ota
SQL extrahiert mit tfidf> 0,01 ↓
SELECT id,
year,
comname,
secCode,
wakatiwd,
STRING_AGG(tfidf.word) as tfidf_word,
COUNT(tfidf.word) as tfidf_count,
LENGTH(wakatiwd) as textlen
FROM ~~(Geheimnis).SecuritiesReport_tfidf,UNNEST(tfidfs) as tfidf
WHERE tfidf.tf_idf > 0.01
GROUP BY id,year,comname,secCode,wakatiwd
Die Tabelle, die schließlich an Data Studio ausgegeben wurde
Field name | Type | Mode | Erläuterung |
---|---|---|---|
id | STRING | NULLABLE | Dokument-ID von EDINET |
year | INTEGER | NULLABLE | Berichtseinreichungsjahr |
comname | STRING | NULLABLE | Name der Firma |
secCode | INTEGER | NULLABLE | Wertpapiercode |
wakatiwd | STRING | NULLABLE | R&Das Ergebnis der Teilung des D-Teils mit Sudachi |
tfidf_word | STRING | NULLABLE | mit tfidf |
tfidf_count | INTEGER | NULLABLE | tfidf |
textlen | INTEGER | NULLABLE |
Gefällt mir. Wenn Sie beim Betrachten des Textes im F & E-Teil des Wertpapierberichts auf der linken Seite auf technische Begriffe stoßen, die Sie interessieren, setzen Sie ein Suchwort auf Englisch und geben Sie die Ergebnisse in der Patentliste auf der rechten Seite wieder.
Liste der Funktionen, die Sie als Nächstes hinzufügen möchten