[PYTHON] Spielen wir mit dem von TIS erstellten Unternehmensanalysedatensatz "CoARiJ"

Zweck

Siehe unten für "CoARiJ" https://www.tis.co.jp/news/2019/tis_news/20191114_1.html https://github.com/chakki-works/CoARiJ/blob/master/README.md

Letztes Mal

https://qiita.com/vbnshin/items/09be86b4793c68f70172

Dinge die zu tun sind

Zusammenfassung

Daten

Die von "CoARiJ" bereitgestellten Daten lauten wie folgt

image.png

  • Nicht finanzielle Daten
  • Jahresbericht (aus EDINET, XBRL-Dateiformat)
  • Datei analysiert die oben genannten Artikel für Artikel (TXT-Format)
  • CSR-Bericht (PDF-Format)
  • Nicht verfügbar im txt-Format </ b>
  • Die von EDINET erhaltenen Dokumenttypen sind wie folgt (GJ 2018)

image.png

Punkte, die bei der Analyse zu beachten sind

Es gibt doppelte Daten

df_14 = pd.read_csv('../data/finance_reports/2014/2014/documents.csv', sep='\t')

dup_name = df_14[df_14.duplicated()].iloc[0]['filer_name']
df_14[df_14['filer_name'] == dup_name]
edinet_code 	sec_code 	jcn 	filer_name 	fiscal_year 	fiscal_period 	submit_date 	period_start 	period_end 	doc_id 	... 	operating_income_on_sales 	ordinary_income_on_sales 	capital_ratio 	dividend_payout_ratio 	doe 	open 	high 	low 	close 	average
55 E00091 19710 2010001034861 Chuo Built Industry Co., Ltd. 2014 GJ 2015-06-24 	2014-04-01 	2015-03-31 	S10053TB 	... 	7.78 	7.41 	31.99 	14.01 	1.69 	139.0 	208.0 	108.0 	118.0 	139.25
56 E00091 19710 2010001034861 Chuo Built Industry Co., Ltd. 2014 GJ 2015-06-24 	2014-04-01 	2015-03-31 	S10053TB 	... 	7.78 	7.41 	31.99 	14.01 	1.69 	139.0 	208.0 	108.0 	118.0 	139.25

Der Edinet-Code schwankt

df_14 = pd.read_csv('../data/finance_reports/2014/2014/documents.csv', sep='\t')

df_14 = df_14.groupby('edinet_code').max().reset_index()
df_14_part = df_14[['filer_name', 'fiscal_year', 'roa']]
dup_name = df_14_part[df_14_part['filer_name'].duplicated()].iloc[0]['filer_name']
df_14[df_14_part['filer_name'] == dup_name][['edinet_code', 'sec_code', 'jcn', 'filer_name', 'fiscal_year', 'fiscal_period', 'submit_date']]
 	edinet_code 	sec_code 	jcn 	filer_name 	fiscal_year 	fiscal_period 	submit_date
245 E00484 28140 5180001075845 Sato Food Industry Co., Ltd. 2014 GJ 2015-06-26
263 E00510 29230 8110001002068 Sato Food Industry Co., Ltd. 2014 GJ 2015-07-24

Kein ROE minus Unternehmen (Miss?)

df_14 = pd.read_csv('../data/finance_reports/2014/2014/documents.csv', sep='\t')
df_14 = df_14.groupby('edinet_code').max().reset_index()
df_15 = pd.read_csv('../data/finance_reports/2015/2015/documents.csv', sep='\t')
df_15 = df_15.groupby('edinet_code').max().reset_index()
df_16 = pd.read_csv('../data/finance_reports/2016/2016/documents.csv', sep='\t')
df_16 = df_16.groupby('edinet_code').max().reset_index()
df_17 = pd.read_csv('../data/finance_reports/2017/2017/documents.csv', sep='\t')
df_17 = df_17.groupby('edinet_code').max().reset_index()
df_18 = pd.read_csv('../data/finance_reports/2018/2018/documents.csv', sep='\t')
df_18 = df_18.groupby('edinet_code').max().reset_index()

df = pd.concat([df_14, df_15, df_16, df_17, df_18])
df = df[~df.duplicated()]

df[df['filer_name'].isin(['Sato Food Industry Co., Ltd.', 'Alpha Co., Ltd.', 'Fujiko Co., Ltd.'])]

print(len(df[df['roe'] < 0]))

>>> 0
  1. .. ..

Übereinstimmung mit positiven Daten

ROE (Capital Profit Margin) von Japan Display

  • [Wertpapierbericht - 16. Amtszeit (1. April 2017 - 31. März 2018)] (https://disclosure.edinet-fsa.go.jp/E01EW/download?uji.verb=W0EZA104CXP001003Action&uji.bean=ee.bean.parent.EECommonSearchBean&PID=W1E63011&SESSIONKEY=15757705x10x&& = & preId = 1 & mul = Japan Anzeige & fls = on & cal = 2 & yer = 2018 & mon = & pfs = 5 & row = 100 & idx = 0 & str = & kbn = 1 & flg = & syoruiKanriNo = & s = S100D87L)
スクリーンショット 2019-12-08 12.22.38.png
  • Wert von "CoARiJ"
df[df['edinet_code'] == 'E30481'][['edinet_code', 'filer_name', 'fiscal_year', 'roe']]
edinet_code 	filer_name 	fiscal_year 	roe
3160 E30481 Japan Display Co., Ltd. 2014 4.13
3196 E30481 Japan Display Co., Ltd. 2015 2.92
3270 E30481 Japan Display Co., Ltd. 2016 10.64
2884 E30481 Japan Display Co., Ltd. 2018 734.39
  • Alle ROEs sind + und es gibt überhaupt keine Daten für das Geschäftsjahr 2017.
  • Ändert sich der Wert, ob er verkettet oder einzeln ist?
  • Trotzdem ist es seltsam, dass es keinen ROE minus Unternehmen gibt.

von jetzt an

  • Da die Genauigkeit der Daten nicht gut ist, wird zu diesem Zeitpunkt keine weitere Analyse durchgeführt.

  • Da der CSR-Bericht im PDF-Format vorliegt, sind mehrere Schritte für die Analyse erforderlich.

  • Vielen Dank, dass Sie den Edinet-Code in den Dateinamen aufgenommen haben (mit diesem ist es einfach, mit anderen Informationen zu verknüpfen).

  • Ich dachte, ich würde versuchen, Informationen aus der Farbnutzung des CSR-Berichts, der Anzahl der Fotos, der Anzahl der Zeichen usw. zu extrahieren, aber wie viel würde es für GCP kosten?

  • Auf jeden Fall weiß ich nicht, ob die abgleichenden Leistungsdaten korrekt sind. Beenden wir also die Analyse.

  • Bitte lassen Sie mich wissen, wenn ein Fehler in der Analyse vorliegt.

  • Ich glaube nicht, dass es nur für TIS einen Fehler gibt. .. ..

Recommended Posts