Ich habe beim Lesen von Narurou Novel API einen interessanten Befehl gefunden, daher werde ich ihn vorstellen und analysieren.

Gesprächsrate

|Parameter|Wert|Erläuterung| |:--|:--|:--| |kaiwaritu |int string |Die Konversationsrate des zu extrahierenden Romans%Sie kann in Einheiten angegeben werden. Wenn Sie einen Bereich angeben, trennen Sie die minimale und maximale Anzahl von Bindestrichen(-)Bitte mit einem Symbol trennen.

Das war's. Gesprächsrate …… Ich frage mich, ob es nur ein Gespräch oder der Teil des Bodens ist

Dann sofort

Bereiten Sie das Laden vor und laden Sie die Bibliothek

`before_load.py`


import pandas as pd
import requests
import numpy as np
import seaborn as sns
from scipy import stats
import matplotlib.pyplot as plt
%matplotlib inline

url = "http://api.syosetu.com/novelapi/api/"

`narou_load.py`


st = 1
lim = 500

data = []
while st < 2000:
    payload = {'of': 't-gp-gf-n-ka', 'order': 'hyoka',
          'out':'json','lim':lim,'st':st}
    r = requests.get(url,params=payload)
    x = r.json()
    data.extend(x[1:])
    st = st + lim
df = pd.DataFrame(data)

df.head()

payload = {'of': 't-gp-gf-n Sie können es laden, indem Sie diesem Teil einen Teil namens "ka" hinzufügen. (Oben hinzugefügt) Und die Daten, die herauskommen

title	kaiwaritu(%)
Es war Schleim, als ich wiedergeboren wurde	14
Der Stärkste der Welt in einem gemeinsamen Beruf	40
Mit lächerlichem Geschick in eine andere Welt wandern	36
Arbeitslose Reinkarnation-Wenn Sie in eine andere Welt gehen, werden Sie ernst-	22
Ein weiteres Welt-Fantasy-Lied ab Death March (Webversion)	38

Das war's. Es ist ziemlich teuer (Lüfter) Ich weiß jedoch nicht, wie teuer das überhaupt ist, also versuchen Sie es mit "beschreiben ()"

	kaiwaritu
count	2000.00000
mean	38.00800
std	10.66831
min	0.00000
25%	31.00000
50%	38.00000
75%	45.00000
max	96.00000

Das war's. Geht es um den Durchschnitt, wenn der Durchschnitt 38% beträgt? Oder besser gesagt, die Anzahl der Zeichen ist so groß, dass es durchaus üblich ist?

Lassen Sie uns die Anzahl der Zeichen etwas eingrenzen.

Lesezeit

Ich wage es, die Lesezeit zu nutzen, ohne die Anzahl der Zeichen anzugeben Aber wie ist die Lesezeit?

|Parameter|Wert|Erläuterung| |:--|:--|:--| |time|int string|Sie können die Lesezeit des zu extrahierenden Romans angeben. Die Lesezeit ist die Anzahl der Zeichen im Roman geteilt durch 500. Wenn Sie einen Bereich angeben, trennen Sie die minimale und maximale Anzahl von Zeichen(-)Bitte mit einem Symbol trennen.|

Wie Sie sehen können, ist die Anzahl proportional zur Anzahl der Zeichen, sodass es kein Problem geben sollte, außer dass die Anzahl kleiner wird.

Fügen Sie "ti" zu "von" der "Nutzlast" hinzu und laden Sie sofort

Da es eine große Sache ist, versuchen Sie "beschreiben ()" pünktlich "

	time
count	2000.000000
mean	1395.985500
std	1823.680635
min	11.000000
25%	434.750000
50%	889.500000
75%	1608.250000
max	26130.000000

Es scheint, dass es mindestens 5001 Zeichen gibt. (... Ich glaube nicht, dass Max Beschwörer ist) df[['title','time']].sort_values('time').tail()

title	time
Magi Craft Meister	14868
Grenzlabyrinth und Magier einer anderen Welt	16410
Eine andere Weltkochstraße	17653
Beschwörer geht	25536
Legende	26130

** Nein **

Beziehung zwischen Lesezeit (Anzahl der Zeichen) und Konversationsrate

`doku_kai.py`


#Teilen Sie durch die Zeit
df['part']=pd.qcut(df.time,4,labels=['D','C','B','A'])
#Durchschnitt für jedes Teil
df.groupby('part').agg({'kaiwaritu':['mean']})

Die Anzahl der Zeichen ist D <C <B <A

part	kaiwaritu(durchschnittlich:％)
D	36.990
C	38.180
B	38.322
A	38.540

Das war eine Überraschung. Insbesondere scheint sich die Konversationsrate nicht zu ändern, ob es sich um eine lange oder eine kurze Geschichte handelt.

Stil

Ich war enttäuscht und habe versucht, eine andere Funktion namens Schreibstil zu verwenden. Dies scheint sich in der Prototypenphase zu befinden, und es gibt Fälle, in denen Daten nicht eindeutig ausgegeben werden (sie sind in erster Linie nicht eindeutig), und da sie nicht auf "of" gesetzt werden können, werde ich zwei Arten des Datenrahmenlesens durchführen

|Parameter|Wert|Erläuterung| |:--|:--|:--| |buntai |int string|Sie können den Stil angeben. Bindestrich(-)Sie können eine ODER-Suche durchführen, indem Sie sie durch ein Symbol trennen. 1: Arbeit, die nicht herabgestuft wurde und viele fortlaufende Zeilenumbrüche aufweist 2: Arbeit, die nicht herabgestuft wurde, aber eine durchschnittliche Anzahl von Zeilenumbrüchen aufweist 4: Arbeit, die für eine Herabstufung geeignet ist, aber viele fortlaufende Zeilenumbrüche aufweist 6: Arbeit, die nicht herabgestuft wurde, aber viele fortlaufende Zeilenumbrüche aufweist Funktioniert mit einer durchschnittlichen Anzahl von Zeilenumbrüchen|

Teilen Sie zunächst in "df1", "df2", "df4" bzw. "df6".

Der stärkste Weise des Disqualifikationskamms - Der stärkste Weise der Welt wurde wiedergeboren, um stärker zu werden - Der Geschmack der Tochter des Herzogs Ein anderes Weltleben eines wiedergeborenen Weisen - ich bekam einen zweiten Beruf und wurde der stärkste der Welt - Ich bin als Bösewichtstochter wiedergeboren worden, die nur die Ruinenflagge des Jungfernspiels hat ... Live Dungeon!

Eine andere Welt Cafeteria Jemand bitte erklären Sie diese Situation Hariko Maiden Ich werde leise verschwinden In der Mitte der Karriere (mittleren Alters) hat ein Mann die andere industrielle Revolution der Welt entspannt

Der Stärkste der Welt in einem gemeinsamen Beruf Arbeitslose Reinkarnation - ich meine es ernst, wenn ich in eine andere Welt gehe - Ein weiteres Welt-Fantasy-Lied ab Death March (Webversion) Re: Leben in einer anderen Welt ab Null Ich möchte eine mächtige Person im Schatten sein![Webversion]

Es war Schleim, als ich wiedergeboren wurde Mit lächerlichem Geschick in eine andere Welt wandern Ich sagte, dass die Fähigkeit durchschnittlich ist! Es ist eine Spinne, was ist das? Die magische Kraft des Heiligen ist vielseitig

Es gibt einige Klassifikationen, die ich nicht verstehe, aber ich werde es ertragen.

	df1	df2	df4	df6
count	500.000000	500.000000	500.00000	500.000000
mean	36.506000	35.246000	38.74200	37.668000
std	11.489211	14.927396	9.70091	13.106691
min	1.000000	0.000000	6.00000	0.000000
25%	28.000000	25.000000	32.75000	30.000000
50%	36.000000	35.000000	39.00000	38.000000
75%	44.000000	44.250000	45.00000	46.000000
max	70.000000	98.000000	71.00000	96.000000

Betrachtet man dieses Ergebnis, obwohl es keinen großen Unterschied gab, war df2 insgesamt klein und df6 groß. Der Grund, warum die Populationen auf jeweils 500 festgelegt werden, ist, dass die erste Population 2000 war und als die Populationen in Schritten von 2000 angezeigt wurden, sank df2 weiter auf 34%.

Wenn man dies betrachtet, scheint die Konversationsrate nicht mit dem Schreibstil in Beziehung zu stehen. ~~ Ich frage mich, ob es ein Genre ist ~~

Impressionen

Das Analyseergebnis lief nicht sehr gut, aber ich fragte mich, ob es eine Praxis war, als ich in Zukunft weiter arbeitete. Wenn ich eine interessante Datenanalyse habe, würde ich sie gerne ausprobieren. Als ich es zurücklas, war ich überrascht über die niedrige Gesprächsrate von Tosura. Liegt es daran, dass es in meinem Herzen viele Gespräche gibt?

[PYTHON] Ich habe die Naro-Roman-API 2 ausprobiert