So etwas wird abgehalten, also versuche ich für eine Weile mitzumachen.
https://www.kaggle.com/c/coupon-purchase-prediction http://www.recruit.jp/news_data/release/2015/0716_15946.html
Kaggle soll "die weltweit größte Community von Datenwissenschaftlern sein, die um die Lösung Ihrer wertvollsten Probleme konkurrieren." Einfach ausgedrückt, ist dies ein Ort, an dem Sie problemlos einen Datenanalyse-Wettbewerb durchführen können. Ich bin sicher, es gibt Leute, die es besser erklären, wenn ich im Internet suche.
Es macht mehr Spaß, etwa 100 Mal mehr zu konkurrieren als alleine zu arbeiten, und Sie erzielen viele gute Ergebnisse. Deshalb ist es ziemlich beschäftigt.
Datenanalyse-Wettbewerb? Was bedeutet das? Korrekt. Ich werde einen Preis bekommen. Dies kann ein fünfstelliger Dollar oder eine Menge Geld sein. Nun, der Gegner ist ein Profi auf der Welt, aber es ist nicht einfach zu gewinnen. .. ..
RECRUIT Challenge? Wie ich zu Beginn schrieb, hat RECRUIT Holdings ein Problem mit Kaggle verursacht, und das ist die RECRUIT Challenge. Der Inhalt ist die Kaufprognose der Coupon-Site "Pompare". Prognostizieren Sie den Kauf für die nächste Woche anhand der Informationen zu Browsing- / Kaufcoupons für das vergangene Jahr oder so.
Wie bei jedem Problem ist das Preisgeld riesig. (Https://www.kaggle.com/c/coupon-purchase-prediction/details/prizes)
――Erster Platz 30.000 US-Dollar Zweiter Platz $ 10.000
Darüber hinaus erhalten Sie als Student zusätzliches Geld und zusätzliche Rechte. (Http://challenge.recruit.ai/studentAward.html) Da die Bewerbung auf Japanisch ist, ist es tatsächlich eine Übereinstimmung zwischen japanischen Studenten?
Das ist.
Lass es uns herausfinden. Es ist traurig, einfach loszulegen und zu stolpern (es ist ein Geheimnis, dass ich viermal einen Formatfehler gemacht habe), also habe ich einen Code geschrieben, der zufällig 10 Vorhersagen mit Pandas ausgibt. Nehmen wir an, die CSV-Datei befindet sich im Ordner dat.
random_prediciton.py
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
ul = pd.read_csv('./dat/user_list.csv')
cl_test = pd.read_csv('./dat/coupon_list_test.csv')
sampler = np.random.permutation(len(cl_test)) #cl_Generieren Sie etwas, das die Reihenfolge der Tests ändert
cids = cl_test.take(sampler[:10]).COUPON_ID_hash #Holen Sie sich 10 Stück in zufälliger Reihenfolge und Gutschein_ID_Nimm Haschisch
cids = " ".join(cids) #Fassen Sie die IDs zusammen, indem Sie sie durch ein Leerzeichen halber Breite trennen(Dies ist das erforderliche Ausgabeformat)
output = pd.DataFrame({"USER_ID_hash":ul.USER_ID_hash, "PURCHASED_COUPONS":cids}, columns=["USER_ID_hash", "PURCHASED_COUPONS"]) #Erstellen Sie einen DataFrame für die Ausgabe
output.to_csv("./output_random.csv", index=False)
Informationen darüber, welche Art von Informationen bereitgestellt werden, werden bereitgestellt, aber ich habe sie einfach in pptx geschrieben.