Dieses Mal möchte ich VARISTA verwenden, um ein Modell zu generieren, das den Verkauf von Spielesoftware vorhersagt. Ich habe versucht, mit VARISTA ein Vorhersagemodell zu erstellen, indem ich auf den folgenden Codexa-Artikel verwiesen habe. Der Artikel verwendet AWS SageMaker, aber ich werde es mit VARISTA versuchen.
Ich musste jedoch Code durch Formatieren der Daten schreiben, also mache ich das mit Google Colabratory. (Python ist vorerst ein Wissensstand, der gebissen wurde.)
Der eigentliche Vorgang dauert ca. 10 Minuten Das Lernen dauert ungefähr 1 oder 2 Minuten auf Stufe 1 und ungefähr 1,5 Stunden auf Stufe 3
Kostenlos mit VARISTA Free Account
Download von der folgenden Seite von Kaggle. Video Game Sales with Ratings
Dieser Datensatz war ein metakritisches Scraping. Leider deckt Metacritic nur einen Teil der Plattform ab, sodass es an aggregierten Daten mangelt. Außerdem fehlen in einigen Spielen die unten beschriebenen Variablen.
Critic_score - Eine von Metacritic-Mitarbeitern erstellte Kritikerbewertung. Critic_count - Die Anzahl der Kritiker, die zur Berechnung des Critic_score verwendet wurden. User_score --Score von Metacritic-Abonnenten Usercount-Anzahl der Benutzer, die für eine Benutzerbewertung gestimmt haben Entwickler-Spiele-Entwicklungsfirma Bewertung - ESRB-Bewertung
Denken Sie also daran, dass für alle Spiele Verkaufsdaten fehlen oder nicht. ** ** **
Dieses Mal werde ich die Daten ein wenig wie in dem Artikel verarbeiten, auf den ich mich bezogen habe. Da wir mehr als 1 Million Verkäufe als Treffer definiert haben, werden wir eine neue Spalte mit mehr als 1 Million als Ja und anderen als Nein hinzufügen.
Ich mag es nicht wirklich, eine Umgebung lokal zu erstellen, deshalb schreibe ich diesen Code in Google Colaboratory, um die Daten zu verarbeiten.
import pandas as pd
filename = './sample_data/kaggle/Video_Games_Sales_as_at_22_Dec_2016.csv'
data = pd.read_csv(filename)
#Anvisieren
# Global_Erstellen Sie y basierend auf einem Umsatz von 1 (1 Million) oder mehr im Umsatz
data['y'] = 'no'
data.iloc[data['Global_Sales'] > 1, 'y'] = 'yes
pd.set_option('display.max_rows', 20)
#Daten anzeigen
data
#Speichern Sie die verarbeiteten Daten als neue CSV
data.to_csv('sample_data/kaggle/Add_y_Column_Video_Games_Sales.csv')
Sie können sehen, dass ** y ** zur Spalte ganz rechts hinzugefügt wurde.
Wenn Sie den obigen Code ausführen, wird eine Datei mit dem Namen "Add_y_Column_Video_Games_Sales.csv" generiert. Laden Sie sie herunter.
Erstellen Sie ein neues Projekt in VARISTA und laden Sie die von Ihnen erstellte ** Add_y_Column_Video_Games_Sales.csv ** hoch. Wählen Sie dieses Mal ** y ** für die vorherzusagende Spalte.
Der Umriss der Daten ist wie folgt.
Die Anzahl der Veröffentlichungen scheint 2008-2010 ihren Höhepunkt zu erreichen.
Die meisten Plattformen sind PS2 und DS, gefolgt von PS3. Es scheint, dass das Smartphone nicht enthalten ist.
Die Verteilung der Genres ist so.
EA scheint bei der Anzahl der veröffentlichten Bücher an der Spitze zu stehen. Ich bin froh, dass es viele japanische Spielefirmen gibt.
Ob es ein Hit war oder nicht, es ist ein ziemlich enges Tor mit 2.057 / 16.719 Büchern. Früher habe ich Smartphone-Spiele entwickelt, aber ich hatte den Eindruck, dass Millionen Treffer Kapital oder Glück hatten. Darüber hinaus handelt es sich bei diesen Daten um eine Verbrauchermaschine, sodass dies schwierig ist. ..
ja (gelb): Millionen Treffer oder mehr nein (hellblau): Million Treffer nicht erreicht
Plattformen sind NES und GB % E3% 83% A0% E3% 83% 9C% E3% 83% BC% E3% 82% A4) hat eine hohe Trefferquote von Millionen. Liegt es daran, dass es nicht viele andere Optionen gab, als diese Spielautomaten beliebt waren? .. ??
Publisher / Developer Da ich Japaner bin, interessiere ich mich immer für Nintendo und Square Enix, aber es ist erstaunlich, dass alle Titel, die ich in diesen Daten entwickelt habe, Millionen Hits sind. Wie Sie sich aus dieser Grafik vorstellen können, ist Nintendo gut in der Planung und Entwicklung und möglicherweise nicht sehr gut darin, Spiele zu verkaufen, die von anderen Unternehmen entwickelt wurden.
Der Unterschied zwischen Publisher und Developer besteht darin, dass Publisher das Unternehmen ist, das das Spiel verkauft und bereitstellt, und Developer das Unternehmen, das das Spiel entwickelt. Der Entwickler kann auch der Herausgeber sein.
Critic_score & Critic_count
User_score
Das Lernen wurde auf ** Stufe 3 ** durchgeführt. Detaillierte Parametereinstellungen wurden seit der Titanic so vorgenommen. Das Lernen der Stufe 1 kann in wenigen Minuten abgeschlossen werden. Mit dieser Einstellung dauerte es jedoch etwas mehr als eine Stunde, um eine große Anzahl von Parametern zu finden.
Außerdem habe ich die Spalten (Unbenannt0, NA_Sales, EU_Sales, JP_Sales, Other_Sales, Global_Sales) deaktiviert, die in direktem Zusammenhang mit den vorhergesagten Spalten aus dem Datensatz stehen.
Wenn ich die Punktzahl überprüfe, sieht es so aus.
Die Verwirrungsmatrix wird folgendermaßen angezeigt. Unter Verwendung von 103 Fällen als Verifikationstestdaten scheinen 82 Fälle getroffen worden zu sein und 21 Fälle wurden nicht getroffen.
Auch diesmal war ich wütend, dass die Trainingsdaten voreingenommen waren. Dafür bleibt keine andere Wahl, als die Datenmenge durch Unterabtastung usw. anzupassen, aber ich möchte versuchen, was tatsächlich passiert. Ich werde mir Zeit nehmen, es noch einmal zu versuchen.
Es scheint, dass der als Ja / Nein beurteilte Wert ebenfalls automatisch angepasst wird. In diesem Fall scheint es JA zu beurteilen, wenn es 0,222 überschreitet.
Da es keine tatsächlichen Testdaten gibt, sollten diese durch Abrufen aus den Trainingsdaten erstellt werden. Dieses Mal habe ich es kurz versucht, also habe ich versucht, es anhand der Daten zu überprüfen, die automatisch von VARISTA geteilt werden.
Wenn Sie diesen Artikel lesen und VARISTA verwenden möchten, verwenden Sie bitte den unten stehenden Link! Verdiene 7 $ Credits für mich und dich! m (_ _) m
https://console.varista.ai/welcome/jamaica-draft-coach-cup-blend
Referenzartikel Ich habe versucht, den Verkauf von Spielesoftware mit XGBoost vorherzusagen [Amazon SageMaker-Notebook + Modelltraining + Modellhosting]
Recommended Posts