[PYTHON] Ich habe versucht, den Verkauf von Spielesoftware mit VARISTA anhand des Artikels von Codexa vorherzusagen

Dieses Mal möchte ich VARISTA verwenden, um ein Modell zu generieren, das den Verkauf von Spielesoftware vorhersagt. Ich habe versucht, mit VARISTA ein Vorhersagemodell zu erstellen, indem ich auf den folgenden Codexa-Artikel verwiesen habe. Der Artikel verwendet AWS SageMaker, aber ich werde es mit VARISTA versuchen.

Ich habe versucht, den Verkauf von Spielesoftware mit XGBoost vorherzusagen [Amazon SageMaker-Notebook + Modelltraining + Modellhosting]

Ich musste jedoch Code durch Formatieren der Daten schreiben, also mache ich das mit Google Colabratory. (Python ist vorerst ein Wissensstand, der gebissen wurde.)

Benötigte Zeit

Der eigentliche Vorgang dauert ca. 10 Minuten Das Lernen dauert ungefähr 1 oder 2 Minuten auf Stufe 1 und ungefähr 1,5 Stunden auf Stufe 3

Anfallende Kosten

Kostenlos mit VARISTA Free Account

Daten herunterladen

Download von der folgenden Seite von Kaggle. Video Game Sales with Ratings

Beschreibung der in Kaggle enthaltenen Daten

Dieser Datensatz war ein metakritisches Scraping. Leider deckt Metacritic nur einen Teil der Plattform ab, sodass es an aggregierten Daten mangelt. Außerdem fehlen in einigen Spielen die unten beschriebenen Variablen.

Critic_score - Eine von Metacritic-Mitarbeitern erstellte Kritikerbewertung. Critic_count - Die Anzahl der Kritiker, die zur Berechnung des Critic_score verwendet wurden. User_score --Score von Metacritic-Abonnenten Usercount-Anzahl der Benutzer, die für eine Benutzerbewertung gestimmt haben Entwickler-Spiele-Entwicklungsfirma Bewertung - ESRB-Bewertung

Denken Sie also daran, dass für alle Spiele Verkaufsdaten fehlen oder nicht. ** ** **

Datenverarbeitung

Dieses Mal werde ich die Daten ein wenig wie in dem Artikel verarbeiten, auf den ich mich bezogen habe. Da wir mehr als 1 Million Verkäufe als Treffer definiert haben, werden wir eine neue Spalte mit mehr als 1 Million als Ja und anderen als Nein hinzufügen.

Ich mag es nicht wirklich, eine Umgebung lokal zu erstellen, deshalb schreibe ich diesen Code in Google Colaboratory, um die Daten zu verarbeiten.

Colaboratory - Google Colab

import pandas as pd
filename = './sample_data/kaggle/Video_Games_Sales_as_at_22_Dec_2016.csv'
data = pd.read_csv(filename)                               
#Anvisieren
# Global_Erstellen Sie y basierend auf einem Umsatz von 1 (1 Million) oder mehr im Umsatz
data['y'] = 'no'
data.iloc[data['Global_Sales'] > 1, 'y'] = 'yes
pd.set_option('display.max_rows', 20)
#Daten anzeigen
data
#Speichern Sie die verarbeiteten Daten als neue CSV
data.to_csv('sample_data/kaggle/Add_y_Column_Video_Games_Sales.csv')

Sie können sehen, dass ** y ** zur Spalte ganz rechts hinzugefügt wurde. image.png

Wenn Sie den obigen Code ausführen, wird eine Datei mit dem Namen "Add_y_Column_Video_Games_Sales.csv" generiert. Laden Sie sie herunter.

Laden Sie Daten nach VARISTA hoch

Klicken Sie hier für VARISTA image.png

Erstellen Sie ein neues Projekt in VARISTA und laden Sie die von Ihnen erstellte ** Add_y_Column_Video_Games_Sales.csv ** hoch. Wählen Sie dieses Mal ** y ** für die vorherzusagende Spalte.

Bestätigung der Daten

Der Umriss der Daten ist wie folgt. image.png

Die Anzahl der Veröffentlichungen scheint 2008-2010 ihren Höhepunkt zu erreichen. image.png

Die meisten Plattformen sind PS2 und DS, gefolgt von PS3. Es scheint, dass das Smartphone nicht enthalten ist. image.png

Die Verteilung der Genres ist so. image.png

EA scheint bei der Anzahl der veröffentlichten Bücher an der Spitze zu stehen. Ich bin froh, dass es viele japanische Spielefirmen gibt. image.png

Ob es ein Hit war oder nicht, es ist ein ziemlich enges Tor mit 2.057 / 16.719 Büchern. Früher habe ich Smartphone-Spiele entwickelt, aber ich hatte den Eindruck, dass Millionen Treffer Kapital oder Glück hatten. Darüber hinaus handelt es sich bei diesen Daten um eine Verbrauchermaschine, sodass dies schwierig ist. .. image.png

Siehe die Korrelation

ja (gelb): Millionen Treffer oder mehr nein (hellblau): Million Treffer nicht erreicht

Plattformen sind NES und GB % E3% 83% A0% E3% 83% 9C% E3% 83% BC% E3% 82% A4) hat eine hohe Trefferquote von Millionen. Liegt es daran, dass es nicht viele andere Optionen gab, als diese Spielautomaten beliebt waren? .. ?? image.png

Publisher / Developer Da ich Japaner bin, interessiere ich mich immer für Nintendo und Square Enix, aber es ist erstaunlich, dass alle Titel, die ich in diesen Daten entwickelt habe, Millionen Hits sind. Wie Sie sich aus dieser Grafik vorstellen können, ist Nintendo gut in der Planung und Entwicklung und möglicherweise nicht sehr gut darin, Spiele zu verkaufen, die von anderen Unternehmen entwickelt wurden. image.png image.png

Der Unterschied zwischen Publisher und Developer besteht darin, dass Publisher das Unternehmen ist, das das Spiel verkauft und bereitstellt, und Developer das Unternehmen, das das Spiel entwickelt. Der Entwickler kann auch der Herausgeber sein.

Critic_score & Critic_count image.png

image.png

User_score image.png

image.png

Lernen

Das Lernen wurde auf ** Stufe 3 ** durchgeführt. Detaillierte Parametereinstellungen wurden seit der Titanic so vorgenommen. Das Lernen der Stufe 1 kann in wenigen Minuten abgeschlossen werden. Mit dieser Einstellung dauerte es jedoch etwas mehr als eine Stunde, um eine große Anzahl von Parametern zu finden. image.png

Außerdem habe ich die Spalten (Unbenannt0, NA_Sales, EU_Sales, JP_Sales, Other_Sales, Global_Sales) deaktiviert, die in direktem Zusammenhang mit den vorhergesagten Spalten aus dem Datensatz stehen. image.png

Überprüfen Sie das Ergebnis

Wenn ich die Punktzahl überprüfe, sieht es so aus.

image.png

Die Verwirrungsmatrix wird folgendermaßen angezeigt. Unter Verwendung von 103 Fällen als Verifikationstestdaten scheinen 82 Fälle getroffen worden zu sein und 21 Fälle wurden nicht getroffen. image.png

Auch diesmal war ich wütend, dass die Trainingsdaten voreingenommen waren. Dafür bleibt keine andere Wahl, als die Datenmenge durch Unterabtastung usw. anzupassen, aber ich möchte versuchen, was tatsächlich passiert. Ich werde mir Zeit nehmen, es noch einmal zu versuchen.

image.png

Es scheint, dass der als Ja / Nein beurteilte Wert ebenfalls automatisch angepasst wird. In diesem Fall scheint es JA zu beurteilen, wenn es 0,222 überschreitet.

image.png

Da es keine tatsächlichen Testdaten gibt, sollten diese durch Abrufen aus den Trainingsdaten erstellt werden. Dieses Mal habe ich es kurz versucht, also habe ich versucht, es anhand der Daten zu überprüfen, die automatisch von VARISTA geteilt werden.

Wenn Sie diesen Artikel lesen und VARISTA verwenden möchten, verwenden Sie bitte den unten stehenden Link! Verdiene 7 $ Credits für mich und dich! m (_ _) m

https://console.varista.ai/welcome/jamaica-draft-coach-cup-blend


Referenzartikel Ich habe versucht, den Verkauf von Spielesoftware mit XGBoost vorherzusagen [Amazon SageMaker-Notebook + Modelltraining + Modellhosting]

Recommended Posts

Ich habe versucht, den Verkauf von Spielesoftware mit VARISTA anhand des Artikels von Codexa vorherzusagen
Ich habe versucht, die Bewegungen von Wiire-Playern automatisch mit Software zu extrahieren
Ich habe versucht, das Verhalten des neuen Koronavirus mit dem SEIR-Modell vorherzusagen.
Ich habe versucht, das Vorhandensein oder Nichtvorhandensein von Schnee durch maschinelles Lernen vorherzusagen.
Ich habe versucht, das Artikel-Update des Livedoor-Blogs mit Python und Selen zu automatisieren.
Ich habe versucht, die Laufdaten des Rennspiels (Assetto Corsa) mit Plotly zu visualisieren
Ich habe versucht, mit TensorFlow den Durchschnitt mehrerer Spalten zu ermitteln
Ich schrieb einen Test in "Ich habe versucht, die Wahrscheinlichkeit eines Bingospiels mit Python zu simulieren".
Ich habe versucht, die Bewässerung des Pflanzgefäßes mit Raspberry Pi zu automatisieren
Ich habe versucht zu beheben "Ich habe versucht, die Wahrscheinlichkeit eines Bingospiels mit Python zu simulieren"
Ich ließ RNN Sin Wave lernen und versuchte vorherzusagen
Ich habe versucht, die Größe des logischen Volumes mit LVM zu erweitern
Ich habe versucht, die Effizienz der täglichen Arbeit mit Python zu verbessern
Ich habe versucht, die Sprecheridentifikation mithilfe der Sprechererkennungs-API von Azure Cognitive Services mit Python zu überprüfen. # 1
Ich habe versucht, die Sprecheridentifikation mithilfe der Sprechererkennungs-API von Azure Cognitive Services in Python zu überprüfen. # 2
Ich habe versucht, die Anzahl der im Inland infizierten Menschen der neuen Korona mit einem mathematischen Modell vorherzusagen
Ich habe versucht, den Authentifizierungscode der Qiita-API mit Python abzurufen.
Ich habe versucht, die optimale Route des Traumlandes durch (Quanten-) Tempern zu finden
Ich habe versucht, die Beschleunigung von Python durch Cython zu verifizieren und zu analysieren
Ich habe versucht, die Negativität von Nono Morikubo zu analysieren. [Vergleiche mit Posipa]
Ich habe versucht, die Standardrolle neuer Mitarbeiter mit Python zu optimieren
Ich habe versucht, den Text des Romans "Wetterkind" mit Word Cloud zu visualisieren
Ich habe versucht, die Filminformationen der TMDb-API mit Python abzurufen
Ich habe die übliche Geschichte ausprobiert, Deep Learning zu verwenden, um den Nikkei-Durchschnitt vorherzusagen
Ich habe versucht, das Ergebnis des A / B-Tests mit dem Chi-Quadrat-Test zu überprüfen
Ich habe versucht, nächstes Jahr mit AI vorherzusagen
Ich habe versucht, die Daten mit Zwietracht zu speichern
Ich habe versucht, die Trapezform des Bildes zu korrigieren
Ich habe versucht, das Überleben der Titanic mit PyCaret vorherzusagen
Ich habe versucht, die Texte von Hinatazaka 46 zu vektorisieren!
Ich habe versucht, die Verschlechterung des Lithium-Ionen-Akkus mithilfe des Qore SDK vorherzusagen
Ich habe versucht, die Pferde vorherzusagen, die mit LightGBM unter den Top 3 sein werden
Ich habe versucht, die Tweets von JAWS DAYS 2017 mit Python + ELK einfach zu visualisieren
Ich habe versucht, die Veränderung der Schneemenge für 2 Jahre durch maschinelles Lernen vorherzusagen
Ich habe versucht, die Daten des Laptops durch Booten unter Ubuntu zu retten
Die Geschichte von soracom_exporter (Ich habe versucht, SORACOM Air mit Prometheus zu überwachen)
Ich habe versucht, ein Modell mit dem Beispiel von Amazon SageMaker Autopilot zu erstellen
Ich habe versucht, die Literatur des neuen Corona-Virus mit Python automatisch an LINE zu senden
Ich habe versucht, die Anzahl der mit dem Coronavirus infizierten Personen unter Berücksichtigung der Auswirkung des Verzichts auf das Ausgehen vorherzusagen
Ich habe versucht, die Sündenfunktion mit Chainer zu trainieren
Ich habe versucht, die Grundform von GPLVM zusammenzufassen
Ich habe versucht, eine CSV-Datei mit Python zu berühren
Ich habe versucht, das Spiel in der J League vorherzusagen (Datenanalyse)
Ich habe versucht, Soma Cube mit Python zu lösen
Ich habe versucht, die Spacha-Informationen von VTuber zu visualisieren
Ich habe versucht, den negativen Teil von Meros zu löschen
Ich habe versucht, das Problem mit Python Vol.1 zu lösen
Ich habe versucht, die Stimmen der Sprecher zu klassifizieren
Ich habe versucht, die String-Operationen von Python zusammenzufassen
Ich habe versucht, mit dem Seq2Seq-Modell von TensorFlow so etwas wie einen Chatbot zu erstellen
Ich habe versucht, den Sieg oder die Niederlage der Premier League mit dem Qore SDK vorherzusagen
Ich habe versucht, die Eigenschaften der neuen Informationen über mit dem Corona-Virus infizierte Personen mit Wordcloud zu visualisieren
Ich habe versucht, die Verarbeitungsgeschwindigkeit mit dplyr von R und pandas von Python zu vergleichen
Beim 15. Offline-Echtzeitversuch habe ich versucht, das Problem des Schreibens mit Python zu lösen
Ich habe versucht, Überlebende der Titanic mit Kaggle vorherzusagen und einzureichen