In-Database Python Analysis für SQL-Entwickler
Schritt 1: Beispieldaten herunterladen
Schritt 3: Suchen und Visualisieren von Daten
In diesem Schritt führen Sie das heruntergeladene Skript "RunSQL_SQL_Walkthrough.ps1" aus, um die für das Lernprogramm erforderlichen Datenbankobjekte zu erstellen und die Beispieldaten zu importieren.
Führen Sie das PowerShell-Skript "RunSQL_SQL_Walkthrough.ps1" in den heruntergeladenen Dateien aus, um die Lernprogrammumgebung vorzubereiten. Dieses Skript führt die folgenden Aktionen aus:
--Erstellen Sie eine Datenbank und eine Tabelle in der SQL Server-Instanz und laden Sie die Daten in großen Mengen.
--Erstellen Sie weitere Funktionen und gespeicherte Prozeduren.
Öffnen Sie als Administrator eine PowerShell-Eingabeaufforderung und führen Sie den folgenden Befehl aus:
.\RunSQL_SQL_Walkthrough.ps1
Sie werden aufgefordert, die folgenden Informationen einzugeben:
Name oder Adresse des Servers, auf dem Machine Learning Services (Python) installiert ist.
Der Name der zu erstellenden Datenbank
Der Benutzername und das Kennwort des Ziel-SQL-Servers. Dieser Benutzer muss berechtigt sein, Datenbanken, Tabellen, gespeicherte Prozeduren, Funktionen und Daten in Tabellen zu laden. Wenn Sie den Benutzernamen und das Kennwort weglassen, werden Sie als aktueller Windows-Benutzer angemeldet.
Der Pfad der Beispieldatendatei nyctaxi1pct.csv
in den heruntergeladenen Dateien. Zum Beispiel "C: \ tempPythonSQL \ nyctaxi1pct.csv".
Alle T-SQL-Skripte wurden geändert, um die im Rahmen der obigen Schritte angegebenen Datenbank- und Benutzernamen durch Platzhalter zu ersetzen.
Stellen Sie sicher, dass die vom T-SQL-Skript erstellten gespeicherten Prozeduren und Funktionen in der Datenbank erstellt wurden.
T-SQL-Skriptdatei | Gespeicherte Prozedur / Funktion |
---|---|
create-db-tb-upload-data.sql | Erstellen Sie eine Datenbank und vier Tabellen. Tabelle nyctaxi_sample :Der Hauptdatensatz von NYC Taxi wird erstellt. Die geladenen Daten sind eine 1% -Stichprobe des NYC Taxi-Datensatzes. Die Definition des Clustered Column Store Index verbessert die Speichereffizienz und die Abfrageleistung.Tabelle nyc_taxi_models :Ein geschultes fortgeschrittenes analytisches Modell wird registriert.Tabelle nyctaxi_sample_training :Der zum Trainieren des Modells verwendete Datensatz wird erstellt.Tabelle nyctaxi_sample_testing :Der zum Testen des Modells verwendete Datensatz wird registriert. |
fnCalculateDistance.sql | Skalarwertfunktion, die den direkten Abstand zwischen der Einstiegsposition und der Ausstiegsposition berechnetfnCalculateDistance Ein ... kreieren. |
fnEngineerFeatures.sql | Eine tabellenwertige Funktion, die einen Feature-Wert zurückgibt, der für das Modelltraining festgelegt wurdefnEngineerFeatures Ein ... kreieren. |
TrainingTestingSplit.sql | nyctaxi_Daten in der Probentabelle, Nyctaxi_sample_Training und Nyctaxi_sample_Verfahren zur Aufteilung in zwei TestbereicheTrainingTestingSplit Ein ... kreieren. |
PredictTipSciKitPy.sql | Scikit zur Vorhersage mit dem Modell-Vorgehensweise zum Aufrufen des trainierten Modells, das durch Lernen erstellt wurdePredictTipSciKitPy Ein ... kreieren. Die Prozedur akzeptiert eine Abfrage als Eingabeparameter und gibt eine Zahlenspalte zurück, die die Punktzahl für die Eingabezeile enthält. |
PredictTipRxPy.sql | Eine Prozedur, die ein trainiertes Modell aufruft, das mit RevoScalePy zur Vorhersage unter Verwendung des Modells erstellt wurdePredictTipRxPy Ein ... kreieren. Die Prozedur akzeptiert eine Abfrage als Eingabeparameter und gibt eine Zahlenspalte zurück, die die Punktzahl für die Eingabezeile enthält. |
PredictTipSingleModeSciKitPy.sql | Scikit zur Vorhersage mit dem Modell-Vorgehensweise zum Aufrufen des trainierten Modells, das durch Lernen erstellt wurdePredictTipSingleModeSciKitPy Ein ... kreieren. Diese gespeicherte Prozedur verwendet neue Beobachtungen als Eingabe, akzeptiert einzelne Merkmalswerte als Inline-Parameter und gibt Vorhersagen für die neuen Beobachtungen zurück. |
PredictTipSingleModeRxPy.sql | Scikit zur Vorhersage mit dem Modell-Vorgehensweise zum Aufrufen des trainierten Modells, das durch Lernen erstellt wurdePredictTipSingleModeRxPy Ein ... kreieren. Diese gespeicherte Prozedur verwendet neue Beobachtungen als Eingabe, akzeptiert einzelne Merkmalswerte als Inline-Parameter und gibt Vorhersagen für die neuen Beobachtungen zurück. |
SerializePlots.sql | Verfahren zum Abrufen von DatenSerializePlots Ein ... kreieren. Diese gespeicherte Prozedur verwendet Python, um Grafiken zu erstellen und Diagrammobjekte zu serialisieren. |
TrainTipPredictionModelSciKitPy.sql | scikit-Verfahren zum Trainieren eines logistischen Regressionsmodells durch LernenTrainTipPredictionModelSciKitPy Ein ... kreieren. Dieses Modell wird unter Verwendung von 60% der zufällig ausgewählten Daten trainiert, um den abgegriffenen Wert vorherzusagen (ob ein Chip erhalten werden soll oder nicht). Die Ausgabe der gespeicherten Prozedur ist ein trainiertes Modell, eine Tabellenyc_taxi_models Wird in registriert. |
TrainTipPredictionModelRxPy.sql | Verfahren zum Trainieren eines logistischen Regressionsmodells mit RevoScalePyTrainTipPredictionModelRxPy Ein ... kreieren. Dieses Modell wird unter Verwendung von 60% der zufällig ausgewählten Daten trainiert, um den abgegriffenen Wert vorherzusagen (ob ein Chip erhalten werden soll oder nicht). Die Ausgabe der gespeicherten Prozedur ist ein trainiertes Modell, eine Tabellenyc_taxi_models Wird in registriert. |
[!NOTE]
Das T-SQL-Skript erstellt das Datenbankobjekt nicht neu. Wenn es bereits vorhanden ist, werden die Daten dupliziert. Löschen Sie daher das vorhandene Objekt, bevor Sie das Skript erneut ausführen.
Führen Sie nach dem Ausführen der obigen Schritte die folgende SQL aus, um einige Objekte neu zu definieren. ** Die Spezifikationen von RevoScalePy wurden beim Upgrade von SQL Server 2017 CTP auf SQL Server 2017 RC geändert. Der Hauptgrund für diese Neudefinition ist die Anpassung an diese Änderungen. ** ** **
Schritt 3: Suchen und Visualisieren von Daten
Schritt 1: Beispieldaten herunterladen
In-Database Python Analysis für SQL-Entwickler
Step 2: Import Data to SQL Server using PowerShell
Machine Learning Services with Python
Recommended Posts