[PYTHON] Nur 8 Techniken, um sich als Datenwissenschaftler auszugeben

Vorgeben, ein Datenwissenschaftler zu sein

Ab 2019 sollte es eine Menge Leute geben, die nicht anders können, als Datenwissenschaftler zu werden. Je mehr Sie jedoch vorgeben möchten, desto weniger wissen Sie, wie Sie vorgeben sollen. Ich schloss den schlammigen Aspekt des Datenwissenschaftlers vollständig aus und fragte mich, wie ich es so tun könnte. Die Schlussfolgerungen, die Sie ziehen, können ab morgen sofort in die Praxis umgesetzt werden. Wenn Sie Datenwissenschaftler werden möchten, probieren Sie es aus.

1. Apple gerade

Anspruchsvolle Produkte sind für einen anspruchsvollen Datenwissenschaftler unverzichtbar. Nehmen Sie Ihr MacBook mit, damit Sie mit Starva immer ein Doy-Gesicht machen können. Es gibt ein professionelles Gefühl, also wenn möglich, Pro. Nehmen Sie Ihren Profi mit.

2. Der Editor ist VSCODE

<img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/e8d86648-b700-a30e-7d49-7f427a5325fe.png " width="170")> Wenn Sie Ihr MacBook öffnen, wird VSCODE angezeigt. Was magst du an VSCODE? Ich werde so antworten, wenn ich gefragt werde. "Hmm, vor allem Leichtigkeit und reichlich vorhandene Erweiterungen, das attraktivste ist das Remote-Debugging." Editoren müssen immer leicht sein. Und Kollegen und Freunde müssen von den modischen Klängen von Erweiterungen und Remote-Debugging beeindruckt sein.

3. Ich liebe Python

Wenn Sie ein Datenwissenschaftler sind, ist Love Python eine Abkürzung. Lassen Sie uns PyCharm ebenso vergeblich installieren wie Python, eine Erweiterung von VSCODE. Es ist ein Zeichen meiner Liebe zu Python. Und leugne niemals R. Obwohl ich R überhaupt nicht verstehe, habe ich das Gefühl zu wissen, dass R einige gute Punkte hat.

4. Visualisieren Sie, um zu atmen

Visualisierung ist eines der Highlights von Datenwissenschaftlern. Sobald Sie die Daten haben, können Sie sie in Eile visualisieren, auch wenn sonst nichts. Nehmen wir außerdem einem Kollegen an, der mit MatPlotLib Diagramme zeichnet: "Jetzt empfehle ich die Visualisierung mit Plotly. Schließlich ist es am bequemsten, die Daten interaktiv anzeigen zu können."

5. Halten Sie sich an die Python-Notation

Da wir Python verwenden, sollten wir die Pythonic-Programmierung berücksichtigen. Schreiben wir modischen Code, der wie ein Funktionstyp aussieht, indem wir die Listeneinschlussnotation und sogar den Seiuchi-Operator verwenden, der im letzten Update unterstützt wurde.

6. Vergessen Sie C / C ++ nicht

Wenn Sie nur Python lieben, werden Sie möglicherweise von Kernleuten in Bezug auf Geschwindigkeit gemobbt. Daher werde ich mich gelegentlich an mich selbst wenden: "Möglicherweise muss ich am Ende in C schreiben." Die Menschen um mich herum sehnen sich nach Wissen von der Datenwissenschaft bis zur Produktfreigabe.

7. Sagen Sie Cloud einmal am Tag

<img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/7544d416-64da-7718-2868-dc0a431fc1b1.png ", width="200"><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/a08b87f1-c054-d830-6f2a-657beddf5217.jpeg ", width="200"> Die Cloud nicht zu nutzen ist keine Datenwissenschaft. Lassen Sie uns das Thema AWS und GCP ansprechen. Wiederholen wir das Schlüsselwort der Skalierung. Mit anderen Worten, es wäre noch besser, wenn wir Begriffe wie S3 und IAM verwenden könnten. Zeigen Sie die Größe des Feldes an, das sowohl vor Ort als auch in der Cloud verarbeitet werden kann.

8. Kennen Sie die Kaggle

Kaggles Großmeister, eine Sehnsucht nach Datenwissenschaftlern. Lassen Sie uns natürlich das Thema "Kürzlich im Kaggle-Wettbewerb ..." ansprechen, um eine Atmosphäre zu schaffen, die wir immer wieder überprüfen. Der Anschein, immer nach Höhe zu streben, sollte das Ziel der Bewunderung sein.

Warum ich diesen Artikel geschrieben habe

Dieser Artikel soll Datenwissenschaftler "vortäuschen", die ab Ende 2019 als einer der glamourösesten Jobs gelten. Der Auslöser war die Situation um mich herum, als ich an einer Konferenz eines sehr bekannten IT-Unternehmens teilnahm. Es war sehr interessant, weil alle gleich aussahen. Ich habe es ein wenig spielerisch geschrieben, aber ich habe vor, etwas zu schreiben, das bis zu einem gewissen Grad korrekt ist. Lassen Sie uns ein wenig ernsthaft über jeden sprechen und einige nützliche Links und Wörter geben.

1. liebe Apfel

Persönlich denke ich, dass Windows in Ordnung ist, aber ich denke, dass es in Bezug auf die Erstellung der Umgebung und die Kompatibilität mit Linux hervorragend ist. Viele Leute empfehlen Mac. Natürlich gibt es auch Apple-Follower. Überlegen Sie, welche Frage besser ist, Windows oder Mac für die Entwicklung Was ich getan habe, bevor ich Datenwissenschaftler wurde

2. Der Editor ist VSCODE

Ich persönlich halte dies für eine Option. Ich möchte Python nicht mehr außerhalb von VSCODE schreiben, ebenso wie Markdown. Der Entwurf, den ich diesen Artikel schreibe, ist auch VSCODE. Persönlich habe ich nicht wirklich den Grund, mich jetzt für einen anderen Editor zu entscheiden. Irgendwie ist VScode für Anfänger am stärksten, nicht wahr? 3 Gründe zum Nachdenken 24 Empfohlene Erweiterungen für VS-Code (und einige Tipps)

3. Ich liebe Python

Wenn ich Data Science mache, frage ich mich, ob ich das jetzt nicht entfernen kann. Alle Frameworks für maschinelles Lernen werden in Python bereitgestellt und sind sehr kompatibel mit Cloud. Empfohlene Programmiersprache für 2019

Wenn Sie Flask usw. verwenden, können Sie problemlos eine kleine Webanwendung schreiben, und verschiedene Anwendungen sind einfach zu bearbeiten. Ich denke, Python ist exzellent, weil ich denke, dass es wichtig ist, ein Gefühl für Geschwindigkeit zu haben, um ein wenig in der Arbeit zu versuchen, die Versuch und Irrtum wie Data Science wiederholt.

4. Visualisieren Sie, um zu atmen

Ich denke, Visualisierung ist eines der wichtigsten Elemente für diejenigen, die Data Science betreiben. Ich habe es im oberen Teil spielerisch geschrieben, aber Matplotlib ist eine Selbstverständlichkeit, und jetzt kann ich Plotly und Dash nur empfehlen. Ich denke, es ist wichtig, die Daten so anzuzeigen, dass Menschen sie sehen können, damit gesagt werden kann, dass das, was die Visualisierung steuert, die Daten steuert. (Persönliche Ansicht) Visualisierungstool Dash-Tutorial - Teil 1: Installationszeichnung- Erstellen Sie eine Web-App, die mit Plotly Dash einfach visualisiert werden kann

5. Halten Sie sich an die Python-Notation

Dieser Bereich ist ein bisschen verrückt, aber wenn Sie die Listeneinschlussnotation, Map und Lambda beherrschen, können Sie mit kurzem, sauberem Code das erreichen, was Sie wollen. Es kann auch zur Beschleunigung beitragen. Einige Leute sagen, dass es nicht lesbar ist, aber ich denke, dass es bis zu einem gewissen Grad verwendet wird. The Hitchhicker's Guide to Python Was ich getan habe, als ich Python schneller machen wollte Verwendung und Missbrauch der Notation zur Aufnahme von Listen Einführung in den super "praktischen" Python-Einzeiler beginnend mit der Listeneinschlussnotation

6. Vergessen Sie C / C ++ nicht

Schließlich möchte ich eine neue Bibliothek erstellen, über fortgeschrittene Dinge nachdenken und noch schneller C ++ benötigen. Wenn Sie etwas in der Nähe der Hardware schreiben möchten, benötigen Sie möglicherweise C. Natürlich gibt es Grenzen für Dolmetschersprachen, daher können Sprachen wie C ++ natürlich nicht lächerlich sein. Unnötig zu sagen hier. Why is python so slow? Geschwindigkeitsvergleich von Python, Java, C ++

7. Sagen Sie Cloud einmal am Tag

Es ist so wichtig, dass ich in einem Rekrutierungsinterview nicht sagen kann, dass ich die Cloud in dieser Ära nicht benutze. Es ist also selbstverständlich, dass ich aufholen muss. Selbst wenn Sie gerade erst mit Data Science begonnen haben, wäre es praktisch, wenn Sie ElasticSearch, Tableau, Jupyters Entwicklungsumgebung, schnell verwenden und viele Funktionen von SageMaker verwenden könnten. Data Science kann an einem Tag gestartet werden. Einführung in Python Data Science mit Amazon SageMaker Teil 1 Maschinelles Lernen: Data Scientist

8. Kennen Sie die Kaggle

Ich denke nicht, dass es notwendig ist, am Kaggle-Wettbewerb teilzunehmen, aber es gibt viele Hinweise auf die im Wettbewerb ausgetauschten Visualisierungsmethoden und das Erstellen von Features. Behalten Sie also den Wettbewerb im Auge, den Sie interessieren. Ich denke nicht, dass es eine schlechte Sache ist, es durchzulassen.

Vor allem in letzter Zeit ist der Kernel von kaggle benutzerfreundlicher geworden, sodass Sie die Daten ein wenig berühren können. Tauchen Sie mit einem eingeschalteten Kernel in Kaggle ein

abschließend

Es ist das Ende des Jahres, also habe ich einen spielerischen Artikel gemacht. Ich würde es begrüßen, wenn Sie es sich ein bisschen vorstellen könnten. Das ist es.

Recommended Posts

Nur 8 Techniken, um sich als Datenwissenschaftler auszugeben
Aufbau einer Python-Umgebung für diejenigen, die Datenwissenschaftler 2016 werden möchten
[Einführung in Data Scientist] Grundlagen von Python ♬
Spielen Sie den Server mit zwei PCs
So wenden Sie mit matplotlib Marker nur auf bestimmte Daten an
Nur Arrays der Größe 1 können in Python-Skalare konvertiert werden
Ich möchte Daten mit Python analysieren können (Teil 3)
[Python] Es kann nützlich sein, die Datenrahmen aufzulisten
Ich möchte Daten mit Python analysieren können (Teil 1)
Ich möchte Daten mit Python analysieren können (Teil 2)
[Einführung in Data Scientists] Grundlagen von Python ♬ Funktionen und Klassen