[PYTHON] Seulement 8 techniques pour prétendre être un data scientist

Faire semblant d'être un data scientist

À partir de 2019, il devrait y avoir beaucoup de gens qui ne peuvent s'empêcher de vouloir devenir data scientist. Cependant, plus vous voulez faire semblant, moins vous savez faire semblant. J'ai complètement exclu l'aspect boueux du data scientist et je me suis demandé comment je pouvais le prétendre. Les conclusions que vous tirez peuvent être mises en pratique dès demain. Si vous voulez devenir un data scientist, essayez-le.

1. Apple directement

Des produits sophistiqués sont essentiels pour un data scientist prétentieux. Emportez votre MacBook avec vous afin de pouvoir toujours faire une grimace avec Starva. Cela donne un sentiment professionnel, donc si possible, c'est Pro. Emmenez votre Pro avec vous.

2. L'éditeur est VSCODE

<img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/e8d86648-b700-a30e-7d49-7f427a5325fe.png " width="170")> Lorsque vous ouvrez votre MacBook, vous verrez VSCODE. Qu'est-ce que vous aimez dans VSCODE? Je répondrai comme ça quand on me le demandera. "Hmm, tout d'abord, la légèreté et les extensions abondantes, le plus attrayant est le débogage à distance." Les rédacteurs doivent toujours être légers. Et les collègues et amis doivent être impressionnés par les sons à la mode des extensions et du débogage à distance.

3. J'adore Python

Si vous êtes un data scientist, aimer Python est un raccourci. Installons en vain PyCharm ainsi que Python, qui est une extension de VSCODE. C'est un signe de mon amour pour Python. Et ne niez jamais R. Avons le sentiment que R a de bons points dans R même s'il ne comprend pas du tout R.

4. Visualisez pour respirer

La visualisation est l'un des points forts des data scientists. Une fois que vous avez les données, visualisons-les rapidement, même si rien d'autre. De plus, disons à un collègue qui dessine des graphiques avec MatPlotLib, "Maintenant, je recommande de visualiser avec Plotly. Après tout, il est plus pratique de pouvoir voir les données de manière interactive."

5. Restez fidèle à la notation Python

Puisque nous utilisons Python, gardons à l'esprit la programmation Pythonic. Écrivons un code à la mode qui ressemble à un type de fonction en utilisant la notation d'inclusion de liste et même l'opérateur Seiuchi qui a été pris en charge dans la dernière mise à jour.

6. N'oubliez pas C / C ++

Si vous n'aimez que Python, vous risquez d'être intimidé par des personnes de base en termes de vitesse. Par conséquent, je ferai de temps en temps appel à moi-même, "je devrai peut-être écrire en C à la fin." Les gens autour de moi ont un désir ardent de savoir, de la science des données à la sortie du produit.

7. Dites Cloud une fois par jour

<img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/7544d416-64da-7718-2868-dc0a431fc1b1.png ", width="200"><img src="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/204712/a08b87f1-c054-d830-6f2a-657beddf5217.jpeg ", width="200"> Ne pas utiliser le cloud n'est pas une science des données. Abordons le sujet d'AWS et de GCP. Et répétons le mot-clé de mise à l'échelle. En d'autres termes, ce serait encore mieux si nous pouvions utiliser des termes tels que S3 et IAM. Montrez la taille du champ qui peut être géré à la fois sur site et dans le cloud.

8. Connaître le kaggle

Le Grand Maître de Kaggle, un désir ardent pour les data scientists. Bien sûr, abordons le sujet "Récemment dans la compétition Kaggle ..." pour créer une atmosphère que nous vérifions toujours kaggle. L'apparence de toujours viser la hauteur devrait être la cible de l'admiration.

Pourquoi j'ai écrit cet article

Cet article est destiné à "faire semblant" de data scientists, qui seraient l'un des métiers les plus glamour à la fin de 2019. Le déclencheur a été la situation autour de moi lorsque j'ai assisté à une conférence d'une entreprise informatique très connue. C'était très intéressant car tout le monde se ressemblait. Je l'ai écrit de manière un peu ludique, mais j'ai l'intention d'écrire quelque chose qui est correct dans une certaine mesure. Parlons un peu sérieusement de chacun et donnons quelques liens et mots utiles.

1. aime la pomme

Personnellement, je pense que Windows va bien, mais je pense qu'il est excellent en termes de construction d'environnement et de compatibilité avec Linux. De nombreuses personnes recommandent Mac. Bien sûr, il y a aussi des adeptes d'Apple. Pensez à la question de savoir lequel est le meilleur, Windows ou Mac pour le développement Ce que j'ai fait avant de devenir data scientist

2. L'éditeur est VSCODE

Je pense personnellement que c'est une option. Je ne veux plus écrire Python en dehors de VSCODE, tout comme Markdown. Le brouillon que j'écris cet article est également VSCODE. Personnellement, je ne ressens pas vraiment la raison de choisir un autre éditeur maintenant. D'une certaine manière, VScode est le plus puissant pour les débutants, n'est-ce pas? 3 raisons de penser 24 extensions recommandées pour VS Code (et quelques astuces)

3. J'adore Python

Si je fais de la science des données, je me demande si je ne peux pas le supprimer maintenant. Tous les frameworks d'apprentissage automatique sont fournis en Python et sont très compatibles avec Cloud. Langage de programmation recommandé pour 2019

De plus, si vous utilisez Flask, etc., vous pouvez facilement écrire une petite application Web et diverses applications sont faciles à utiliser. Je pense que Python est excellent car je pense qu'il est important d'avoir un sens de la vitesse pour essayer un peu dans un travail qui répète des essais et des erreurs comme la science des données.

4. Visualisez pour respirer

Je pense que la visualisation est l'un des éléments les plus importants pour ceux qui font de la science des données. Je l'ai écrit de manière ludique dans la partie supérieure, mais Matplotlib est une évidence, et maintenant je recommande fortement Plotly et Dash. Je pense qu'il est important d'afficher les données pour que les humains puissent les voir afin que l'on puisse dire que ce qui contrôle la visualisation contrôle les données. (Vue personnelle) Tutoriel de l'outil de visualisation Dash - Partie 1: Installation-Drawing- Créez une application Web qui peut être facilement visualisée avec Plotly Dash

5. Restez fidèle à la notation Python

Ce domaine est un peu maniaque, mais en maîtrisant la notation d'inclusion de liste, Map et Lambda, vous pouvez obtenir ce que vous voulez avec un code court et propre. Cela peut également contribuer à accélérer. Certaines personnes disent que ce n'est pas lisible, mais je pense que c'est utilisé dans une certaine mesure. The Hitchhicker's Guide to Python Ce que j'ai fait quand je voulais rendre Python plus rapide Utilisation et mauvaise utilisation de la notation d'inclusion de liste Introduction à Python one-liner super "pratique" commençant par la notation d'inclusion de liste

6. N'oubliez pas C / C ++

Après tout, je veux créer une nouvelle bibliothèque, penser à des choses avancées et encore plus rapidement, j'ai besoin de C ++. Si vous souhaitez écrire quelque chose de proche du matériel, vous aurez peut-être besoin de C. Bien sûr, il y a des limites aux langages d'interprétation, donc des langages tels que C ++ ne peuvent bien sûr pas être ridicules. Inutile de dire ici. Why is python so slow? Comparaison de vitesse de Python, Java, C ++

7. Dites Cloud une fois par jour

C'est tellement important que je ne peux pas dire dans un entretien de recrutement que je n'utilise pas le cloud à cette époque, il est donc naturel que je doive rattraper le retard. Même si vous venez de commencer la science des données, il serait pratique d'utiliser rapidement ElasticSearch, Tableau, l'environnement de développement de Jupyter et d'utiliser de nombreuses fonctions de SageMaker. La science des données peut être lancée en un jour. Introduction à la science des données Python avec Amazon SageMaker Partie 1 Machine Learning: Data Scientist

8. Connaître le kaggle

Je ne pense pas qu'il soit nécessaire de participer au concours kaggle, mais il existe de nombreuses références aux méthodes de visualisation échangées dans le cadre du concours et à la façon de créer des fonctionnalités, alors gardez un œil sur la concurrence qui vous tient à cœur. Je ne pense pas que ce soit une mauvaise chose de le laisser passer.

Surtout récemment, le noyau de kaggle est devenu plus facile à utiliser, vous pouvez donc vous sentir libre de toucher un peu les données. Plongez dans Kaggle avec un noyau sous tension

en conclusion

C'est la fin de l'année, j'ai donc fait un article ludique. Je vous serais reconnaissant si vous pouviez y penser un peu. C'est tout.

Recommended Posts

Seulement 8 techniques pour prétendre être un data scientist
Créer un environnement Python pour ceux qui veulent devenir des data scientists 2016
[Introduction au Data Scientist] Bases de Python ♬
Serveur de jeu avec deux PC
Comment appliquer des marqueurs uniquement à des données spécifiques avec matplotlib
Seuls les tableaux de taille 1 peuvent être convertis en scalaires Python
Je veux pouvoir analyser des données avec Python (partie 3)
[Python] Il peut être utile de lister les trames de données
Je veux pouvoir analyser des données avec Python (partie 1)
Je veux pouvoir analyser des données avec Python (partie 2)
[Introduction to Data Scientists] Bases de Python ♬ Fonctions et classes