[PYTHON] (Version préservée: mise à jour de temps en temps) Une collection de tutoriels utiles pour les hackathons d'analyse de données par Team AI

Nous, Team AI, organisons des sessions quotidiennes d'étude sur l'apprentissage automatique et des hackathons d'analyse de données à Shibuya. L'objectif est d'avoir une communauté de 1 million de personnes, principalement à Tokyo.

J'espère que ce mouvement d'analyse des données se répandra dans tout le Japon et dans le monde. Voici quelques tutoriels utiles pour faire un hackathon d'analyse de données. C'est très amusant, donc tout le monde, en particulier les habitants, devrait absolument l'essayer par vous-même! Nous coopérerons également en tant que Team AI.

FullSizeRender (8).jpg

Si vous êtes nouveau sur Kaggle / en particulier comment utiliser Kernel, veuillez jeter un coup d'œil ci-dessous.

Regardez ceci en premier! Explication de la fonction Kaggle Kernel créée par Ishii (productivité accrue!) => https://www.youtube.com/watch?v=HkJmnpBjiI0

https://www.codexa.net/what-is-kaggle/

http://luvtome.blog5.fc2.com/blog-entry-644.html

Beaucoup d'ensembles de données Ici, cliquez sur l'ensemble de données qui vous intéresse avec beaucoup de likes. DataSet peut également être recherché par mot-clé. https://www.kaggle.com/datasets

Commentaire détaillé de Kaggle de Kaggler Curry-chan à plein temps; https://note.mu/currypurin/n/nf390914c721e

Curry a également des informations sur Kaggle sur Twitter; https://twitter.com/currypurin

スクリーンショット 2018-09-06 19.21.27.png

2018/9/6 Moteur de recherche croisée pour les ensembles de données annoncé par Google C'est très pratique https://toolbox.google.com/datasetsearch

Qu'est-ce que Kaggle?

Kaggle commence http://qiita.com/taka4sato/items/802c494fdebeaa7f43b7

Si vous souhaitez devenir data scientist, commencez par Kaggle

http://qiita.com/KIKUYA-Takumi/items/13ac849582318f559271

Kaggle Slack Group

Global Group 3000 personnes https://kagglenoobs.herokuapp.com/

400 personnes principalement en groupe japonais de haut niveau http://kaggler-ja.herokuapp.com/

Fintech Data Hackathon

L'ensemble de données que nous utilisons

Bitcoin Price Prediction (LightWeight CSV) https://www.kaggle.com/team-ai/bitcoin-price-prediction

Uniqlo (FastRetailing) Stock Price Prediction

https://www.kaggle.com/daiearth22/uniqlo-fastretailing-stock-price-prediction

Foreign Exchange (FX) Prediction - USD/JPY https://www.kaggle.com/team-ai/foreign-exchange-fx-prediction-usdjpy

Foreign Exchange(FX) Prediction - EUR/USD https://www.kaggle.com/meehau/EURUSD/kernels Est-ce que le noyau assez soigneusement écrit => précision de prédiction à 99,7% est vrai? ?? https://www.kaggle.com/daiearth22/eurusd-15-minute-interval-price-prediction?scriptVersionId=8708587

Ensembles de données Kaggle dans la catégorie finance (la concurrence est des données lourdes) https://www.kaggle.com/tags/finance

Credit Card Fraud Données de détection de fraude par carte de crédit (66 Mo si lourd) https://www.kaggle.com/mlg-ulb/creditcardfraud

StockPrice and News Analyse de corrélation des actualités et du cours de l'action (6 Mo) https://www.kaggle.com/aaron7sun/stocknews

Loan Data for risk analysis Données de calcul du risque de prêt (lumière 6 Ko) https://www.kaggle.com/zhijinzhai/loandata

Loan Data for risk analysis(heavy data) Données de calcul du risque de prêt (240 Mo très lourdes) https://www.kaggle.com/wendykan/lending-club-loan-data

Bon blog à lire

Une histoire de prédiction du taux de change avec Deep Learning http://qiita.com/ognek/items/1b776d504d20bd6f6d7d

Lorsque j'ai vérifié le document de prévision boursière avec l'analyse des émotions Twitter, j'ai pu prédire le haut et le bas avec une précision d'environ 70%. http://qiita.com/ryo_grid/items/5a5ecc602186a3381c87

Formater et afficher des données de séries chronologiques avec différentes échelles et unités avec Python ou Matplotlib http://qiita.com/zaburo/items/00f364422ef3fe64f156

PostScript 2019/10/19

Fournisseur indien de données financières; https://www.quandl.com/

J'ai reçu des informations utiles d'un commerçant de date.

Projet open source d'Alpha AI qui effectue des prévisions de stock du prétraitement des données à la formation avec une précision LSTM-98% https://github.com/VivekPa/AlphaAI

Finance x Python Mokumokukai FinPy https://fin-py.connpass.com/

Quantopian Mokumokukai https://quantopian-tokyo.connpass.com/

Application de trading d'actions sans frais https://smartplus-sec.com/stream/

Python Day Trader Doriran Twitter https://twitter.com/patraqushe?lang=en

L'ingénieur Daytre Shinseitaro Twitter https://twitter.com/shinseitaro

PostScript FinTech 2018/9/21

Application d'assistance aux investisseurs MyTrade qui peut être utilisée gratuitement https://mytrade.jp/

Théorie du roi dragon qui prédit la crise économique avec le concept de détection des anomalies (similaire à Black Swan) https://www.ted.com/talks/didier_sornette_how_we_can_predict_the_next_financial_crisis/transcript?language=ja#t-6583

Article théorique du roi dragon https://arxiv.org/abs/0907.4290

2018/2/16 ajouté

J'ai essayé d'analyser les données par défaut de paiement par carte avec Excel (statistiques qui ne peuvent pas être entendues maintenant) https://medium.com/team-ai-math/data-analysis-by-excel-b90fcbd7f4fe

25 Enquête sur l'investissement FinTech à l'étranger Jan 2018 https://medium.com/team-ai-fintech/fintech-investment-jan-35d2424f22f4

Cas de service FinTech en vedette à l'étranger 20 https://medium.com/team-ai-fintech/fintech-startups-20-2c21b27ea003

Medical Data Hackathon

Ensemble de données d'ondes cérébrales synchronisées Brainwave https://www.kaggle.com/berkeley-biosense/synchronized-brainwave-dataset

Ensemble de données sur le cancer du sein du Wisconsin (diagnostic) Cancer du sein https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

Hôpital d'information générale Hôpital https://www.kaggle.com/cms/hospital-general-information

Épidémie de virus Zika https://www.kaggle.com/cdc/zika-virus-epidemic

Classification du risque de cancer du col de l'utérus Cancer du col de l'utérus https://www.kaggle.com/loveall/cervical-cancer-risk-classification

Rendez-vous médical ne montre aucune analyse Dotacan des patients https://www.kaggle.com/joniarroba/noshowappointments

Enquête sur la santé mentale dans les technologies Enquête sur la santé mentale dans les technologies https://www.kaggle.com/osmi/mental-health-in-tech-survey

2018/6/18 Ajouté à partir de Medical Data Hackason

FACETS, l'outil de visualisation de données cool de Google https://pair-code.github.io/facets/

Détectez grossièrement l'importance des variables avec Regressor de RandamForest (utile!) http://scikit-learn.org/…/sklearn.ensemble.RandomForestRegr…

Pands Profiling pour avoir un aperçu des données acquises https://wonderwall.hatenablog.com/entry/2018/02/12/171500

Pharmaceutical Open Data DrugBank https://www.drugbank.ca/

Banque de protéines Open Protein Data https://www.rcsb.org/

Le laboratoire cloud GPU gratuit de Google est super pratique http://itsukara.hateblo.jp/entry/2018/02/05/214949

NASA/Space Data Hackathon

Chasse aux exoplanètes dans les données d'exploration planétaire de l'espace lointain https://www.kaggle.com/keplersmachines/kepler-labelled-time-series-data

Prédiction du rayonnement solaire Données sur le rayonnement solaire https://www.kaggle.com/dronio/SolarEnergy

Changement climatique: Données de température de surface de la Terre Données de température de surface de la Terre https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data

Données sur les collisions de météorites de Meteorite Landings https://www.kaggle.com/nasa/meteorite-landings

UFO Sightings Données de découverte d'OVNIS https://www.kaggle.com/NUFORC/ufo-sightings

Ouvrir le catalogue des exoplanètes Données planétaires extrasolaires https://www.kaggle.com/mrisdal/open-exoplanet-catalogue

Résultats de la recherche sur les exoplanètes Kepler https://www.kaggle.com/nasa/kepler-exoplanet-search-results/kernels

Détails de la mission du télescope spatial Kepler d'exploration planétaire extrasolaire de la NASA https://japanese.engadget.com/2018/03/15/9-4500/

2018/12/23 ajouté

Le mécanisme artificiel d'utilisation des données satellitaires de Sakura Internet Tellus https://www.sakura.ad.jp/information/pressreleases/2018/07/31/1968197591/

Google Earth API https://developers.google.com/earth-engine/

Marketing/Retail Data Hackathon

Springleaf Marketing Response Analyse des réponses au publipostage 150 Mo https://www.kaggle.com/c/springleaf-marketing-response/kernels

Prédiction d'achat de coupons Recruit Pompare données https://www.kaggle.com/c/coupon-purchase-prediction

Réservations de nouveaux utilisateurs Airbnb Analyse des données de réservation Airbnb Where will a new guest book their first travel experience? https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings

Rossmann Store Sales Prévisions des ventes au détail https://www.kaggle.com/c/rossmann-store-sales/data

Home Depot Product Search Relevance Predict the relevance of search results on homedepot.com https://www.kaggle.com/c/home-depot-product-search-relevance

Acquire Valued Shoppers Challenge Predict which shoppers will become repeat buyers https://www.kaggle.com/c/acquire-valued-shoppers-challenge

Getting real about fake news https://www.kaggle.com/mrisdal/fake-news

Starbucks Locations Worldwide https://www.kaggle.com/starbucks/store-locations

Retail rocket recommendation system dataset https://www.kaggle.com/retailrocket/ecommerce-dataset

Grupo Bimbo Inventory Demand Optimiser les ventes de produits alimentaires et minimiser les retours (données Train 3 Go de données disponibles) Maximize sales and minimize returns of bakery goods https://www.kaggle.com/c/grupo-bimbo-inventory-demand

Innerwear Data from Victoria's Secret https://www.kaggle.com/PromptCloudHQ/innerwear-data-from-victorias-secret-and-others

Hackathon de données NLP (Natural Language Processing)

Tutoriel de traitement du langage naturel => https://qiita.com/daisuke-team-ai/items/d2e18f07a08d9b4cb783

Résumé des approches PNL typiques + Code (Kaggle Kernel) Recommandé

https://www.kaggle.com/abhishek/approaching-almost-any-nlp-problem-on-kaggle

NLP Data;

Données Twitter de Shinzo Abe (données Twitter du Premier ministre Abe) https://www.kaggle.com/team-ai/shinzo-abe-japanese-prime-minister-twitter-nlp/version/1

World News on Reddit Analyse des données d'actualité sur le babillard https://www.kaggle.com/rootuser/worldnews-on-reddit

South Park Dialogue Identifiez le locuteur à partir des données de dialogue du script de travail d'animation https://www.kaggle.com/tovarischsukhov/southparklines

Deep NLP Analyse de Chatbot et données de reprise https://www.kaggle.com/samdeeplearning/deepnlp

Python Questions from StackOverFlow Analyse de questions sur Python sur le site de questions-réponses sur la programmation https://www.kaggle.com/stackoverflow/pythonquestions

Corpus bilingue japonais anglais (Corpus Wikipedia en japonais et anglais) https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

Fréquence des lemmes japonais A list of the 15,000 most common word forms in Japanese https://www.kaggle.com/rtatman/japanese-lemma-frequency

Japanese Whiskey Review Dataset (Critique du whisky anglais mais japonais) 1,000+ Reviews of Japanese Whisky https://www.kaggle.com/koki25ando/japanese-whisky-review

(Pour les utilisateurs avancés) Un concours pour classer les questions similaires sur le site Q&R Quora https://www.kaggle.com/c/quora-question-pairs

Extra; AI Twitter du président Trump => Parlez-lui et il vous répondra immédiatement! https://twitter.com/TrumpSidekik スクリーンショット 2018-10-10 20.51.26.png

HR Data

Enquête Kaggle ML et Data Science, analyse des données 2017 A big picture view of the state of data science and machine learning. https://www.kaggle.com/kaggle/kaggle-survey-2017

Revenus américains par profession et sexe Analyse des inégalités de revenus par sexe Analyze gender gap and differences in industry's incomes https://www.kaggle.com/jonavery/incomes-by-career-and-gender

Analyse de corrélation entre le bonheur quotidien et le roulement des employés de la performance et du bonheur des employés Is There a Relationship Between Employee Happiness and Job Turnover? https://www.kaggle.com/harriken/employeeturnover

IBM HR Analytics Attrition et performance des employés Analyse du chiffre d'affaires IBM Predict attrition of your valuable employees https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

Analyse des ressources humaines Pourquoi les employés talentueux quittent-ils leur emploi? Une analyse Why are our best and most experienced employees leaving prematurely? https://www.kaggle.com/ludobenistant/hr-analytics

2016 Nouvelles données d'attributs d'enquête sur les codeurs pour 15000 nouveaux ingénieurs en logiciel A survey of 15,000+ people who are new to software development https://www.kaggle.com/freecodecamp/2016-new-coder-survey-

Analyse des revenus américains par profession et de l'écart de revenu entre les sexes par profession et sexe Analyze gender gap and differences in industry's incomes https://www.kaggle.com/jonavery/incomes-by-career-and-gender

Bons articles auxquels se référer

Obtenez des données de séries chronologiques de k-db.com avec Python

http://qiita.com/sawadybomb/items/03c3814268d3e2904e6c

Ensemble de données recommandé

Excellente information en anglais

Si vous installez Google Translate pour Chrome, vous pouvez traduire automatiquement en une seule fois!

Quora a beaucoup de savoir-faire sur la prévision des séries chronologiques (pour FinTech); https://www.google.co.jp/search?q=how+to+predict+time+series+quora&rlz=1C5CHFA_enJP747JP747&oq=how+to+predict+time+series+quora&aqs=chrome..69i57.8273j0j7&sourceid=chrome&ie=UTF-8

Liste des approches mathématiques

(Version conservée: Pour les amateurs) Apprentissage automatique / analyse de données Liste des articles à lire par Team AI

http://qiita.com/daisuke-team-ai/items/68f82f6502e06678c660

Paquet Python

Pandas

Official Site http://pandas.pydata.org/ Aide-mémoire pour Pandas

http://qiita.com/tanemaki/items/2ed05e258ef4c9e6caac

Les pandas peuvent être gérés si seulement cela est retenu

http://qiita.com/kojim/items/c56ec63063bec62bc5ed

Seaborn

Official Site https://seaborn.pydata.org/

Un beau dessin graphique avec Python -seaborn facilite l'analyse et la visualisation des données Partie 1

http://qiita.com/hik0107/items/3dc541158fceb3156ee0

Un beau dessin graphique avec Python -seaborn facilite l'analyse et la visualisation des données Partie 2

http://qiita.com/hik0107/items/7233ca334b2a5e1ca924

Paramètres japonais pour les axes matplotlib et Seaborn

http://qiita.com/kshigeru/items/0cfc0778bab197687967

Recommended Posts

(Version préservée: mise à jour de temps en temps) Une collection de tutoriels utiles pour les hackathons d'analyse de données par Team AI
Remplissage facile des données pouvant être utilisées dans le traitement du langage naturel
Apprenez les bases de la classification de documents par traitement du langage naturel, modèle de sujet
(Version préservée: mise à jour de temps en temps) Une collection de tutoriels utiles pour les hackathons d'analyse de données par Team AI
Traiter le nom de la carte Yugioh en langage naturel --Yugiou Data Science 2. PNL
(Mis à jour de temps en temps) Résumé des API d'apprentissage automatique qui vous permettent de créer rapidement des applications par Team AI
[Mis à jour de temps en temps] Mémos Python souvent utilisés pour l'analyse des données [Division N, etc.]
Résumé du livre électronique Python utile pour l'analyse de données gratuite
Mémorandum des commandes, packages, termes, etc. utilisés sous Linux (mis à jour de temps en temps)
[Mis à jour de temps en temps] Examen de Let Code NumPy
Liste de mes articles pouvant être utiles aux pros de la compétition (mise à jour de temps en temps)
Comment représenter la distribution de la composition bactérienne à partir des données d'analyse Qiime2 dans un diagramme de moustaches
[Mis à jour de temps en temps] Résumé des modèles de conception en Java
Une méthode d'étude pour les débutants pour apprendre l'analyse des séries chronologiques
Une histoire sur tout, de la collecte de données au développement d'IA et à la publication d'applications Web en Python (3. développement d'IA)
Porté du langage R de "Sazae-san's Janken Data Analysis" vers Python
Une analyse simple des données de Bitcoin fournie par CoinMetrics en Python
Le premier débutant en programmation à essayer une analyse de données simple avec programmation
[Note] Sites Web relatifs à l'IA / à l'apprentissage automatique / à python [mis à jour de temps en temps]
Préparez un environnement d'analyse haute vitesse en accédant à mysql depuis l'environnement d'analyse de données