[PYTHON] Memorandum über die Umgebungskonstruktion der AutoML-Bibliothek PyCaret

Installieren Sie pandas-profiling, damit keine Fehler auftreten

Computerumgebung

OS:Ubuntu 18.04LTS

Anaconda3 Erstellen einer virtuellen Umgebung

`bash`


$ conda create -n pycaret python=3.6.10

Installation von pyCaret in einer virtuellen Umgebung

Installieren Sie mit pip gemäß Handbuch.

`bash`


$ conda activate pycaret
(pycaret)$ pip install pycaret
(pycaret)$ python -m ipykernel install --user --name pycaret --display-name "display-name-here"

Als ich es kürzlich installiert habe, wurde jedoch ein Fehler angezeigt, als ich den folgenden Befehl auf dem Jupyter-Notebook ausführte.

`python`


from pycaret.datasets import get_data
dataset = get_data('credit', profile=True)

Dies ist ein Befehl zum Herunterladen aus dem Datenrespository von PyCaret mit get_data, und das ursprüngliche Tutorial hat nicht das Argument profile = True angegeben. Mit anderen Worten, es wird mit dem Standardargument profile = False ausgeführt. * In diesem Fall werden nur die ersten 5 Datenzeilen angezeigt *.

Wenn das Argument "profile = True" angegeben wird, wird es im Format pandas profiling report ausgegeben. Sie können die grundlegenden Statistiken und den Korrelationskoeffizienten von DataFrame auf einmal überprüfen, müssen sich jedoch nicht mit dem Import von pandas_profiling befassen.

Wenn jedoch der Zeitpunkt der Installation mit pip install pycaret unterschiedlich ist, tritt bei profile = True ein Fehler auf, wahrscheinlich weil die Subversionen einiger Pakete unterschiedlich sind, also require.txt Es wird mit installiert.

** Legen Sie die Datei require.txt separat in dem Verzeichnis ab, in dem die virtuelle Umgebung gestartet wird, und installieren Sie sie mit pip **

`bash`


$ conda activate pycaret
(pycaret)$ pip install -r requirements.txt
(pycaret)$ python -m ipykernel install --user --name pycaret --display-name "display-name-here"

Beschreiben Sie Folgendes in den Anforderungen.txt.

astropy==4.0.1.post1
attrs==19.3.0
awscli==1.18.64
backcall==0.1.0
bleach==3.1.5
blis==0.4.1
boto==2.49.0
boto3==1.13.14
botocore==1.16.14
catalogue==1.0.0
catboost==0.20.2
certifi==2020.4.5.1
chardet==3.0.4
chart-studio==1.1.0
click==7.1.2
colorama==0.4.3
colorlover==0.3.0
combo==0.1.0
confuse==1.1.0
cufflinks==0.17.0
cycler==0.10.0
cymem==2.0.3
datefinder==0.7.0
DateTime==4.3
decorator==4.4.2
defusedxml==0.6.0
docutils==0.15.2
entrypoints==0.3
funcy==1.14
future==0.18.2
gensim==3.8.3
graphviz==0.14
htmlmin==0.1.12
idna==2.9
importlib-metadata==1.6.0
ipykernel==5.3.0
ipython==7.14.0
ipython-genutils==0.2.0
ipywidgets==7.5.1
jedi==0.17.0
Jinja2==2.11.2
jmespath==0.10.0
joblib==0.15.1
jsonschema==3.2.0
jupyter-client==6.1.3
jupyter-core==4.6.3
kiwisolver==1.2.0
kmodes==0.10.1
lightgbm==2.3.1
llvmlite==0.32.1
MarkupSafe==1.1.1
matplotlib==3.2.1
missingno==0.4.2
mistune==0.8.4
mlxtend==0.17.2
more-itertools==8.3.0
murmurhash==1.0.2
nbconvert==5.6.1
nbformat==5.0.6
nltk==3.5
notebook==6.0.3
numba==0.49.1
numexpr==2.7.1
numpy==1.18.4
packaging==20.4
pandas==1.0.3
pandas-profiling==2.3.0
pandocfilters==1.4.2
parso==0.7.0
pexpect==4.8.0
phik==0.9.12
pickleshare==0.7.5
Pillow==7.1.2
plac==1.1.3
plotly==4.4.1
pluggy==0.13.1
preshed==3.0.2
prometheus-client==0.7.1
prompt-toolkit==3.0.5
ptyprocess==0.6.0
py==1.8.1
pyasn1==0.4.8
pycaret==1.0.0
Pygments==2.6.1
pyLDAvis==2.1.2
pyod==0.7.9
pyparsing==2.4.7
pyrsistent==0.16.0
pytest==5.4.2
python-dateutil==2.8.1
pytz==2020.1
PyYAML==5.3.1
pyzmq==19.0.1
regex==2020.5.14
requests==2.23.0
retrying==1.3.3
rsa==3.4.2
s3transfer==0.3.3
scikit-learn==0.22
scipy==1.4.1
seaborn==0.10.1
Send2Trash==1.5.0
shap==0.32.1
six==1.14.0
smart-open==2.0.0
spacy==2.2.4
srsly==1.0.2
suod==0.0.4
tbb==2020.0.133
terminado==0.8.3
testpath==0.4.4
textblob==0.15.3
thinc==7.4.0
tornado==6.0.4
tqdm==4.46.0
traitlets==4.3.3
umap-learn==0.4.3
urllib3==1.25.9
wasabi==0.6.0
wcwidth==0.1.9
webencodings==0.5.1
widgetsnbextension==3.5.1
wordcloud==1.7.0
xgboost==0.90
yellowbrick==1.0.1
zipp==3.1.0
zope.interface==5.1.0

Führen Sie die folgenden Schritte aus, wenn Sie Daten mit Pandas lesen und einen Pandas-Profilbericht ausgeben.

`python`


import pandas as pd
import numpy as np

df = pd.read_csv('/path/to/data.csv',sep=",", encoding="utf-8")

import pandas_profiling

pandas_profiling.ProfileReport(df)