Crawlen Sie Informationen von Twitter, formatieren Sie die Informationen und erstellen Sie ein System, um sie in der Datenbank zu speichern. Erstellen Sie vorerst eine Testumgebung in der virtuellen Umgebung, indem Sie Vagrant als Experiment verwenden.
Installieren Sie die neueste Version von https://www.virtualbox.org/wiki/Downloads.
Erstellen Sie eine virtuelle Umgebung aus Vagrant.
Laden Sie die neueste Version von http://www.vagrantup.com/downloads herunter und installieren Sie sie.
Erstellen Sie mit Vagrant eine virtuelle Umgebung.
$ mkdir -p ~/vagrant/debian7_twitter
$ vagrant box add debian7.6_twitter https://github.com/jose-lpa/packer-debian_7.6.0/releases/download/1.0/packer_virtualbox-iso_virtualbox.box
$ vagrant init debian7.6_twitter
$ vagrant up
$ vagrant ssh
Sie können sich jetzt bei der virtuellen Umgebung anmelden.
Wenn Sie nach dem Abmelden beenden möchten
$ vagrant halt
Sie können mit enden. Danach unter dem Verzeichnis, in dem die virtuelle Umgebung erstellt wurde,
Sie können sich jederzeit mit vagrant up
-> vagrant ssh
in diese Umgebung einloggen.
Python Python 2.7.3 ist standardmäßig installiert, verwenden Sie es also.
$ Python -V
Python 2.7.3
virtualenv Verwenden Sie virtualenv, um die verwendeten Module projektweise zu verwalten.
Verwenden Sie apt.
$ sudo apt-get update
$ sudo apt-get install python-dev python-virtualenv
Wechseln Sie in ein beliebiges Arbeitsverzeichnis und führen Sie den folgenden Befehl aus.
$ virtualenv twi-py
Dadurch wird ein Twi-Py-Verzeichnis im aktuellen Verzeichnis erstellt, und hier wird eine unabhängige Python-Umgebung erstellt. Wechseln Sie in das erstellte Verzeichnis und führen Sie den folgenden Befehl aus.
$ source bin/activate
Wenn am Anfang der Shell-Eingabeaufforderung (twi-py) ...
hinzugefügt wird, wurde die Umgebung auf twi-py
umgestellt.
Führen Sie den folgenden Befehl aus, um die spezifische Modulumgebung zu verlassen und zum Standard zurückzukehren.
$ deactivate
Installieren Sie danach MeCab-bezogene Module in dieser "Twi-Py" -Umgebung.
Verwenden Sie apt.
$ sudo apt-get update
$ sudo apt-get -y install mecab
$ sudo apt-get -y install mecab-ipadic-utf8
$ sudo update-alternatives --config mecab-dictionary # ipadic-Überprüfen Sie, ob es utf8 ist
Installation der benötigten Bibliotheken mit apt.
$ sudo apt-get -y install python-dev
$ sudo apt-get -y install libmecab-dev
$ sudo apt-get -y install build-essential
$ sudo apt-get -y install g++
Installieren Sie die Version von Python-Bindungen für Debian 7 wheezy in der "Twi-Py" -Umgebung.
(twi-py)$ pip install https://mecab.googlecode.com/files/mecab-python-0.99.tar.gz
Lassen Sie uns die Morphologie von "aus den Oberschenkeln und Oberschenkeln" analysieren.
$ Python
>>> import MeCab
>>> mecab = MeCab.Tagger("-Ochasen")
>>> print mecab.parse("Von den Oberschenkeln und Oberschenkeln")
Sumomo Sumomo Nomen-Allgemeines
Sowohl mo als auch mo-Hilfe
Oberschenkel Pfirsich Nomenklatur-Allgemeines
Sowohl mo als auch mo-Hilfe
Oberschenkel Pfirsich Nomenklatur-Allgemeines
Nonos Assistent-Union
Uchi Uchi Nomen-Nicht unabhängig-Anwalt möglich
EOS
>>>
Ich konnte es richtig analysieren.
Jetzt haben wir alle Werkzeuge, um das System zu realisieren, das wir dieses Mal herstellen werden.
Installiert mit apt.
Installiert mit apt.
$ sudo apt-get -y install libmysqlclient-dev
$ sudo apt-get -y install mysql-server-5.5
Während der Installation werden Sie aufgefordert, ein Root-Passwort festzulegen. Geben Sie also "vagrant" ein.
Melden Sie sich als Root an.
$ mysql -u root -pvagrant
mysql> SELECT user,host,password FROM mysql.user;
+------------------+----------------------------------+-------------------------------------------+
| user | host | password |
+------------------+----------------------------------+-------------------------------------------+
| root | localhost | *04E6E1273D1783DF7D57DC5479FE01CFFDFD0058 |
| root | packer-virtualbox-iso-1411922062 | *04E6E1273D1783DF7D57DC5479FE01CFFDFD0058 |
| root | 127.0.0.1 | *04E6E1273D1783DF7D57DC5479FE01CFFDFD0058 |
| root | ::1 | *04E6E1273D1783DF7D57DC5479FE01CFFDFD0058 |
| debian-sys-maint | localhost | *A5B3FEE41C7F1F2C147B4876D39D6A4F65E79B7D |
+------------------+----------------------------------+-------------------------------------------+
Es hat sicher funktioniert.
Installiert unter der "Twi-Py" -Umgebung.
(twi-py)$ pip install MySQL-python
$ python
>>> import MySQLdb
Wenn dies kein Fehler ist, ist es OK.
Jetzt haben Sie alle Werkzeuge, die Sie brauchen. Von nun an erstellen wir den Crawl-Teil, den Information Moulding-Teil, den Store-Teil in der Datenbank usw. Diese Artikel werden später kommen.
Recommended Posts