Neulich habe ich den Kurs Cousera Machine Learning abgeschlossen, also möchte ich ihn in der Praxis ausprobieren [Idol Master Cinderella Girls](https: // ja) .wikipedia.org / wiki /% E3% 82% A2% E3% 82% A4% E3% 83% 89% E3% 83% AB% E3% 83% 9E% E3% 82% B9% E3% 82% BF% E3% 83% BC_% E3% 82% B7% E3% 83% B3% E3% 83% 87% E3% 83% AC% E3% 83% A9% E3% 82% AC% E3% 83% BC% E3% Versuchen wir, drei Typen (Cu, Co, Pa) anhand von Profildaten von 83% AB% E3% 82% BA vorherzusagen.
Erstens ist die Erfassung von Daten, die zum Lernen verwendet werden. Ich habe nach der Delemas-Version von Pokemon api gesucht, aber sie sah nicht gut aus, daher verwende ich normalerweise das [Delemas-Wiki](https: // imascg-slstage-). Ich habe die Daten von wiki.gamerch.com/) erhalten.
Für die Schabemethode habe ich auf die folgenden Seiten verwiesen. http://qiita.com/Azunyan/items/9b3d16428d2bcc7c9406
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib2
import csv
from bs4 import BeautifulSoup
#URL für den Zugriff
url = "https://imascg-slstage-wiki.gamerch.com/%E3%82%A2%E3%82%A4%E3%83%89%E3%83%AB%E4%B8%80%E8%A6%A7"
#URL lesen
html = urllib2.urlopen(url)
#Behandeln Sie HTML mit schöner Suppe
soup = BeautifulSoup(html, "html.parser")
#Holen Sie sich den gesamten Inhalt der ersten Tabelle
table = soup.findAll("table")[0]
#Zerlegen Sie die Tabelle zeilenweise
rows = table.findAll("tr")
csvFile = open("aimasudata.csv", 'wt')
writer = csv.writer(csvFile)
for row in rows:
csvRow = []
for cell in row.findAll(['td', 'th']):
csvRow.append(cell.get_text().encode('utf-8'))
writer.writerow(csvRow)
So was
――Ich wusste nicht, wie ich das HTML-Tag lesen sollte, daher dauerte es lange, bis ich das Erfassungsziel vonoup.findAll gefunden hatte. Wenn Sie die Tabellendaten vorerst abrufen möchten, geben Sie die Tabelle an und wissen Sie, um welche Zahlentabelle es sich auf derselben Seite handelt.
Recommended Posts