Ich war besorgt über das Scraping und wollte vorerst einige Daten abrufen, also habe ich versucht, das Scraping durchzuführen, während ich auf die folgende Site verwiesen habe. https://www.atmarkit.co.jp/ait/articles/1910/18/news015_2.html Ich werde es als Rezension schreiben, also hoffe ich, dass es für diejenigen hilfreich ist, die neu im Schaben sind! Geschrieben in Google Colab mit Python. Daher kann es einige Unterschiede zur lokalen Beschreibung geben.
Ich habe mit Wunsch und schöne Suppe geschabt. Auf Anfrage werden das angegebene Web k und andere Dateien erfasst und die gewünschten Informationen aus der von Beautiful Suppe erfassten Datei extrahiert. Wie Sie auf der Website sehen können, schreibe ich ein Programm, um die J League-Rangliste zu erhalten. Außerdem habe ich bis zu dem Punkt geschrieben, zusätzlich in CSV zu speichern. Der diesmal verwendete Code ist unten dargestellt.
qiita.rb
from bs4 import BeautifulSoup
from urllib import request
url = 'https://www.jleague.jp/standings/j1/'
response = request.urlopen(url)
content = response.read()
response.close()
charset = response.headers.get_content_charset()
html = content.decode(charset, 'ignore')
soup = BeautifulSoup(html)
table = soup.find_all('tr')
standing = []
for row in table:
tmp = []
for item in row.find_all('td'):
if item.a:
tmp.append(item.text[0:len(item.text) // 2])
else:
tmp.append(item.text)
del tmp[0]
del tmp[-1]
standing.append(tmp)
for item in standing:
print(item)
import pandas as pd
from google.colab import files
del standing[0]
df = pd.DataFrame(standing,columns = ['Rangfolge', 'Clubname', 'Gewinne Punkte', 'Anzahl von Spielen', 'Sieg', 'Protokoll', 'Negativ', 'Ergebnis', 'Zugegeben', '得Zugegeben'])
from google.colab import drive
filename = 'j1league.csv'
path = '/content/drive/My Drive/' + filename
with open(path, 'w', encoding = 'utf-8-sig') as f:
df.to_csv(f,index=False)
Da ich es implementiert habe, während ich es unterwegs im Detail überprüft habe, habe ich print () dazwischen gelegt, aber hier implementiere ich es, um es sofort in einer Datei zu speichern.
Recommended Posts