[Web scraping avec Python](https://www.amazon.co.jp/Python%E3%81%AB%E3%82%88%E3%82%8BWeb%E3%82%B9%E3%82%AF % E3% 83% AC% E3% 82% A4% E3% 83% 94% E3% 83% B3% E3% 82% B0-Ryan-Mitchell / dp / 4873117615). Dans celui-ci, récupérez le lien contenu dans l'article de la page Wikipédia. L'exemple de ce livre semble être une page en anglais, donc je l'ai un peu amélioré pour Wikipedia japonais.
OS:OX X EI Capitan(10.11.5) Python:3.5.1
#codeing:utf-8
import re
from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.parse import unquote
url = "https://ja.wikipedia.org/wiki/%E3%83%86%E3%82%A4%E3%83%AB%E3%82%BA_%E3%82%AA%E3%83%96_%E3%82%A4%E3%83%8E%E3%82%BB%E3%83%B3%E3%82%B9"
html = urlopen(url)
bsObj = BeautifulSoup(html,'html.parser')
pattern = re.compile("^(/wiki/)((?!:).)*$")
for link in bsObj.find('div',{'id':'bodyContent'}).findAll('a',href = pattern):
if 'href' in link.attrs:
print (unquote(link.attrs['href']))
Recommended Posts