introduction

Ceci est la suite de l'article précédent (Programmation Python: j'ai essayé d'obtenir (l'exploration) des articles de presse en utilisant Selenium et BeautifulSoup4).

Il y avait un besoin supplémentaire d'obtenir une vue d'ensemble (description de l'activité, dirigeants, actionnaires, etc.) des entreprises apparaissant dans les articles de presse.

Alors, essayons de réaliser le processus d'acquisition des informations d'entreprise "anglaises" avec un programme Python. Cette fois, la source d'informations est ** Yahoo! Finance **.

L'introduction de code et l'exemple d'exécution sont affichés sur la base des informations au moment de la rédaction de cet article (02/11/2020).

Que présenter dans cet article

--Obtenir un profil auprès de Yahoo! Finance

Ex.) https://finance.yahoo.com/quote/AAPL/profile?p=AAPL --Acquisition de détenteurs auprès de Yahoo! Finance
Ex.) https://finance.yahoo.com/quote/AAPL/holders?p=AAPL

De plus, l'auteur a confirmé l'opération avec la version suivante.

Python: 3.6.8
BeautifulSoup4: 4.9.1

Non présenté dans cet article

Comment installer et utiliser la bibliothèque Python
requests
BeautifulSoup4
Comment obtenir le symbole boursier (équivalent au code des titres japonais)
N'implémentez pas de traitement tel que l'acquisition du symbole boursier à partir du nom de l'entreprise et la génération automatique de l'URL de la demande.

Exemple de code

Étant donné que la quantité de code n'est pas importante, je présenterai le code entier. Il y a deux points.

1. Attente explicite

Il est indispensable de mettre en œuvre le traitement de veille (Sleep) même en ** car il n'impose pas de charge sur la destination d'accès **. Dans cet article, contrairement à l'article précédent, Selenium n'est pas utilisé, mais il est préférable d'implémenter le traitement de veille lors de l'utilisation du traitement en boucle For afin que le programme n'émette pas de requêtes HTTP explosives dans une unité de temps.

2. Spécification des éléments de balise

Il est nécessaire de regarder la source de chaque page, de spécifier l'élément en tenant compte de la structure des balises et d'acquérir les informations avec BeautifulSoup4. Dans de nombreux cas, vous spécifierez l'attribut de classe attaché à la balise et implémenterez le processus pour obtenir la balise cible (et le texte à l'intérieur).

Présentation du code

Lorsque vous exécutez le code, vous verrez la sortie de print () sur la console.

`crawler_yahoo.py`


import requests
from bs4 import BeautifulSoup

def getSoup(url):
  html = requests.get(url)
  #soup = BeautifulSoup(html.content, "html.parser")
  soup = BeautifulSoup(html.content, "lxml")
  return soup

def getAssetProfile(soup):
  wrapper = soup.find("div", class_="asset-profile-container")
  paragraph = [element.text for element in wrapper.find_all("span", class_="Fw(600)")]
  return paragraph

def getKeyExecutives(soup):
  wrapper = soup.find("section", class_="Bxz(bb) quote-subsection undefined")
  paragraph = []
  for element in wrapper.find_all("tr", class_="C($primaryColor) BdB Bdc($seperatorColor) H(36px)"):
    name = element.find("td", class_="Ta(start)").find("span").text
    title = element.find("td", class_="Ta(start) W(45%)").find("span").text
    pay = element.find("td", class_="Ta(end)").find("span").text
    paragraph.append([name, title, pay])
  return paragraph

def getDescription(soup):
  wrapper = soup.find("section", class_="quote-sub-section Mt(30px)")
  paragraph = [element.text for element in wrapper.find_all("p", class_="Mt(15px) Lh(1.6)")]
  return paragraph

def getMajorHolders(soup):
  wrapper = soup.find("div", class_="W(100%) Mb(20px)")
  paragraph = []
  for element in wrapper.find_all("tr", class_="BdT Bdc($seperatorColor)"):
    share = element.find("td", class_="Py(10px) Va(m) Fw(600) W(15%)").text
    heldby = element.find("td", class_="Py(10px) Ta(start) Va(m)").find("span").text
    paragraph.append([share, heldby])
  return paragraph

def getTopHolders(soup, category):
  idx = {'Institutional': 0, 'MutualFund': 1}
  wrapper = soup.find_all("div", class_="Mt(25px) Ovx(a) W(100%)")[idx[category]]
  paragraph = []
  for element in wrapper.find_all("tr", class_="BdT Bdc($seperatorColor) Bgc($hoverBgColor):h Whs(nw) H(36px)"):
    tmp = [element.find("td", class_="Ta(start) Pend(10px)").text, ]
    tmp.extend([col.text for col in element.find_all("td", class_="Ta(end) Pstart(10px)")])
    paragraph.append(tmp)
  return paragraph

La méthode d'exécution est illustrée en utilisant Apple (symbole ticker: APPL), qui est un sujet brûlant sur iphone12, à titre d'exemple. Tout d'abord, des informations de base.