Einführung

Dies ist eine Fortsetzung des vorherigen Artikels (Python-Programmierung: Ich habe versucht, Nachrichtenartikel mit Selenium und BeautifulSoup4 abzurufen (zu crawlen)).

Es bestand zusätzlich die Notwendigkeit, einen Überblick (Geschäftsbeschreibung, leitende Angestellte, Aktionäre usw.) über die in den Nachrichtenartikeln aufgeführten Unternehmen zu erhalten.

Versuchen wir also, den Prozess des Erfassens "englischer" Unternehmensinformationen mit einem Python-Programm zu realisieren. Diesmal lautet die Informationsquelle ** Yahoo! Finance **.

Das Beispiel für die Einführung und Ausführung des Codes basiert auf den Informationen zum Zeitpunkt des Schreibens dieses Artikels (2020/11/02).

Was in diesem Artikel einzuführen

Profil von Yahoo! Finance erhalten
Ex.) https://finance.yahoo.com/quote/AAPL/profile?p=AAPL
Akquisition von Inhabern von Yahoo! Finance
Ex.) https://finance.yahoo.com/quote/AAPL/holders?p=AAPL

Darüber hinaus hat der Autor den Vorgang mit der folgenden Version bestätigt.

Python: 3.6.8
BeautifulSoup4: 4.9.1

In diesem Artikel nicht vorgestellt

So installieren und verwenden Sie die Python-Bibliothek
requests
BeautifulSoup4
So erhalten Sie das Tickersymbol (entspricht dem japanischen Wertpapiercode)
Implementieren Sie keine Verarbeitung wie das Erfassen des Tickersymbols aus dem Firmennamen und das automatische Generieren der Anforderungs-URL.

Beispielcode

Da die Menge an Code nicht groß ist, werde ich den gesamten Code einführen. Es gibt zwei Punkte.

1. Explizites Warten

Es ist ein Muss, die Standby-Verarbeitung (Sleep) auch in ** zu implementieren, da das Zugriffsziel dadurch nicht belastet wird **. In diesem Artikel wird im Gegensatz zum vorherigen Artikel Selenium nicht verwendet. Es ist jedoch besser, die Standby-Verarbeitung zu implementieren, wenn die For-Schleifenverarbeitung verwendet wird, damit das Programm keine explosiven HTTP-Anforderungen in einer Zeiteinheit ausgibt.

2. Angeben von Tag-Elementen

Es ist notwendig, die Quelle jeder Seite zu betrachten, das Element unter Berücksichtigung der Tag-Struktur anzugeben und die Informationen mit BeautifulSoup4 zu erhalten. In vielen Fällen geben Sie das an das Tag angehängte Klassenattribut an und implementieren den Prozess zum Abrufen des Ziel-Tags (und des darin enthaltenen Textes).

Code einführen

Wenn Sie den Code ausführen, wird die Ausgabe von print () auf der Konsole angezeigt.

`crawler_yahoo.py`


import requests
from bs4 import BeautifulSoup

def getSoup(url):
  html = requests.get(url)
  #soup = BeautifulSoup(html.content, "html.parser")
  soup = BeautifulSoup(html.content, "lxml")
  return soup

def getAssetProfile(soup):
  wrapper = soup.find("div", class_="asset-profile-container")
  paragraph = [element.text for element in wrapper.find_all("span", class_="Fw(600)")]
  return paragraph

def getKeyExecutives(soup):
  wrapper = soup.find("section", class_="Bxz(bb) quote-subsection undefined")
  paragraph = []
  for element in wrapper.find_all("tr", class_="C($primaryColor) BdB Bdc($seperatorColor) H(36px)"):
    name = element.find("td", class_="Ta(start)").find("span").text
    title = element.find("td", class_="Ta(start) W(45%)").find("span").text
    pay = element.find("td", class_="Ta(end)").find("span").text
    paragraph.append([name, title, pay])
  return paragraph

def getDescription(soup):
  wrapper = soup.find("section", class_="quote-sub-section Mt(30px)")
  paragraph = [element.text for element in wrapper.find_all("p", class_="Mt(15px) Lh(1.6)")]
  return paragraph

def getMajorHolders(soup):
  wrapper = soup.find("div", class_="W(100%) Mb(20px)")
  paragraph = []
  for element in wrapper.find_all("tr", class_="BdT Bdc($seperatorColor)"):
    share = element.find("td", class_="Py(10px) Va(m) Fw(600) W(15%)").text
    heldby = element.find("td", class_="Py(10px) Ta(start) Va(m)").find("span").text
    paragraph.append([share, heldby])
  return paragraph

def getTopHolders(soup, category):
  idx = {'Institutional': 0, 'MutualFund': 1}
  wrapper = soup.find_all("div", class_="Mt(25px) Ovx(a) W(100%)")[idx[category]]
  paragraph = []
  for element in wrapper.find_all("tr", class_="BdT Bdc($seperatorColor) Bgc($hoverBgColor):h Whs(nw) H(36px)"):
    tmp = [element.find("td", class_="Ta(start) Pend(10px)").text, ]
    tmp.extend([col.text for col in element.find_all("td", class_="Ta(end) Pstart(10px)")])
    paragraph.append(tmp)
  return paragraph

Die Ausführungsmethode wird am Beispiel von Apple (Tickersymbol: APPL) gezeigt, einem wichtigen Thema auf dem iPhone 12. Zunächst grundlegende Informationen.