[PYTHON] Ich habe mit Scrapy- und GitHub-Aktionen eine Listenseite für Kindle Prime Reading erstellt

Hintergrund

Während ich nicht ausgehen wollte, nahm ich an einem erstklassigen Mitglied von Amazon teil, aber ich benutze es selten, außer um Reis und Getränke zu kaufen. Erst neulich habe ich angefangen, das Privileg Prime Reading zu nutzen. Ich würde gerne sehen, welche Art von Büchern ich lesen kann, aber das Überprüfen von Seite zu Seite ist immer noch mühsam. Deshalb habe ich mit Scrapy eine Liste / Suchseite gestartet.

Gehen Sie hier: https://kpr.gimo.me/

Was Sie verwenden

Scrapy (HTML abrufen, analysieren usw.)
DataTables (Speichert Daten in Tabellen)
GitHub-Seiten (Site-Erstellung)
GitHub-Aktionen (Automatisierung)

Entwicklungsfluss

Scrapy Sie können Spider schreiben, um die Datenerfassung, -extraktion usw. zu definieren. Klicken Sie hier für Details: https://github.com/masakichi/KindleSpider/blob/master/KindleSpider/spiders/PrimeReading.py

Nach Abschluss können Sie alle Bücher für etwa eine Minute mit dem Befehl "Scrapy Crawl PrimeReading -o public / output.json" abrufen.

Schreiben Sie eine minimale index.html

Es ist einfach, die von Scrapy erfassten Daten mit dem jQuery-Plugin DataTables auszudrücken, das in HTML gespeichert werden muss. Sie können eine sehr vollständige Tabelle mit etwa 20 Codezeilen erstellen. (Ausgestattet mit Sortier- und Suchfunktionen)

$('#prime-reading').DataTable({
    "paging": false,
    "order": [[4, 'desc']],
    "ajax": { "url": "./output.json", "dataSrc": "", "cache": true },
    "language": {
        "url": "./Japanese.json"
    },
    "columns": [
        { "data": "asin", "visible": false },
        { "data": "title", "render": function (data, type, row) { return `<div><a class="title" data-image="${row.cover}" href="https://www.amazon.co.jp/dp/${row.asin}/" target="_blank">${data}</a></div>` }, "width": "40%" },
        { "data": "author" },
        { "data": "star" },
        { "data": "rating_count" },
        { "data": "price" },
        { "data": "publish_date" },
        { "data": "cover", "visible": false },
    ]
});

Veröffentlicht auf GitHub-Seiten

Sie können auf GitHub Pages basierend auf der obigen Datei index.html und output.json veröffentlichen. Es gibt viele Möglichkeiten, es online zu veröffentlichen, daher werde ich es hier weglassen.

Alles automatisiert mit der Kraft von GitHub Actions

Wenn Sie die Anforderungen wie unten gezeigt in Form von Yaml definieren, können Sie die Site automatisch erfassen, extrahieren und starten, wenn der Code gesendet wird, und zwar jeden Tag um 0:00 UTC (9:00 Uhr japanischer Zeit).

name: publish to gh-pages

on:
  push:
    branches:
      - master
  schedule:
    - cron: "0 0 * * *"

jobs:
  publish:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v2
      - uses: actions/setup-python@v2
      - uses: dschep/install-pipenv-action@v1
      - run: pipenv install
      - run: TZ='Asia/Tokyo' date --iso-8601="minutes" > public/update_time.txt
      - run: pipenv run scrapy crawl PrimeReading -o public/output.json
      - name: Deploy to GitHub Pages
        if: success()
        uses: crazy-max/ghaction-github-pages@v2
        with:
          target_branch: gh-pages
          build_dir: public
        env:
          GITHUB_TOKEN: ${{ secrets.GITHUB_TOKEN }}

Impressionen

――Es scheint, dass es in Prime Reading viele Magazine gibt. ――Es ist großartig, dass GitHub Actions für 2000 Minuten im Monat bequem und kostenlos ist.

Die drei Königreiche von Eiji Yoshikawa können jetzt kostenlos bei Prime Reading gelesen werden.