Heutiges Menü

Ich möchte [große Anzahl englischer PDF-Dateien] lesen (https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap), aber ich verstehe englische Wörter überhaupt nicht. Konvertieren Sie zunächst die PDF-Datei in eine Textdatei, listen Sie die Wörter auf und merken Sie sich die häufig verwendeten Wörter in der Reihenfolge von oben. Ich bin sicher, Sie können es schneller lesen! Ich beschloss zu glauben.

Deshalb habe ich beschlossen, viele englische PDF-Dateien in einen Topf zu legen, sie zu kochen und in Textdateien umzuwandeln. Ich habe Lust, eine große Menge Soba für das Bowl-Soba-Turnier zu kochen.

Kochtischumgebung

macOS Python3.6 anaconda

Nahrungsmittel

Eine große Anzahl von PDF-Dateien, die schwer zu verdauen sind

Geschirr

pdfminer ← Überprüfen Sie die Referenz-URL am Ende der Installationsmethode os re

Es scheint, dass pdfminer bessere Ergebnisse liefert als PyPDF2.

Was als Kochfehler zu erwarten ist

Bitte beachten Sie, dass es (wahrscheinlich) nicht japanischen Sätzen entspricht.

Der heutige Topf

`PdfToTextConverter.py`


#! python3
# PdfToTextConverter.py
#Lesen Sie den Inhalt einer PDF-Datei und geben Sie sie als Textdatei aus

import os
import re
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

pdf_folder_path = os.getcwd()			                #Rufen Sie den Pfad des aktuellen Ordners ab
text_folder_path = os.getcwd() + '/' + 'text_folder'		#Die Notation des Pfades ist die Mac-Spezifikation. Für Windows,'/'Zu'\'Richtig zu.

os.makedirs(text_folder_path, exist_ok=True)
pdf_file_name = os.listdir(pdf_folder_path)

#Name ist eine PDF-Datei (endet.pdf) gibt TRUE zurück, andernfalls wird FALSE zurückgegeben.
#Dieser Beitrag wurde zitiert und teilweise geändert → http://qiita.com/korkewriya/items/72de38fc506ab37b4f2d
def pdf_checker(name):
	pdf_regex = re.compile(r'.+\.pdf')
	if pdf_regex.search(str(name)):
		return True
	else:
		return False

#PDF in Textdatei konvertieren
def convert_pdf_to_txt(path, txtname, buf=True):
    rsrcmgr = PDFResourceManager()
    if buf:
        outfp = StringIO()
    else:
        outfp = file(txtname, 'w')
    codec = 'utf-8'
    laparams = LAParams()
    laparams.detect_vertical = True
    device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams)

    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    for page in PDFPage.get_pages(fp):
        interpreter.process_page(page)
    fp.close()
    device.close()
    if buf:
        text = outfp.getvalue()
        make_new_text_file = open(text_folder_path + '/' + path + '.txt', 'w')
        make_new_text_file.write(text)
        make_new_text_file.close()
    outfp.close()

#Holen Sie sich den Namen der PDF-Datei in den Ordner und listen Sie ihn auf
for name in pdf_file_name:
	if pdf_checker(name):
		convert_pdf_to_txt(name, name + '.txt')		# pdf_Verwenden Sie checker und TRUE (endet.Für pdf) weiter zur Konvertierung)
	else:
		pass									    #Übergeben Sie, wenn nicht eine PDF-Datei

Fertiges Produkt

Eine große Anzahl von Textdateien, die wahrscheinlich Magenverstimmung verursachen

Nächstes Kochen

Verschieben Sie eine große Anzahl von Textdateien in eine Schüssel und extrahieren Sie etwa 500 häufig verwendete Wörter. Denken Sie an die Bedeutung des Wortes (es ist nicht bekannt, ob es zum schnellen Lesen englischer Sätze geeignet ist).

Referenzen, Referenz-URL

http://qiita.com/korkewriya/items/72de38fc506ab37b4f2d → Der Teil, der eine PDF-Datei in eine Textdatei konvertiert, wird aus diesem Artikel zitiert (teilweise geändert).

https://kusanohitoshi.blogspot.jp/2017/01/python3cstringiostringio.html → Informationen zum Umgang mit StringIO-Importfehlern finden Sie hier.

"Lass Python die langweiligen Dinge machen" → Verwendung des OS-Moduls

http://www.unixuser.org/%7Eeuske/python/pdfminer/index.html → pdfminer Seite

https://github.com/conda-forge/pdfminer-feedstock https://conda-forge.org/feedstocks → Informationen zum Installationsverfahren von pdfminer in der Anaconda-Umgebung finden Sie hier.

[PYTHON] Konvertieren Sie eine große Anzahl von PDF-Dateien mit pdfminer in Textdateien