Ich möchte [große Anzahl englischer PDF-Dateien] lesen (https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap), aber ich verstehe englische Wörter überhaupt nicht. Konvertieren Sie zunächst die PDF-Datei in eine Textdatei, listen Sie die Wörter auf und merken Sie sich die häufig verwendeten Wörter in der Reihenfolge von oben. Ich bin sicher, Sie können es schneller lesen! Ich beschloss zu glauben.
Deshalb habe ich beschlossen, viele englische PDF-Dateien in einen Topf zu legen, sie zu kochen und in Textdateien umzuwandeln. Ich habe Lust, eine große Menge Soba für das Bowl-Soba-Turnier zu kochen.
macOS Python3.6 anaconda
Eine große Anzahl von PDF-Dateien, die schwer zu verdauen sind
pdfminer ← Überprüfen Sie die Referenz-URL am Ende der Installationsmethode os re
Es scheint, dass pdfminer bessere Ergebnisse liefert als PyPDF2.
Bitte beachten Sie, dass es (wahrscheinlich) nicht japanischen Sätzen entspricht.
PdfToTextConverter.py
#! python3
# PdfToTextConverter.py
#Lesen Sie den Inhalt einer PDF-Datei und geben Sie sie als Textdatei aus
import os
import re
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
pdf_folder_path = os.getcwd() #Rufen Sie den Pfad des aktuellen Ordners ab
text_folder_path = os.getcwd() + '/' + 'text_folder' #Die Notation des Pfades ist die Mac-Spezifikation. Für Windows,'/'Zu'\'Richtig zu.
os.makedirs(text_folder_path, exist_ok=True)
pdf_file_name = os.listdir(pdf_folder_path)
#Name ist eine PDF-Datei (endet.pdf) gibt TRUE zurück, andernfalls wird FALSE zurückgegeben.
#Dieser Beitrag wurde zitiert und teilweise geändert → http://qiita.com/korkewriya/items/72de38fc506ab37b4f2d
def pdf_checker(name):
pdf_regex = re.compile(r'.+\.pdf')
if pdf_regex.search(str(name)):
return True
else:
return False
#PDF in Textdatei konvertieren
def convert_pdf_to_txt(path, txtname, buf=True):
rsrcmgr = PDFResourceManager()
if buf:
outfp = StringIO()
else:
outfp = file(txtname, 'w')
codec = 'utf-8'
laparams = LAParams()
laparams.detect_vertical = True
device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
fp.close()
device.close()
if buf:
text = outfp.getvalue()
make_new_text_file = open(text_folder_path + '/' + path + '.txt', 'w')
make_new_text_file.write(text)
make_new_text_file.close()
outfp.close()
#Holen Sie sich den Namen der PDF-Datei in den Ordner und listen Sie ihn auf
for name in pdf_file_name:
if pdf_checker(name):
convert_pdf_to_txt(name, name + '.txt') # pdf_Verwenden Sie checker und TRUE (endet.Für pdf) weiter zur Konvertierung)
else:
pass #Übergeben Sie, wenn nicht eine PDF-Datei
Eine große Anzahl von Textdateien, die wahrscheinlich Magenverstimmung verursachen
Verschieben Sie eine große Anzahl von Textdateien in eine Schüssel und extrahieren Sie etwa 500 häufig verwendete Wörter. Denken Sie an die Bedeutung des Wortes (es ist nicht bekannt, ob es zum schnellen Lesen englischer Sätze geeignet ist).
http://qiita.com/korkewriya/items/72de38fc506ab37b4f2d → Der Teil, der eine PDF-Datei in eine Textdatei konvertiert, wird aus diesem Artikel zitiert (teilweise geändert).
https://kusanohitoshi.blogspot.jp/2017/01/python3cstringiostringio.html → Informationen zum Umgang mit StringIO-Importfehlern finden Sie hier.
"Lass Python die langweiligen Dinge machen" → Verwendung des OS-Moduls
http://www.unixuser.org/%7Eeuske/python/pdfminer/index.html → pdfminer Seite
https://github.com/conda-forge/pdfminer-feedstock https://conda-forge.org/feedstocks → Informationen zum Installationsverfahren von pdfminer in der Anaconda-Umgebung finden Sie hier.
Recommended Posts