Nachstehend finden Sie eine Liste von Einrichtungen, die die medizinische Online-Versorgung auf der Grundlage der Ausbreitung der neuen Coronavirus-Infektion unterstützen.
https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryou/rinsyo/index_00014.html
Lassen Sie uns dies verwenden, um einen Prozess zu erstellen, um herauszufinden, wie der medizinische Online-Pflegedienst in der Nachbarschaft aussieht. Wir werden auch prüfen, ob dies uns die Verwendung der von der Regierung bereitgestellten PDF-Daten ermöglicht.
https://needtec.sakura.ne.jp/yakusyopdf/ https://github.com/mima3/yakusyopdf
Wenn Sie suchen, indem Sie den Längen- und Breitengrad eingeben ...
Eine Liste der Krankenhäuser in der Nähe wird angezeigt. Klicken Sie auf die Zeile.
Detaillierte Informationen werden auf der Karte angezeigt.
(1) Beziehen Sie ein PDF von der Homepage der Liste der Einrichtungen, die die medizinische Online-Versorgung auf der Grundlage der Ausbreitung der neuen Coronavirus-Infektion unterstützen.
(2) Extrahieren Sie Tabelleninformationen aus PDF und konvertieren Sie sie in JSON. Informationen zur Bearbeitung dieses Bereichs finden Sie auf der folgenden Seite. ・ [PDF des Ministeriums für Gesundheit, Arbeit und Soziales in CSV oder JSON konvertieren](https://needtec.sakura.ne.jp/wod07672/2020/04/29/%e5%8e%9a%e7%94%9f%e5% 8a% b4% e5% 83% 8d% e7% 9c% 81% e3% 81% aepdf% e3% 82% 92csv% e3% 82% 84json% e3% 81% ab% e5% a4% 89% e6% 8f% 9b% e3% 81% 99% e3% 82% 8b /)
(3) Kombinieren Sie den JSON jeder Präfektur zu einem JSON.
(4) Ermitteln und notieren Sie den Längen- und Breitengrad von der Adresse in JSON mithilfe der Yahoo! Geocoder-API.
(5) Speichern Sie es in der Datenbank und zeigen Sie es basierend auf diesen Informationen auf dem Bildschirm an.
Tatsächlich ist das Extrahieren der Daten in der Tabelle aus PDF ziemlich mühsam. Es gibt Bibliotheken mit den Namen tabula und camelot, aber das allein funktioniert nicht. Da ist gar nichts. In diesem Abschnitt werden die Probleme beschrieben, die bei der Verwendung von Camelot aufgetreten sind.
Angenommen, Sie haben Daten, die über den Inhalt der Zelle hinausgehen (siehe unten).
In diesem Fall werden die Telefonnummer und die URL als eine Gruppe erkannt. Dieses Mal überprüfen wir als Methode zur Behebung dieses Problems, ob kein Element erforderlich ist, die linke und die rechte Zelle, um festzustellen, ob sie zusammengeführt wurden. Wenn das Ziel jedoch eine unformatierte Datenzeichenfolge wie eine Postleitzahl oder eine Telefonnummer ist, kann sie nicht wiederhergestellt werden.
camelot verbraucht viel Speicher, daher ist es besser, ihn Seite für Seite zu verarbeiten. Ich denke, dieser Bereich wird hilfreich sein. https://github.com/camelot-dev/camelot/issues/28
Aufgrund des Problems der Papiergröße der Daten, die dieses Mal verarbeitet werden, ist der Speicher nicht ausreichend, wenn es sich sogar für jede Seite um einen 32-Bit-Prozess handelt. Daher ist es besser, mit einem 64-Bit-Prozess zu arbeiten.
Obwohl dies in der folgenden Ausgabe erwähnt wird, erkennt camelot nicht gut, wenn Sie eine Tabelle mit einer gepunkteten Linie erstellen.
Detect dotted line #370 https://github.com/atlanhq/camelot/issues/370
So lösen Sie dieses Problem: [Gepunktete Linie als durchgezogene Linie mit Camelot verarbeiten](https://needtec.sakura.ne.jp/wod07672/2020/05/03/camelot%e3%81%a7%e7%82%b9%e7%b7%9a % e3% 82% 92% e5% ae% 9f% e7% b7% 9a% e3% 81% a8% e3% 81% 97% e3% 81% a6% e5% 87% a6% e7% 90% 86% e3 % 81% 99% e3% 82% 8b /)
Dies ist äußerst problematisch, und ich denke, es ist unmöglich, PDFs vollautomatisch zu analysieren.
Die Bearbeitung dauert einige Zeit, da einige Papiere eine Seite von 1 m haben. Es ist auch unmöglich, nach dem Konvertieren einer allgemeinen PDF-Datei in WORD zu verarbeiten, da die Größe zu groß ist.
Das PDF der Liste der unterstützten medizinischen Einrichtungen wird täglich aktualisiert, aber die URL scheint sich mit jedem Update zu ändern. Die URL von Tokio lautet beispielsweise wie folgt.
Stand 28. April 2020 https://www.mhlw.go.jp/content/000625693.pdf
Stand 29. April 2020 https://www.mhlw.go.jp/content/000626106.pdf
Aus diesem Grund muss die PDF-URL über den Link für die medizinische Online-Versorgung abgerufen werden, der auf der Ausbreitung der neuen Coronavirus-Infektion basiert.
Die erste Datenzeile kann eine Legende enthalten oder nicht. Es gibt eine Legende im Fall von Tokio, aber nicht in Hokkaido.
Mit anderen Worten, es ist notwendig, die Erfassungsposition der Datenzeile auf der ersten Seite für jede Präfektur anzupassen.
Vergleichen Sie beispielsweise die PDFs der Präfekturen Tokio und Ibaraki. Der Header ist auf der zweiten und den folgenden Seiten von Tokio enthalten, jedoch nicht in der Präfektur Ibaraki.
Mit anderen Worten, es ist notwendig, die Erfassungsposition der Datenzeile auf der zweiten und den folgenden Seiten für jede Präfektur anzupassen. Darüber hinaus ist dies auch in derselben Präfektur nicht immer der Fall.
Tatsächlich hatte Hokkaido bis April Kopfzeilen auf der zweiten und den folgenden Seiten. Möglicherweise liegt dies daran, dass die Spezifikationen zum Zeitpunkt der Dateiausgabe manchmal schwanken.
Vergleichen Sie beispielsweise Hokkaido mit den Präfekturen Aichi und Yamanashi.
** Hokkaido **
** Präfektur Aichi **
** Präfektur Yamanashi **
Die Elemente in der Spalte können von Präfektur zu Präfektur unterschiedlich sein, und selbst wenn es sich um übliche Elemente handelt, müssen sie in ihrer Position angepasst werden. Darüber hinaus sind die Gegenstände auch in derselben Präfektur nicht immer gleich. Tatsächlich hat die Präfektur Yamanashi bis April die Grenze zwischen telefonischer und Online-Konsultation nicht geteilt.
Es gibt einen Punkt "ob die medizinische Behandlung beim ersten Besuch am Telefon durchgeführt wird oder nicht", aber in vielen Fällen wird 〇 oder × (oder leer) geschrieben, aber die Notation ist falsch. Beispielsweise kann es wie folgt kommentiert werden.
○
* Geplant für die Zukunft
Dann geht es nicht nur darum, nur den ersten Buchstaben zu nehmen, und es gibt verschiedene Ausdrücke. Zumindest im Moment gibt es die folgenden Notationsunschärfen.
** Ein Ausdruck, der das Vorhandensein oder Fehlen von "ob eine medizinische Behandlung beim ersten Besuch telefonisch durchgeführt wird oder nicht" anzeigt **
Brief | Code |
---|---|
〇 | E38087 |
○ | E2978B |
◯ | E297AF |
△ | E296B3 |
Ja | E58FAF |
● | E2978F |
▲ | E296B2 |
** Ein Ausdruck, der anzeigt, dass nicht angegeben ist, ob beim ersten Besuch eine medizinische Behandlung am Telefon durchgeführt wird oder nicht. **
Brief | Code |
---|---|
Leer | |
× | C397 |
x | EFBD98 |
☓ | E29893 |
✕ | E29C95 |
X | 58 |
- | 2D |
- | EFBC8D |
X | EFBCB8 |
✖ | E29C96 |
Nein | E590A6 |
Das tatsächliche Ergebnis der PDF-Konvertierung lautet wie folgt. Es gibt ein Problem mit dem Analyseprogramm, aber es gibt auch Fehler im PDF.
https://github.com/mima3/yakusyopdf/blob/master/20200503
Dieses Mal habe ich das vom Ministerium für Gesundheit, Arbeit und Soziales veröffentlichte PDF so konvertiert, dass es problemlos vom Computer verarbeitet werden kann, und daraus eine Webanwendung erstellt.
Daten können bis zu einem bestimmten Punkt automatisch konvertiert werden. Solange jedoch PDF verwendet wird, ist eine vollständige Automatisierung nicht möglich. Auch wenn Sie es von Hand reparieren, ist die Aktualisierungshäufigkeit hoch, sodass es einige strenge Punkte gibt.
** Wenn Sie mindestens genaue Daten benötigen und diese regelmäßig aktualisieren, können Sie sicher vermeiden, dass Daten wie diesmal aus PDF extrahiert werden. ** ** **
Wenn Sie in der Lage sind, die Daten zu veröffentlichen, würden wir uns freuen, wenn Sie die folgenden Punkte berücksichtigen könnten.
――Können Sie andere als PDF veröffentlichen? ――Wenn Sie Daten verwenden, ist Excel besser. PDFs sehen gleich aus, sind aber viel schwieriger.
das ist alles.
Recommended Posts