[PYTHON] [Umfrage] Kaggle - Data Science Bowl 2017, 2. Platz Lösung
Dies ist eine Übersicht über die zweitplatzierte Lösung des Kaggle-Wettbewerbs zur Erkennung von Lungenkrebs, Data Science Bowl 2017 [^ 1](im Folgenden als DSB2017 bezeichnet).
- Names: Julian & Daniel
- Title: Very quick 1st summary of julian's part of 2nd place solution.
- URL: https://www.kaggle.com/c/data-science-bowl-2017/discussion/31551
Was ist DSB2017?
- Wettbewerb zur Erkennung von Lungenkrebs
- Es ist nur möglich, das Vorhandensein oder Fehlen eines jeden Falles festzustellen (es ist nicht erforderlich, die Position anzugeben).
Als Erkennungsfluss befindet sich im CT-Bild eine weißliche Masse namens Lungenknoten [^ 7], und wenn sie bösartig ist, kann es zu Lungenkrebs kommen.
Damit der Computer Lungenkrebs erkennen kann,
- Erkennen Sie Nickenschatten
- Stellen Sie fest, ob Sie Lungenkrebs haben
Es scheint, dass es viele Methoden gibt, die den Ansatz verfolgen, durch zweistufige Beurteilung zu erkennen.
Externer Datensatz
LUNA16
- Lungenknotendatensatz (unbekannt, wenn es sich um einen bösartigen Tumor handelt)
- 888 CT-Daten
- Markierungsknoten sind mit 3 Mustern gekennzeichnet: "Keine", "3 mm oder weniger" und "3 mm oder mehr".
- Ohne CT mit einer Schichtdicke von 2 mm oder mehr
- Der automatische Nachweis von Lungenknoten für große Datensätze wie LIDC und IDRI ist eine Herausforderung
- Die Diagnoseergebnisse von 4 Radiologen sind aufgelistet.
LIDC-IDRI
- Lungenbilddatensatz
- 1018 CT-Daten
- Lungenknoten sind mit 3 Mustern gekennzeichnet: "Keine", "3 mm oder weniger" und "3 mm oder mehr".
-Es gibt auch Informationen zu bösartigem Tumor.
Julian
- Code: https://github.com/juliandewit/kaggle_ndsb2017/
- Paper: http://juliandewit.github.io/kaggle-ndsb2017/
Umgebung
- GTX-980
- Keras
- Windows(64bit)
Ansatz
- Verwendung eines bösartigen Tumors, der von einem LIDC-Arzt markiert wurde
--Verwenden Sie das negative Etikett von LUNA16 (normaler Patient). (Die positiven Daten können nicht für diesen Wettbewerb verwendet werden, da LUNA16 nur Informationen zu Lungenknoten und keinen Datensatz darüber enthält, ob es bösartig ist oder nicht.)
――Isodirektionale Umwandlung von Boxzellen in 1 Boxzellen 1 mm
- Lernen mit dem Originalbild anstelle der Daten, die nur aus dem Lungenfeld extrahiert wurden, um den Lungenknoten am Grenzteil nicht zu übersehen
- Skalieren Sie die Konvertierung so, dass die Koordinaten innerhalb von 0 zu 1 liegen
--Überprüfen Sie mit Ihrem eigenen Betrachter, ob die positiven und negativen Beispiele wirklich richtig sind
Etikette
- Jeder Teil des Arztes, der positiv beurteilt wurde, wurde als positiv behandelt (4 Radiologen fällen das Urteil in LUNA16).
- In LUNA16 wurden Lungenknoten von 3 cm oder mehr nicht markiert (Segmentierung?), Daher wurden Daten mit Knoten von 3 cm oder mehr in LUNA16 ausgeschlossen.
Modell-
--32x32x32 3D ConvNet erkennt Lungenknoten und stellt fest, ob sie gleichzeitig bösartig sind. (Daniel in zwei Stufen unterteilt)
- CGD-Struktur im VGG-Stil [^ 4]
- Es wird keine Zeit für die Optimierung der Netzwerkparameter aufgewendet.
- Upsampling positiv, so dass positiv: negativ = 1:20 (ursprünglich positiv: negativ = 1: 200)
- Verwendet 3 Zoomstufen (1,0, 1,5, 2,0 mm / Voxel), um große Knoten zu erkennen
--LUNA16 Nutzungsdaten:
- Kandidatenpunktzahl: 400.000
- Nicht-Lungengewebe: 100.000
- Falsch positiv: 10.000 (Lungenknoten, aber nicht bösartig)
- LIDC positiv: 2.000
- Da der Ort des bösartigen Tumors in NDSB nicht beschrieben ist, habe ich den Ort selbst markiert.
--LUNA16 behandelte keine Lungenknoten, die größer als 3 cm waren, und wurde daher aus dem Datensatz ausgeschlossen, um Netzwerkstörungen zu vermeiden.
- Bestimmen Sie, ob ein bösartiger Tumor vorliegt, indem Sie die CT-Bilder in Abständen von 12 mm teilen.
- Nur der Maximalwert des malignen Tumorgrades und die z-Koordinate werden als Merkmale der endgültigen Vorhersage verwendet.
- Mit anderen Worten, mit 240x240x240 CT-Daten, 20x20x20 = 8000 Vorhersagen
――Es ist jetzt möglich, große Lungenknoten bei 3 Zoomstufen (1,0, 1,5 mm, 2,0 mm / Voxel) zu erkennen.
Seltsame Gewebeerkennung
――Aus dem Urteil von 3D ConvNet versuchen wir auch, seltsame Gewebe zu erkennen.
- Die Trainingsdaten enthielten ungefähr 10 seltsame Gewebe, von denen die Hälfte bösartige Tumoren waren.
――Es ist nicht bekannt, wie die Definition "seltsames Gewebe" heißt.
Endgültige Entscheidung
- Xgboost
- Maximaler maligner Tumorgrad bei 3 Zoomstufen
--z Koordinaten
--min_child_weight: 60 (um Überlernen zu verhindern)
- Im Durchschnitt mit Daniels 'Lösung eingereicht
Daniels
- Code: https://github.com/dhammack/DSB2017/
- Paper: https://github.com/dhammack/DSB2017/blob/master/dsb_2017_daniel_hammack.pdf
Ansatz
--Verwenden von 64x64x64 ResNet-ähnlichem 3D ConvNet
--Verwenden Sie Informationen zu bösartigen LIDC-Tumoren und -Knoten
- Verwenden Sie U-Net [^ 6], um verdächtige Bereiche zu extrahieren
References