Es ist schön, ein Vorhersagemodell zu erstellen, aber machen Sie es bei der Vorhersage genauso wie die Voraussetzungen für die Erstellung des Modells? Sich unterhalten. Es scheint eine sehr wichtige Geschichte im Betrieb des Opportunity-Lernsystems zu sein.
Insbesondere auf dem Gebiet der Chemoinfomatik werden Modelle häufig durch die Kombination verschiedener kommerzieller und freier Software erstellt. Die Vorbehandlung der Verbindung wird mit dem A-Werkzeug durchgeführt, dann wird der Deskriptor mit dem B-Werkzeug berechnet und das Vorhersagemodell wird mit dem C-Werkzeug erstellt. .. .. Es ist in Ordnung, ein solches Modell zu erstellen, aber dieses Mal habe ich versucht zu überprüfen, was passieren würde, wenn der Benutzer nicht dieselbe Vorverarbeitung durchführen würde.
Es gibt verschiedene Vorbehandlungen, aber da es zufällig gefunden wurde, fuhr ich diesmal mit dem folgenden Szenario fort.
Was ist der Morgan-Fingerabdruck von RDKit überhaupt? Aber so sieht es in der Quelle aus.
from rdkit.Chem import AllChem
mol = Chem.MolFromSmiles("CCC")
mol = Chem.AddHs(mol)
fp = AllChem.GetMorganFingerprintAsBitVect(mol, radius=3, nBits=2048, useFeatures=False, useChirality=False)
In der ersten Zeile erstellt "CCC" ein zusammengesetztes Objekt aus der Zeichenfolge SMILES, die eine Verbindung darstellt. In der zweiten Zeile wird der Verbindung explizit Wasserstoff hinzugefügt, und in der dritten Zeile wird die Deskriptorberechnung durchgeführt. Das Ergebnis der Deskriptorberechnung ist ein 2048-Bit-Array, und jedes Bit ist 0 oder 1.
Dies wird verwendet, um ein Vorhersagemodell zu erstellen und Vorhersagen zu treffen, aber danach, wenn "Chem.AddHs (mol)" zum Zeitpunkt der Erstellung des Vorhersagemodells und zum Zeitpunkt der Vorhersage nicht hinzugefügt wird Ich habe bestätigt, dass sich das Vorhersageergebnis unterscheidet, wenn es nur beim Erstellen des Vorhersagemodells angehängt wird.
In den Daten von ungefähr 100 Trainingsdaten und ungefähr 10.000 Vorhersagezieldaten ist die Korrelation zwischen den durch die Kombination der folgenden drei Muster vorhergesagten Ergebnissen in der Tabelle zusammengefasst.
Die Ergebnisse sind wie folgt.
Für das Vorhersagemodell, das durch explizites Hinzufügen von Wasserstoff zu den Trainingsdaten und Berechnen des Deskriptors erstellt wurde, ist der vorhergesagte Wert, wenn die Deskriptorberechnung / -vorhersage durch Weglassen von Wasserstoff in den Vorhersagezieldaten durchgeführt wird, explizit Wasserstoff. Es gibt nur eine Korrelation von ungefähr 0,48 im Vergleich zu dem vorhergesagten Wert, wenn er gegeben wird. Die Darstellung der Beziehung zwischen den beiden ist wie folgt. Es ist ein erheblicher Fehler.
Dieser Wert von 0,48 ist niedriger als die Korrelation von 0,58 zwischen denjenigen, die Vorhersagen mit und ohne Wasserstoff getroffen haben, indem sie die Bedingungen zum Zeitpunkt der Erstellung des Vorhersagemodells und zum Zeitpunkt der Vorhersage ausgerichtet haben. Es gibt einige Debatten darüber, welche als Eingabe für den Morgan-Fingerabdruck mit oder ohne Wasserstoff geeigneter ist (in einigen Fällen ist sie nicht spezifiziert), aber zunächst scheint es wichtig, die Eingabebedingungen richtig auszurichten.
Stellen Sie sicher, dass die Vorverarbeitungsbedingungen beim Erstellen eines Vorhersagemodells und beim Erstellen einer Vorhersage dieselben sind. Es ist am besten, es auf der Systemseite einschließlich der Vorverarbeitung bereitzustellen. Wenn dies jedoch aus irgendeinem Grund nicht möglich ist, schreiben Sie es fest in das Dokument.
Recommended Posts