C'est bien de créer un modèle prédictif, mais lors de la prédiction, faites-vous exactement la même chose que les prérequis pour créer le modèle? Parler. Cela semble être une histoire très importante dans le fonctionnement du système d'apprentissage des opportunités.
Surtout dans le domaine de la chimioinfomatique, les modèles sont souvent créés en combinant divers logiciels commerciaux et gratuits. Le prétraitement du composé est effectué avec l'outil A, puis le descripteur est calculé avec l'outil B et le modèle de prédiction est créé avec l'outil C. .. .. Il est normal de créer un modèle comme celui-là, mais cette fois, j'ai essayé de vérifier ce qui se passerait si l'utilisateur ne faisait pas le même prétraitement.
Il existe différents prétraitements, mais comme il s'est avéré trouvé, j'ai procédé cette fois au scénario suivant.
Quelle est l'empreinte digitale Morgan de RDKit en premier lieu? Mais ça ressemble à ça dans la source.
from rdkit.Chem import AllChem
mol = Chem.MolFromSmiles("CCC")
mol = Chem.AddHs(mol)
fp = AllChem.GetMorganFingerprintAsBitVect(mol, radius=3, nBits=2048, useFeatures=False, useChirality=False)
Dans la première ligne, "CCC" crée un objet composé à partir de la chaîne de caractères SMILES, qui représente un composé, dans la deuxième ligne, l'hydrogène est explicitement ajouté au composé et dans la troisième ligne, le calcul du descripteur est effectué. Le résultat du calcul du descripteur est un tableau de 2 048 bits et chaque bit vaut 0 ou 1.
Ceci est utilisé pour créer un modèle de prédiction et faire des prédictions, mais après cela, lorsque `` Chem.AddHs (mol) '' n'est pas ajouté au moment de la création du modèle de prédiction et au moment de la prédiction , J'ai confirmé en quoi le résultat de la prédiction est différent lorsqu'il est attaché uniquement lorsque le modèle de prédiction est créé.
Dans les données d'environ 100 données d'apprentissage et d'environ 10 000 données cibles de prédiction, la corrélation entre les résultats prédits par la combinaison des trois modèles suivants est résumée dans le tableau.
Les résultats sont les suivants.
Pour le modèle de prédiction créé en ajoutant explicitement de l'hydrogène aux données d'apprentissage et en calculant le descripteur, la valeur prédite lorsque le calcul / prédiction du descripteur est effectué en omettant l'hydrogène dans les données cibles de prédiction est explicitement l'hydrogène. Il n'y a qu'une corrélation d'environ 0,48 par rapport à la valeur prédite lorsqu'elle est donnée. Le graphique de la relation entre les deux est le suivant. C'est une erreur considérable.
Cette valeur de 0,48 est inférieure à la corrélation de 0,58 entre ceux qui ont fait des prédictions avec et sans hydrogène en alignant les conditions au moment de la création du modèle de prédiction et au moment de la prédiction. Il y a un débat sur ce qui est plus approprié comme entrée pour l'empreinte digitale Morgan, avec ou sans hydrogène (dans certains cas, ce n'est pas spécifié), mais tout d'abord, il semble important d'aligner correctement les conditions d'entrée.
Assurez-vous que les conditions de prétraitement sont les mêmes lors de la création d'un modèle de prédiction et lors de la réalisation d'une prédiction. Il est préférable de le fournir côté système, y compris le prétraitement, mais si, pour une raison quelconque, il n'est pas possible de le faire, écrivez-le fermement dans le document.
Recommended Posts