[PYTHON] [GWAS] Tracez les résultats de l'analyse en composantes principales (ACP) par PLINK

À propos de cet article

Préparation du fichier d'entrée

1. Préparation des données de charge des composants principaux

format de fichier

Préparez un fichier contenant l'ID de la famille dans la première colonne, l'ID personnel dans la deuxième colonne et la charge du composant principal dans la troisième colonne et les suivantes. Les fichiers dans un tel format peuvent être obtenus en effectuant une analyse des composants principaux à l'aide de PLINK.

#1 FamID
#2 Individual ID
#3 PC1
#4 PC2
...

Analyse des composants principaux par PLINK

Le logiciel d'analyse des statistiques génétiques PLINK peut effectuer l'analyse des composants principaux. L'analyse en composantes principales est une méthode de réduction de dimension basée sur la décomposition en valeur propre d'une matrice de co-dispersion de dispersion ou d'une matrice de corrélation. Il est utilisé pour l'ajustement de l'intrication.

$ plink --bfile ${bfile_name} --out ${outfile_name} --pca

Comme résultat de la sortie PCA par PLINK, $ {outfile_name} .eigenvec et $ {outfile_name} .eigenval sont obtenus. Pour illustrer les résultats, utilisez $ {outfile_name} .eigenvec (charge de chaque composant principal dans chaque individu).

2. Préparation des données d'étiquette de groupe

format de fichier

Préparez un fichier avec l'ID de la famille dans la première colonne, l'ID individuel dans la deuxième colonne et l'étiquette du groupe (race, etc.) dans la troisième colonne. (Disons populations.txt.)

#1 FamID
#2 Individual ID
#3 Group

Comment exécuter le script

L'environnement d'exécution est Python3, et pandas et matplotlib sont installés. Exécutez en spécifiant les options suivantes. --Spécifiez un fichier $ {outfile_name} .eigenvec pour l'option -e --Spécifiez un fichier populations.txt pour l'option -p --Spécifiez le répertoire de sortie dans l'option -o

$ python plot_pca_gwas.py -e ${outfile_name}.eigenvec -p populations.txt -o ${output_directory}/

Vérifiez le résultat de sortie

L'image suivante est obtenue comme résultat de sortie du script. --pca.png: Graphique de la population entière --pca_ {group} .png: Tracer pour chaque groupe

Exemple d'exécution

Les fichiers d'entrée sont example.eigenvec et [example_population.txt](https: / Si vous exécutez le script en utilisant /github.com/t-yui/bioinformatics_scripts/blob/master/gwas_tools/plinkPCA/plot_examples/example_data/example_population.txt), vous obtiendrez l'image suivante.

  1. pca.png pca.png

2-1) pca_GROUP1.png pca_GROUP1.png

2-2) pca_GROUP2.png pca_GROUP2.png

2-3) pca_GROUP3.png pca_GROUP3.png

Recommended Posts

[GWAS] Tracez les résultats de l'analyse en composantes principales (ACP) par PLINK
[GWAS] Tracez les résultats de l'analyse en composantes principales (ACP) par PLINK
Tracez la propagation du nouveau virus corona
Analyse en composantes principales (Analyse en composantes principales: ACP)
[Python] Comparaison de la théorie de l'analyse des composants principaux et de l'implémentation par Python (PCA, Kernel PCA, 2DPCA)
Compréhension mathématique de l'analyse en composantes principales depuis le début
Visualisez la matrice de corrélation par l'analyse des composants principaux avec Python
Ceci et cela de l'analyse en composantes principales
Reconnaître le contour et la direction d'un objet façonné avec OpenCV3 et Python3 (analyse des composants principaux: PCA, vecteur propre)
[Statistiques] Comprendre le mécanisme des graphiques Q-Q avec animation.
Clustering et analyse en composantes principales par méthode K-means (débutant)
Analyse en composantes principales Analyser les nombres manuscrits à l'aide de l'ACP. Partie 2
Analyse en composants principaux (PCA) et analyse en composants indépendants (ICA) avec python
Analyse en composantes principales Analyser les nombres manuscrits à l'aide de l'ACP. Partie 1
Analyse des données basée sur les résultats des élections du gouverneur de Tokyo (2020)
Réutiliser les résultats du clustering
Apprendre sans enseignant 3 Analyse des principales composantes
Mise en œuvre d'une analyse de composants indépendante
Quand on m'a montré un graphique comme l'analyse en composantes principales, «les distributions de ces deux données ne sont pas significativement différentes»?
[Python] PCA scratch dans l'exemple de "Introduction à la méthode d'analyse multivariée"
Introduction aux bases de Python de l'apprentissage automatique (apprentissage non supervisé / analyse principale)
Traitement du langage 100 knock-85 (SVD tronqué): Compression dimensionnelle par analyse en composantes principales
Tracez la propagation du nouveau virus corona
Analyse des composants principaux avec Spark ML
Tracé de la droite de régression par tracé des résidus
Illustration des résultats du problème du sac à dos
Python: apprentissage non supervisé: analyse principale
J'ai écrit un lecteur de corpus qui lit les résultats de l'analyse MeCab
Essayez d'envoyer les résultats agrégés des deux enregistrements par e-mail avec pykintone