Préparez un fichier contenant l'ID de la famille dans la première colonne, l'ID personnel dans la deuxième colonne et la charge du composant principal dans la troisième colonne et les suivantes. Les fichiers dans un tel format peuvent être obtenus en effectuant une analyse des composants principaux à l'aide de PLINK.
#1 FamID
#2 Individual ID
#3 PC1
#4 PC2
...
Le logiciel d'analyse des statistiques génétiques PLINK peut effectuer l'analyse des composants principaux. L'analyse en composantes principales est une méthode de réduction de dimension basée sur la décomposition en valeur propre d'une matrice de co-dispersion de dispersion ou d'une matrice de corrélation. Il est utilisé pour l'ajustement de l'intrication.
$ plink --bfile ${bfile_name} --out ${outfile_name} --pca
Comme résultat de la sortie PCA par PLINK, $ {outfile_name} .eigenvec
et $ {outfile_name} .eigenval
sont obtenus.
Pour illustrer les résultats, utilisez $ {outfile_name} .eigenvec
(charge de chaque composant principal dans chaque individu).
Préparez un fichier avec l'ID de la famille dans la première colonne, l'ID individuel dans la deuxième colonne et l'étiquette du groupe (race, etc.) dans la troisième colonne. (Disons populations.txt
.)
#1 FamID
#2 Individual ID
#3 Group
L'environnement d'exécution est Python3, et pandas et matplotlib sont installés.
Exécutez en spécifiant les options suivantes.
--Spécifiez un fichier $ {outfile_name} .eigenvec
pour l'option -e
--Spécifiez un fichier populations.txt
pour l'option -p
--Spécifiez le répertoire de sortie dans l'option -o
$ python plot_pca_gwas.py -e ${outfile_name}.eigenvec -p populations.txt -o ${output_directory}/
L'image suivante est obtenue comme résultat de sortie du script.
--pca.png
: Graphique de la population entière
--pca_ {group} .png
: Tracer pour chaque groupe
Les fichiers d'entrée sont example.eigenvec et [example_population.txt](https: / Si vous exécutez le script en utilisant /github.com/t-yui/bioinformatics_scripts/blob/master/gwas_tools/plinkPCA/plot_examples/example_data/example_population.txt), vous obtiendrez l'image suivante.
2-1) pca_GROUP1.png
2-2) pca_GROUP2.png
2-3) pca_GROUP3.png
Recommended Posts