Bereiten Sie eine Datei vor, die die Familien-ID in der ersten Spalte, die persönliche ID in der zweiten Spalte und das Laden der Hauptkomponente in der dritten und den folgenden Spalten enthält. Dateien in einem solchen Format können durch Durchführen einer Hauptkomponentenanalyse mit PLINK erhalten werden.
#1 FamID
#2 Individual ID
#3 PC1
#4 PC2
...
Die Analysesoftware für genetische Statistiken PLINK kann eine Hauptkomponentenanalyse durchführen. Die Hauptkomponentenanalyse ist eine Dimensionsreduktionsmethode, die auf der Eigenwertzerlegung einer Dispersionskovarianzmatrix oder einer Korrelationsmatrix basiert. Es wird zur Anpassung der Verschränkung verwendet.
$ plink --bfile ${bfile_name} --out ${outfile_name} --pca
Als Ergebnis der PCA-Ausgabe von PLINK werden "$ {outfile_name} .eigenvec" und "$ {outfile_name} .eigenval" erhalten.
Verwenden Sie zur Veranschaulichung der Ergebnisse $ {outfile_name} .eigenvec
(Laden jeder Hauptkomponente in jeder Person).
Bereiten Sie eine Datei vor, die die Familien-ID in der ersten Spalte, die individuelle ID in der zweiten Spalte und die Gruppenbezeichnung (Rasse usw.) in der dritten Spalte enthält. (Sagen wir populations.txt
.)
#1 FamID
#2 Individual ID
#3 Group
Die Ausführungsumgebung ist Python3, und Pandas und Matplotlib sind installiert. Führen Sie dies aus, indem Sie die folgenden Optionen angeben.
-Datei für die Option
-e` an$ python plot_pca_gwas.py -e ${outfile_name}.eigenvec -p populations.txt -o ${output_directory}/
Das folgende Bild wird als Ausgabeergebnis des Skripts erhalten.
--pca.png
: Handlung der gesamten Bevölkerung
--pca_ {group} .png
: Plot für jede Gruppe
Eingabedateien sind example.eigenvec und [example_population.txt](https: / Wenn Sie das Skript mit /github.com/t-yui/bioinformatics_scripts/blob/master/gwas_tools/plinkPCA/plot_examples/example_data/example_population.txt ausführen, erhalten Sie das folgende Bild.
2-1) pca_GROUP1.png
2-2) pca_GROUP2.png
2-3) pca_GROUP3.png
Recommended Posts