[PYTHON] [GWAS] Zeichnen Sie die Ergebnisse der Hauptkomponentenanalyse (PCA) von PLINK auf

Über diesen Artikel

Vorbereitung der Eingabedatei

1. Vorbereitung der Lastdaten der Hauptkomponente

Datei Format

Bereiten Sie eine Datei vor, die die Familien-ID in der ersten Spalte, die persönliche ID in der zweiten Spalte und das Laden der Hauptkomponente in der dritten und den folgenden Spalten enthält. Dateien in einem solchen Format können durch Durchführen einer Hauptkomponentenanalyse mit PLINK erhalten werden.

#1 FamID
#2 Individual ID
#3 PC1
#4 PC2
...

Hauptkomponentenanalyse von PLINK

Die Analysesoftware für genetische Statistiken PLINK kann eine Hauptkomponentenanalyse durchführen. Die Hauptkomponentenanalyse ist eine Dimensionsreduktionsmethode, die auf der Eigenwertzerlegung einer Dispersionskovarianzmatrix oder einer Korrelationsmatrix basiert. Es wird zur Anpassung der Verschränkung verwendet.

$ plink --bfile ${bfile_name} --out ${outfile_name} --pca

Als Ergebnis der PCA-Ausgabe von PLINK werden "$ {outfile_name} .eigenvec" und "$ {outfile_name} .eigenval" erhalten. Verwenden Sie zur Veranschaulichung der Ergebnisse $ {outfile_name} .eigenvec (Laden jeder Hauptkomponente in jeder Person).

2. Vorbereitung der Gruppenetikettendaten

Datei Format

Bereiten Sie eine Datei vor, die die Familien-ID in der ersten Spalte, die individuelle ID in der zweiten Spalte und die Gruppenbezeichnung (Rasse usw.) in der dritten Spalte enthält. (Sagen wir populations.txt.)

#1 FamID
#2 Individual ID
#3 Group

So führen Sie das Skript aus

Die Ausführungsumgebung ist Python3, und Pandas und Matplotlib sind installiert. Führen Sie dies aus, indem Sie die folgenden Optionen angeben.

$ python plot_pca_gwas.py -e ${outfile_name}.eigenvec -p populations.txt -o ${output_directory}/

Überprüfen Sie das Ausgabeergebnis

Das folgende Bild wird als Ausgabeergebnis des Skripts erhalten. --pca.png: Handlung der gesamten Bevölkerung --pca_ {group} .png: Plot für jede Gruppe

Ausführungsbeispiel

Eingabedateien sind example.eigenvec und [example_population.txt](https: / Wenn Sie das Skript mit /github.com/t-yui/bioinformatics_scripts/blob/master/gwas_tools/plinkPCA/plot_examples/example_data/example_population.txt ausführen, erhalten Sie das folgende Bild.

  1. pca.png pca.png

2-1) pca_GROUP1.png pca_GROUP1.png

2-2) pca_GROUP2.png pca_GROUP2.png

2-3) pca_GROUP3.png pca_GROUP3.png

Recommended Posts

[GWAS] Zeichnen Sie die Ergebnisse der Hauptkomponentenanalyse (PCA) von PLINK auf
[GWAS] Zeichnen Sie die Ergebnisse der Hauptkomponentenanalyse (PCA) von PLINK auf
Zeichnen Sie die Ausbreitung des neuen Koronavirus
Hauptkomponentenanalyse (Hauptkomponentenanalyse: PCA)
[Python] Vergleich der Theorie und Implementierung der Hauptkomponentenanalyse durch Python (PCA, Kernel PCA, 2DPCA)
Mathematisches Verständnis der Hauptkomponentenanalyse von Anfang an
Visualisieren Sie die Korrelationsmatrix durch Hauptkomponentenanalyse mit Python
Dies und das der Hauptkomponentenanalyse
Erkennen Sie die Kontur und Richtung eines geformten Objekts mit OpenCV3 und Python3 (Hauptkomponentenanalyse: PCA, Eigenvektor)
[Statistik] Verstehen Sie den Mechanismus von Q-Q-Plots mit Animation.
Clustering und Hauptkomponentenanalyse nach der K-Means-Methode (Anfänger)
Hauptkomponentenanalyse Analysieren Sie handschriftliche Zahlen mit PCA. Teil 2
Hauptkomponentenanalyse (PCA) und unabhängige Komponentenanalyse (ICA) mit Python
Hauptkomponentenanalyse Analysieren Sie handschriftliche Zahlen mit PCA. Teil 1
Datenanalyse basierend auf den Wahlergebnissen der Gouverneurswahl von Tokio (2020)
Verwenden Sie die Clustering-Ergebnisse erneut
Lernen ohne Lehrer 3 Hauptkomponentenanalyse
Implementierung einer unabhängigen Komponentenanalyse
Als mir ein Diagramm wie die Hauptkomponentenanalyse gezeigt wurde, "unterscheiden sich die Verteilungen dieser beiden Daten nicht signifikant"?
[Python] PCA-Scratch im Beispiel "Einführung in die multivariate Analysemethode"
Einführung in die Python-Grundlagen des maschinellen Lernens (unbeaufsichtigtes Lernen / Hauptanalyse)
Sprachverarbeitung 100 knock-85 (abgeschnittene SVD): Dimensionskomprimierung durch Hauptkomponentenanalyse
Zeichnen Sie die Ausbreitung des neuen Koronavirus
Hauptkomponentenanalyse mit Spark ML
Darstellung der Regressionslinie durch Restdarstellung
Illustration der Ergebnisse des Rucksackproblems
Ich habe einen Korpusleser geschrieben, der die Ergebnisse der MeCab-Analyse liest
Versuchen Sie, die aggregierten Ergebnisse der beiden Datensätze per E-Mail mit pykintone zu senden