[Linux] GWAS mit genetischer Statistiksoftware PLINK

Einführung

Vor kurzem habe ich angefangen, PLINK, eine Software für genetische Statistiken, zu verwenden. Erfahren Sie anhand dieses Buches, wie Sie PLINK verwenden.

Seminar zur genetischen Statistik von Grund auf üben

Dieses Buch ist für Windows geschrieben, daher werde ich eine Erinnerung daran schreiben, wie es auf dem Mac gemacht wird. Dieses Mal wird PLINK für die genomweite Assoziationsanalyse (GWAS) verwendet.

Referenz

Die grundlegende Verwendung von PLINK wurde bereits veröffentlicht [Linux] Ich habe versucht, die genetische Statistiksoftware PLINK zu verwenden

Zu verwendende Daten

bed|bim|Fam-Format-Datei

Ausdrucksdatei

Diese Datei ist eine Fallkontrolldatendatei, der Fall ist 2 und die Kontrolle ist 1, und jeder sind eine Familien-ID und eine Proben-ID sowie die Familien-ID und die Proben-ID der Datei ** SNP.fam ** zugeordnet. Ist gebunden an.

Speichern Sie diese Dateien in Ihrem Arbeitsverzeichnis.

Starten Sie PLINK

Geben Sie das Arbeitsverzeichnis an.

Arbeitsverzeichnis angeben


$ cd /Arbeitsverzeichnispfad/

Verschieben Sie ** PLINK ** (ausführbare PLINK-Datei) in das Arbeitsverzeichnis und starten Sie es.

Starten Sie PLINK


$ ./plink

SNP-Filterung

--bfiledamit,SNPDatei (Bett|bim|fam形式)を読み込んdamit,--make-bedNeues Bett nach dem Filtern mit|bim|Erstellt als Datei im Familienformat. Geben Sie den Namen der Ausgabedatei mit --out in ** SNP_QC ** an.

Diesmal sind SNPs mit den folgenden Bedingungen ausgeschlossen. --maf 0.05: Die Häufigkeit kleinerer Allele beträgt 5% oder weniger (im Allgemeinen 1% oder 0,5% oder weniger bei normalem GWAS). --hwe 0.000001: * p * Wert ist 10 ^ -6 oder weniger im Hardy Weinberg Gleichgewichtstest --indep-pairwise 100 5 0.8: Der Wert des Kettenausgleichskoeffizienten r2 beträgt 0,8 oder mehr

Entfernung von SNP


$ ./plink --bfile SNP --out SNP_QC --maf 0.05 --hwe 0.000001 --indep-pairwise 100 5 0.8 --make-bed

Ausführungsergebnis


PLINK v1.90b6.16 64-bit (19 Feb 2020)          www.cog-genomics.org/plink/1.9/
(C) 2005-2020 Shaun Purcell, Christopher Chang   GNU General Public License v3
Logging to SNP_QC.log.
Options in effect:
  --bfile SNP
  --hwe 0.000001
  --indep-pairwise 100 5 0.8
  --maf 0.05
  --make-bed
  --out SNP_QC

16384 MB RAM detected; reserving 8192 MB for main workspace.
8830185 variants loaded from .bim file.
381 people (178 males, 203 females) loaded from .fam.
381 phenotype values loaded from .fam.
Using 1 thread (no multithreaded calculations invoked).
Before main variant filters, 381 founders and 0 nonfounders present.
Calculating allele frequencies... done.
--hwe: 14399 variants removed due to Hardy-Weinberg exact test.
2692226 variants removed due to minor allele threshold(s)
(--maf/--max-maf/--mac/--max-mac).
6123560 variants and 381 people pass filters and QC.
Among remaining phenotypes, 0 are cases and 381 are controls.
--make-bed to SNP_QC.bed + SNP_QC.bim + SNP_QC.fam ... done.
Pruned 366094 variants from chromosome 1, leaving 103214.
Pruned 403320 variants from chromosome 2, leaving 106161.
Pruned 339719 variants from chromosome 3, leaving 85861.
Pruned 353504 variants from chromosome 4, leaving 86916.
Pruned 310443 variants from chromosome 5, leaving 79003.
Pruned 322217 variants from chromosome 6, leaving 81854.
Pruned 285601 variants from chromosome 7, leaving 83237.
Pruned 264127 variants from chromosome 8, leaving 71155.
Pruned 208275 variants from chromosome 9, leaving 76275.
Pruned 245016 variants from chromosome 10, leaving 67270.
Pruned 241219 variants from chromosome 11, leaving 63223.
Pruned 226971 variants from chromosome 12, leaving 62436.
Pruned 177571 variants from chromosome 13, leaving 45339.
Pruned 154730 variants from chromosome 14, leaving 44160.
Pruned 134104 variants from chromosome 15, leaving 45299.
Pruned 142197 variants from chromosome 16, leaving 50213.
Pruned 124358 variants from chromosome 17, leaving 41954.
Pruned 134574 variants from chromosome 18, leaving 38435.
Pruned 105678 variants from chromosome 19, leaving 37131.
Pruned 102672 variants from chromosome 20, leaving 31013.
Pruned 68848 variants from chromosome 21, leaving 23361.
Pruned 63204 variants from chromosome 22, leaving 25608.
Pruning complete.  4774442 of 6123560 variants removed.
Marker lists written to SNP_QC.prune.in and SNP_QC.prune.out .

Überprüfen Sie, ob die folgenden Dateien im Arbeitsverzeichnis ausgegeben werden.

Genomweite Assoziationsanalyse (GWAS)

Führen Sie die GWAS-Analyse mit dem folgenden Befehl durch. --pheno: Geben Sie die für GWAS verwendete Ausdrucksdatei ein (diesmal phänotype1.txt). --logistic: Führen Sie eine logistische Regression durch --ci 0.95: 95% -Konfidenzintervall ausgeben

GWAS (Logistic Regression Analysis)


$ ./plink --bfile SNP_QC --out SNP_QC_Pheno1 --pheno phenotype1.txt --logistic --ci 0.95

Ergebnis der GWAS-Ausführung


PLINK v1.90b6.16 64-bit (19 Feb 2020)          www.cog-genomics.org/plink/1.9/
(C) 2005-2020 Shaun Purcell, Christopher Chang   GNU General Public License v3
Logging to SNP_QC_Pheno1.log.
Options in effect:
  --bfile SNP_QC
  --ci 0.95
  --logistic
  --out SNP_QC_Pheno1
  --pheno phenotype1.txt

16384 MB RAM detected; reserving 8192 MB for main workspace.
6123560 variants loaded from .bim file.
381 people (178 males, 203 females) loaded from .fam.
381 phenotype values present after --pheno.
Using 1 thread (no multithreaded calculations invoked).
Before main variant filters, 381 founders and 0 nonfounders present.
Calculating allele frequencies... done.
6123560 variants and 381 people pass filters and QC.
Among remaining phenotypes, 188 are cases and 193 are controls.
Writing logistic model association results to SNP_QC_Pheno1.assoc.logistic ...
done.

Stellen Sie sicher, dass die Datei mit dem Namen ** SNP_QC_Pheno1.assoc.logistic ** in das Arbeitsverzeichnis ausgegeben wird, und öffnen Sie sie mit einem Texteditor. Die erste Spalte ist die Chromosomenzahl, die zweite Spalte ist die SNP-ID, die dritte Spalte ist die Chromosomenposition und die zwölfte Spalte ist der * p * -Wert.

Extraktion von Elementen durch AWK

Verwenden Sie aus dem GWAS-Ergebnis den Befehl AWK, um die Spalten "Chromosomenzahl", "SNP-ID", "Chromosomenposition" und "* p * -Wert" zu extrahieren. Verwenden Sie den Befehl AWK, um die Eingabedatei auf ** SNP_QC_Pheno1.assoc.logistic ** und die Ausgabedatei auf ** SNP_QC_Pheno1.assoc.logistic.P.txt ** zu setzen. In AWK wird es durch '' getrennt und Befehle werden darin geschrieben und ausgeführt. Mit {print $ 2 "\ t" $ 1 "\ t" $ 3 "\ t" $ 12} Der Datenrahmen ist "2. Spalte [SNP ID] 1. Spalte [Chromosomenzahl] 3. Spalte [Chromosomenposition] 4. Spalte [* p * Wert]". Der Befehl "\ t" wird durch Tabulatoren getrennt. Ausgabe als Textdatei, angegeben durch > .

Extrahieren Sie Elemente aus GWAS-Ergebnissen mit dem AWK-Befehl und der Ausgabetextdatei


$ awk '{print $2"\t"$1"\t"$3"\t"$12}' SNP_QC_Pheno1.assoc.logistic > SNP_QC_Pheno1.assoc.logistic.P.txt

Die Ausgabedatei kann auch eine CSV-Datei sein.

Extrahieren Sie Elemente aus GWAS-Ergebnissen mit dem AWK-Befehl und geben Sie die CSV-Datei aus


$ awk '{print $2"\t"$1"\t"$3"\t"$12}' SNP_QC_Pheno1.assoc.logistic > SNP_QC_Pheno1.assoc.logistic.P.csv

Zeichnen Sie mit diesem GWAS-Ergebnis ein Manhattan-Diagramm. Die Art und Weise, die Handlung in Manhattan zu schreiben, wurde bereits veröffentlicht, daher werde ich sie diesmal weglassen.

Referenz

Wie man einen Manhattan-Plot in R schreibt, wurde bereits zuvor veröffentlicht [R] Ich habe einen Manhattan-Plot mit GWAS-Ergebnissen gezeichnet [R] Ich habe einen Manhattan-Plot mit GWAS-Ergebnissen 2 gezeichnet

Recommended Posts

[Linux] GWAS mit genetischer Statistiksoftware PLINK
[Linux] eQTL-Analyse mit der genetischen Statistiksoftware PLINK
[Linux] Ich habe versucht, die genetische Statistiksoftware PLINK zu verwenden
Statistik mit Python
Linux (Lubuntu) mit OneMix3S