[Linux] GWAS avec logiciel de statistiques génétiques PLINK

introduction

Récemment, j'ai commencé à utiliser PLINK, un logiciel de statistiques génétiques. Apprenez à utiliser PLINK en vous référant à ce livre.

Séminaire pratique à partir de zéro sur les statistiques génétiques

Ce livre est écrit pour Windows, j'écrirai donc un rappel sur la façon de le faire sur Mac. Cette fois, PLINK sera utilisé pour l'analyse d'association à l'échelle du génome (GWAS).

référence

L'utilisation de base de PLINK a déjà été publiée [Linux] J'ai essayé d'utiliser le logiciel de statistiques génétiques PLINK

Données à utiliser

bed|bim|fichier au format fam

Fichier d'expression

Ce fichier est un fichier de données de contrôle de cas, le cas est 2 et le contrôle est 1, et un ID de famille et un ID d'échantillon sont attribués à chacun, ainsi que l'ID de famille et l'ID d'échantillon du fichier ** SNP.fam **. Est lié à.

Stockez ces fichiers dans votre répertoire de travail.

Lancer PLINK

Spécifiez le répertoire de travail,

Spécifier un répertoire de travail


$ cd /Chemin du répertoire de travail/

Déplacez ** PLINK ** (fichier exécutable PLINK) dans le répertoire de travail et démarrez-le.

Démarrer PLINK


$ ./plink

Filtrage SNP

--bfilealors,SNPFichier (lit|bim|fam形式)を読み込んalors,--make-bedNouveau lit après filtrage avec|bim|Créé en tant que fichier au format fam. Spécifiez le nom du fichier de sortie avec --out dans ** SNP_QC **.

Cette fois, les SNP avec les conditions suivantes sont exclus. --maf 0,05 '': la fréquence des allèles mineurs est de 5% ou moins (généralement 1% ou 0,5% ou moins dans un GWAS normal) --hwe 0,000001 '': la valeur * p * est de 10 ^ -6 ou moins dans le test d'équilibre de Hardy Weinberg `` --indep-pairwise 100 5 0,8 '': la valeur du coefficient d'équilibrage de la chaîne r2 est de 0,8 ou plus

Suppression de SNP


$ ./plink --bfile SNP --out SNP_QC --maf 0.05 --hwe 0.000001 --indep-pairwise 100 5 0.8 --make-bed

Résultat d'exécution


PLINK v1.90b6.16 64-bit (19 Feb 2020)          www.cog-genomics.org/plink/1.9/
(C) 2005-2020 Shaun Purcell, Christopher Chang   GNU General Public License v3
Logging to SNP_QC.log.
Options in effect:
  --bfile SNP
  --hwe 0.000001
  --indep-pairwise 100 5 0.8
  --maf 0.05
  --make-bed
  --out SNP_QC

16384 MB RAM detected; reserving 8192 MB for main workspace.
8830185 variants loaded from .bim file.
381 people (178 males, 203 females) loaded from .fam.
381 phenotype values loaded from .fam.
Using 1 thread (no multithreaded calculations invoked).
Before main variant filters, 381 founders and 0 nonfounders present.
Calculating allele frequencies... done.
--hwe: 14399 variants removed due to Hardy-Weinberg exact test.
2692226 variants removed due to minor allele threshold(s)
(--maf/--max-maf/--mac/--max-mac).
6123560 variants and 381 people pass filters and QC.
Among remaining phenotypes, 0 are cases and 381 are controls.
--make-bed to SNP_QC.bed + SNP_QC.bim + SNP_QC.fam ... done.
Pruned 366094 variants from chromosome 1, leaving 103214.
Pruned 403320 variants from chromosome 2, leaving 106161.
Pruned 339719 variants from chromosome 3, leaving 85861.
Pruned 353504 variants from chromosome 4, leaving 86916.
Pruned 310443 variants from chromosome 5, leaving 79003.
Pruned 322217 variants from chromosome 6, leaving 81854.
Pruned 285601 variants from chromosome 7, leaving 83237.
Pruned 264127 variants from chromosome 8, leaving 71155.
Pruned 208275 variants from chromosome 9, leaving 76275.
Pruned 245016 variants from chromosome 10, leaving 67270.
Pruned 241219 variants from chromosome 11, leaving 63223.
Pruned 226971 variants from chromosome 12, leaving 62436.
Pruned 177571 variants from chromosome 13, leaving 45339.
Pruned 154730 variants from chromosome 14, leaving 44160.
Pruned 134104 variants from chromosome 15, leaving 45299.
Pruned 142197 variants from chromosome 16, leaving 50213.
Pruned 124358 variants from chromosome 17, leaving 41954.
Pruned 134574 variants from chromosome 18, leaving 38435.
Pruned 105678 variants from chromosome 19, leaving 37131.
Pruned 102672 variants from chromosome 20, leaving 31013.
Pruned 68848 variants from chromosome 21, leaving 23361.
Pruned 63204 variants from chromosome 22, leaving 25608.
Pruning complete.  4774442 of 6123560 variants removed.
Marker lists written to SNP_QC.prune.in and SNP_QC.prune.out .

Vérifiez que les fichiers suivants sont sortis dans le répertoire de travail.

Analyse d'association à l'échelle du génome (GWAS)

Effectuez l'analyse GWAS à l'aide de la commande suivante. --pheno: Entrez le fichier d'expression utilisé pour GWAS (phenotype1.txt cette fois) --logistic: effectuer une régression logistique `` --ci 0.95 '': sortie intervalle de confiance à 95%

GWAS (analyse de régression logistique)


$ ./plink --bfile SNP_QC --out SNP_QC_Pheno1 --pheno phenotype1.txt --logistic --ci 0.95

Résultat d'exécution GWAS


PLINK v1.90b6.16 64-bit (19 Feb 2020)          www.cog-genomics.org/plink/1.9/
(C) 2005-2020 Shaun Purcell, Christopher Chang   GNU General Public License v3
Logging to SNP_QC_Pheno1.log.
Options in effect:
  --bfile SNP_QC
  --ci 0.95
  --logistic
  --out SNP_QC_Pheno1
  --pheno phenotype1.txt

16384 MB RAM detected; reserving 8192 MB for main workspace.
6123560 variants loaded from .bim file.
381 people (178 males, 203 females) loaded from .fam.
381 phenotype values present after --pheno.
Using 1 thread (no multithreaded calculations invoked).
Before main variant filters, 381 founders and 0 nonfounders present.
Calculating allele frequencies... done.
6123560 variants and 381 people pass filters and QC.
Among remaining phenotypes, 188 are cases and 193 are controls.
Writing logistic model association results to SNP_QC_Pheno1.assoc.logistic ...
done.

Confirmez que le fichier nommé ** SNP_QC_Pheno1.assoc.logistic ** est sorti dans le répertoire de travail et ouvrez-le avec un éditeur de texte. La première colonne est le numéro du chromosome, la deuxième colonne est l'ID SNP, la troisième colonne est la position du chromosome et la douzième colonne est la valeur * p *.

Extraction d'éléments par AWK

À partir du résultat GWAS, utilisez la commande AWK pour extraire les colonnes «numéro de chromosome», «ID SNP», «position du chromosome» et «valeur * p *». Utilisez la commande AWK pour définir le fichier d'entrée en tant que ** SNP_QC_Pheno1.assoc.logistic ** et le fichier de sortie en tant que fichier texte ** SNP_QC_Pheno1.assoc.logistic.P.txt *. Dans AWK, séparez-les par «» et écrivez-y des commandes pour les exécuter. Par {print $ 2 "\ t" $ 1 "\ t" $ 3 "\ t" $ 12} La trame de données est "2ème colonne [ID SNP] 1ère colonne [numéro de chromosome] 3ème colonne [position du chromosome] 4ème colonne [ p * valeur]". La commande que "\ t" est séparée par des tabulations. Sortie sous forme de fichier texte spécifié par ``> ''.

Extraire des éléments des résultats GWAS avec la commande AWK et le fichier texte de sortie


$ awk '{print $2"\t"$1"\t"$3"\t"$12}' SNP_QC_Pheno1.assoc.logistic > SNP_QC_Pheno1.assoc.logistic.P.txt

Le fichier de sortie peut également être un fichier CSV.

Extraire des éléments des résultats GWAS avec la commande AWK et générer un fichier CSV


$ awk '{print $2"\t"$1"\t"$3"\t"$12}' SNP_QC_Pheno1.assoc.logistic > SNP_QC_Pheno1.assoc.logistic.P.csv

Dessinez un graphique de Manhattan en utilisant ce résultat GWAS. La façon d'écrire l'intrigue de Manhattan a déjà été publiée, je vais donc l'omettre cette fois.

référence

Comment écrire un tracé de Manhattan en R a également été publié auparavant [R] J'ai dessiné un tracé de Manhattan avec des résultats GWAS [R] J'ai dessiné un tracé de Manhattan avec les résultats GWAS 2

Recommended Posts

[Linux] GWAS avec logiciel de statistiques génétiques PLINK
[Linux] Analyse eQTL avec le logiciel de statistiques génétiques PLINK
[Linux] J'ai essayé d'utiliser le logiciel de statistiques génétiques PLINK
Statistiques avec python
Linux (Lubuntu) avec OneMix3S