[Linux] J'ai essayé d'utiliser le logiciel de statistiques génétiques PLINK

introduction

Je pense que j'aurai besoin de la génétique statistique au travail, alors j'ai essayé d'utiliser le logiciel de statistiques génétiques PLINK. Récemment, un joli livre a été publié, alors je l'ai essayé.

Séminaire pratique à partir de zéro sur les statistiques génétiques

Cependant, comme ce livre est écrit pour Windows, j'ai pensé que je devrais écrire un mémorandum sur la façon de le faire sur Mac. Ce livre est bon.

Télécharger PLINK

Téléchargez la version MacOS de PLINK à partir de la page suivante.

PLINK

Lancez le terminal Mac. Sur le terminal, spécifiez le répertoire de travail avec la commande `` cd ''.

Spécifier un répertoire de travail


$ cd /Chemin du répertoire de travail/

Déplacez le ** PLINK ** (fichier exécutable PLINK) téléchargé dans votre répertoire de travail.

Démarrer PLINK

Sur le terminal, tapez . / Plink.

Démarrer PLINK


$ ./plink

Résultat d'exécution

PLINK v1.90b6.16 64-bit (19 Feb 2020)          www.cog-genomics.org/plink/1.9/
(C) 2005-2020 Shaun Purcell, Christopher Chang   GNU General Public License v3

  plink <input flag(s)...> [command flag(s)...] [other flag(s)...]
  plink --help [flag name(s)...]

Commands include --make-bed, --recode, --flip-scan, --merge-list,
--write-snplist, --list-duplicate-vars, --freqx, --missing, --test-mishap,
--hardy, --mendel, --ibc, --impute-sex, --indep-pairphase, --r2, --show-tags,
--blocks, --distance, --genome, --homozyg, --make-rel, --make-grm-gz,
--rel-cutoff, --cluster, --pca, --neighbour, --ibs-test, --regress-distance,
--model, --bd, --gxe, --logistic, --dosage, --lasso, --test-missing,
--make-perm-pheno, --tdt, --qfam, --annotate, --clump, --gene-report,
--meta-analysis, --epistasis, --fast-epistasis, and --score.

"plink --help | more" describes all functions (warning: long).

PLINK est exécuté avec `` ./plink-(command) (argument) ''.

Lire le fichier

Les commandes de lecture de fichier sont --file et --bfile. --file lit les données génotypiques au format ** ped | map . --bfileEstbed|bim|famLire les données de génotype de format. Données NGSvcfLe format est basique,ped|mapDonnées converties au format,ped|mapFormat converti en format binairebed|bim|fam**Utilisez le format.

--out spécifie le nom du fichier de sortie.

Ce fichier a été stocké dans le répertoire de travailSNP.bedSNP.bimSNP.famdebed|bim|famFormat. Par conséquent, l'argument de --bfile est SNP avant l'extension du fichier.

Lire le fichier


$ ./plink --bfile SNP --out test

Cela générera un fichier appelé ** test.log **. Ouvrez ce fichier avec un éditeur de texte ou la commande suivante.


$ less test.log

Calcul de la fréquence aller

Vous pouvez calculer la fréquence d'allergène de chaque SNP avec `` --freq ''.

Calculer la fréquence des allèles SNP


$ ./plink --bfile SNP --out test1 --freq

Ouvrez le fichier de sortie avec un éditeur de texte ou la commande suivante.


$ less test1.frq

Filtrage SNP

Avant l'analyse, les données génomiques sont filtrées pour exclure les SNP avec une fréquence d'allèle mineur (MAF) de 1% ou 0,5% ou moins. Manière dans GWAS. Excluez les SNP de MAF en dessous de la valeur numérique avec --maf (valeur numérique) ''. --make-bed``Nouvelles données filtrées avecbed|bim|famCréé en tant que fichier de format. Cette fois, les SNP de 1% ou moins sont exclus.

Filtrer le SNP par fréquence d'allergène mineur


$ ./plink --bfile SNP --out test2 --maf 0.01 --make-bed

Recommended Posts

[Linux] J'ai essayé d'utiliser le logiciel de statistiques génétiques PLINK
[Linux] GWAS avec logiciel de statistiques génétiques PLINK
[Linux] Analyse eQTL avec le logiciel de statistiques génétiques PLINK
J'ai essayé d'utiliser l'API checkio
J'ai essayé d'utiliser l'API BigQuery Storage
vprof - J'ai essayé d'utiliser le profileur pour Python
J'ai essayé d'utiliser PyCaret à la vitesse la plus rapide
J'ai essayé d'utiliser le module Datetime de Python
J'ai essayé d'utiliser le filtre d'image d'OpenCV
J'ai essayé d'utiliser la bibliothèque de programmation fonctionnelle toolz
J'ai essayé d'utiliser paramétré
J'ai essayé d'utiliser argparse
J'ai essayé d'utiliser la mimesis
J'ai essayé d'utiliser anytree
J'ai essayé d'utiliser aiomysql
J'ai essayé d'utiliser Summpy
J'ai essayé d'utiliser coturn
J'ai essayé d'utiliser Pipenv
J'ai essayé d'utiliser matplotlib
J'ai essayé d'utiliser "Anvil".
J'ai essayé d'utiliser Hubot
J'ai essayé d'utiliser ESPCN
J'ai essayé d'utiliser openpyxl
J'ai essayé d'utiliser Ipython
J'ai essayé d'utiliser PyCaret
J'ai essayé d'utiliser cron
J'ai essayé d'utiliser ngrok
J'ai essayé d'utiliser face_recognition
J'ai essayé d'utiliser Jupyter
J'ai essayé d'utiliser doctest
J'ai essayé d'utiliser du folium
J'ai essayé d'utiliser jinja2
J'ai essayé d'utiliser du folium
J'ai essayé d'utiliser la fenêtre de temps
J'ai essayé de regrouper les données ECG en utilisant la méthode K-Shape
J'ai essayé d'approcher la fonction sin en utilisant le chainer
J'ai essayé d'utiliser l'API de Sakenowa Data Project
J'ai essayé d'installer le noyau Linux sur virtualbox + vagrant
J'ai essayé d'identifier la langue en utilisant CNN + Melspectogram
J'ai essayé de compléter le graphe de connaissances en utilisant OpenKE
J'ai essayé de compresser l'image en utilisant l'apprentissage automatique
[J'ai essayé d'utiliser Pythonista 3] Introduction
J'ai essayé d'utiliser easydict (mémo).
J'ai essayé la reconnaissance faciale avec Face ++
J'ai essayé d'utiliser BigQuery ML
J'ai essayé d'utiliser Amazon Glacier
J'ai essayé la bibliothèque changefinder!
J'ai essayé d'utiliser git inspector
J'ai essayé de réintroduire Linux
J'ai essayé d'utiliser magenta / TensorFlow
J'ai essayé d'utiliser AWS Chalice
J'ai essayé d'utiliser l'émojinateur Slack
J'ai essayé d'utiliser la bibliothèque Python de Ruby avec PyCall
J'ai essayé de refactoriser le modèle CNN de TensorFlow en utilisant TF-Slim
J'ai essayé la reconnaissance faciale du problème du rire en utilisant Keras.