[PYTHON] Analyse orthologue à l'aide d'OrthoFinder

(2017/2/22, CentOS x86_64)

introduction

OrthoFinder a été utilisé pour effectuer une analyse orthologue basée sur les informations génomiques de plusieurs espèces. OrthoFinder utilise MCL (algorithme de cluster de markov) pour estimer l'orthologue. Selon l'article, OrthoFinder est plus rapide que d'autres méthodes (telles que OrthoMCL) dans les tests de référence utilisant OrthoBench, et c'est également une excellente méthode qui a été affinée par sa propre standardisation pour la classification orthologue. Je vais.

référence

http://www.stevekellylab.com/software/orthofinder https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4531804/

L'idée d'OrthoFinder

Les orthologues sont aujourd'hui compris par les gens dans diverses définitions, mais dans OrthoFinder,

Ce que vous pouvez faire avec OrthoFinder

  1. Estimation OrthoGroup (OG)
  2. Estimation de l'ensemble de gènes orthologues de 1 espèce x 1 espèce
  3. Création d'un arbre phylogénétique
  4. Sélection de gènes à copie unique

Il fera les quatre choses ci-dessus automatiquement. Concernant 3, il créera un arbre phylogénétique pour chaque espèce et un arbre phylogénétique pour chaque OG. Si vous souhaitez créer un arbre phylogénétique d'une espèce en utilisant uniquement des gènes à copie unique, vous devrez le faire vous-même d'une manière différente.

Installation

OrthoFinder dépend de Python2.7, donc si vous utilisez Python3.x, veuillez créer un environnement virtuel avec pyenv, anaconda, etc. (Reference items / 5b62d31cb7e6ed50f02c)). Pour installer, vous devez installer * BLAST + *, * MCL *, * FastMe *, * DLCpar * en plus d'OrthoFinder lui-même.

  1. OrthoFinder
  1. git clone pour télécharger le package et le décompresser.
$git clone https://github.com/davidemms/OrthoFinder.git
$tar xzj OrthoFinder-1.1.2.tar.gz
  1. Mettez votre PATH dans le répertoire orthofinder.
  1. MCL, FastMe Il n'y a pas de points particuliers à noter. Ceux qui ont l'autorité root peuvent facilement construire avec sudo etc., et ceux qui n'ont pas l'autorité root peuvent facilement construire en allant sur chaque site Web et en téléchargeant. Veuillez vous référer au Manuel OrthoFinder pour l'installer.

  2. DLCper Vous devez être un peu prudent. Il peut être installé de la même manière que 2., mais lors de la construction avec setup.py, il doit être fait dans le répertoire contenant * bin * contenant python (vous pouvez vérifier avec quel python). Simplement cp dans le répertoire approprié et exécutez setup.py, ou utilisez l'option --prefix pour spécifier le répertoire à construire. Si vous ne le faites pas, le module Python dlcpar ne sera pas en Python et OrthoFinder ne fonctionnera pas.

Comment utiliser

Préparation

  1. Préparez plusieurs fichiers Fasta (.fa, .faa) que vous souhaitez analyser
  2. Combinez tous les fichiers Fasta dans un seul répertoire

Spécifiez le répertoire contenant le fichier Fasta que vous souhaitez analyser. Si vous décompressez le paquet OrthoFinder, vous trouverez le répertoire ʻExampleData` contenant le fichier Fasta directement en dessous, il est donc préférable de faire un test avec lui.

$python orthofinder.py -f your_fasta_dir -t 5 # -Spécifiez le fichier avec l'option f, -Spécifiez le nombre de threads pouvant être utilisés avec l'option t.

À ce stade, vous pouvez également spécifier des travaux parallèles avec l'algorithme OrthoFinder avec l'option -a. Il est nécessaire de considérer la mémoire et de la définir de manière à ce qu'elle ne plante pas comme suit.

  • 0.02 GB per species for small genomes (e.g. bacteria)

Lorsque l'analyse est terminée, le répertoire Results_Date sera créé directement sous your_fasta_dir.

Vérifiez le résultat

Les fichiers suivants sont générés dans ce répertoire.

  1. Orthogroups.csv
  1. Orthogroups.txt
  2. Orthogroups_SpeciesOverlaps.csv
  3. Orthogroups_UnassignedGenes.csv
  4. Orthologues_Date (répertoire) → Directement sous le Répertoire de l'arborescence, ʻOrthologue directory`
  5. Statistics_Overall.csv
  6. Statistics_PerSpecies.csv

Fichier Orthogroups.csv

L'orthogroupe estimé est inclus dans 1. comme suit. L'espèce est séparée par Tab et les gènes sont séparés par des virgules. 2. est la version au format d'Ortho MCL.

OG Specie1 Specie2 Specie3
OG000001 gene_s1_1, gene_s1_3 gene_s2_1, gene_s2_2 gene_s3_2
OG000002 gene_s1_2, gene_s1_4 gene_s2_3 gene_s3_1, gene_s3_3

Fichier statistique

6.Statistics_Overall.csv contient 1) le nombre total de gènes utilisés 2) le nombre total estimé d'OG 3) le pourcentage de gènes classés comme OG Contient des informations telles que. 7.Statistics_PerSpecies.csv a les données ci-dessus pour chaque espèce.

Répertoire arborescent, répertoire Orthologue

Un fichier arborescent de l'arbre phylogénétique pour chaque OG est créé dans le répertoire Tree, et l'arbre phylogénétique de l'espèce est contenu dans le répertoire directement au-dessus. Dans le répertoire Orthologue, un tableau des gènes orthologues de 1 espèce x 1 espèce est créé pour chaque espèce utilisée.

fonction utile

1. Une fois l'analyse terminée, ajoutez une nouvelle espèce et procédez à une nouvelle analyse.

Heureusement, OrthoFinder a des fonctionnalités supplémentaires. Quant à savoir comment utiliser

  1. Créez un nouveau répertoire et mettez le fichier Fasta que vous souhaitez ajouter
  2. Analysez le Répertoire de travail directement sous le répertoire Result_Date des données d'origine que vous souhaitez ajouter en le spécifiant comme suit. Pour ce WorkingDirectory, spécifiez celui qui contient SpecieID.txt.
$python orthofinder -b previous_working_dir -f new_fasta_dir

2. Exclure les espèces et réanalyser une fois l'analyse terminée

Vous pouvez bien vouloir l'exclure.

  1. Ouvrez SpecieID.txt dans WorkingDirectory directement sous Result des données originales avec un éditeur.
  2. Ajoutez # à l'espèce que vous souhaitez exclure et commentez
  3. Analysez comme suit
$python orthofinder -b previous_working_dir

3. Ajouter et exclure en même temps

Bien sûr, vous pouvez ajouter et exclure en même temps. Préparez le Fasta que vous souhaitez ajouter, modifiez SpecieID.txt et exécutez-le avec la même commande que lors de l'ajout d'un nouveau Fasta ci-dessus.

4. Autre

Il est également possible de déplacer uniquement des étapes telles que BLAST indépendamment. Vous pouvez également créer un arbre phylogénétique en utilisant «MAFFT» et «FastTree». Pour plus de détails, reportez-vous au Manuel OrthoFinder.

Recommended Posts

Analyse orthologue à l'aide d'OrthoFinder
Analyse des données à l'aide de xarray
Analyse morphologique japonaise avec Janome
Analyse de données à l'aide de pandas python
Précautions lors de l'utilisation de l'analyse des traits TextBlob
Reconnaissance faciale à l'aide de l'analyse des composants principaux
Traitement de l'analyse japonaise à l'aide de Janome part1
Recommandation d'analyse des données à l'aide de MessagePack
Binarisation d'images par analyse discriminante linéaire
Tutoriel de recommandation utilisant l'analyse d'association (concept)
Tutoriel de recommandation utilisant l'analyse d'association (implémentation python)
Essayez l'analyse de cluster par K-means
[Apprentissage automatique] Analyse de régression à l'aide de scicit learn