[PYTHON] Orthologe Analyse mit OrthoFinder

(2017/2/22, CentOS x86_64)

Einführung

OrthoFinder wurde verwendet, um eine orthologe Analyse basierend auf den genomischen Informationen mehrerer Arten durchzuführen. OrthoFinder verwendet MCL (Markov-Cluster-Algorithmus), um das Ortholog zu schätzen. Dem Artikel zufolge ist OrthoFinder bei Benchmark-Tests mit OrthoBench schneller als andere Methoden (wie OrthoMCL), und es ist auch eine hervorragende Methode, die durch ihre eigene Standardisierung für die orthologische Klassifizierung verfeinert wurde. Ich werde.

Referenz

http://www.stevekellylab.com/software/orthofinder https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4531804/

Die Idee von OrthoFinder

Orthologen werden heutzutage von Menschen in verschiedenen Definitionen verstanden, aber in OrthoFinder,

Was Sie mit OrthoFinder tun können

  1. Schätzung der OrthoGroup (OG)
  2. Schätzung des orthologen Gensatzes von 1 Spezies x 1 Spezies
  3. Erstellen eines phylogenetischen Baums
  4. Auswahl von Einzelkopie-Genen

Die oben genannten vier Dinge werden automatisch ausgeführt. In Bezug auf 3 wird ein phylogenetischer Baum für jede Art und ein phylogenetischer Baum für jede OG erstellt. Wenn Sie einen phylogenetischen Baum einer Art nur mit Einzelkopie-Genen erstellen möchten, müssen Sie dies auf andere Weise selbst tun.

Installation

OrthoFinder hängt von Python2.7 ab. Wenn Sie also Python3.x verwenden, erstellen Sie bitte eine virtuelle Umgebung mit Pyenv, Anaconda usw. (Referenz items / 5b62d31cb7e6ed50f02c)). Zur Installation müssen Sie zusätzlich zu OrthoFinder selbst * BLAST + *, * MCL *, * FastMe *, * DLCpar * installieren.

  1. OrthoFinder
  1. Git-Klon, um das Paket herunterzuladen und zu entpacken.
$git clone https://github.com/davidemms/OrthoFinder.git
$tar xzj OrthoFinder-1.1.2.tar.gz
  1. Legen Sie Ihren PFAD im orthofinder-Verzeichnis ab.
  1. MCL, FastMe Es sind keine besonderen Punkte zu beachten. Diejenigen, die über Root-Berechtigungen verfügen, können problemlos mit "sudo" usw. erstellen, und diejenigen, die keine Root-Berechtigung haben, können problemlos erstellen, indem sie auf jede Website gehen und diese herunterladen. Informationen zur Installation finden Sie im OrthoFinder-Handbuch.

  2. DLCper Sie müssen ein wenig vorsichtig sein. Es kann auf die gleiche Weise wie 2. installiert werden, aber wenn Sie mit setup.py erstellen, muss es in dem Verzeichnis erfolgen, das * bin * enthält, das Python enthält (Sie können überprüfen, mit welchem Python). Einfach "cp" in das entsprechende Verzeichnis und führen Sie "setup.py" aus oder verwenden Sie die Option "--prefix", um das zu erstellende Verzeichnis anzugeben. Wenn Sie dies nicht tun, befindet sich das Python-Modul dlcpar nicht in Python und OrthoFinder funktioniert nicht.

Wie benutzt man

Vorbereitung

  1. Bereiten Sie mehrere Fasta-Dateien (.fa, .faa) vor, die Sie analysieren möchten
  2. Kombinieren Sie alle Fasta-Dateien in einem Verzeichnis

Geben Sie das Verzeichnis an, das die Fasta-Datei enthält, die Sie analysieren möchten. Wenn Sie das OrthoFinder-Paket entpacken, finden Sie das Verzeichnis "ExampleData" mit der Fasta-Datei direkt darunter. Es ist daher besser, einen Testlauf damit durchzuführen.

$python orthofinder.py -f your_fasta_dir -t 5 # -Geben Sie die Datei mit der Option f an, -Geben Sie die Anzahl der Threads an, die mit der Option t verwendet werden können.

Zu diesem Zeitpunkt können Sie mit dem OrthoFinder-Algorithmus auch parallele Jobs mit der Option -a angeben. Es ist notwendig, den Speicher zu berücksichtigen und so einzustellen, dass er nicht wie folgt abstürzt.

  • 0.02 GB per species for small genomes (e.g. bacteria)

Wenn die Analyse abgeschlossen ist, wird das Verzeichnis "Results_Date" direkt unter "your_fasta_dir" erstellt.

Überprüfen Sie das Ergebnis

Die folgenden Dateien werden in diesem Verzeichnis generiert.

  1. Orthogroups.csv
  1. Orthogroups.txt
  2. Orthogroups_SpeciesOverlaps.csv
  3. Orthogroups_UnassignedGenes.csv
  4. Orthologues_Date (Verzeichnis) → Direkt unter dem Tree-Verzeichnis, Orthologue-Verzeichnis
  5. Statistics_Overall.csv
  6. Statistics_PerSpecies.csv

Orthogroups.csv-Datei

Die geschätzte Orthogruppe ist in 1. wie folgt enthalten. Die Spezies wird durch Tabulatoren und die Gene durch Kommas getrennt. 2. ist die Formatversion von Ortho MCL.

OG Specie1 Specie2 Specie3
OG000001 gene_s1_1, gene_s1_3 gene_s2_1, gene_s2_2 gene_s3_2
OG000002 gene_s1_2, gene_s1_4 gene_s2_3 gene_s3_1, gene_s3_3

Statistikdatei

6.Statistics_Overall.csv enthält 1) Gesamtzahl der verwendeten Gene 2) geschätzte Gesamtzahl der OGs 3) Prozentsatz der als OG klassifizierten Gene Enthält Informationen wie. 7.Statistics_PerSpecies.csv enthält die oben genannten Daten für jede Art.

Baumverzeichnis, Ortholog-Verzeichnis

Eine Baumdatei des phylogenetischen Baums für jedes OG wird im Baumverzeichnis erstellt, und der phylogenetische Baum der Art befindet sich im Verzeichnis direkt darüber. Im Ortholog-Verzeichnis wird für jede verwendete Art eine Tabelle mit Ortholog-Genen von 1 Art x 1 Art erstellt.

nützliche Funktion

1. Fügen Sie nach Abschluss der Analyse eine neue Art hinzu und analysieren Sie sie erneut.

Zum Glück verfügt OrthoFinder über zusätzliche Funktionen. Wie man es benutzt

  1. Erstellen Sie ein neues Verzeichnis und legen Sie die Fasta-Datei ab, die Sie hinzufügen möchten
  2. Analysieren Sie das Arbeitsverzeichnis direkt unter dem Verzeichnis "Result_Date" der Originaldaten, die Sie hinzufügen möchten, indem Sie es wie folgt angeben. Geben Sie für dieses WorkingDirectory das an, das SpecieID.txt enthält.
$python orthofinder -b previous_working_dir -f new_fasta_dir

2. Arten ausschließen und nach Abschluss der Analyse erneut analysieren

Sie können es freundlicherweise ausschließen.

  1. Öffnen Sie "SpecieID.txt" in "WorkingDirectory" direkt unter "Ergebnis" der Originaldaten mit einem Editor.
  2. Fügen Sie der Art, die Sie ausschließen und auskommentieren möchten, "#" hinzu
  3. Analysieren Sie wie folgt
$python orthofinder -b previous_working_dir

3. Gleichzeitig hinzufügen und ausschließen

Natürlich können Sie gleichzeitig hinzufügen und ausschließen. Bereiten Sie das Fasta vor, das Sie hinzufügen möchten, bearbeiten Sie "SpecieID.txt" und führen Sie es mit demselben Befehl aus wie beim Hinzufügen eines neuen Fasta oben.

4. Andere

Es ist auch möglich, nur Schritte wie BLAST unabhängig voneinander zu verschieben. Sie können auch einen phylogenetischen Baum mit "MAFFT" und "FastTree" erstellen. Weitere Informationen finden Sie im OrthoFinder-Handbuch.

Recommended Posts

Orthologe Analyse mit OrthoFinder
Datenanalyse mit xarray
Japanische morphologische Analyse mit Janome
Datenanalyse mit Python-Pandas
Vorsichtsmaßnahmen bei der Verwendung der TextBlob-Merkmalsanalyse
Gesichtserkennung mit Hauptkomponentenanalyse
Japanische Analyseverarbeitung mit Janome Teil1
Empfehlung zur Datenanalyse mit MessagePack
Binarisierung von Bildern mittels linearer Diskriminanzanalyse
Empfehlungs-Tutorial mit Assoziationsanalyse (Konzept)
Empfehlungs-Tutorial mit Assoziationsanalyse (Python-Implementierung)
Versuchen Sie die Clusteranalyse mit K-Mitteln
[Maschinelles Lernen] Regressionsanalyse mit Scicit Learn