Biopython Tutorial und Kochbuch Japanische Übersetzung (Kapitel 1, 2)

Ich wollte Biopython als Bio-Infomatiker einsetzen können. Das ist alles. Ich musste nicht so viel übersetzen. .. Ich werde auf dem Weg müde und überspringe.

Japanische Übersetzung von Biopython Tutorial und Kochbuch

Referenz Biopython Tutorial and Cookbook Biopython web site Chapter 1 Introduction

1.1 What is Biopython? Biopython ist ein kostenloses und verfügbares Python-Tool für die rechnergestützte Molekularbiologie. Python ist eine objektorientierte, interpretierte Sprache, die in der Computerwissenschaft immer häufiger wird. Eine in C, C ++ und FORTRAN geschriebene Sprache, die leicht zu erlernen ist und eine sehr klare Syntax und Modulerweiterbarkeit aufweist. Der Zweck von BioPython besteht darin, Python im Bereich der Bioinformatik so einfach wie möglich zu gestalten, indem hochwertige, wiederverwendbare Module und Klassen erstellt werden. Biopython verfügt über verschiedene Bioinformatik-Dateiformate (BLAST und Clustalw. / clustalw), FASTA, Genbank, Online-Dienste Zugriff auf (NCBI, ExPASy usw.), allgemeine und ungewöhnliche Programme ( Clustalw, [DSSP](https://ja.wikipedia.org/wiki/DSSP_%E6%B0%B4%E7%B4%A0 % E7% B5% 90% E5% 90% 88% E6% 8E% A8% E5% AE% 9A% E3% 82% A2% E3% 83% AB% E3% 82% B4% E3% 83% AA% E3 % 82% BA% E3% 83% A0), MS / MS usw.), Standard-Array-Klasse, KD-Baum % A8) Enthält Module für das Clustering wie Datenstruktur und Dokumentformat.

1.2 What can I find in the Biopython package Die Hauptmerkmale von BioPython sind wie folgt.

Sie können bioinformatikbezogene Dateien einschließlich der folgenden Formate in einer Datenstruktur analysieren, die in Python einfach zu handhaben ist.
- Blast output – both from standalone and WWW
- Blast
- Clustalw
- FASTA
- GenBank
- PubMed and Medline
- ExPASy files, like Enzyme and Prosite
- SCOP, including ‘dom’ and ‘lin’ files
- UniGene
- SwissProt
Auf Dateien in unterstützten Formaten kann über Wörterbuchtypen durch Kursivschrift oder Indizierung zugegriffen werden. ――Wir können verschiedene Onlinedienste abwickeln.
- NCBI – Blast, Entrez and PubMed services
- ExPASy – Swiss-Prot and Prosite entries, as well as Prosite searches
Hat eine Schnittstelle zu gängigen Bioinformatik-Tools.
- Standalone Blast from NCBI
- Clustalw alignment program
- EMBOSS command line tools
Eine Standardklasse für die Arbeit mit Arrays, Array-IDs und Array-Metadaten ist verfügbar.
Sie können allgemeine Aufgaben für Sequenzen wie Transkription, Translation und Molekulargewichtsberechnung ausführen. --k Sie können Clustering mit der Nachbarschaftsmethode, einfachen Feldern und Support-Vektor-Maschinen durchführen.
Sie können eine Substitutionssequenz erstellen und mit einem Array arbeiten, das Standardmethoden für die Arbeit damit enthält.
Sie können Aufgaben, die parallelisiert werden können, problemlos parallelisieren.
Beinhaltet GUI-basierte Programme für Sequenzmanipulation, Übersetzung, BLAST-Ausführung usw.
Zusätzlich zu diesem Tutorial finden Sie eine Vielzahl von Dokumentationen und Hilfeseiten zur Verwendung von Modulen wie Wiki, Websites und Mailis. ..
Die Integration mit dem Sequenzdatenbankschema (BioSQL), das auch von BioPerl- und BioJava-Projekten unterstützt wird, ist möglich.

1.3 Installing Biopython

download: http://biopython.org/wiki/Download

Unterstützte Betriebssysteme: Windows, Mac, Linux

$ python setup.py build
$ python setup.py test
$ sudo python setup.py install

Detaillierte Installationsanweisungen, einschließlich der Installation von Python- und Biopython-Abhängigkeiten, finden Sie unten.

PDF
HTML

1.4 Frequently Asked Questions (FAQ) ** 1. Was ist die Referenz? ** ** **

application note [1, Cock et al., 2009] For the official project announcement: [13, Chapman and Chang, 2000]; For Bio.PDB: [18, Hamelryck and Manderick, 2003]; For Bio.Cluster: [14, De Hoon et al., 2004]; For Bio.Graphics.GenomeDiagram: [2, Pritchard et al., 2006]; For Bio.Phylo and Bio.Phylo.PAML: [9, Talevich et al., 2012]; For the FASTQ file format as supported in Biopython, BioPerl, BioRuby, BioJava, and EMBOSS: [7, Cock et al., 2010]

2. “Biopython”？ “BioPython”？ Der korrekte Name lautet "Biopython". Nicht "BioPython"

Unten weggelassen.

Chapter 2 Quick Start – What can you do with Biopython? Dieser Abschnitt soll Ihnen einen Überblick darüber geben, was Sie tun und wie Sie ihn verwenden können, damit Sie schnell mit BioPython beginnen können. Alle Beispiele in diesem Abschnitt setzen voraus, dass Sie über Grundkenntnisse in Python verfügen und Biopython installiert haben. Wenn Sie Ihre Python-Kenntnisse auffrischen müssen, stellen wir Ihnen eine große Menge kostenloser Dokumentation zur Verfügung, damit Sie mit der offiziellen Python-Dokumentation (http://www.python.org/doc/) beginnen können.

Einige Aufgaben erfordern den Zugriff auf die Datenbank und möglicherweise eine Internetumgebung.

2.1 General overview of what Biopython provides Wie in der Einleitung erwähnt, handelt es sich bei BioPython um eine Reihe von Bibliotheken, mit denen Biologen, die vor einem Computer arbeiten, mit "Objekten" von Interesse arbeiten können. Benutzer sollten ein wenig Programmiererfahrung haben (natürlich Python) oder sich für Lernprogramme interessieren. Biopython analysiert kein bestimmtes Dateiformat, sondern stellt eine wiederverwendbare Bibliothek bereit, mit der Sie sich auf das betreffende Problem konzentrieren können (natürlich indem Sie einen nicht vorhandenen Parser schreiben und zu Biopython beitragen). Wenn Sie helfen möchten, bitte!), Ziel ist es, Ihnen die Arbeit als Programmierer zu erleichtern.

Eine Sache, die Sie bei Biopython beachten sollten, ist, dass es oft mehrere Möglichkeiten bietet, "dasselbe zu tun". Für mich kann das frustrierend sein. Dies kann jedoch auch in der Praxis von Vorteil sein, da es über die Bibliothek hinaus viel Flexibilität und Benutzerfreundlichkeit bietet. Dieses Tutorial zeigt Ihnen den allgemeinen oder einfachen Weg. Wenn Sie andere Möglichkeiten kennenlernen möchten, Kochbuch (Kapitel 20, dieses Kapitel enthält coole Tricks und Tipps ), Der Abschnitt "Erweitert" (Kapitel 22), die integrierten Docstrigs (über Python-Hilfebefehle, API-Dokumentation) und letztendlich der Code selbst.

2.2 Working with sequences

Obwohl dies fraglich ist, ist das Array das zentrale Objekt in der Bioinformatik. Das heißt, eine kurze Einführung in den Biopython-Mechanismus beginnt mit dem Umgang mit Arrays oder Sec-Objekten. Dies wird in Kapitel 3 näher erläutert. Wenn wir an Arrays denken, denken wir viel an Strings wie "AGTACACTGGT". Ein solches Seq-Objekt kann wie folgt erstellt werden. Unten zeigt ">>>" an, dass es sich um eine Python-Eingabeaufforderung handelt.


>>> from Bio.Seq import Seq
>>> my_seq = Seq("AGTACACTGGT")
>>> my_seq
Seq('AGTACACTGGT', Alphabet())
>>> print(my_seq)
AGTACACTGGT
>>> my_seq.alphabet
Alphabet()

Was ich hier bekommen habe, ist ein Seq-Objekt, das aus einem genetischen Alphabet besteht. Ich habe nicht angegeben, ob es sich um DNA oder Protein handelt (ja, Protein enthält viel Alanin, Glycin, Cystein und Threonin!). Es reflektiert. Das Alphabet wird in Kapitel 3 näher erläutert.

Seq-Objekte haben nicht nur ein Alphabet, sondern unterscheiden sich auch von Python-Zeichenfolgen in den von ihnen unterstützten Methoden. Dies kann nicht nur mit einer Zeichenfolge erfolgen.

>>> my_seq
Seq('AGTACACTGGT', Alphabet())
>>> my_seq.complement()
Seq('TCATGTGACCA', Alphabet())
>>> my_seq.reverse_complement()
Seq('ACCAGTGTACT', Alphabet())

Die nächstwichtigste Klasse ist "Seq Record" oder "Sequence Record". Es verfügt über ein mit Anmerkungen versehenes Array (Seq-Objekt), das Kennung, Name und Beschreibung enthält. Das zum Lesen und Schreiben des Sequenzdateiformats verwendete Modul "Bio.SeqIO" arbeitet mit dem Objekt "SeqRecord". Dies wird im Folgenden vorgestellt und in Kapitel 5 ausführlich erläutert.

Dieser Abschnitt befasst sich mit den Grundfunktionen von Biopython-Sequenzklassen und deren Verwendung. Sobald Sie wissen, wie es ist, mit der Biopython-Bibliothek zu arbeiten, lassen Sie uns in die unterhaltsame und interessante Welt des Umgangs mit biologischen Dateiformaten eintauchen!

2.3 A usage example Bevor Sie in den Parser eintauchen und alles, was Sie mit Biopython tun können, bereiten Sie ein Beispiel vor, das Sie zu allem inspirieren wird, was Sie tun. Wenn dieses Tutorial keine Biologie hätte, warum sollten Sie es lesen?

Ich mag Pflanzen, also brauche ich einen Fall auf Pflanzenbasis (sorry, denk nicht an Fans anderer Kreaturen!). Geh in unser Gewächshaus, Ich war erstaunt über Lady Slipper Orchids (wenn Sie sich fragen, warum, schauen Sie sich die Fotos von Lady Slipper Orchids auf Flickr oder Google Image Search an).

Natürlich sind Orchideen schön anzusehen, aber sie sind auch sehr interessant für diejenigen, die sich mit Evolution und Phylogenie befassen. Also sagte er, er denke darüber nach, einen konstruktiven Vorschlag für eine molekulare Studie über die Evolution von Lady Slipper zu schreiben, und wisse, welche Art von Forschung bereits durchgeführt worden sei und was hinzugefügt werden könne. Lass es uns versuchen. Nach einer kurzen Lektüre des Papiers wurde festgestellt, dass Lady Slipper Orchids zur Cypripedioideae-Unterfamilie der Orchidaceae-Familie gehört und aus fünf Gattungen besteht: Cypripedium, Paphiopedilum, Phragmipedium, Selenipedium und Mexipedium.

Dies ist genug für uns, um mehr zu erforschen. Lassen Sie uns sehen, wie die Tools von Biooython helfen können. Beginnen Sie mit dem Parsen des Arrays in Abschnitt 2.4. Aber auch Orchideen kommen später wieder. - Suchen Sie beispielsweise in PubMed nach Artikeln zu Orchideen. In Kapitel 9 werden Sequenzdaten aus der GenBank extrahiert. Extrahieren Sie die Proteindaten von Orchideen, Kapitel 10, aus Swiss Prot. Abschnitt 6.4.1. Führt eine mehrfache Ausrichtung des Orchideenproteins durch Clustal W durch.

2.4 Parsing sequence file formats Viel Arbeit in der Bioinformatik befasst sich mit vielen Dateiformaten, die biologische Informationen enthalten sollen. Diese Dateien sind voller interessanter biologischer Daten, und es wurden Versuche unternommen, sie in ein Format zu analysieren, das in einigen Programmiersprachen einfach zu handhaben ist. Das Parsen dieser Dateien kann jedoch stressig sein, da sich ihre Dateiformate ziemlich regelmäßig ändern und einige der Formate fragile Teile enthalten können, selbst die am besten gestalteten Parser. Es ist Arbeit.

Von nun an werde ich das Bio.SeqIO Modul vorstellen. -Kapitel 5 enthüllt viel mehr. Beginnen Sie mit der Online-Suche nach unseren Freundinnen-Pantoffel-Orchideen. NCBI wird manuell verwendet, um diese Implementierung zu vereinfachen. Verwenden Sie Entrez Online-Suche, um die Nukleinsäuredatenbank in NCBI zu durchsuchen, die Cypripedioideae beschreibt. Mal sehen,

Zum Zeitpunkt der Erstellung dieses Tutorials hatte diese Suche nur 94 Treffer. Wir haben diese im FASTA-Format, GenBank-Textdateien (ls_orchid.fasta, [ls_orchid.gbk]( Gespeichert als https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk) (docs / tutorial / examples / unten mit dem Biopython-Quellcode).

Wenn Sie diese Suche jetzt durchführen, erhalten Sie Hunderte von Ergebnissen! Wenn Sie dem Tutorial folgen und eine ähnliche Liste von Genen anzeigen möchten, können Sie entweder die beiden oben genannten Dateien herunterladen oder sie aus docs / examples / im Biopython-Quellcode kopieren. In Abschnitt 2.5 wird erläutert, wie diese Suchvorgänge in Python durchgeführt werden.

2.4.1 Simple FASTA parsing example Wenn Sie die FASTA-Datei für Lady Slipper Orchids (ls_orchid.fasta) in Ihrem bevorzugten Texteditor öffnen, sehen Sie, dass die Datei folgendermaßen beginnt:

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG
...

Diese Datei enthält 94 Zeichen. Jede Zeile beginnt mit einem ">", gefolgt von einem Array aus einer oder mehreren Zeilen. Versuchen wir dies in Python:

from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

Sie sollten so etwas sehen:

gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', SingleLetterAlphabet())
740
...
gi|2765564|emb|Z78439.1|PBZ78439
Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATCTGTTTACT...GCC', SingleLetterAlphabet())
592

In Anbetracht der Tatsache, dass das FASTA-Format kein Alphabet angibt, befindet sich "Bio.SeqIO" zunächst im allgemeineren SingleLetterAlphabet () als im DNA-spezifischen.

2.4.2 Simple GenBank parsing example Laden wir nun stattdessen die GenBank-Datei ls_orchid.gbk. Das dazu entsprechende Skript entspricht fast dem oben für die FASTA-Datei verwendeten Snippet. Der einzige Unterschied, den wir geändert haben, ist der Dateiname und die Formatzeichenfolge.

from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.gbk", "genbank"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))
This should give:

Z78533.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', IUPACAmbiguousDNA())
740
...
Z78439.1
Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATCTGTTTACT...GCC', IUPACAmbiguousDNA())
592

Zu diesem Zeitpunkt kann Bio.SeqIO IUPAC Ambiguous DNA auswählen, ein geschicktes Alphabet. Sie werden auch feststellen, dass die kürzere Zeichenfolge als "seq_record.id" verwendet wird.

2.4.3 I love parsing – please don’t stop talking about it!

Biopython verfügt über viele Parser, deren Funktionen jeweils vom Format des Arrays abhängen. Kapitel 5 befasst sich ausführlicher mit Bio.SeqIO, und Kapitel 6 stellt Bio.AlignIO vor.

Die am häufigsten verwendeten Dateiformate haben Parser in "Bio.SeqIO" und "Bio.AlignIO", aber es gibt noch keine Parser für weniger verwendete oder ältere Dateiformate. Überprüfen Sie SeqIO und AlignIO auf die neuesten Informationen oder fragen Sie bei Melis nach. Die neueste Liste der unterstützten Dateiformate und einige Beispiele finden Sie unter wiki. Einen speziellen Parser und andere Dokumentationen, um coole Dinge damit zu tun, finden Sie in Kochbuch (für dieses Tutorial). Kapitel 20) ist nützlich. Wenn Sie die gesuchten Informationen nicht finden können, ziehen Sie einen Kochbuchvorschlag in Betracht, um vielbeschäftigten Autoren zu helfen.

2.5 Connecting with biological databases

Eine der häufigsten Aufgaben in der Bioinformatik ist das Extrahieren von Informationen aus einer biologischen Datenbank. Das manuelle Herstellen einer Verbindung zur Datenbank kann eine mühsame Aufgabe sein, insbesondere wenn Sie sie wiederholen müssen. Biopython versucht, Zeit und Energie zu sparen, indem einige Online-Datenbanken aus Python-Skripten verfügbar gemacht werden. Derzeit können Sie mit Biopython Daten aus den folgenden Datenbanken extrahieren.

Entrez (and PubMed) from the NCBI – See Chapter 9.
ExPASy – See Chapter 10.
SCOP – See the Bio.SCOP.search() function.

Entsprechende Module ermöglichen es Ihnen, mit den CGI-Skripten auf diesen Seiten zu interagieren und Ergebnisse in einem überschaubaren Format zu erhalten. In einigen Fällen können die Ausgabedaten zur einfacheren Extraktion von Informationen in den Biopython-Parser integriert werden.

2.6 What to do next

Nachdem Sie dies getan haben und hoffentlich die Grundlagen von Biopython gut beherrschen, sind Sie bereit, einen effizienten Job zu erledigen. Es ist eine gute Idee, dieses Tutorial zuerst zu Ende zu lesen. Wenn Sie interessiert sind, lesen Sie den Quellcode und die automatisch generierte Dokumentation.

Sobald Sie eine Vorstellung davon haben, was Sie tun möchten und welche Bibliothek in Biopython Sie verwenden können, um dies zu erreichen, Kochbuch (# htoc278) ( Es ist gut, Kapitel 20) zu lesen. Es kann Code enthalten, um etwas Ähnliches wie das zu tun, was Sie tun möchten. Viel Spaß beim Codieren!