Tutoriel Biopython et traduction japonaise du livre de recettes (Chapitre 1, 2)

Je voulais pouvoir utiliser Biopython en tant que bio-infomaticien. C'est tout. Je n'ai pas eu à traduire autant. .. Je suis fatigué en chemin et je saute.

Traduction japonaise du didacticiel et du livre de recettes Biopython

référence Biopython Tutorial and Cookbook Biopython web site Chapter 1 Introduction

1.1 What is Biopython? Biopython est un outil Python gratuit et disponible pour la biologie moléculaire computationnelle. Python est un langage interprété orienté objet qui devient de plus en plus courant en science computationnelle. Un langage écrit en C, C ++ et FORTRAN qui est facile à apprendre et possède une syntaxe très claire et une extensibilité de module. Le but de BioPython est de rendre Python aussi facile à utiliser dans le domaine de la bioinformatique en créant des modules et des classes réutilisables de haute qualité. Biopython a différents formats de fichiers bioinfomatiques (BLAST et Clustalw / clustalw), FASTA, Genbank, services en ligne Accès à (NCBI, ExPASy, etc.), programmes généraux et inhabituels ( Clustalw, [DSSP](https://ja.wikipedia.org/wiki/DSSP_%E6%B0%B4%E7%B4%A0 % E7% B5% 90% E5% 90% 88% E6% 8E% A8% E5% AE% 9A% E3% 82% A2% E3% 83% AB% E3% 82% B4% E3% 83% AA% E3 % 82% BA% E3% 83% A0), interface vers MS / MS, etc.), classes de tableau standard, KD Tree % A8) Contient des modules de clustering tels que la structure de données et le format de document.

1.2 What can I find in the Biopython package Les principales fonctionnalités de BioPython sont les suivantes.

1.3 Installing Biopython

download: http://biopython.org/wiki/Download

OS pris en charge: Windows, Mac, Linux

$ python setup.py build
$ python setup.py test
$ sudo python setup.py install

Des instructions d'installation détaillées, y compris l'installation des dépendances Python et Biopython, sont fournies ci-dessous.

1.4 Frequently Asked Questions (FAQ) ** 1. Quelle est la référence? ** **

application note [1, Cock et al., 2009] For the official project announcement: [13, Chapman and Chang, 2000]; For Bio.PDB: [18, Hamelryck and Manderick, 2003]; For Bio.Cluster: [14, De Hoon et al., 2004]; For Bio.Graphics.GenomeDiagram: [2, Pritchard et al., 2006]; For Bio.Phylo and Bio.Phylo.PAML: [9, Talevich et al., 2012]; For the FASTQ file format as supported in Biopython, BioPerl, BioRuby, BioJava, and EMBOSS: [7, Cock et al., 2010]

2. “Biopython”? “BioPython”? Le nom correct est «Biopython». Pas «BioPython»

Omis ci-dessous.

Chapter 2 Quick Start – What can you do with Biopython? Cette section est conçue pour vous donner un aperçu de ce que vous pouvez faire et comment l'utiliser afin que vous puissiez démarrer rapidement avec BioPython. Tous les exemples de cette section supposent que vous avez une connaissance de base de Python et que Biopython est installé. Si vous avez besoin de parfaire vos connaissances sur Python, nous vous avons fourni une multitude de ressources gratuites pour vous aider à démarrer avec la documentation officielle de Python (http://www.python.org/doc/).

Certaines tâches nécessitent un accès à la base de données et peuvent nécessiter un environnement Internet.

2.1 General overview of what Biopython provides Comme mentionné dans l'introduction, BioPython est un ensemble de bibliothèques qui permettent aux biologistes travaillant devant un ordinateur de travailler avec des «objets» d'intérêt. Les utilisateurs doivent avoir un peu d'expérience en programmation (Python, bien sûr) ou être intéressés par les programmes d'apprentissage. Biopython n'analyse pas un format de fichier spécifique, mais en fournissant une bibliothèque réutilisable qui vous permet de vous concentrer sur la question qui vous intéresse (bien sûr, en écrivant un analyseur inexistant et en contribuant à Biopython). Si vous voulez aider, s'il vous plaît!), Le but est de faciliter votre travail de programmeur.

Une chose à garder à l'esprit à propos de Biopython est qu'il offre souvent plusieurs façons de "faire la même chose". Pour moi, cela peut être frustrant. Cependant, cela peut également être bénéfique dans la pratique, car cela offre beaucoup de flexibilité et de convivialité au-delà de la bibliothèque. Ce tutoriel vous montrera la manière générale ou simple. Si vous voulez apprendre d'autres méthodes, Cookbook (Chapitre 20, ce chapitre contient des trucs et astuces sympas ), La section Avancé (chapitre 22), les docstrigs intégrés (via les commandes d'aide Python, la documentation de l'API), et finalement le code lui-même.

2.2 Working with sequences

Bien que discutable, l'objet central de la bioinformatique est le tableau. Autrement dit, une introduction rapide au mécanisme Biopython commence par le traitement des tableaux, ou objets «Sec». Ceci sera discuté plus en détail au chapitre 3. Quand nous pensons aux tableaux, nous passons beaucoup de temps à penser à des chaînes comme ʻAGTACACTGGT`. Un tel objet Seq peut être créé comme suit. Ci-dessous, «>>>» indique qu'il s'agit d'une invite Python.


>>> from Bio.Seq import Seq
>>> my_seq = Seq("AGTACACTGGT")
>>> my_seq
Seq('AGTACACTGGT', Alphabet())
>>> print(my_seq)
AGTACACTGGT
>>> my_seq.alphabet
Alphabet()

Ce que j'ai obtenu ici est un objet Seq composé d'un alphabet génétique - je n'ai pas précisé s'il s'agissait d'ADN ou de protéine (oui, la protéine contient beaucoup d'alanine, de glycine, de cystéine et de thréonine!) Il reflète. L'alphabet sera expliqué plus en détail au chapitre 3.

En plus d'avoir un alphabet, les objets Seq diffèrent des chaînes Python par les méthodes qu'ils prennent en charge. Cela ne peut pas être fait avec juste une chaîne.

>>> my_seq
Seq('AGTACACTGGT', Alphabet())
>>> my_seq.complement()
Seq('TCATGTGACCA', Alphabet())
>>> my_seq.reverse_complement()
Seq('ACCAGTGTACT', Alphabet())

La classe suivante la plus importante est «Seq Record», ou Sequence Record. Il a un tableau annoté (objet Seq) contenant l'identificateur, le nom et la description. Le module Bio.SeqIO utilisé pour lire et écrire le format de fichier de séquence fonctionne avec l'objet SeqRecord. Ceci sera présenté ci-dessous et sera expliqué en détail au chapitre 5.

Cette section traite des fonctionnalités de base des classes de séquence Biopython et de leur utilisation. Une fois que vous savez ce que c'est que d'être impliqué dans la bibliothèque Biopython, plongeons-nous dans le monde amusant et intéressant du traitement des formats de fichiers biologiques!

2.3 A usage example Avant de vous plonger dans l'analyseur et tout ce que vous pouvez faire avec Biopython, préparez un exemple qui inspirera tout ce que vous faites. Si ce tutoriel n'avait aucune biologie, pourquoi voudriez-vous le lire?

J'aime les plantes, donc j'ai besoin d'un étui à base de plantes (désolé, ne pensez pas aux fans d'autres créatures!). Allez dans notre serre, J'ai été étonné par Lady Slipper Orchids (si vous vous demandez pourquoi, jetez un œil aux photos de Lady Slipper Orchids sur Flickr ou Google Image Search).

Bien sûr, les orchidées sont belles à regarder, mais elles sont également très intéressantes pour ceux qui étudient l'évolution et la phylogénie. Ainsi, il a dit qu'il envisageait d'écrire une proposition constructive pour faire une étude moléculaire de l'évolution de Lady Slipper, et qu'il savait quel type de recherche était déjà fait et ce qui pourrait y être ajouté. Essayons. Après une brève lecture de l'article, il a été constaté que Lady Slipper Orchids appartient à la sous-famille des Cypripedioideae de la famille des Orchidaceae et se compose de cinq genres: Cypripedium, Paphiopedilum, Phragmipedium, Selenipedium et Mexipedium.

Cela nous suffit pour commencer à creuser davantage. Voyons donc comment les outils de Biooython peuvent vous aider. Commencez par analyser le tableau dans la section 2.4. Mais les orchidées reviendront également plus tard. -Par exemple, recherchez dans PubMed des articles liés aux orchidées. Au chapitre 9, les données de séquence sont extraites de GenBank. Extrayez les données protéiques des orchidées, qui est le chapitre 10, de Swiss Prot. Section 6.4.1 Effectue l'alignement multiple Clustal W de la protéine d'orchidée.

2.4 Parsing sequence file formats De nombreux travaux en bioinformatique portent sur de nombreux formats de fichiers conçus pour contenir des informations biologiques. Ces fichiers regorgent de données biologiques intéressantes et des tentatives ont été faites pour les analyser dans un format facile à manipuler dans certains langages de programmation. Cependant, la tâche d'analyse de ces fichiers peut être stressante, car leurs formats de fichiers changent assez régulièrement et certains des formats peuvent contenir des parties fragiles, même les analyseurs les mieux conçus. C'est du travail.

A partir de maintenant, je vais vous présenter le module Bio.SeqIO. -Le chapitre 5 révèle bien plus. Commencez par rechercher en ligne les orchidées de notre amie lady slipper. NCBI est utilisé manuellement pour simplifier cette implémentation. Utilisez Recherche en ligne Entrez pour consulter la base de données d'acides nucléiques du NCBI qui décrit les Cypripedioideae. regardons,

Au moment de la rédaction de ce tutoriel, cette recherche n'avait que 94 résultats. Nous avons ces fichiers au format FASTA, les fichiers texte GenBank (ls_orchid.fasta, [ls_orchid.gbk]( Enregistré sous https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk) (docs / tutorial / examples / ci-dessous avec le code source Biopython).

Si vous effectuez cette recherche maintenant, vous obtiendrez des centaines de résultats! Si vous suivez le tutoriel et que vous voulez voir une liste similaire de gènes, vous pouvez soit télécharger les deux fichiers ci-dessus, soit les copier à partir de docs / examples / dans le code source de Biopython. Dans la section 2.5, nous verrons comment effectuer ces recherches en Python.

2.4.1 Simple FASTA parsing example Si vous ouvrez le fichier FASTA des orchidées lady slipper (ls_orchid.fasta) dans votre éditeur de texte préféré, vous verrez que le fichier commence comme ceci:

>gi|2765658|emb|Z78533.1|CIZ78533 C.irapeanum 5.8S rRNA gene and ITS1 and ITS2 DNA
CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGGAATAAACGATCGAGTG
AATCCGGAGGACCGGTGTACTCAGCTCACCGGGGGCATTGCTCCCGTGGTGACCCTGATTTGTTGTTGGG
...

Ce fichier contient 94 caractères. Chaque ligne commence par un ">", suivi d'un tableau d'une ou plusieurs lignes. Essayons ceci en Python:

from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))

Vous devriez voir quelque chose comme ceci:

gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', SingleLetterAlphabet())
740
...
gi|2765564|emb|Z78439.1|PBZ78439
Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATCTGTTTACT...GCC', SingleLetterAlphabet())
592

Étant donné que le format FASTA ne spécifie pas d'alphabet, «Bio.SeqIO» est initialement dans le SingleLetterAlphabet () plus polyvalent que celui spécifique à l'ADN.

2.4.2 Simple GenBank parsing example Maintenant, chargeons le fichier GenBank ls_orchid.gbk à la place. Le script pour ce faire est presque le même que l'extrait de code utilisé pour le fichier FASTA ci-dessus. La seule différence que nous avons modifiée est le nom du fichier et la chaîne de format.

from Bio import SeqIO
for seq_record in SeqIO.parse("ls_orchid.gbk", "genbank"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))
This should give:
Z78533.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC', IUPACAmbiguousDNA())
740
...
Z78439.1
Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATCTGTTTACT...GCC', IUPACAmbiguousDNA())
592

En ce moment, «Bio.SeqIO» peut choisir l'ADN ambigu d'IUPAC, qui est un alphabet astucieux. Vous remarquerez également que la chaîne la plus courte est utilisée comme seq_record.id.

2.4.3 I love parsing – please don’t stop talking about it!

Biopython a de nombreux analyseurs, chacun avec des fonctionnalités basées sur le format de son tableau. Le chapitre 5 traite de Bio.SeqIO plus en détail et le chapitre 6 présente Bio.AlignIO.

Les formats de fichiers les plus couramment utilisés ont des analyseurs dans «Bio.SeqIO» et «Bio.AlignIO», mais il n'y a pas encore d'analyseurs pour les formats de fichiers moins utilisés ou plus anciens. Consultez SeqIO et AlignIO pour les dernières informations, ou demandez sur Melis. Vous pouvez trouver la dernière liste des formats de fichiers pris en charge et quelques exemples sur wiki. Pour des analyseurs spécifiques et d'autres documentations pour faire des choses sympas avec eux, voir Cookbook (http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc278) (pour ce tutoriel Chapitre 20) est utile. Si vous ne trouvez pas les informations que vous recherchez, envisagez une suggestion de livre de cuisine pour aider les auteurs occupés.

2.5 Connecting with biological databases

L'une des tâches les plus courantes en bioinformatique est d'extraire des informations d'une base de données biologique. La connexion manuelle à la base de données peut être une tâche fastidieuse, surtout si vous devez la répéter. Biopython essaie de gagner du temps et de l'énergie en rendant certaines bases de données en ligne disponibles à partir de scripts Python. Actuellement, vous pouvez utiliser Biopython pour extraire des données des bases de données suivantes.

Les modules correspondants vous permettent d'interagir avec les scripts CGI sur ces pages et d'obtenir des résultats dans un format gérable. Dans certains cas, les données de sortie peuvent être intégrées à l'analyseur Biopython pour une extraction plus facile des informations.

2.6 What to do next

Maintenant que vous avez fait cela, et j'espère que vous avez une bonne compréhension des bases de Biopython, vous êtes prêt à commencer à travailler efficacement. C'est une bonne idée de terminer d'abord la lecture de ce tutoriel. Ensuite, si vous êtes intéressé, lisez le code source et la documentation générée automatiquement.

Une fois que vous avez une idée de ce que vous voulez faire et quelle bibliothèque en Biopython vous pouvez utiliser pour y parvenir, Cookbook (# htoc278) ( Il est bon de lire le chapitre 20). Il peut contenir du code pour faire quelque chose de similaire à ce que vous voulez faire. Profitez du codage!

Recommended Posts

Tutoriel Biopython et traduction japonaise du livre de recettes (Chapitre 1, 2)
Tutoriel Biopython et traduction japonaise du livre de recettes (4.3)
Tutoriel Biopython et traduction japonaise de Cookbook (4.1)
Tutoriel Biopython et traduction japonaise de Cookbook (4.5)
Tutoriel Biopython et traduction japonaise du livre de recettes (4.8)
Tutoriel Biopython et traduction japonaise du livre de recettes (4.7)
Tutoriel Biopython et traduction japonaise du livre de recettes (4.9)
Tutoriel Biopython et traduction japonaise du livre de recettes (4.6)
Tutoriel Biopython et traduction japonaise du livre de recettes (4.2)
Tutoriel Biopython et traduction japonaise de Cookbook
Traduction japonaise sosreport
[Français] tutoriel hyperopt
traduction japonaise man systemd
streamlit explication traduction japonaise
man systemd.service traduction japonaise
man nftables traduction japonaise
Dockerfile Reference traduction japonaise
docker-compose --aide à la traduction en japonais
docker help traduction en japonais
Notes japonaises du didacticiel SymPy
Introduction à la modélisation bayésienne à l'aide de la traduction japonaise pymc3 de modélisation bayésienne en Python (chapitre 0-2)