[PYTHON] Extrahieren Sie Klassifizierungsinformationen usw. aus Genbankdaten im XML-Format

Skript für die Registrierungssequenz

Aus der XML über Genbanks Sequenzinformationen Sie können Taxoninformationen mit dem folgenden Skript abrufen


import xml.etree.ElementTree as ET 

tree = ET.parse("./gene_file.xml") 
root = tree.getroot()

for child in root.findall('GBSeq'):
    accession = child.find('GBSeq_accession-version').text
    taxon = child.find('GBSeq_taxonomy').text
    for child in child.findall('GBSeq_feature-table'):
        for child in child.findall('GBFeature'):
            for child in child.findall('GBFeature_quals'):
                for child in child.findall('GBQualifier'):
                    if child.find('GBQualifier_value') is not None:
                        taxon_id = child.find('GBQualifier_value').text
                        if('taxon:' in taxon_id):
                            taxon_id_out = taxon_id
                    else:
                        taxon_id_out = ""
    out +=(accession+"\t"+taxon_id_out+ "\t"+ taxon +"\n")

with open("out10.taxon.txt", mode='w') as f:
    f.write(out)

Warum ich geschrieben habe

Das Parsen aus einer flachen Datei ist mühsam + Ausnahmen werden platziert, daher habe ich versucht, XML zu lesen und daraus zu extrahieren.

Recommended Posts

Extrahieren Sie Klassifizierungsinformationen usw. aus Genbankdaten im XML-Format
Daten aus S3 extrahieren
Schreiben Sie Daten im HDF-Format
[Python] Extrahieren Sie Textdaten aus XML-Daten von 10 GB oder mehr.
Exportieren Sie DB-Daten im JSON-Format
Extrahieren Sie bestimmte Daten aus komplexem JSON
Extrahieren Sie mit Python Text aus Bildern
Extrahieren Sie mit Python Zeichenfolgen aus Dateien
Extrahieren Sie Informationen mit File :: Stat in Ruby
Konvertieren Sie Daten im XML-Format in Daten im TXT-Format (yolov3)
Holen Sie sich mit Python die Niederschlagswahrscheinlichkeit aus XML
Verwenden Sie PIL in Python, um nur die gewünschten Daten aus Exif zu extrahieren