VBIO

Gemeinsam für die Biowissenschaften

Werden Sie Mitglied im VBIO und machen Sie mit!

Eine Suchmaschine für DNA

DNA-Datensätze können mit einer einfachen Suchfunktion im Tool «MetaGraph» schnell durchforstet werden.
DNA-Datensätze können mit einer einfachen Suchfunktion im Tool «MetaGraph» schnell durchforstet werden. (Bild: Adobe stock/ KI-generiert)

Computerwissenschaftler haben ein digitales Tool entwickelt, mit dem man Millionen veröffentlichter DNA-Datensätzen in Sekunden durchsuchen kann.  Dies kann die Erforschung von Antibiotikaresistenzen und unbekannten Erregern deutlich beschleunigen. «MetaGraph» ist als Open-Source-Tool frei zugänglich und bietet dadurch vielfältige Anwendungsmöglichkeiten. 

In Patient:innen lassen sich seltene Erbkrankheiten, in Tumorzellen besondere Mutationen erkennen – die Sequenzierung von DNA hat die biomedizinische Forschung bereits vor Jahrzehnten revolutioniert. Vor allem neue Sequenzierungsmethoden (Next-Generation-Sequencing) führten in den letzten Jahren zu zahlreichen wissenschaftlichen Durchbrüchen. Sie ermöglichten beispielsweise 2020/2021 die rasche Entschlüsselung und weltweite Überwachung des SARS-CoV-2-Genoms. 

Immer mehr Forschende stellen die Ergebnisse sequenzierter DNA öffentlich zur Verfügung. So sind unterdessen riesige Mengen an Daten entstanden, die in zentralen Datenbanken wie dem amerikanischen SRA (Sequence Read Archive) oder dem europäischen ENA (European Nucleotide Archive) abgespeichert sind. Gegen 100 Petabyte an Daten sind dort aufbewahrt – ungefähr gleich viel wie der gesamte Text im Internet. Ein Petabyte entspricht einer Million Gigabyte. 

Um diese Menge an DNA-Sequenzen zu durchsuchen und mit eigenen Sequenzen abzugleichen, benötigen Biomediziner:innen bislang viel Rechenleistung und andere Ressourcen. So wird die effiziente Suche im Datenberg zu einer schieren Unmöglichkeit. Dieses Problem haben Computerwissenschaftler der ETH Zürich nun gelöst. 

Volltextsuche statt Download ganzer Datensätze 

Sie haben ein Verfahren entwickelt, welches diese Suche stark verkürzt und erleichtert. Das digitale Tool «MetaGraph» durchsucht die Rohdaten aller in den Datenbanken gespeicherten DNA- oder RNA-Sequenzen – ganz wie eine herkömmliche Internet-Suchmaschine. Forschende können eine Sequenz, die sie interessiert, als Volltext in eine Suchmaske eingeben, worauf sie je nach Anfrage innerhalb von Sekunden oder Minuten erfahren, wo diese bereits aufgetaucht ist. 

«Es handelt sich um eine Art Google für DNA», fasst Professor Gunnar Rätsch, Datenwissenschaftler am Institut für Informatik an der ETH, zusammen. Bis anhin mussten Forschende die Datenbanken nach beschreibenden Metadaten durchsuchen. Um an die Rohdaten zu gelangen, mussten sie die jeweiligen Datensätze herunterladen. Die Suche war lückenhaft, aufwändig und teuer. 

«MetaGraph» sei vergleichsweise günstig, wie die Forscher in ihrer Studie schreiben. Die Darstellung aller öffentlichen biologischen Sequenzen würde auf wenige Computer-Festplatten passen. Grössere Abfragen dürften nicht mehr als 0,74 Dollar pro Megabase kosten. 

Die von den ETH-Forschern entwickelte DNA-Suchmaschine ist zudem sowohl präzise als auch effizient und kann so helfen, die Genforschung zu beschleunigen – dies etwa bei wenig erforschten Erregern oder neuen Pandemien. So könnte das Tool zum Katalysator in der Forschung zu Antibiotika-Resistenzen werden: Etwa indem in den Datenbanken Resistenzgene oder nützliche Viren, die Bakterien vertilgen können - sogenannte Bakteriophagen - identifiziert werden. 

Komprimierung um das 300-fache 

In der am 8. Oktober im Fachmagazin «Nature» erschienenen Studie zeigen die ETH-Forscher auf, wie «MetaGraph» funktioniert: Das Tool indiziert die Daten und stellt sie komprimiert dar. Das gelingt dank komplexen mathematischen Graphen, die für eine bessere Struktur der Daten sorgen – ähnlich einem Tabellenprogramm wie Excel. «Mathematisch gesehen handelt es sich um eine riesige Matrix mit Millionen von Spalten und Billionen von Zeilen», sagt Rätsch. 

Die Idee, grosse Datenmengen mit Hilfe von Indizes durchsuchbar zu machen, ist in der Computer Science-Forschung Standard. Neu an der Arbeit der ETH-Forscher ist aber die komplexe Verknüpfung von Roh- und Metadaten sowie die Komprimierung um etwa das 300-fache, ähnlich wie bei einer Zusammenfassung eines Buches: Sie enthält nicht mehr jedes Wort, aber alle wichtigen Handlungsstränge und Zusammenhänge bleiben erhalten – kompakter, aber ohne relevanten Informationsverlust. 

«Wir bewegen uns damit am Limit dessen, was möglich ist, um die Datensätze so klein wie möglich zu halten, ohne notwendige Informationen zu verlieren», sagt Dr. André Kahles, der wie Rätsch der Biomedical Informatics Group der ETH angehört. Im Unterschied zu anderen DNA-Suchmasken, die derzeit erforscht werden, ist der Ansatz der ETH-Forscher skalierbar. Das heisst: Je grösser die abgefragte Datenmenge, desto weniger zusätzlichen Rechenaufwand benötigt das Tool. 

Hälfte der Daten schon verfügbar 

Die ETH-Forscher haben «MetaGraph» erstmals im Jahr 2020 vorgestellt und seither laufend verbessert. Das Tool steht bereits heute für Abfragen zur Verfügung. Es bietet eine Volltext-Suchmaske für Millionen von Sequenzsätzen aus DNA und RNA sowie Proteinen von Viren, Bakterien, Pilzen, Pflanzen, Tieren und Menschen. Zurzeit ist knapp die Hälfte der weltweit verfügbaren Sequenz-Datensätze indexiert. Der Rest soll gemäss Gunnar Rätsch bis Ende des Jahres folgen. «MetaGraph» steht Open Source zur Verfügung und könnte darum etwa auch für Pharmafirmen interessant sein, die über grosse Mengen an internen Forschungsdaten verfügen. 

Kahles hält es sogar für möglich, dass die DNA-Suchmaschine dereinst auch von Privatpersonen angewendet wird: «In den Anfängen wusste man auch bei Google noch nicht genau, wofür eine Suchmaschine gut sein soll. Wenn die rasante Entwicklung, in der in der DNA-Sequenzierung so weitergeht, wird es vielleicht üblich, seine Balkonpflanzen genauer zu bestimmen.»

ETH Zürich


Originalpublikation:

Karasikov, M., Mustafa, H., Danciu, D. et al. Efficient and accurate search in petabase-scale sequence repositories. Nature (2025). doi.org/10.1038/s41586-025-09603-w

weitere VBIO News
Die Grafik zeigt die geographische Lage aller EnMAP-Szenen, die für die Studie ausgewertet wurden.

Funktionelle Pflanzenvielfalt schwankt stark – 4.000 Satellitenbilder mit Hilfe von KI analysiert

Weiterlesen
Proteinstruktur in 3D

Neue Studie kartiert Bindungsstellen von Proteinen über verschiedene Spezies hinweg

Weiterlesen
Illustration Mensch und KI

Zwischen Kooperation und Verschmelzung: Mensch und KI im evolutionären Wandel

Weiterlesen