VBIO
Aktuelles aus den Biowissenschaften

Eine detaillierte Genschalterkarte des Zebrafischs

Zebrafisch-Embryo
Zebrafisch-Embryo 24 Stunden nach der Befruchtung mit einer geklonten Enhancer-Region, die in roten Blutkörperchen und Blutgefäßen aktiv ist (grün). Dieses Bild bestätigt die Vorhersagen, die mithilfe von Genomik und maschinellem Lernen gemacht wurden. Kenny Mattonet (Didier Stainier Lab), Max Planck Institute for Heart and Lung Researc

Der Zebrafisch ist ein wichtiger Modellorganismus – etwa um Erbkrankheiten zu untersuchen. Ein Team um Uwe Ohler berichtet nun in „Cell Genomics“ und „Nature Machine Intelligence“ von Hochdurchsatz-Experimenten und KI-Methoden, mit denen eine bislang einzigartige Karte seines Genoms gelang.

Äußerlich unterscheiden sich Zebrafisch und Mensch grundlegend. Gleichwohl ähneln sich rund 70 Prozent ihrer Gene – darunter viele, die Krankheiten auslösen können. Deshalb ist das Tier ein beliebter Modellorganismus. Etliche Beobachtungen, etwa bezüglich seiner Embryonalentwicklung, lassen sich auf den Menschen übertragen. Die allermeisten Gene, die dabei eine Rolle spielen, sind bekannt. Anders sieht es bei Sequenzabschnitten innerhalb der DNA-Moleküle aus, die das jeweilige Gen regulieren. „Gewissermaßen sind das Schalter, die das Gen zum richtigen Zeitpunkt, an der richtigen Stelle oder durch ein passendes Signal aktivieren“, erklärt Professor Uwe Ohler vom Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft (MDC), der am Berlin Institute for Medical System Biology (BIMSB) des MDC eine Arbeitsgruppe leitet. Er vergleicht die Genregulation mit kompliziert verschalteten Lampen in einem großen Haus. „Man weiß nicht, welche Schalter man drücken muss, damit etwa das Licht im Keller angeht. Zellen sind komplex verdrahtet.“ Daher müsse man herausfinden, welche Schalter in welchem Zelltyp vorhanden sind, welche davon wichtig sind und was sie bewirken. Doch oft fehlen konkrete Details über ihr Vorkommen sowie ihre Funktion oder Struktur.

In der in „Cell Genomics“ veröffentlichten Arbeit präsentiert Ohler nun gemeinsam mit dem Studienleiter Dr. Scott Allen Lacadie und weiteren Kolleg*innen eine umfassende regulatorische Genomkarte des 24 Stunden alten Zebrafischembryos. Die beiden Erstautorinnen Dr. Alison McGarvey und Dr. Dubravka Vučićević untersuchten dazu mit Einzelzelltechnologien das Genom von rund 23 000 Zellkernen des gesamten Fischorganismus. Selbstlernende Algorithmen analysierten und kategorisierten im Anschluss die Datensätze, um herauszufinden, welche Schalter in welchem Zelltyp aktiv sind.
„Ein Schalter, der ein Gen in Leberzellen einschaltet, sieht anders aus als einer, der für ein Gen in Gehirnzellen zuständig ist“, sagt Ohler. Nur so könne der Organismus einzelne Schalter individuell und zum richtigen Zeitpunkt aktivieren. Diese regulatorischen Abschnitte steuern etwa die Transkription der Gene: Zunächst werden sie in die transportfähige Form (mRNA) umgeschrieben, sodass in weiteren Schritten lebenswichtige Proteine entstehen können.

***Genschalterkarte zusammenpuzzeln

In einem typischen Wirbeltiergenom gebe es Millionen dieser Schalter, sagt Ohler – und in jeder Zelle sind etwa rund 50 000 bis 100 000 aktiv. Im Experiment lassen sich lediglich aktivierte Schalter in den Zellen identifizieren – und zwar anhand der Struktur der Chromosomen im Erbgut. Diese öffnen sich nämlich ein wenig, damit passende Proteine daran binden können, die den Schalter aktivieren. „Im Schnitt können wir so bei einer einzelnen Zelle rund fünf- bis zehntausend Schalter auslesen – also vielleicht fünf bis zehn Prozent der Gesamtzahl pro Zelle“, sagt Lacadie. „Und das gelingt wiederum nur für einen gewissen Prozentsatz aller Zellen des Embryos.“ Um dennoch relativ vollständige Informationen über die Gesamtheit der regulatorischen Erbgutabschnitte in einem Zelltyp zu bekommen, mussten die Forschenden die Daten der vielen tausend analysierten Einzelzellen richtig miteinander kombinieren.

Zu diesem Zweck muss der Computer die Zellen gemäß ihrer Herkunft wie Gehirn oder Muskelgewebe sortieren. Eine große Herausforderung – denn, wenn man so will, entspricht der Datensatz jeder einzelnen Zelle einem Puzzlestück, bei dem das zugehörige Puzzle nicht bekannt ist. „Einige der regulatorischen Schalter, die wir in einer einzelnen Zelle entdecken, überschneiden sich aber mit denjenigen, die wir in einer anderen Zelle finden“, erläutert Lacadie. Das heißt: Puzzleteile aus der gleichen Ecke des Puzzles weisen Gemeinsamkeiten auf. Und diese wiederum „dienen unseren Computerprogrammen als Schlüssel, um die analysierten Zellen zu Zelltypen zusammenzufassen“, sagt Lacadie.

Die dazu verwendeten Machine-Learning-Algorithmen stammen aus der Künstlichen Intelligenz, die selbstständig lernt und stetig besser wird. Federführend entwickelt hat die Programme Dr. Wolfgang Kopp, ebenfalls Erstautor der Studie. Wie viele der tatsächlich existierenden Schalter im Zebrafisch schließlich in ihrer regulatorischen Genomkarte enthalten sind, sei nur sehr schwer zu beantworten, sagt Lacadie: „Beim Muskel- oder Hirngewebe, bei denen wir am meisten Zellen erfasst haben, bewegen wir uns vielleicht im Bereich von 80 Prozent.“ Bei anderen Zelltypen deutlich darunter.

Obwohl es also noch viel zu tun gebe, seien die Ergebnisse ein großer Schritt für die Zebrafischforschung und generell für das Studium der Genregulation während der Entwicklung, resümiert Lacadie. Die Daten des Teams fließen nun in ein Gemeinschaftsprojekt ein, bei dem etliche weitere Forschungsgruppen Genomdaten beisteuern, um so eine umfassende Kartierung des Zebrafischgenoms in unterschiedlichen Entwicklungsstadien zu erstellen.

***Kein Problem mit verzerrten Daten

Im Gegensatz zu bisherigen computergestützten Analysemethoden können die Algorithmen die in den Experimenten erhobenen Rohdaten analysieren, ohne dass das Team sie im Vorfeld aufbereiten muss, sagt Ohler. Das ist vor allem dann entscheidend, wenn die Daten mit unterschiedlichen technischen Geräten oder in verschiedenen Laboren erhoben wurden. In der Regel unterliegen diese dann einem „Bias“, wie man im Englischen sagt. Die Datensätze sind also verzerrt und nicht direkt vergleichbar. Um den Bias herauszufiltern und so die Daten kombinieren zu können, trainierte die Forschungsgruppe die Algorithmen darauf, nach denjenigen Informationen in den Datensätzen zu suchen, die ihre Herkunft verraten. Diese Merkmale werden dann ignoriert. Man gehe davon aus, dass die übrig gebliebenen Informationen biologisch relevant sind, sagt Ohler.

Diese neu entwickelten Machine-Learning-Methoden, die Genom-Datensätze aus unterschiedlichen Einzelzelltechnologien trotz Bias analysieren können, stellten Kopp, Ohler und ihr Kollege Dr. Altuna Akalin kürzlich im Fachjournal „Nature Machine Intelligence” vor. Mit den Algorithmen wollen wir nun herausfinden, welche regulatorischen DNA-Sequenzen für Erbkrankheiten relevant sind, sagt Ohler. „Anfangs hat man nur auf Genmutationen geschaut. Aber nun können wir auch untersuchen, welche Schalter beteiligt sind und nicht korrekt funktionieren.“ Das Team glaubt, dass insbesondere bei vielen Volkskrankheiten, für die es eine genetische Veranlagung gibt, Antworten in den Schalterregionen zu finden sind. Es bleibt also spannend, was die neu entwickelten Algorithmen in Zukunft enthüllen werden.

Max-Delbrück-Centrum für Molekulare Medizin


 

Originalpublikation:

Alison C. McGarvey, Wolfgang Kopp, Dubravka Vučićević et al. (2022): “Single-cell-resolved dynamics of chromatin architecture delineate cell and regulatory states in zebrafish embryos”. Cell Genomics, DOI: 10.1016/j.xgen.2021.100083

https://doi.org/10.1016/j.xgen.2021.100083

Wolfgang Kopp et al. (2022): „Simultaneous dimensionality reduction and integration for single-cell ATAC-seq data using deep learning”. Nature Machine Intelligence, DOI: 10.1038/s42256-022-00443