Die UK Biobank enthält die genetischen Daten von rund 500.000 StudienteilnehmerInnen, die mittels Next Generation Sequencing gewonnen wurden. Die Methode, mit der ein Großteil des menschlichen Genoms (Whole Genome bzw. Whole Exome Sequenzierung) automatisiert ausgelesen werden kann, hat vor rund 20 Jahren die Forschung auf diesem Gebiet revolutioniert. Riesige Datensätze sind entstanden. Eine Schwäche des Verfahrens ist jedoch, dass nicht alle Daten zur Gänze entschlüsselt und interpretiert werden können. Was sich in den Grauzonen verbirgt, ist noch rätselhaft. Sicher ist aber, dass die so genannten Dark Regions erheblichen Einfluss auf die Vererbung von vielen Merkmalen und Erkrankungen haben. Forschungsgruppen auf der ganzen Welt beschäftigen sich aktuell damit, der Missing Heritability auf die Spur zu kommen. WissenschafterInnen am Institut für Genetische Epidemiologie (Direktor: Florian Kronenberg) der Medizinischen Universität Innsbruck haben jetzt Licht in VNTRs (Variable Number Tandem Repeats), eine bestimmte Art von Dark Regions, gebracht. In intensiver interdisziplinärer Zusammenarbeit entwickelten sie einen Algorithmus, der genetische Varianten in VNTRs sichtbar macht. Die komplexe Rechenmethode ist als automatisierte Pipeline-Anwendung ab sofort für alle MedizinerInnen und ForscherInnen frei zum Download verfügbar.
„Man geht von rund 3.800 Dark Regions in proteinkodierenden Genen aus. Etwa 300 dieser Gene sind wiederum medizinisch relevant, etwa in der Alzheimer- oder LPA-Forschung“, sagt Silvia Di Maio, PostDoc am Institut für Genetische Epidemiologie. Die Biologin, die sich in der Arbeitsgruppe von Sebastian Schönherr auf Computational Genomics spezialisiert, teilt sich mit Peter Zöscher die Erstautorenschaft der Forschungsarbeit mit dem Titel „Resolving intra-repeat variation in medically relevant VNTRs from short-read sequencing data using the cardiovascular risk gene LPA as a model“. Diese wurde kürzlich im angesehenen Fachjournal Genome Biology publiziert. Der Bioinformatiker Peter Zöscher ist mittlerweile in Wien in der St. Anna Kinderkrebsforschung tätig.
Dunkle Flecken mit vielen Wiederholungen
VNTRs sind Dark Regions, in denen sich Genabschnitte wiederholen. „Diese Wiederholungen waren bisher mit informatischen Methoden nicht in der Sequenz zuordenbar, weil die einzelnen Elemente fast zu 100 Prozent identisch sind. Man kann sie sich wie eine Reihe nahezu identischer Puzzleteile vorstellen, deren korrekten Platz im Bild man nicht kennt. Sie erscheinen in der Datenbank dann als dunkler Fleck. In den vergangenen Jahren hat man sich auf die auswertbaren Bereiche konzentriert und die dunklen Regionen einfach weggelassen“, erklärt Schönherr, korrespondierender Autor der Publikation. In ihrer Forschungsarbeit haben sich die Innsbrucker ForscherInnen zum Ziel gesetzt, diese VNTRs zu entschlüsseln und das LPA-Gen als Ausgangspunkt dafür genommen.
Neue Perspektiven für Risikobewertung und Therapie
Der Lp(a)-Wert (Lipoprotein(a)) ist der wichtigste erbliche Risikofaktor für Herz-Kreislauf-Erkrankungen. Er wird vom LPA-Gen kontrolliert. Ein Großteil des Gens, eine VNTR-Sequenz mit der Bezeichnung KIV-2, konnte bis dato aber mit Next Generation Sequencing nicht entschlüsselt werden. Die Innsbrucker ForscherInnen haben ihre Rechenmethode auf die KIV-2 Daten von 200.000 ProbandInnen der UK-Biobank angewandt und dabei rund 300 Varianten entdeckt. „Wir sehen jetzt in eine Region, in die wir bisher nicht hineinschauen konnten. Einige der neuen Varianten stehen mit der Lp(a)-Konzentration in Verbindung“, sagt Di Maio. Dies eröffnet vielfältige Perspektiven für die Forschung: Unter den neuidentifizierten Varianten könnten sich Angriffspunkte für therapeutische Interventionen befinden, welche die Lp(a)-Konzentration senken. Die Erkenntnisse könnten zudem in die Erstellung von Risikoscores – Modelle zur Bestimmung des Erkrankungsrisikos – einfließen.
Stefan Coassin, der ebenfalls am Institut für Genetische Epidemiologie tätig ist, hat mit seinen Vorarbeiten auf dem Gebiet erheblich zum Erfolg des Projekts beigetragen. Mit gezielten Sequenzierungen von KIV-2 bei einer kleinen Personengruppe im hauseigenen Labor hat er schon vor einigen Jahren Varianten im LPA KIV-2 VNTR identifiziert. Seine Ergebnisse konnten zur Validierung des Algorithmus herangezogen werden, der nun für die automatisierte Auswertung von Big Data zur Verfügung steht.
Rechnung geht auch bei anderen Genen auf
Neben dem LPA-Gen haben sich die WissenschafterInnen außerdem noch VNTRs in fünf weiteren, medizinisch relevanten Genen angeschaut, die der Struktur des LPA-Gens ähnlich sind: NEB, DMBT1, FLG, SPDYE3, UBC. Sie sind unter anderem mit Muskel-, Haut- und Krebserkrankungen assoziiert. Der Algorithmus ist damit auch auf andere VNTRs – Dark Regions mit sich wiederholenden Abschnitten – in Next Generation Sequencing Daten anwendbar und erlaubt es, neue Genvarianten zu entdecken. „Das hat viele Vorteile. Wir müssen nicht neu sequenzieren, sondern können die Rechenmethode auf vorhandene, riesige Datensätze von großen Personengruppen anwenden, die für die Nutzer unkompliziert in wenigen Stunden analysiert werden. Wir haben mit unserer Forschung dazu beigetragen, die Anzahl der dunklen Bereiche im Genom zu verringern. Es war eines unserer größten Inhouse-Projekte der vergangenen Jahre. Es sind viele Fäden zusammengelaufen, damit wir das zustande bringen konnten“, streicht Schönherr die Interdisziplinarität und das vielfältige Know-How am Institut für Genetische Epidemiologie hervor.
Medizinische Universität Insbruck
Originalpublikation:
Di Maio S, Zöscher P, Weissensteiner H, Forer L, Schachtl-Riess JF, Amstler S, Streiter G, Pfurtscheller C, Paulweber B, Kronenberg F, Coassin S, Schönherr S., Resolving intra-repeat variation in medically relevant VNTRs from short-read sequencing data using the cardiovascular risk gene LPA as a model. Genome Biol. 2024 Jun 26;25(1):167.
doi: 10.1186/s13059-024-03316-5. https://genomebiology.biomedcentral.com/articles/10.1186/s13059-024-03316-5