VBIO

Gemeinsam für die Biowissenschaften

Werden Sie Mitglied im VBIO und machen Sie mit!

Vorhersage von Antibiotikaresistenz: Datenverzerrung verringert Zuverlässigkeit von KI-Modellen

Elektronenmikroskopische Aufnahme von EHEC-Bakterien (Escherichia Coli) auf einer Darmzelle.
Elektronenmikroskopische Aufnahme von EHEC-Bakterien (Escherichia Coli) auf einer Darmzelle. Copyright: HZI/Manfred Rohde

Um Antibiotikaresistenzen bei Krankheitserregern vorherzusagen, greifen Fachleute zunehmend auf maschinelles Lernen zurück. Mit dessen Hilfe lassen sich anhand der Genetik eines Erregers Resistenzmechanismen erkennen. Die Ergebnisse sind allerdings mit Vorsicht zu betrachten: Forschende des Würzburger Helmholtz-Instituts für RNA-basierte Infektionsforschung (HIRI) konnten nachweisen, dass die Modelle häufig weniger zuverlässig sind als angenommen. Ihre Erkenntnisse wurden im Fachmagazin PLOS Biology veröffentlicht. Sie tragen dazu bei, verlässlichere Werkzeuge zur Vorhersage und Bekämpfung von Antibiotikaresistenzen zu entwickeln.

Antibiotikaresistente Infektionen stellen eine immer größer werdende Bedrohung dar. Anstatt Bakterien klassisch zu kultivieren und ihre Reaktion auf Antibiotika zu testen, analysieren Labore zunehmend das bakterielle Erbgut, um frühzeitig Resistenzen zu identifizieren. Aus den DNA-Sequenzen des Erregers können Forschende ableiten, über welche Resistenzmechanismen er verfügen könnte und anschließend wirksame Behandlungsmöglichkeiten vorschlagen. Computerprogramme, die aus vorhandenen Sequenzierungsdaten „lernen”, sind dabei ein vielversprechender Weg, um vorherzusagen, welche Antibiotika wirken und welche nicht. Diese Technologien haben jedoch auch Defizite: Eine oft unterschätzte Herausforderung sind dabei die Annahmen, die die computergestützten Methoden selbst treffen.

Forschende vom Würzburger Helmholtz-Institut für RNA-basierte Infektionsforschung (HIRI), einem Standort des Braunschweiger Helmholtz-Zentrums für Infektionsforschung (HZI) in Kooperation mit der Julius-Maximilians-Universität Würzburg (JMU), konnten gemeinsam mit der University of Birmingham in Großbritannien nachweisen, dass genau diese Annahmen zu übermäßig optimistischen Ergebnissen hinsichtlich der Vorhersagekraft führen und so deren Aussagewert verzerren können.

Die meisten klassischen Methoden des maschinellen Lernens – Technologien, die aus Daten lernen und ohne explizite Programmierung selbstständig Muster erkennen – erfordern, dass die Trainingsdaten unabhängig und identisch verteilt sind. Das ist bei Bakterienproben allerdings nicht der Fall: Eng verwandte Bakterien weisen viele gemeinsame Merkmale auf. Während einer Epidemie setzen sich „erfolgreiche” Erregervarianten schnell durch. Wenn sie sich unter anderem aufgrund ihrer Abwehrmechanismen gegen Antibiotika so rasch vermehren, verbreiten sich automatisch auch andere Merkmale – selbst, wenn diese nichts mit Resistenz zu tun haben.

Dies kann den Anschein erwecken, dass bestimmte genetische Merkmale direkt mit einer Resistenz zusammenhängen, obwohl sie in Wirklichkeit nur aufgrund der Verwandtschaft der Erreger gemeinsam auftreten. Die Algorithmen lernen folglich, verwandte Stämme vorherzusagen, anstatt die Resistenz selbst. 

24.000 Genome von fünf Bakterienarten

„In diesem Projekt haben wir mehr als 24.000 Genome, also die Gesamtheit aller Erbinformationen, von fünf bedeutenden krankheitsverursachenden Bakterienarten analysiert“, sagt Lars Barquist. Er ist ein mit dem HIRI assoziierter Wissenschaftler und Professor an der University of Toronto in Kanada. Barquist hat die Studie, die in PLOS Biology veröffentlicht wurde, als korrespondierender Autor initiiert. Bei den untersuchten Bakterienarten handelt es sich um den Magen-Darm- und Harnwegserreger Escherichia coli, den opportunistischen Erreger Klebsiella pneumoniae, den Magen-Darm-Keim Salmonella enterica, den Hautkommensalen und opportunistischen Erreger Staphylococcus aureus sowie den Hauptverursacher der außerhalb des Krankenhauses erworbenen Lungenentzündung, Streptococcus pneumoniae. Für diese Keime liefern gängige maschinelle Lernverfahren ein übermäßig positives Bild davon, wie gut die Resistenzvorhersage funktioniert.

„Wir wollten untersuchen, wie sich die verzerrte Stichprobenauswahl auf die Leistungsfähigkeit von Machine-Learning-Tools zur Vorhersage von Resistenzen auswirkt“, so Barquist. Die Forschenden konstruierten Szenarien, in denen Resistenzen mit bakteriellen Stammbäumen verknüpft sind. Sie konnten zeigen, dass herkömmliche Ansätze zu überoptimistischen Ergebnissen führen können, die nicht verallgemeinerbar sind. „Wenn die Modelle realistischer bewertet werden, indem sichergestellt wird, dass die Trainings- und Testbakterien nicht aus derselben genetischen Familie stammen, sinkt die Genauigkeit – manchmal sogar drastisch“, bemerkt Erstautorin Yanying Yu, die im Labor von Lars Barquist promoviert hat. Diese Ergebnisse deuten darauf hin, dass Modelle, welche die evolutionären Beziehungen zwischen Bakterien außer Acht lassen, möglicherweise nicht in der Lage sind, echte Resistenzsignale zu erfassen. Dadurch wird ihre Fähigkeit eingeschränkt, genaue Vorhersagen für bisher unbekannte Abstammungslinien zu treffen. Infolgedessen ist es unwahrscheinlich, dass solche Methoden zuverlässige Anhaltspunkte für eine präzise Behandlung liefern, wenn neue pathogene Stämme auftreten.

Die Studie vermittelt einen umfassenden Eindruck vom Ausmaß dieses Problems: „Viele der bisherigen Methoden-Bewertungen waren wahrscheinlich zu optimistisch“, schlussfolgert Barquist. „Um zuverlässige Instrumente zur Vorhersage von Antibiotikaresistenzen zu entwickeln, ist es unerlässlich, die evolutionären Beziehungen der Bakterien zu berücksichtigen“, bemerkt Yu.

Die Forschungsergebnisse bieten wertvolle Ansatzpunkte für die Entwicklung verbesserter Testverfahren und Datensätze und können als Orientierung für zukünftige Modelle und Überwachungssysteme dienen. Damit ermöglichen sie neue methodische Ansätze, die die Struktur von Bakterienpopulationen berücksichtigen und somit präzisere Vorhersagen erlauben.
 

Helmholtz-Zentrum für Infektionsforschung


Originalpublikation:

Yu Y, Wheeler NE, Barquist L: Biased sampling driven by bacterial population structure confounds machine learning prediction of antimicrobial resistance, PLOS Biology (2025), DOI: 10.1371/journal.pbio.3003539, https://doi.org/10.1371/journal.pbio.3003539

weitere VBIO News
Gewebeschnitte

Wider den Funktionsverlust von kleinen Hirngefäßen

Weiterlesen
Blut-Hirn-Schranke: Menschliche aus Stammzellen abgeleitete Endothelzellen

Ein menschliches Modell der Blut-Hirn-Schranke

Weiterlesen
Die Mikrobe des Jahres 2026, Penicillium, ein Pinselschimmel, bildet charakteristische Zellketten mit Sporen am Ende. Rasterelektronenmikroskopische Aufnahme

Mikrobe des Jahres 2026: Penicillium – Pinselschimmel rettet Leben

Weiterlesen