In der Bioinformatik wird der Begriff k-mer verwendet, um eine Nukleotidsequenz einer bestimmten Länge „k“ zu beschreiben. Indem sie solche Sequenzen festlegen und zählen, können Forscher sich wiederholende, also repetitive, Sequenzen in dem Genom, welches sie gerade untersuchen, quantifizieren und entsprechenden Positionen zuordnen. Bereits 2014 benutzten Wissenschaftler des IPK in Gatersleben diesen Ansatz, um das in-silico (Computer-basierte) Werkzeug „Kmasker“ zu entwicklen. Es diente der Erkennung von Wiederholungen bei der Charakterisierung des Genoms der Gerste (Schmutzer et al., 2014).
Die Verwendung von NGS gewinnt immer weiter an Bedeutung, dennoch ist die fehlerfreie Zusammensetzung der komplexen Genome aus NGS Ergebnissen noch immer eine Herausforderung. Aus diesem Grund beschlossen die Wissenschaftler vor Kurzem, ihrer Machbarkeitsstudie neues Leben einzuhauchen und ihr Projekt zu erweitern. Angeleitet von Dr. Thomas Schmutzer, ehemals Mitglied der Arbeitsgruppe „Bioinformatik und Informationstechnologie“ des IPK, heute tätig am Institut für Agrarwissenschaften der MLU, arbeiteten Forscher der Universität in Halle, des IPK in Gatersleben, des IPB in Halle sowie von Wageningen University & Research gemeinsam an der Neukonzeptionierung und Entwicklung von „Kmasker plants“. Die Zusammenarbeit wurde von den zwei Servicezentren „GCBN“ und „CiBi“ des Deutschen Netzwerks für Bioinformatik-Infrastruktur “de.NBI” unterstützt.
„Kmasker plants“ ermöglicht die schnelle und referenzfreie Analyse von Nukleotidsequenzen, basierend auf genomweit abgeleiteten k-meren. In Erweiterung der vorherigen Version können nun auch Vergleichsstudien zwischen verschiedenen Kultursorten oder nah verwandten Arten gemacht werden. Weiterhin ermöglicht das Tool die Identifizierung von geeigneten Sequenzen für die Fluoreszenz-in-situ-Hybridisierung (FISH) sowie von sogenannten „guide RNAs“ für die CRISPR/Cas9-basierte gezielte Veränderung von Genen. Zudem wurde „Kmasker plants“ als Webservice veröffentlicht, welcher vorberechnete Indizes für Gerste, Weizen und andere ausgewählte bedeutsame Nutzpflanzen beinhaltet. Dr. Schmutzer betont, „dass dieses Werkzeug es Pflanzenforschern auf der ganzen Welt ermöglichen wird, Pflanzengenome zu testen und so, beispielsweise, interessante Repeat-freie Sequenzen zu identifizieren.“ Außerdem sei es dank der erweiterten Features möglich, Sequenzkandidatenregionen zu finden, die sich im Genom einer Art vervielfacht haben, aber in anderen Arten fehlen oder in kleineren Kopienanzahlen vorkommen. Dies ist ein häufig auftretender Effekt, welcher zur Entstehung landwirtschaftlich wichtiger phänotypischer Variationen verschiedener Kulturarten führt. Ein bedeutsames Beispiel ist das Vrn-H2 Gen, das in Wintergerste in einer einzigen Kopie vorhanden ist, während es in Sommergerste fehlt.
Der „Kmasker plants“ Webservice steht als Teil der IPK Crop Analysis Tool Suite (CATS) und somit als Service der de.NBI Service Plattform zur Verfügung. Alternativ kann auf den Quellcode via GitHub direkt zugegriffen und „Kmasker plants“ installiert werden. https://github.com/tschmutzer/kmasker
IPK
Originalpublikation:
Beier et al. (2019), Kmasker plants - a tool for assessing complex sequence space in plant species. The Plant Journal. DOI: 10.1111/tpj.14645