Mit über einer Million beschriebener Arten stellen Insekten die artenreichste Gruppe aller Lebewesen dar. Naturhistorische Sammlungen weltweit bewahren rund 500 Millionen Insektenexemplare auf, die in den vergangenen drei Jahrhunderten gesammelt wurden. An jedem dieser Präparate befinden sich Etiketten mit zentralen Informationen wie Fundort, Sammeldatum oder Sammlername. Diese Angaben sind eine unverzichtbare Grundlage für die Forschung in den bereichen Taxonomie, Evolutionsbiologie und Ökologie.
Trotz moderner Hochdurchsatzverfahren zur Digitalisierung von Sammlungsobjekten erfolgt die Übertragung dieser Etiketteninformationen bislang überwiegend manuell. Forschende des Museums für Naturkunde Berlin (MfN) haben nun gemeinsam mit Expert:innen aus der Digitalisierung und Datenwissenschaft eine neue Pipeline entwickelt, die diesen Prozess erheblich vereinfacht und beschleunigt.
Die Pipeline ELIE („Entomological Label Information Extraction“) automatisiert mehrere Schritte der Etikettenauswertung. Mithilfe von Verfahren aus der Bildverarbeitung und des maschinellen Lernens erkennt ELIE einzelne Etiketten auf Digitalbildern, richtet sie aus und unterscheidet zwischen gedruckten und handgeschriebenen Texten. Gedruckte Etiketten werden automatisch per Texterkennung ausgelesen, während handschriftliche Informationen gezielt für eine spätere manuelle Bearbeitung separiert werden. Zusätzlich fasst das System inhaltlich identische Etiketten zu Gruppen zusammen, sodass wiederkehrende Informationen nur einmal überprüft werden müssen.
„Mit ELIE reduzieren wir einen der größten Engpässe bei der Digitalisierung entomologischer Sammlungen“, sagt Margot Belot, Datenmanagerin am Museum für Naturkunde Berlin. „Die automatisierte Auswertung gedruckter Etiketten entlastet Forschende und Kurator:innen erheblich und ermöglicht es, unsere Sammlungen schneller und systematischer für die Forschung zugänglich zu machen.“
Getestet wurde die neue Pipeline unter anderem an 26.000 Etikettenbildern der rund 650.000 Insektenexemplare, die das Museum für Naturkunde Berlin zwischen 2022 und 2023 mithilfe einer Hochgeschwindigkeits-Digitalisierungsstraße der Firma Picturae digitalisiert hat. Die Auswertung zeigt, dass – abhängig vom Wiederholungsgrad der Etiketten – Informationen von bis zu fast 90 Prozent der gedruckten Etiketten automatisch extrahiert werden können. Weitere Tests mit Datensätzen aus dem Smithsonian National Museum of Natural History in Washington sowie dem Museum of Comparative Zoology der Harvard University belegen, dass ELIE auch auf bislang unbekannte Sammlungen zuverlässig anwendbar ist.
Die Ergebnisse wurden in der Fachzeitschrift Methods in Ecology and Evolution veröffentlicht. Die Forschenden sehen in ELIE einen wichtigen Baustein für die zukünftige Digitalisierung naturhistorischer Sammlungen und einen Beitrag zur besseren Nutzung dieser einzigartigen Archive der biologischen Vielfalt.
Museum für Naturkunde Berlin
Originalpublikation:
Belot, M., Tuberosa, J., Preuss, L., Svezhentseva, O., Claessen, M., Bölling, C., Schuster, F., & Léger, T. (2026). High-throughput information extraction of printed specimen labels from large-scale digitization of entomological collections using a semi-automated pipeline. Methods in Ecology and Evolution, 00, 1–15. https://doi.org/10.1111/2041-210x.70235


