News

Die Kapitäne im Datenfluss

Ziel des AGENT-Projektes ist es, ein dichtes Netzwerk kooperierender Genbanken aufzubauen, Standards zu etablieren und technische Infrastrukturen zusammenzuführen. Am Aufbau dieses Datenbank- und Web-Informationssystems ist am IPK die Arbeitsgruppe „Bioinformatik und Informationstechnologie“ maßgeblich beteiligt.

IPK / Christian Schafmeister
Die Genbank des IPK Leibniz-Institutes umfasst mehr als 150.000 Muster.

Weltweit werden 7,4 Millionen Muster in mehr als 1.750 Genbanken eingelagert und erhalten. Die ersten Genbanken zur Erhaltung der genetischen Vielfalt von Nutzpflanzen für künftige Generationen wurden bereits Anfang des 20. Jahrhunderts eingerichtet. Die Bundeszentrale Ex-situ-Genbank am IPK Leibniz-Institut, die u.a. auf die Sammlung des im Jahre 1943 gegründeten Kaiser-Wilhelm-Instituts für Kulturpflanzenforschung zurückzuführen ist, zählt international zu den zehn größten Genbanken für Kulturpflanzen. In ihrem Bestand beherbergen die Mitarbeitenden des IPK heute mehr als 150.000 Muster von insgesamt knapp 3.000 Arten. Die meisten davon werden bei minus 18 Grad Celsius in Weckgläsern aufbewahrt. Doch das ist nur die eine Seite. Die Muster liegen grundsätzlich auch in digitaler Form vor.

Bei der Digitalisierung der Genbanken im globalen Maßstab gibt es aber ein zentrales Problem: Die Verfahren zur Datenerhebung, das heißt deren Umfang sowie die zugrunde liegenden Standards, aber auch die Datenbanktechnologien in den einzelnen Ländern sind nicht definiert und unterscheiden sich stark. Das tatsächliche Potenzial der gespeicherten Ressourcen ist daher für Züchtung und Forschung bisher nur eingeschränkt zugänglich. Zum Beispiel liegen bislang kaum genotypische Daten vor, die idealerweise systematisch als Teil der Dokumentation der Genbankmuster verfügbar wären.

An diesen Punkten setzt das EU-Forschungsprojekt AGENT an, das im Mai 2020 mit einer „Kick-off“-Veranstaltung startete. Ziel ist, das Potenzial des in zahlreichen Genbanken rund um den Globus eingelagerten biologischen Materials durch Einführung internationaler Standards und in einer offenen digitalen Infrastruktur für die Verwaltung pflanzengenetischer Ressourcen zu erschließen. „Mit einer besseren Integration des genetischen Materials in moderne Züchtungsprogramme versucht das Projekt, einen wichtigen Beitrag zur globalen Ernährungssicherheit, zur Erhöhung / Stabilisierung der Agro-Biodiversität und zur verbesserten Klima-Anpassung der wichtigsten Feldfrüchte beizutragen“, sagt Prof. Dr. Nils Stein, Leiter der Arbeitsgruppe „Genomik Genetischer Ressourcen“ am IPK und Koordinator des EU-Projektes, das eine Laufzeit von fünf Jahren hat und von der EU mit rund sieben Millionen Euro gefördert wird.

Das IPK ist in dem Projekt unter anderem maßgeblich an den beiden Arbeitspaketen „Datenfluss und Datenstandard“ und „Technische Infrastruktur“ beteiligt. „Das Ziel ist es, einen standardisierten Datenerhebungsprozess für phänotypische und genotypische Daten aus den beteiligten Genbanken zu etablieren“, erklärt Dr. Matthias Lange, Mitarbeiter der Arbeitsgruppe „Bioinformatik und Informationstechnologie“. Dabei wird auf den bestehenden Europäischen Suchkatalog für pflanzengenetische Ressourcen (EURISCO) als Technologieplattform zurückgegriffen, der bereits seit 2014 vom IPK betrieben wird. EURISCO bietet Informationen zu mehr als zwei Millionen Mustern (Akzessionen) von Kulturpflanzen und ihren wilden Verwandten, die von etwa 400 Instituten ex-situ erhalten werden.

„EURISCO dient als Integrationspunkt, dort sollen in Zukunft alle Informationen zusammengeführt werden.“ Zunächst wird von EURISCO eine Art Kopie erstellt, die mit weiteren Daten und Recherche- und Visualisierungsmöglichkeiten Stück für Stück angereichert wird. So sollen agronomisch interessante Merkmale wie Pflanzenhöhe, Blütezeitpunkt und 1.000-Korn-Gewicht systematisch erfasst werden. Weiterhin werden diese im Zusammenhang mit der jeweiligen Umwelt des Standortes - also etwa dortigen Boden- oder Wetterdaten - als auch mit möglichen Krankheitsmerkmalen in Bezug gesetzt. Auch diese werden systematisch zugänglich gemacht.

„Unser Anspruch ist es, das bestehende System hinsichtlich abgestimmter Datenformate, deren nachhaltiger Zugänglichkeit und Visualisierung zu verbessern und auf eine neue Qualitätsstufe zu heben“, betont Dr. Matthias Lange. Der Kerndatensatz der Genbanken soll dafür erweitert, nach einem Regelwerk kuriert und danach als homogener Datenfluss von allen AGENT-Partner gespeist werden. „Unser Vorteil ist, dass wir mit EURISCO bereits die zentrale technische Infrastruktur am IPK haben, auf deren Verwendung sich alle Partner geeinigt haben. Dies sind ideale Voraussetzungen, um ein zentrales Informationssystem für pflanzengenetische Daten über alle europäischen Genbanken aufzubauen.“ Dazu gehört auch die Integration von genotypischen Daten, also dem sogenannten genetischen Fingerabdruck von Genbankmaterial. Diese können dazu dienen, um über sogenannte molekulare Datenanfragen die Recherche in genetischen Profilen von Pflanzenmustern in Genbanken zu ermöglichen.

Die zentralen Herausforderungen bestehen darin, die digitalen Prozesse zu homogenisieren und zugleich die technische Infrastruktur zu verzahnen. Beim ersten Punkt geht es vor allem um den Datenfluss beim Proben- und Materialmanagement, beim zweiten Punkt geht es derweil um die Verzahnung der bestehenden Datenbanken, Websysteme und Suchportale der AGENT-Partner. „AGENT soll also eine Art Schmelztiegel der bestehenden Systeme werden“, erklärt Dr. Matthias Lange. Ziel ist es auch, Doppelungen von Akzessionen in den einzelnen Genbanken aufzuspüren. „Hier ist unser Ziel, die Bestände digital zu einer virtuell vereinigten und harmonisierten Dokumentation von Genbankmustern zusammenzuführen“.

Der Bedarf ist gewaltig. „Seit der Einrichtung von Genbanken wurden große Mengen unschätzbar wertvoller genetischer Ressourcen zwischen Institutionen auf der ganzen Welt ausgetauscht, was zu Redundanzen zwischen den Sammlungen führte“, erklärt Projektkoordinator Prof. Dr. Nils Stein. „Im Rahmen von AGENT wollen wir eine Bestandsaufnahme der derzeit in den regionalen Genbanken der EU verfügbaren Ressourcen vornehmen und sicherstellen, dass künftig alle Länder diese genetischen Ressourcen in komplementärer Weise nutzen können.“

Zentrale Abläufe und Arbeiten des Projektes sind bereits voll im Gange: es wird Material für die Genotypisierung im Feld und in Gewächshäusern herangezogen und genotypisiert. Desweiteren führen die beteiligten Genbankpartner Feldversuche zur Erfassung von Phänotypen (allgemeine agronomische Merkmale, Krankheitsresistenz, Klimaverträglichkeit) durch und sie digitalisieren historische Phänotypinformationen.

Die Bioinformatik und die Datenbankpartner sind unterdessen intensiv damit befasst, Datenflüsse, Datenintegrationsstrukturen und Analysewerkzeuge zu etablieren und verfügbar zu machen. Dabei werden Kontakte zu assoziierten Evaluierungsnetzwerken geknüpft, die in den kommenden Jahren AGENT-Material im Feld auf seine Nutzbarkeit im Pre-Breeding hin testen.

Im Fokus des Projektes stehen zunächst Weizen und Gerste. Als Grundnahrungsmittelpflanzen sind beide Getreide von globaler Bedeutung. Hinzu kommt, dass bereits vor Beginn des Projektes umfangreiche Datensätze für diese Pflanzenarten verfügbar sind. „Die im Zuge von AGENT entwickelten Prozesse zum Datenmanagement könnten künftig aber auch auf andere Nutzpflanzensammlungen angewendet werden.“

Eine der wirklichen Innovationen des Projektes besteht darin, dass Genbanken, auf der Grundlage eines Bewertungsnetzes, in den verschiedenen europäischen Klimazonen phänotypische Daten für einen Teil ihrer genetischen Ressourcen sammeln werden. „Diese Informationen werden verwendet, um phänotypische Werte für die größeren Sammlungen vorherzusagen, indem Informationen auf der Grundlage der zuvor gesammelten genomischen Fingerabdrücke integriert werden“, sagt Prof. Dr. Nils Stein.

Durch die Breite des AGENT-Konsortiums ist es gelungen, auch angrenzende Datenökosysteme, Infrastrukturen und Standardisierungsinitiativen einzubeziehen. Das betrifft etwa gemeinsame Arbeiten mit dem Europäischen Netzwerk für Bioinformatikinfrastrukturen - ELIXIR, das globale Netzwerk zur offenen Verbreitung von pflanzengenetischen Ressourcen - DivSeek oder auch das Europäische Evaluierungsnetzwerk für pflanzengenetische Ressourcen für Ernährung und Landwirtschaft - EVA.  Positive Effekte erhofft sich IPK-Wissenschaftler Lange aber nicht nur für die Zusammenarbeit der einzelnen Genbanken, sondern auch für das IPK selbst. „AGENT ist ein wichtiger Impuls, der hier am Institut wie ein Treiber wirkt und Kräfte freisetzt, um die digitale Transformation von Prozessen zu optimieren und einen weiteren Schritt auf dem Weg zu einem bio-digitalen Ressourcenzentrum zu machen.“  Angedacht ist aber auch eine Ausstrahlung des Projekts über Europa hinaus. Mittel- bis langfristig ist es ein wichtiges Ziel, weitere Genbanken rund um den Globus für die durch AGENT vorgezeichneten Bemühungen zur Standardisierung und Digitalisierung zu gewinnen und in ein internationales Kooperationsnetzwerk einzubinden.

Mehr Infos zu AGENT und zu EURISCO:

https://agent-project.eu/

https://eurisco.ipk-gatersleben.de/