Themen für Studierende

Abschlussarbeiten (Master & Bachelor) in der Forschungsgruppe Bioinformatik und Informationstechnologie (BIT)

Die Arbeitsgruppe Bioinformatik und Informationstechnologie trägt auf bioinformatischer Ebene zu den IPK-Forschungsschwerpunkten "Erschließungskonzepte für Pflanzengenetische Ressourcen" und „Genomdiversität und Evolution“ bei. Konkreter Schwerpunkt der Arbeiten ist das Forschungsdatenmanagement, das 1. die Implementierung von integrierten biologischen Informationssystemen/Data Warehouses zur Durchführung von In-silico-Analysen, 2. die Entwicklung von Systemen zum Information Retrieval und 3. die Bereitstellung von Bioinformatikwerkzeugen umfasst. Weitere Informationen sind auf der Webseite der Arbeitsgruppe zu finden:

https://www.ipk-gatersleben.de/forschung/zuechtungsforschung/bioinformatik-und-informationstechnologie

In diesem Rahmen bietet die Arbeitsgruppe BIT u.a. folgende Themenfelder für Abschlussarbeiten für Bachelor oder Masterstudiengänge im Bereich Bioinformatik, Informatik und verwandte Studiengänge an. Die konkreten Themen werden gemeinsam mit den Kandidat*innen und den Betreuer*innen an der Hochschule ausgearbeitet, um die jeweiligen Interessen der Kandidat*innen einzubeziehen.

Des Weiteren bieten wir Ihnen:

  • Unterstützung durch und Zusammenarbeit mit kompetenten Kolleg*innen
  • Vergütung als studentische bzw. wissenschaftliche Hilfskraft befristet für bis zu 6 Monate.
  • einen Arbeitsplatz am Standort Gatersleben und Unterstützung bei der Suche nach einer Unterkunft

 

Unsere Projekte:

 

Implementierung interaktiver Datenanalysefunktionen für die Populationsgenetik in den Browser für genomische Vielfalt "DivBrowse"

DivBrowse (https://divbrowse.ipk-gatersleben.de) ist eine Webanwendung, die von der Arbeitsgruppe BIT entwickelt wurde, um einen schnellen, unkomplizierten und niederschwelligen Zugang zu genotypischen Diversitätsdaten zu ermöglichen, die in VCF-Dateien gespeichert sind. Sie ermöglicht visuelle Analysen und explorative Datenanalysen für genotypische Variantenmatrizen bis zu einer Größe von mehreren hundert Millionen Varianten und mehreren tausend Proben. Die GUI ist mit JavaScript, HTML und CSS implementiert und kommuniziert über eine REST-API mit der Serverkomponente, die in Python unter Verwendung etablierter Pakete wie Flask, Numpy, Pandas und Scikit-learn implementiert ist.

Ein mögliches Thema einer Masterarbeit könnte die Erweiterung von DivBrowse um neue interaktive Datenanalysefunktionen sein, einschließlich der serverseitigen Implementierung häufig verwendeter bioinformatischer Algorithmen mit Python und der clientseitigen Visualisierung der Berechnungsergebnisse mit HTML und JavaScript. Dies könnte z.B. einer der folgenden bioinformatischen Algorithmen sein:

  • Ableitung phylogenetischer Bäume mit Hilfe des UPGMA-Algorithmus und dessen Visualisierung mittels JavaScript und HTML
  • genetisches Clustering mit dem HDBSCAN-Algorithmus
  • Implementierung von populationsgenetischen Algorithmen und Tests wie Fixation Index (Fst) oder Tajima's D
  • jeder andere Algorithmus im Zusammenhang mit SNP-/Variantenmatrizen, der Ihren Interessen entspricht oder den Sie gerne integrieren möchten

Bei Interesse und weiteren Informationen zu diesem Thema ist Ihr direkter Kontakt Patrick König koenig[at]ipk-gatersleben.de

 

Datenbank für Phänotypisierungsressourcen oder Workflow zur Datenverwaltung für BluVision

Wir haben das BluVision Bildanalyse-Framework (Python-basiert) zur Untersuchung von Pflanzen-Pathogen-Interaktionen auf mikro- und makroskopischer Ebene entwickelt. Das System deckt den gesamten Lebenszyklus des wichtigen Gersten- und Weizenpathogens Mehltau ab, indem es Bilddaten aus drei wichtigen Entwicklungsstadien sammelt und analysiert. BluVision kann auch auf andere Pflanzen-Pathogen-Interaktionen angewendet werden.

https://github.com/snowformatics/GSOC/wiki/BluVision-Overview

Macrobot ist eine Bildanalysesoftware zur Untersuchung von Pflanzen-Pathogen-Interaktionen auf makroskopischer Ebene. Das Hardwaresystem basiert auf einer maßgeschneiderten vollautomatischen multispektralen 2D-Bildstation.

https://www.youtube.com/watch?v=SmoKQ_uMp34&t=56s

Beide Systeme laufen seit Jahren erfolgreich und wir haben Tausende von Gersten- und Weizengenotypen in großen Screenings (z.B. Genbank 2.0) phänotypisiert. Wir können zwei Themen anbieten, die helfen, den Rahmen zu erweitern:

Thema 1) Erstellung einer grafischen Benutzeroberfläche (Apex?), die ein einfaches Hochladen der Metadaten mit direkter Verbindung zu unserem Laborinformationsmanagementsystem (LIMS) ermöglicht. Außerdem soll die Datenverwaltung der analysierten Daten (Bilder und CSV-Dateien) automatisiert werden, die derzeit manuell erfolgt und optimiert werden muss, um die großen Datenmengen zu bewältigen.

Thema 2) In den zurückliegenden Jahren haben wir eine große Anzahl von Phänotypisierungsbildern mit verschiedenen Krankheitserregern in unterschiedlichen Stadien erstellt, einschließlich annotierter Daten (klassifizierte Objekte und Polygone). https://github.com/snowformatics/BluVisionMicro

Wir möchten eine Datenbank für Phänotypisierungsressourcen entwickeln, die diese Bilder einschließlich der Annotationen speichert und den Benutzer*innen ermöglicht, benutzerdefinierte Datensätze herunterzuladen. Annotierte Datensätze, insbesondere in der Pflanzenwissenschaft, wo die Anzahl der Proben in der Regel gering ist, wären wertvoll für den Aufbau von Transfer-Learning-Modellen für Deep Neural Network, um die Vorhersagegenauigkeit für kleine Datensätze zu verbessern. Ein Konzeptnachweis und ein Vergleich mit ImageNet-basierten Transfer-Learning-Modellen wäre ein Teil dieses Themas.

Bei Interesse und weiteren Informationen zu diesem Thema ist Ihr direkter Kontakt Stefanie Lück lueck[at]ipk-gatersleben.de

 

Entwurf und Implementierung von generischen RESTful-APIs für Omics-Datenbanken

Der thematische Rahmen für Abschlussarbeiten ist der Entwurf und die Implementierung von RESTful Services, um institutionelle Datenbanken für einen selbstbeschreibenden Datenzugriff zu öffnen. Eine Referenzimplementierung sollte in einer JVM-basierten Programmiersprache, vorzugsweise Java oder Groovy, realisiert werden. Der Anwendungsfall konzentriert sich auf den Zugriff auf API-Ebene sowie den containerisierten Export von Genotypisierungs- und Phänotypisierungsdatensätzen unter Verwendung des ISA-Konzepts. ISA ist ein generisches Konzept für den domänenunabhängigen und selbstbeschreibenden Datenaustausch von Untersuchungen (Projektkontext), Studien (Forschungseinheit) und Assays (Messung) von Dateneinheiten. Es unterstützt die Serialisierung von Daten als TSV-Dateien, JSON oder RDF.

Bei Interesse und weiteren Informationen zu diesem Thema ist Ihr direkter Kontakt Daniel Arend arendd[at]ipk-gatersleben.de

 

Analyse und Erprobung von Infrastrukturen für das Zitieren von Daten und Anreizsystemen

In den zurückliegenden Jahren hat sich die Kultur der gemeinsamen Nutzung von Forschungsdaten stark verändert. Forschungsdaten sollen entsprechend den FAIR-Prinzipien auffindbar, zugänglich, interoperabel und wiederverwendbar sein. Neue Initiativen und Arbeitsgruppen wurden gegründet, um moderne Lösungen für stabile Datenverwaltungs- und Veröffentlichungsabläufe zu erarbeiten, neue Infrastrukturen wurden geschaffen, um die formulierten Richtlinien zu erfüllen und neue Zeitschriften wurden gegründet, die sich auf die Veröffentlichung von Forschungsdaten als wichtiges wissenschaftliches Gut konzentrieren. Dennoch gibt es in dieser neuen Praxis der Datenveröffentlichung noch einige Herausforderungen, z. B. die Frage, wie Datenveröffentlichungen und Zitate zusammengeführt werden können, so dass die Datenproduzent*innen auch die Anerkennung für die Veröffentlichung ihrer Daten erhalten, wie es bei den Autor*innen einer Forschungspublikation in einer Zeitschrift üblich ist.

Bei Interesse und weiteren Informationen zu diesem Thema ist Ihr direkter Kontakt Daniel Arend arendd[at]ipk-gatersleben.de

 

Implementierung eines Portals zur Exploration von Pflanzenphänotypisierungsdaten

Vor dem Hintergrund der weltweit steigenden Nachfrage nach Lebens- und Futtermitteln ist die Notwendigkeit, die Ernteerträge zu steigern und effizientere sowie besser angepasste Nutzpflanzen zu identifizieren, eine wichtige Triebkraft für Hochdurchsatz-Phänotypisierungsstudien, die aus umfangreichen und datenintensiven Experimenten bestehen. Das IPK betreibt mehrere hochentwickelte Plattformen zur Phänotypisierung von Pflanzen, darunter eine der weltweit größten Pflanzenkulturhallen, die eine große Menge an Pflanzenbildern erzeugt. Die gewonnenen Daten werden in die Datenbankinfrastruktur des IPK eingespeist.

Das Hauptaugenmerk der Abschlussarbeit sollte auf der Implementierung eines geeigneten Workflows liegen, um Experimente aus Feld und Gewächshaus in ein Data Warehouse zu integrieren und zu veröffentlichen. Eine Webanwendung soll die Recherche und Erkundung von Phänotypisierungsdaten unter Berücksichtigung des Datenschutzes unterstützen.

Bei Interesse und weiteren Informationen zu diesem Thema ist Ihr direkter Kontakt Daniel Arend arendd[at]ipk-gatersleben.de

 

Analyse der Nachnutzung digitaler Sequenzinformationen (DSI) und ihrer Sekundärnutzung in Literatur, Patenten und Datenbanken

Das Gesamtziel besteht darin, die Nutzung und Wiederverwendung von Nukleotidsequenzdaten in wissenschaftlichen Datenbanken, wissenschaftlichen Veröffentlichungen und Patentdatenbanken zu quantifizieren, visuell darzustellen und darüber zu dokumentieren. Als Erweiterung des WiLDSI-Portals (https://wildsi.ipk-gatersleben.de) wird dies als Faktenbasis für Auswirkungen in der aktuellen globalen Diskussion um Vorteilsausgleichsmodelle für genetische Ressourcen dienen.

Analysen der nachgelagerten DSI-Nutzung werden eine bessere Integration und einen besseren Einblick in die Bedeutung dieser DSI-Nutzungs- und Wiederverwendungsmuster für Wissenschaftler*innen und politische Entscheidungsträger*innen ermöglichen. Eine mehrdimensionale Datenquantifizierung in interaktiver Form könnte Informationen in einem bestimmten Interessenkontext transparent machen, wie z.B. geographische Verteilung der Nutzung, Einreichungszeitraum, taxonomische Gruppen oder Forschungsthemen in einer Publikation.

Grundlage der Arbeit wird die Nutzung von APIs zu internationalen Datenbanken und Textmining-Lösungen sein, zu denen das IPK im Rahmen des DSI-Wissenschaftsnetzwerks https://www.dsiscientificnetwork.org/ Zugang hat.

Bei Interesse und weiteren Informationen zu diesem Thema ist Ihr direkter Kontakt Matthias Lange lange[at]ipk-gatersleben.de