Projektmanagement im Softwarebereich - Advanced Bioinformatics Pipelines
In diesem Praktikum werden Workflows für die Analyse von biologischen Daten konzeptioniert und implementiert.
Die Teilnehmenden werden eine umfassende Analyse Pipeline nach wissenschaftlichen Standards implementieren um damit aktuelle wissenschaftliche Projekte in unserer Gruppe zu unterstützen. Sie lernen dabei die Arbeit des Bioinformatikers im Kontext eines Forschungsprojektes kennen, treten (gemeinsam mit uns) in Dialog und Diskussion mit den Projektpartnern um Ergebnisse von hoher wissenschaftlicher Qualität zu erzeugen.
Die Verwendung des Workflow Frameworks Snakemake erlaubt es portable, stabile sowie skalierbare und reproduzierbare Analysen zu implementieren. Ziel ist es dabei stets, den Workflow soweit generisch und konfigurierbar zu gestalten, dass er leicht für weitere, ähnliche Projekte verwendet (ggf. mit kleinen Anpassungen) werden kann. Durch die nahe Verwandtschaft zu Python ist Snakemake darüber hinaus leicht erlernbar und gleichzeitig sehr flexibel erweiterbar durch eigene Python Skripte.
Neben der reinen Programmierung der Workflows werden die Teilnehmenden im Rahmen des Projekts auch umfassende Kenntnisse über bestehende state-of-the-art Bioinformatik-Tools erlangen, welche für die einzelnen (ggf. sehr vielen) Schritte in einer umfassenden Analyse benötigt werden. Sie erarbeiten sich damit ein solides Fundament, welches für eine berufliche Karriere im Bereich der angewandten Bioinformatik, z.B. in einer Core Facility, von großem Vorteil ist. Gleichzeitig werden sie (nach Bedarf) auch an einigen Stellen bestehende Tools durch eigene Skripte oder Programme ergänzen. Die Wahl der Programmiersprache steht den Teilnehmenden dabei frei.
Gute Kenntnisse in einer Skriptsprache (insb. Python) sind von Vorteil!
Projektvorstellung für das Workflows Softwarepraktikum:
Es wird eine Projektvorstellung geben, die auf den Inhalt und Organisatorisches genauer eingeht und evtl. als Entscheidungshilfe bei der Projektwahl dienen kann. Alle Studierenden sind herzlich dazu eingeladen. Die Anwesenheit ist optional.
Datum: TBA
Type | Softwarepraktikum |
---|---|
Instructor | Sandro Andreotti |
Registration Mode | Die Praktikumsplätze werden über ein besonderes Anmeldeverfahren vergeben. Beachten Sie dazu die Hinweise auf der Webseite des Studienbüros zum Softwarepraktikum. |
Warum Pipelines?
Die Analyse biologischer Massendaten wie Next Generation Sequencing- oder Massenspektrometriedaten erfordern in den meisten Fällen eine Vielzahl einzelner Teilanalyseschritte. Für die einzelnen Schritte existieren meist ein oder mehrere Tools mit ihren Vor- und Nachteilen. Für eine zuverlässige und reproduzierbare Analyse ist es nötig, die einzelnen Tools zu einem kompletten Analyseworkflow zu verketten. Diverse generische Workflow-Engines wie KNIME, Galaxy, Snakemake oder Nextflow bilden sehr mächtige Werkzeuge für eine effiziente und nutzerfreundliche Entwicklung komplexer Analysen. Darüber hinaus bieten Sie teilweise auch eine direkte Schnittstelle für die Ausführung der Workflows auf einem Compute-Cluster oder in der Cloud, was insbesondere für rechenintensive Analysen sehr interessant ist. Des Weiteren bieten sie Mechanismen zur Modularisierung: Viele Teil-Workflows finden Anwendung in unterschiedlichen Analysen, wie beispielsweise die Quality Control, welche zu Beginn jeder Analyse erfolgen sollte.
Der Umgang mit Workflow Systemen ist unverzichtbar für jeden Bioinformatiker, der an der Analyse echter Daten beteiligt ist. In diesem Praktikum werden Sie mit Snakemake ein solches System genau kennen (und bestimmt lieben) lernen, die Sie bei Ihrer zukünftigen Arbeit unterstützen werden. Gleichzeitig werden Sie sich mit aktuellen Fragestellungen und Datenanalysen für biologische Daten (NGS) beschäftigen und einen guten Überblick über existierende Bioinformatik-Tools und ihrer Vor- und Nachteile erlangen.
Organisatorisches
Zu den unten genannten Terminen (Tutorialwoche und Vorträge) gibt es eine Anwesenheitspflicht. Die Ausarbeitung des Projektplans und die Bearbeitung der Projekte erfolgt dann selbständig in freier Arbeit mit Unterstützung des Betreuers.
Während dieser Zeit sollten sich die Teilnehmer regelmäßig/wöchentlich mit ihrem Betreuer treffen.
Voraussetzungen
-
Kenntnisse in einer Skriptsprache (z.B. Python)
-
R Grundwissen (ggplot2) empfehlenswert
Vorläufiger(!) Zeitplan (kann nach Bedarf in Absprache angepasst werden)
Datum | Termin/Dauer | Ort | Inhalt |
tba. | tba. | tba. | Projektvorstellung als Entscheidungshilfe |
Mitte Februar - Anfang/ Mitte März(nach Vereinbarung) |
tba. | tba. | Vorbesprechung |
eine Woche (nach Vereinbarung). | täglich | tba. | Seminar (Snakemake,Git, NGS-Tools,...) |
1 Woche | ... | ... | Literaturrecherche zur Auswahl der zu implementierenden Analyseworkflows und Ausarbeitung des Projektplans (selbstständig). Mindestens ein Zwischentreffen, ansonsten nach Bedarf |
tba. | 20 Minuten | tba. | Vorstellung der Projektpläne |
5 Wochen | Vollzeit | tba. |
Eigenständige Bearbeitung der Projekte. Wöchentliche (gerne auch häufiger) Treffen begleitend zur selbstständigen Arbeit und Anfertigung des Berichts. |
tba. | 20 Minuten | tba. | Vorstellung der Ergebnisse |
Ressourcen
Projektvorstellung
- Folien(2024)
Snakemake