Projektmanagement im Softwarebereich - Workflows
In diesem Praktikum werden Workflows für die Analyse von biologischen Daten konzeptioniert und implementiert. Die Teilnehmer werden dabei verschiedene Workflowsysteme (KNIME, Galaxy, Snakemake) kennenlernen und verwenden. Die Teilnehmer werden dabei anhand aktueller Literatur ihre Workflows eigenständig erarbeiten, testen und verfeinern. Dabei werden sowohl Kenntnisse im Rahmen der Workflow Programmierung als auch ein umfangreiches Wissen über existierende Bioinformatik-Software erlangt.
Gute Kenntnisse in Skriptsprachen (Python) sowie R sind Voraussetzung
(19404313)
Type | Softwarepraktikum |
---|---|
Instructor | Sandro Andreotti, Chris Bielow |
Registration Mode | Die Praktikumsplätze werden über ein besonderes Anmeldeverfahren vergeben. Beachten Sie dazu die Hinweise auf der Webseite des Studienbüros zum Softwarepraktikum. |
Allgemein
Die Analyse biologischer Massendaten wie Next Generation Sequencing- oder Massenspektrometriedaten erfordern in den meisten Fällen eine Vielzahl einzelner Teilanalyseschritte. Für die einzelnen Schritte existieren meist ein oder mehrere Tools mit ihren Vor- und Nachteilen. Für eine zuverlässige und reproduzierbare Analyse ist es nötig, die einzelnen Tools zu einem kompletten Analyseworkflow zu verketten. Diverse generische Workflow-Engines wie KNIME, Galaxy, Snakemake oder Nextflow bilden sehr mächtige Werkzeuge für eine effiziente und nutzerfreundliche Entwicklung komplexer Analysen. Darüber hinaus bieten Sie teilweise auch eine direkte Schnittstelle für die Ausführung der Workflows auf einem Compute-Cluster oder in der Cloud, was insbesondere für rechenintensive Analysen sehr interessant ist. Desweiteren bieten sie Mechanismen zur Modularisierung: Viele Teil-Workflows finden Anwendung in unterschiedlichen Analysen, wie beispielsweise die Quality Control, welche zu Beginn jeder Analyse erfolgen sollte.
Der Umgang mit Workflow Systemen ist unverzichtbar für jeden Bioinformatiker, der an der Analyse echter Daten beteiligt ist. In diesem Praktikum werden Sie mit Snakemake und KNIME zwei solcher Systeme genau kennen (und bestimmt lieben) lernen, die Sie bei ihrere zukünftigen Arbeit unterstützen werden. Gleichzeitig werden Sie sich mit aktuellen Fragestellungen und Datenanalysen für biologische Daten (NGS) beschäftigen und einen guten Überblick über existierende Bioinformatik-Tools und ihrer Vor- und Nachteile erlangen.
Im Rahmen des Praktikums werden Sie state-of-the-art Workflows unter Verwendung der aktuell besten Tools implementieren und, wo nötig, durch selbst entwickelte Programme/Skripte (beliebige Sprache ihrer Wahl) erweitern und verbessern.
Organisatorisches
Zu den unten genannten Terminen (Tutorialwoche und Vorträge) gibt es eine Anwesenheitspflicht. Die Ausarbeitung des Projektplans und die Bearbeitung der Projekte erfolgt dann selbständig in freier Arbeit mit Unterstützung des Betreuers.
Während dieser Zeit sollten sich die Teilnehmer regelmäßig/wöchentlich mit ihrem Betreuer treffen.
Voraussetzungen
-
Kenntnisse in einer Skriptsprache (z.B. Python)
-
R Grundwissen (ggplot2) empfehlenswert
-
Mindestens ein Laptop pro Gruppe (max 2 Studenten) mit Linux
Vorläufiger(!) Zeitplan
Datum | Termin/Dauer | Ort | Inhalt |
1.3. | 10 -12 | T9 / 053 | Vorbesprechung |
19.3. - 23.3. | 10 - 14 | T9 / 046 | Tutorials (KNIME, Snakemake) |
... | ... | ... | Literaturrecherche zur Auswahl der zu implementierenden Analyseworkflows und Ausarbeitung des Projektplans (selbstständig). Mindestens ein Zwischentreffen, ansonsten nach Bedarf |
4.4. | 10 - 12 | T9 / 051 | Vorstellung der Projektpläne |
13.4. - 11.5. | Freitags 10 - 12 |
tbd. |
Wöchentliche Treffen begleitend zur selbstständigen Arbeit und Anfertigung des Berichts |
17.5. | 10 - 14 | tbd. | Vorstellung der Ergebnisse |
Ressourcen
Vorstellung
Vorstellung des Praktikums als PDF oder PPT
KNIME
Snakemake