Springe direkt zu Inhalt

Projektmanagement im Softwarebereich - Workflows

In diesem Praktikum werden Workflows für die Analyse von biologischen Daten konzeptioniert und implementiert.

Die Teilnehmer werden eine umfassende Analyse Pipeline nach wissenschaftlichen Standards implementieren um damit aktuelle wissenschafliche Projekte in unserer Gruppe zu unterstützen. Sie lernen dabei die Arbeit des Bioinformatikers im Kontext eines Forschungsprojektes kennen, treten (gemeinsam mit uns) in Dialog und Diskussion mit den Projektpartnern um Ergebnisse von hoher wissenschaftlicher Qualität zu erzeugen.

Die Verwendung des Workflow Frameworks Snakemake erlaubt es portable, stabile sowie skalierbare und reproduzierbare Analysen zu implementieren. Ziel ist es dabei stets, den Workflow soweit generisch und konfigurierbar zu gestalten, dass er leicht für weitere, ähnliche Projekte verwendet (ggf. mit kleinen Anpassungen) werden kann. Durch die nahe Verwandschaft zu Python ist Snakemake darüber hinaus leicht erlernbar und gleichzeitig sehr flexibel erweiterbar durch eigene Python Skripte.

Neben der reinen Programmierung der Workflows werden die Teilnehmer im Rahmen des Projekts auch umfassende Kenntnisse über bestehende state-of-the-art Bioinformatik-Tools erlangen, welche für die einzelnen (ggf. sehr vielen) Schritte in einer umfassenden Analyse benötigt werden. Sie erlangen dabei ein solides Fundament, welches für eine berufliche Karriere im Bereich der angewandten Bioinformatik, z.B. in einer Core Facility, von großem Vorteil ist. Gleichzeitig werden sie (nach Bedarf) auch an einigen Stellen bestehende Tools durch eigene Skripte oder Programme ergänzen. Die Wahl der Programmiersprache steht den Teilnehmern dabei frei.

Gute Kenntnisse in einer Skriptsprache (insb. Python) sind von Vorteil!

Projektvorstellung für das Workflows Softwarepraktikum:

Es wird eine Projektvorstellung geben (Folien), die auf den Inhalt und Organisatorisches genauer eingeht und evtl. als Entscheidungshilfe bei der Projektwahl dienen kann. Alle Studierenden sind herzlich dazu eingeladen. Die Anwesenheit ist optional.

Friday, January 22, 2021

10:30 am  |  (UTC+01:00) Amsterdam, Berlin, Bern, Rome, Stockholm, Vienna  |  2 hrs 
https://fu-berlin.webex.com/fu-berlin-en/j.php?MTID=m7b164a88d038f8375f54618661b52c9f

Zuvor wird um 10:15 unter gleicher Adresse, das SWP OpenMS vorgestellt.

(19404313)

TypeSoftwarepraktikum
InstructorSandro Andreotti
Registration Mode

Die Praktikumsplätze werden über ein besonderes Anmeldeverfahren vergeben. Beachten Sie dazu die Hinweise auf der Webseite des Studienbüros zum Softwarepraktikum.

Warum Workflows?

Die Analyse biologischer Massendaten wie Next Generation Sequencing- oder Massenspektrometriedaten erfordern in den meisten Fällen eine Vielzahl einzelner Teilanalyseschritte. Für die einzelnen Schritte existieren meist ein oder mehrere Tools mit ihren Vor- und Nachteilen. Für eine zuverlässige und reproduzierbare Analyse ist es nötig, die einzelnen Tools zu einem kompletten Analyseworkflow zu verketten. Diverse generische Workflow-Engines wie KNIME, Galaxy, Snakemake oder Nextflow bilden sehr mächtige Werkzeuge für eine effiziente und nutzerfreundliche Entwicklung komplexer Analysen. Darüber hinaus bieten Sie teilweise auch eine direkte Schnittstelle für die Ausführung der Workflows auf einem Compute-Cluster oder in der Cloud, was insbesondere für rechenintensive Analysen sehr interessant ist. Desweiteren bieten sie Mechanismen zur Modularisierung: Viele Teil-Workflows finden Anwendung in unterschiedlichen Analysen, wie beispielsweise die Quality Control, welche zu Beginn jeder Analyse erfolgen sollte.

Der Umgang mit Workflow Systemen ist unverzichtbar für jeden Bioinformatiker, der an der Analyse echter Daten beteiligt ist. In diesem Praktikum werden Sie mit Snakemake ein solches System genau kennen (und bestimmt lieben) lernen, die Sie bei ihrere zukünftigen Arbeit unterstützen werden. Gleichzeitig werden Sie sich mit aktuellen Fragestellungen und Datenanalysen für biologische Daten (NGS) beschäftigen und einen guten Überblick über existierende Bioinformatik-Tools und ihrer Vor- und Nachteile erlangen.

Organisatorisches

Zu den unten genannten Terminen (Tutorialwoche und Vorträge) gibt es eine Anwesenheitspflicht. Die Ausarbeitung des Projektplans und die Bearbeitung der Projekte erfolgt dann selbständig in freier Arbeit mit Unterstützung des Betreuers.

Während dieser Zeit sollten sich die Teilnehmer regelmäßig/wöchentlich mit ihrem Betreuer treffen.

Voraussetzungen

  • Kenntnisse in einer Skriptsprache (z.B. Python) 

  • R Grundwissen (ggplot2) empfehlenswert

Vorläufiger(!) Zeitplan (kann nach Bedarf in Absprache angepasst werden)

Datum Termin/Dauer Ort Inhalt

22. Januar

10:30

15 Minuten

Webex

Projektvorstellung (freiwillig) - als Entscheidungshilfe

Folien

 

Mitte Februar - Anfang/Mitte März

(nach Vereinbarung)

 tba. Webex  Vorbesprechung

22.03. - 26.03.

täglich Webex Seminar (Snakemake,Git, NGS-Tools,...)

...

...

...

 Literaturrecherche zur Auswahl der zu implementierenden Analyseworkflows und Ausarbeitung des Projektplans (selbstständig). Mindestens ein Zwischentreffen, ansonsten nach Bedarf
 07.04.  tba. Webex  Vorstellung der Projektpläne
09.04. - 14.05. tba.

Webex

Wöchentliche (gerne auch häufiger) Treffen begleitend zur selbstständigen Arbeit und Anfertigung des Berichts

21.05. tba.  Webex  Vorstellung der Ergebnisse

Ressourcen

Projektvorstellung

Snakemake