Bachelor: Geodata Science

532 - Projekt Big Data

Empfohlenes Studiensemester: 5

Turnus: Wintersemester

Sprachen: Deutsch

ECTS: 5

Prüfungsform: ModA, weitere Angaben siehe SPO und Studienplan

Lehrform und SWS: SU (1SWS), Ü (3SWS)

Gesamter Workload: 150 Stunden

Präsenzzeit: 15 Stunden Seminaristischer Unterricht, 45 Stunden Übung

Selbststudium: 90 Stunden

Modulverantwortung: Prof. Dr. David Spieler (FK07)

Empfohlene Voraussetzung für die Teilnahme

Fortgeschrittene Programmierkenntnisse

Lernziele

Fach- und Methodenkompetenz

Die Studierenden erlernen Methodiken aus dem Bereich Big Data Technologien und wenden dieses Wissen auf eine typische Aufgabe aus in ihrem Berufsfeld an, dies beinhaltet

im Projekt relevante Informationen zu sammeln, zu bewerten und wissenschaftlich zu reflektieren,
Werkzeuge aus dem Studium einzusetzen, um die Projektziele zu erreichen,
kompetent zu kommunizieren,
fachbezogen zu argumentieren,
sich über Ideen und Lösungen auszutauschen,
sich selbst - allein und im Team - zu organisieren und
Verantwortung im Team zu übernehmen.

Inhalt

In der Veranstaltung realisieren die Studierenden ein eigenständiges kleines Projekt, im Rahmen dessen sie aktuelles Wissen und moderne Big Data Tools, Frameworks und Analyseprozesse konkret anwenden. Dabei lernen sie auch, wie man im späteren Berufsalltag selbstständig weiter lernt. Aufgaben werden im Team definiert und verteilt.

Das Projekt wird von einem (tatsächlichen bzw. virtuellen) Auftraggeber beauftragt und von den Studierenden als Team bearbeitet.

Allgemeine Beschreibung

Zu Beginn des Kurses als auch kursbegleitend erfolgt eine Einführung in die Grundlagen von Big Data Technologien, wie verteilte Dateisysteme, verteilte Datensätze und die verteilte Berechnung. Zudem werden aktuelle Implementierungen, wie Apache Hadoop/HDFS und Apache Spark besprochen. Ebenso wird eine grundlegende Einführung in die, auf der Java Virtual Machine aufbauende, funktionale Programmiersprache Scala gegeben. Weiterhin werden Themen wie Datenaufbereitung für die effiziente Prozessierung, Programmierung mit MapReduce, Programmierung in Apache Spark, Analysen in nahezu Echtzeit mit Hilfe von Indizierung, Visualisierung durch Dashboards besprochen.
Die Studierenden bearbeiten in Gruppen von bis zu drei Studierenden eine herausfordernde Aufgabe (Challenge) aus dem Big Data Bereich.
Die Projektdurchführung kann mit der Datensammlung bzw. Durchsicht der Daten beginnen.
Es folgt die Ideensammlung zur Lösungsfindung z.B. mit Methoden aus dem Bereich des Design Thinkings.
Danach setzen die Gruppen jeweils ihre Lösungen um. Dies können z.B. Tools oder Machine Learning Modelle sein.
Am Ende evaluieren die Gruppen ihre Lösungen anhand wissenschaftlicher Maßstäbe und Kriterien.
Die Projektleitung liegt beim Team selbst. Sie kann zum Beispiel über einen agilen Prozess wie Scrum gelöst werden oder einem bestimmenden Teammitglied anvertraut werden.
Die Veranstaltung endet mit Abschlusspräsentationen vor dem Auftraggeber und Interessierten

Lehrmethoden und Lernformen

Beamer, Tafel, Jupyter/Zeppelin Notebooks, Dashboards (ElasticSearch, Kibana)

Verwendbarkeit des Moduls

Bachelor Geodata Science

Literatur

White, Tom (2017). Hadoop: The Definitive Guide. O'Reilly and Associates.
Chambers, Bill & Zaharu, Matei (2018). Spark: The Definitive Guide: Big data processing made simple. O'Reilly UK Ltd.
Wills, Josh & Laserson, Uri & Owen, Sean & Ryza, Sandy (2017). Advanced Analytics with Spark: Patterns for Learning from Data at Scale. O'Reilly UK Ltd.
Gormley, Clinton & Tong, Zachary (2015). Elasticsearch: The Definitive Guide. O'Reilly and Associates.
Schwartz, Jason (2014). Learning Scala: Practical Functional Programming for the JVM. O'Reilly and Associates.