Bachelor: Geodata Science
532 - Projekt Big Data
Empfohlenes Studiensemester: 5
Turnus: Wintersemester
Sprachen: Deutsch
ECTS: 5
Prüfungsform: ModA, weitere Angaben siehe SPO und Studienplan
Lehrform und SWS: SU (1SWS), Ü (3SWS)
Gesamter Workload: 150 Stunden
Präsenzzeit: 15 Stunden Seminaristischer Unterricht, 45 Stunden Übung
Selbststudium: 90 Stunden
Modulverantwortung: Prof. Dr. David Spieler (FK07)
Empfohlene Voraussetzung für die Teilnahme
Fortgeschrittene Programmierkenntnisse
Lernziele
Fach- und Methodenkompetenz
Die Studierenden erlernen Methodiken aus dem Bereich Big Data Technologien und wenden dieses Wissen auf eine typische Aufgabe aus in ihrem Berufsfeld an, dies beinhaltet
- im Projekt relevante Informationen zu sammeln, zu bewerten und wissenschaftlich zu reflektieren,
- Werkzeuge aus dem Studium einzusetzen, um die Projektziele zu erreichen,
- kompetent zu kommunizieren,
- fachbezogen zu argumentieren,
- sich über Ideen und Lösungen auszutauschen,
- sich selbst - allein und im Team - zu organisieren und
- Verantwortung im Team zu übernehmen.
Inhalt
In der Veranstaltung realisieren die Studierenden ein eigenständiges kleines Projekt, im Rahmen dessen sie aktuelles Wissen und moderne Big Data Tools, Frameworks und Analyseprozesse konkret anwenden. Dabei lernen sie auch, wie man im späteren Berufsalltag selbstständig weiter lernt. Aufgaben werden im Team definiert und verteilt.
Das Projekt wird von einem (tatsächlichen bzw. virtuellen) Auftraggeber beauftragt und von den Studierenden als Team bearbeitet.
Allgemeine Beschreibung
- Zu Beginn des Kurses als auch kursbegleitend erfolgt eine Einführung in die Grundlagen von Big Data Technologien, wie verteilte Dateisysteme, verteilte Datensätze und die verteilte Berechnung. Zudem werden aktuelle Implementierungen, wie Apache Hadoop/HDFS und Apache Spark besprochen. Ebenso wird eine grundlegende Einführung in die, auf der Java Virtual Machine aufbauende, funktionale Programmiersprache Scala gegeben. Weiterhin werden Themen wie Datenaufbereitung für die effiziente Prozessierung, Programmierung mit MapReduce, Programmierung in Apache Spark, Analysen in nahezu Echtzeit mit Hilfe von Indizierung, Visualisierung durch Dashboards besprochen.
- Die Studierenden bearbeiten in Gruppen von bis zu drei Studierenden eine herausfordernde Aufgabe (Challenge) aus dem Big Data Bereich.
- Die Projektdurchführung kann mit der Datensammlung bzw. Durchsicht der Daten beginnen.
- Es folgt die Ideensammlung zur Lösungsfindung z.B. mit Methoden aus dem Bereich des Design Thinkings.
- Danach setzen die Gruppen jeweils ihre Lösungen um. Dies können z.B. Tools oder Machine Learning Modelle sein.
- Am Ende evaluieren die Gruppen ihre Lösungen anhand wissenschaftlicher Maßstäbe und Kriterien.
- Die Projektleitung liegt beim Team selbst. Sie kann zum Beispiel über einen agilen Prozess wie Scrum gelöst werden oder einem bestimmenden Teammitglied anvertraut werden.
- Die Veranstaltung endet mit Abschlusspräsentationen vor dem Auftraggeber und Interessierten
Lehrmethoden und Lernformen
Beamer, Tafel, Jupyter/Zeppelin Notebooks, Dashboards (ElasticSearch, Kibana)
Verwendbarkeit des Moduls
Bachelor Geodata Science
Literatur
- White, Tom (2017). Hadoop: The Definitive Guide. O'Reilly and Associates.
- Chambers, Bill & Zaharu, Matei (2018). Spark: The Definitive Guide: Big data processing made simple. O'Reilly UK Ltd.
- Wills, Josh & Laserson, Uri & Owen, Sean & Ryza, Sandy (2017). Advanced Analytics with Spark: Patterns for Learning from Data at Scale. O'Reilly UK Ltd.
- Gormley, Clinton & Tong, Zachary (2015). Elasticsearch: The Definitive Guide. O'Reilly and Associates.
- Schwartz, Jason (2014). Learning Scala: Practical Functional Programming for the JVM. O'Reilly and Associates.