Modul 32491 - Angewandte Datenanalyse
Angewandte Datenanalyse
- Autoren/innen: Univ.-Prof. Dr. Robinson Kruse-Becher, Dr. Pascal Goemans
- Workload: 300 h
- SWS: 6
- Semester: WS/SS
- ECTS-Punkte: 10
Betreuung:
-
Prof. Dr. Robinson Kruse-Becher
E-Mail: robinson.kruse-becher
Telefon: +49 2331 987-4640 -
Dr. Pascal Goemans
E-Mail: pascal.goemans
Einsendearbeiten
Die Einsendearbeiten und Abgabetermine
Weitere Informationen stellt die Fakultät zur Verfügung.
Klausurhinweise
Hinweise zu Klausurhilfsmitteln finden Sie in WebRegis (für alle Module: Prüfungsinfo 3 wird nicht mehr veröffentlicht)
Voraussetzungen
Vorkenntnisse in Mathematik und Statistik sind erforderlich.
Warum dieses Modul?
Das Ausmaß der Datenerfassung hat in nahezu allen Bereichen der Wirtschaftswissenschaften in den letzten Jahren massiv zugenommen und die empirische Datenanalyse ist zu einem der wichtigsten Instrumente avanciert. Durch die angewandte Analyse von Daten werden Zusammenhänge zwischen Variablen untersucht und akkuratere Prognosen ermöglicht. Welchen Effekt hat beispielsweise das Studium auf das erwartete Einkommen? Wie wirken sich Werbemaßnahmen auf den Umsatz aus? Beispielsweise können Unternehmen auf Basis von Kundendaten ein statistisches Modell trainieren, um zu prognostizieren, welches Produkt ein Kunde wahrscheinlich erwerben wird. Eine Person kann prognostizieren, welches Einkommen sie mit ihrer Erfahrung und Ausbildung erwarten kann. Derartige und verwandte Fragen können mit den Methoden des überwachten statistischen Lernens behandelt werden, da wir über Beobachtungen einer zu prognostizierende Zielvariable verfügen.
Es gibt jedoch auch Fragestellungen ohne Zielvariable, in denen das sogenannte unüberwachte Lernen zum Einsatz kommt. Mit dieser Methode wollen wir relevante Zusammenhänge in den Daten entdecken. Zudem fragen wir uns, welche informativen und gewinnbringenden Möglichkeiten es gibt, die Daten sinnvoll zu visualisieren. Können wir Untergruppen (Cluster) in den Variablen aufdecken? Einerseits verhalten sich verschiedene wirtschaftswissenschaftliche Variablen ähnlich zueinander, so dass deren Variation zum großen Teil durch einen einzelnen Faktor erklärt werden kann. Verfügen wir über einen Datensatz mit verschiedenen Indikatoren für die Lebenshaltungskosten in Städten (Mietkosten, Lebensunterhaltskosten und Mobilitätskosten), können wir Gruppen aus Städten mit ähnlichen Strukturen bilden.
Als Methoden werden Sie die Schätzung von linearen Regressionsmodellen für eine quantitative Zielvariable mit der Kleinst-Quadrate-Methode ebenso erlernen, wie das Erstellen von Modellen für eine qualitative Zielvariable. Bei letzterem liegt ein großer Fokus auf der logistischen Regression, welche mit der Maximum-Likelihood-Methode geschätzt wird, bei welcher die Zielvariable in eine von zwei verschiedenen Klassen fällt. Es werden aber auch die multinomiale/geordnete logistische Regression, die Diskriminanzanalyse und weitere Verfahren behandelt, welche für Anwendungsfälle mit mehr als zwei Ausprägungen geeignet sind.
Zudem werden Sie Methoden für die Modellauswahl für Prognosen kennenlernen. Einfache Modelle mit wenigen erklärenden Variablen führen womöglich zu schlechten Vorhersagen. Komplexe Modelle mit vielen erklärenden Variablen führen jedoch häufig zu einer Überanpassung an die Trainingsdaten, so dass ihre Prognosen mit neuen Testdaten häufig deutlich schlechter ausfallen können. Zudem sind sie schwerer zu interpretieren, da die Effekte der verschiedenen erklärenden Variablen nicht leicht zu trennen sind. Die beste Lösung wäre ein großer, speziell ausgewählter Testdatensatz, welcher aber oft nicht verfügbar ist. Als geeignete Alternative für die empirische Anwendung werden Sie die Kreuzvalidierung kennenlernen. Für die Auswahl der erklärenden Variablen werden Sie die Beherrschung mehrerer Methoden erlernen. Neben der Subset-Selection (Teilmengenauswahl) werden Informationskriterien, welche auf einem Kompromiss zwischen Reduktion des Prognosefehlers und Modellkomplexität basieren, und Regularisierungsverfahren wie die Ridge- oder Lasso-Regression behandelt. Zudem stellen wir Ihnen zwei Methoden des unüberwachten Lernens vor: Die Hauptkomponentenanalyse, ein Werkzeug zur Datenvisualisierung oder Datenvorverarbeitung bevor Methoden aus dem überwachten Lernen angewendet werden und das Clustering, eine breite Klasse von Methoden zur Entdeckung noch unbekannter Gruppen im Datensatz.
Die Lehrinhalte des Moduls werden mit Hilfe von abrufbaren Videos und dazugehörigen Präsentationsfolien vermittelt. Die Inhalte basieren dabei auf dem etablierten Lehrtext „An Introduction to Statistical Learning: with Applications in R“ (Second Edition, Springer Texts in Statistics) von Gareth James, Daniela Witten, Trevor Hastie und Robert Tibshirani. Darüber hinaus werden Übungen angeboten, in denen die unterschiedlichen Methoden angewendet werden. Außerdem wird in diesem Modul die open-source Programmiersprache R eingesetzt. Diese ermöglicht es, Ergebnisse zu replizieren und die Methoden auf neue Datensätze anzuwenden und auch weitere eigenständige Analysen durchzuführen. Es werden zu den relevanten Kapiteln R-Labs zur Verfügung gestellt, in denen Methoden anhand von Beispieldaten angewandt und verglichen werden. Alle Inhalte werden auf Moodle bereitgestellt.
Inhalte
Das Modul basiert auf dem etablierten Lehrtext „An Introduction to Statistical Learning: with Applications in R“ (Second Edition, Springer Texts in Statistics) von Gareth James, Daniela Witten, Trevor Hastie und Robert Tibshirani. Dieser ist für Studierende der FernUniversität als E-Book frei verfügbar. Zusätzlich werden auf Basis von Vorlesungsfolien Lehrvideos angeboten. In synchronen virtuellen Übungsveranstaltungen werden die Inhalte vertieft und anhand realer Datensätze erprobt. Es werden zu den verschiedenen Kapiteln R-Codes zur Verfügung gestellt, in denen Methoden anhand von Beispieldaten in der open-source Software R angewendet und verglichen werden.
Die Darstellung der Methoden ist so formal wie nötig. Im Vordergrund stehen die empirische Modellierung und das intuitive Verständnis. Die Methoden werden durchweg anhand wirtschaftswissenschaftlicher Fragestellungen illustriert. Größtenteils werden Methoden des überwachten Lernens behandelt, bei denen verschiedenartige Zielvariablen durch andere erklärende Variablen modelliert und prognostiziert werden. Abschließend werden Methoden des unüberwachten Lernens betrachtet, bei denen es um Dimensionsreduktion und die Aufdeckung von Clustern geht.
Kapitel 1 (Kapitel 2 im Lehrtext) umfasst eine Einführung in das „Statistische Lernen“, um stetige Variablen, wie z. B. den Umsatz eines Unternehmens, mit Hilfe von Regressionsmodellen und qualitativen Variablen, wie etwa die Kaufentscheidung für ein bestimmtes Produkt, mit Klassifikationsmodellen zu prognostizieren. Darüber hinaus wird erklärt, wie die Prognosen evaluiert werden können und wichtige Konzepte wie etwa der Bias-Varianz-Kompromiss vermittelt. Verschiedene Modelle werden zudem hinsichtlich ihrer Prognosefähigkeit und Interpretierbarkeit verglichen.
Kapitel 2 (Kapitel 3 im Lehrtext) widmet sich linearen Regressionsmodellen. Neben der Schätzung der Modelle mit Hilfe der Kleinst-Quadrate-Methode und der Prognose der abhängigen Variablen wird erläutert, wie ökonomische Hypothesen empirisch überprüft werden können.
Kapitel 3 (Kapitel 4 im Lehrtext) beschäftigt sich mit Klassifikationsproblemen und erläutert Modelle für Prognose der Wahrscheinlichkeit mit der eine qualitative Variable einen bestimmten Wert annimmt. Ein großer Fokus dieses Kapitels liegt auf der logistischen Regression für binäre Variablen und der Maximum-Likelihood-Methode zur Schätzung der Parameter. Es werden zudem die multinomiale/geordnete logistische Regression, die Diskriminanzanalyse und weitere Themen behandelt, welche für Anwendungsfälle mit mehr als zwei Klassen geeignet sind. Darüber hinaus wird auf Besonderheiten der Prognoseevaluation im Rahmen von Klassifikationsproblemen eingegangen.
Kapitel 4 (Kapitel 5 im Lehrtext) widmet sich der Kreuzvalidierung im Kontext der Unterteilung von Datensätzen in Trainings- und Testdaten. Dies ist besonders relevant um eine Einschätzung zur Prognoseleistung zu erhalten. Es werden unterschiedliche Kreuzvalidierungsmethoden für Regressionsmodelle und Klassifikationsprobleme vorgestellt.
Kapitel 5 (Kapitel 6 im Lehrtext) beschäftigt sich mit der Modellauswahl im Rahmen der linearen Regression. Als Methoden zur Auswahl der erklärenden Variablen werden die Subset-Selection (Teilmengenauswahl), Informationskriterien, welche auf einem Kompromiss zwischen Reduktion des Schätzfehlers und Modellkomplexität basieren, und Regularisierungsverfahren wie die Ridge- oder Lasso-Regression behandelt.
Neben den Methoden des Überwachten Lernens, behandelt Kapitel 6 (Kapitel 12 im Lehrtext) Methoden des Unüberwachten Lernens. Es werden hauptsächlich zwei führende Methoden behandelt: Die Hauptkomponentenanalyse zur Dimensionsreduktion und die Clusteranalyse zur Aufdeckung von Strukturen in multivariaten Datensätzen.
Prüfung
Das Modul schließt am Ende des Semesters mit einer zweistündigen Klausur ab.
Allgemeine Hinweise
Weitere Informationen erhalten Sie unter Modul 32491