Datenschutz und Verwendung von Cookies
Wir verwenden Cookies auf dieser Website. Cookies sind kleine Textdateien, die auf Ihrem Computer gespeichert werden. Sie dienen dazu, unsere Seiten nutzerfreundlicher zu machen und diese optimiert darzustellen. Durch die Nutzung unserer Seiten erklären Sie sich mit dem Einsatz von Cookies einverstanden. Zur Datenschutzerklärung

Data Science Cup 2018

Die Grundlage für den diesjährigen Data Science Cup bildet der American Community Survey (ACS) 2016. Der ACS wird jährlich durchgeführt und umfasst ca. 1% der Gesamtbevölkerung. Dabei werden umfangreiche soziodemographische Daten (Bildung, Herkunft, Einkommen etc.) auf Granularität der sogenannten Public Use Microdata Areas (PUMAs) erhoben. Ausführliche Informationen zu ACS und PUMAs finden sich auf den Seiten des United States Census Bureau.

Für den Data Science Cup wurden die Daten vom ScaDS Dresden Leipzig aufbereitet und mit Daten zur US-Präsidentschaftswahl 2016 angereichert. Da die ACS-Daten im Original öffentlich verfügbar sind, wurde vorab eine Anonymisierung durchgeführt. Eindeutige Identifikatoren wie Seriennummer und PUMA-ID wurden anonymisiert. Für die so anonymisierten Regionen wurde ebenfalls die Bundesstaaten-Kennung entfernt. Als Ersatz wurde eine Nachbarschaftsrelation erzeugt, die jeder Region ihre geografischen Nachbarregionen zuordnet. Weiterhin wurden besonders hochauflösende Spalten entfernt bzw. durch eine gröbere Kodierung ihrer Wertebereiche anonymisiert.


Aufgabenstellung

Auf Grundlage der bereitgestellten ACS-Daten gibt es vier Aufgabenbereiche.
Ein wichtiger Hinweis: Die detaillierte Aufgabenstellung und Hinweise zur Bewertung finden Sie hier. Die Aufgabenbereiche (Kurzfassung) sind:

Aufgabe 1: Imputation fehlender Werte
Gegeben sind die Daten der Tabelle dsc2018_regions. Dort wurden bei 25 Einträgen/Personen NULL-Werte in unterschiedlichen Spalten eingefügt. Für jede dieser Personen sollen die Fehlwerte imputiert werden.

Aufgabe 2: Ausreißer-Erkennung
In den Datensatz wurden verschiedene Ausreißer auf Personen- bzw. Regionenebene eingebaut. Eine Person bzw. Region ist ein Ausreißer, wenn ihre Daten logische Fehler enthalten oder sie sich in bestimmten Aspekten stark von der übrigen Bevölkerung bzw. den übrigen Regionen unterscheidet. Jeder dieser Ausreißer soll erkannt werden. In Summe sollen 10 Personen und 3 Regionen identifiziert werden.

Aufgabe 3: Vorhersage von Wahlergebnissen
Gegeben sind die Regionaldaten und die regionalen Wahlergebnisse der Tabelle ds2018_election. Basierend auf diesen Daten sollen die Wahlergebnisse für bestimmte Regionen abgeleitet werden. In Summe sind die Wahlergebnisse für 5 Regionen zu schätzen.

Aufgabe 4: Optimierung der Wahlbezirke aus Sicht der kandidierenden Parteien
Ziel dieser Aufgabe ist es, die gegebenen Regionen zu neuen Bundesstaaten zu gruppieren, so dass die Stimmenanzahl im Electoral College jeweils für die Republikaner bzw. die Demokraten maximiert wird.

Download vollständige Aufgabenstellung der Aufgaben 1 bis 4 (PDF-Dokument)
Download Data Science Cup – Lies mich Datei (PDF-Dokument)
Download Data Dictionary (PDF-Dokument)


Empfehlen Sie diese Seite weiter:

Seite druckenDiese Seite drucken

Data Science Cup

Mit freundlicher Unterstützung des ScaDS Dresden/Leipzig - Competence Center for Scalable Data Services and Solutions“

Download Dokumente Aufgabenstellung

  • vollständige Aufgabenstellung der Aufgaben 1 bis 4 (PDF-Dokument)

Download

  • Data Science Cup – Lies mich Datei (PDF-Dokument)

Download

  • Data Dictionary (PDF-Dokument)

Download

Kontakt

Ihr Ansprechpartner bei fachlichen Fragen: Dr.-Ing. Martin Hahmann

Ihre Ansprechpartnerin in der Geschäftsstelle: Ulrike Großmann
Tel.: +49 30 499 074 13