DB Mindbox „Data-Hack“ 2021
Unser erster gemeinsamer Remote-Hackathon fand in diesem Jahr für die Deutsche Bahn statt. Organisiert von der DB Mindbox ging es beim „Data-Hack“ darum mit den Daten der DB Regio zu arbeiten.
Unser Fokus: Der Busverkehr
Relativ zügig entschieden wir uns dazu mit den Daten der Busse zu arbeiten. Zur Verfügung standen uns neben Haltestellen auch Datenquellen wie Kartenverkäufe, Haltestellen mit GPS-Daten, verschiedene Telemetriedaten aus den Fahrzeugen inkl. GPS-Daten, Ein- und Ausstiege von Personen und pseudonymisierte WLAN-Daten.
Eine breite Datenbasis für unsere Analysen und eine Menge verschiedene Datentöpfe die von uns genutzt werden konnten. Um die Daten zu verstehen und sich ergebende Fragen zur klären haben wir auf einen Domänenexperten der DB zurückgreifen können.
Was haben wir gelernt?
Wir haben unsere Kenntnisse in DataScience und den entsprechenden Python Werkzeugen wie z.B. Pandas vertiefen und auf einer breiten Datenbasis anwenden können. Für die Visualisierung haben wir verschiedene Werkzeuge genutzt. Unter anderem haben wir bei den Karten folium genutzt um die Visualisierung zügig zu erstellen.
Domänenwissen ist Trumpf
Zu glauben das man Datensätze bekommt und damit valide Annahmen treffen kann ist ein Fehler. Es ist zwingend notwendig immer mit den Domänenexperten die Ergebnisse zu spiegeln um zu verstehen, was konkret man in diesen Daten sieht und die richtigen Fragen zu stellen.
Die ersten Ergebnisse auf unseren Karten waren Busdepots an denen die Haltezeiten der Fahrzeuge aufgrund von Reinigung und Tankvorgängen entsprechend lange gedauert haben. Häufig hatten wir zu Beginn aber auch Schwierigkeiten die Haltestellen sicher zu den Fahrzeug-Events zuzuordnen da diese in 7 von 10 Fällen über 150 Meter von der nächsten Station entfernt waren. Solche Abweichungen sind grundsätzlich Möglich, da eine Baustellen oder Fahrzeuge eine Haltestelle temporär blockieren können.
Das Ergebnis: Auf dem Treppchen
Insgesamt wurden 7 Preise vergeben und wir haben uns mit den von uns im Rahmen des Hackathon erstellten Ergebnissen und unserem Pitch für einen dieser Preise qualifizieren können. Bei der starken Konkurrenz aus Startups, freien Teams und Teams der DB ein tolles Ergebnis.