Wir haben uns im Rahmen der TechLabs Münster Challenge im Track Data Science damit befasst, einen Datensatz der Stadt Münster zur Wohndauer in verschiedenen Stadtteilen mit Hilfe parallel zur Verfügung gestellter Geodaten der Stadtteilgliederung aufzubereiten. Der Fokus lag bei uns auf dem Thema Geovisualisierung - nach gleichem Prinzip hätte man auch andere Datensätze benutzen können. Aspekte des user-friedly-Design traten aus Zeitgründen zurück hinter dem Ziel eines ‘minimum viable products’. Im nächsten Schritt wäre eine Aufbereitung zu einem interaktiven Web-Dashboard, etwa mit Streamlit, eine tolle Sache gewesen …
Auf kommunaler Ebene fallen schon lange eine Menge Daten an, welche Raumordnung, Bevölkerungsstatistik, städtischen Versorgungsbetriebe usw. betreffen. Dies gilt umso mehr, als das heute solche Dienste selbst mit digitalen Werkzeugen unterstützt und erbracht werden. Die Verfügbarkeit von (kommunalen) Daten als solche ist dabei also mehr denn je gegeben. Zunehmend bereiten Kommunen solche Datensätze auf (stellen etwa sicher, dass keine personenbezogenen Daten enthalten sind) und stellen sie über das Internet rechtssicher frei zur Verfügung (sogenannte ‘open data’, siehe Wikipedia). Dies wird auch als Voraussetzung für einen ‘open government’-Ansatz gesehen, siehe Wikipedia.
Auch die Stadt Münster stellt seit einigen Jahren Datensätze sortiert nach verschiedenen Kategorien bereit (siehe https://opendata.stadt-muenster.de), wobei die Dateiformate von Excel und CSV über PDFs hin zu geolokalisierten GEOJSON-Files reichen.
Das Veröffentlichung von (Roh-) Daten ist ein erster Schritt, doch werden diese durch eine Aufbereitung und Visualisierung besser nutzbar, was zunehmend auch durch Dritte aus Wirtschaft, aber eben auch aus der Zivilgesellschaft geschieht (siehe etwa Binzen & Kleemann, 2019, zu ‘Hackathons’).
Methodik
Das Vorgehen bestand zunächst darin, grundätzlich einen uns interessierenden Datensatz zu recherchieren und eine grobe Zielvorstellung von einem Ergebnis, also einer Datenvisualisierung zu entwickeln. Folgende Schritte beschreiben unser Vorgehen:
In einen Datensatz der Stadt Münster ist für die Jahre 2017 - 2023 für die einzelnen Stadtteile die durchschnittliche Wohndauer der Bevölkerung erfasst. Die Kriteriumsvariable ‘Dauer in Jahren’ lag in der Tabelle unterschieden nach sowie unabhängig vom Geschlecht vor, wobei uns letzteres interessierte. Die Tabelle enthielt zudem zur Thematik in manchen Zeilen statt Jahren Anteilswerte für bestimmte Gruppen, womit es sich also nicht um einen sauberen Datensatz handelt, da somit in ein und derselben Spalte je nach Zeile unterschiedliche Metriken stehen. Es galt also nach dem Import die relevanten Zeilen zunächst zu filtern (außerdem mussten ein paar Anpassungen an Datentypen und Formatierungen vorgenommen werden).
Mit dem Ziel einer Kartendarstellung importierten wir zudem einen Datensatz der Stadt Münster, welcher die Gebietsgliederung samt Geokoordinaten als Shape in einem GEOJSON-Format beschreibt.
Beide Datensätze galt es zusammenzufügen (merge, join) und diesen Datensatz dann zu visualisieren.
Die Visualisierung selbst erfolgte mit der Bibliothek GEOPANDAS als statische Karte(n; siehe Ergebnisse), welche das GEOJSON-Format zu interpretieren weiß.
Die Bibliothek ‘Folium’ erlaubt es, zoom- und navigierbare Karten darzustellen. Hier gelangen nur erste Gehversuche, aber bis zu Deadline leider keine zufriedenstellende Lösung.
Reflexion zum Projektverlauf
Techlabs stellt so genannte Lernpfade zur Vefügung, um mit im Web vorhandenen Lernressourcen etwa auf YouTube und Online-Kurs-Plattformen Programmiersprachen wie Pyhton zu lernen. Hierbei stellt sich angesichts begrenzter Zeitressourcen häufig die Frage, ob man zunächst versucht, sich die Programmiersprache von Grund auf systematisch anzueignen, oder ob man besser vom Ende her denkt und sich beispielhaft am Code schon existierender Projekte von TechLabs oder sonst wo im Web orientiert. Je nach Vorkenntnis und grundsätzlicher Programmiererfahrung gilt es wohl einen Mittelweg zu beschreiten: Einerseits muss man bestimmte Grundprinzipien, Datentypen und Methoden von Python kennen, doch zugleich sollte man auch pragmatisch vorgehen. Nicht zuletzt ist es motivational positiv, wenn man rasch etwas mit kopiertem und angepasstem Code ausprobieren und dann einem Protoytpen entwickeln kann (‘rapid prototyping’), anstelle dass man zunächst Stunden lang Lernvideos schaut und Elementaroperationen im Code übt. Ein große Hilfe war in einer Umgebung wie Google Colab z.B. auch die Autovervollständigung sowie der KI-gestützte Assisstent, der Code-Vorschläge macht. Die Erfahrung mit dem Projekt kann Anlass sein, sich bestimmte Dinge bzgl. Python im Nachgang noch einmal genauer anzueignen. Neben der Herausforderung des eigentlichen Codens braucht es doch auch eine gewisse Zeit, einen effektiven Umgang mit einer Entwicklungsumgebung wie Google Colab bzw. einem Jupiter Notebook zu finden.
Anzumerken ist, dass unsere anfangs geloste Gruppe sich bald halbiert hat und wir alleine da standen.
Ergebnisse
Man erkennt zunächst einmal mit Blick auf jeden Subplot, dass die durchschnittliche Wohndauer in den (nördlichen) Innenstadtbezirken geringer ist als besonders die Stadtteile im Osten, Süden und Westen. Dies ist wohl damit zu erklären, dass in den Außenbezirken viel mehr Einfamilienhäuser/ Eigenheime stehen, in denen die Bewohner wohl länger wohnen im Vergleich zu Mietwohnungen in der Innenstat, wo es häufiger Ein- und Auszüge gibt.
Betrachtet man die Entwicklung über die Zeit zwischen den Subplots, so fallen kaum Unterschiede in den Blick. Eine Limitation mag hier sein: Der Datensatz zur Wohndauer umfasste letztlich “nur” die Jahre 2017-2023. Eine längere Datenreihe würde es vermutlich einfacher machen, wahrscheinlich eher langfristig sich vollziehende Veränderungen aufzudecken. Z.B. könnte es Veränderungen des Umzugsverhaltens während der Corona-Pandemie (von der Innenstadt hinaus ins Grüne; zugleich weniger Zuzüge von außen nach Münster wegen des Distanzbetriebs der Uni) in den Jahren 2020 und 2021 gegeben haben. Welche Effekte dies im Ergebnis haben würde, kann nur spekuliert werden (oder man müsste sich den ebenfall verfügbaren Datensatz zu Zu- und Wegzügen aus den einzelnen Stadtteilen angucken).
Team & Rollen
Moritz Rüller
Nicola Rellmann
Mentor:in
Sebastian Dell