Daten werden schon seit Jahrhunderten gesammelt. Allerdings waren diese bis Mitte des vorigen Jahrhunderts vornehmlich in analoger Form gespeichert (etwa als Karteikarten im Melderegister) und auch nur schwer für jeden zugänglich.
Durch die zunehmende Digitalisierung ist einerseits der Zugang zu den Daten leichter geworden, andererseits ist auch durch eine strukturierte Form der Speicherung in Datenbanken die Verknüpfung von Daten aus unterschiedlichen Quellen wesentlich erleichtert worden.
Das lasst das Herz eines jeden Data Analysts höher schlagen, sieht man doch die schier unendlichen Möglichkeiten vor sich, aus diesen Daten interessante Erkenntnisse abzuleiten.
Daten behutsam sammeln
Unbesonnene Datensammler*innen erfassen gerne so viele Daten wie möglich, etwa wie es auch bei Überlegungen zum grünen Pass in Österreich angedacht war. Der Aufbau einer möglichst umfangreichen Datenbank über die Bürgerinnen und Bürger sollte uns in zukünftigen Pandemien
helfen, rascher zu reagieren und auch Hilfeleistungen schneller und zielgerichteter zu ermöglichen. Das wäre an sich ein lobenswerter Gedanke. Die Risiken stecken aber im Detail und oft ist es im Voraus nur schwer absehbar, welche Konsequenzen sich aus den
gesammelten Daten ergeben können. Ein sehr gutes Beispiel dafür ist das Erfassen des Religionsbekenntnisses im Meldeschein seit der Monarchie in Österreich. In toleranten, aufgeschlossenen Zeiten ist diese Information absolut unbedenklich, unter einem Regime wie im letzten Jahrhundert wurde das
vielen Menschen zum Verhängnis.
Big Data - Bad Data
In den vergangenen Monaten wurde Big Data wiederholt in ein schlechtes Licht gerückt, beispielsweise als es darum ging, mit Hilfe von vollkommen anonymisierten Daten Bewegungsmuster auf dem Höhepunkt der Corona-Pandemie zu analysieren. Ohne kritisches Hinterfragen
wurden Big Data Technologien vorverurteilt und Diskussionen über einen sinnvollen Einsatz im Keim erstickt. Das ist sicher nicht der richtige Weg. Methoden, Algorithmen und zugrundeliegende Daten müssen sich einer Prüfung mit entsprechender Risikoabschätzung stellen.
Big Data ist ein Kunstbegriff, für den es nicht einmal eine einheitliche Definition gibt. In den Medien werden damit Daten assoziiert, mit denen Bürgerinnen und Bürger ausspioniert werden können, daher Bad Data. Das ist jedoch so nicht richtig. Aus Data Science Sicht
ist alles, was sich nicht mehr auf einem Rechner speichern lässt, schon Big Data, etwa die jede Millisekunde erhobenen Sensordaten einer Spritzgussmaschine. Damit kann man wahrlich nichts Böses anstellen, allerdings sehr wohl mit geeigneten Analysen vorhersagen, ob
besagte Maschine vielleicht fehlerhaft arbeitet. Selbst die zuvor erwähnten Bewegungsmuster, die aus Mobilfunkdaten gewonnen werden, haben durchaus sinnvolle Anwendungsfälle, beispielsweise kann man damit Verkehrsströme wesentlich effizienter und effektiver erfassen und analysieren, als mit herkömmlichen Methoden.
Daten sind nicht per se schlecht
Der sorgfältige Umgang mit Daten entscheidet darüber, ob sie einer guten Sache dienen oder missbräuchlich verwendet werden. Die akademischen Ausbildungsstätten, an denen Data Science unterrichtet wird, lehren den Studierenden kritisches Denken und sich über die Konsequenzen
des eigenen Handelns bewusst zu sein. Dazu gehört auch, was ein Algorithmus mit Daten macht. Eines sollte dabei nie vergessen werden: Der Output eines Programms kann Menschen direkt treffen und deren Existenz zerstören. Auch wenn die Absicht hinter dem Algorithmus noch so gut war.
Eine starke Vernetzung der Data Community soll dazu beitragen, das Bewusstsein dafür zu schärfen, damit wir in Österreich eine verantwortungsvolle Rolle in der globalen, von Data Science geprägten, Welt einnehmen können.
Alexander Adrowitzer
ist Dozent an der FH St. Pölten mit besonderem Interesse an den ethischen Aspekten der Künstlichen Intelligenz und des Machine Learnings. Er ist in zahlreichen internationalen Initiativen zu einem verantwortungsvollen Umgang mit Daten engagiert.