Automatisiertes Scoring und die Durchschaubarkeit von Bewertungen

Gerade einen interessanten Artikel zum Thema des automatisierten Scorings gelesen. So etwas ist per se ja nicht schlecht. Auch wenn „Scoring“ einer der vielen modernen elenden Modebegriffe ist.

Ich hab nach dem Studium ja einige Jahre in einer Versicherung gearbeitet und natürlich wurde auch schon da schon seit Urzeiten eine Bewertung von Risikoklassen vorgenommen. Nur damit kann man „faire“ Beiträge berechnen und Kosten kalkulieren. Das gilt in allen Bereichen, wo man Kosten und Erträge auf einer statistischen Datenbasis kalkulieren will. Man kann da in einfachen Fällen von Erfahrung reden (ich versuche gerade zu kalkulieren, wie lange ich zur Erstellung einer kleinen Excel-Lösung brauchen werde, um dann einen Kostenvoranschlag zu erstellen). Und im Großen sind das halt computergespeicherte Daten („Erfahrungen“), die aber nicht mehr aus dem Bauch heraus oder von Menschen, sondern über Computer und Algorithmen auszuwerten sind.

Aber es gibt dazu unterschiedlich fundierte Techniken. Diejenigen, die mit seriöser Statistik und Wahrscheinlichkeitsrechung arbeiten sind ok und nachprüfbar.

Doch gerade im Bereich der aktuellen Big Data-Techniken ist verdammt viel Voodoo-Zauber unterwegs.

Und dann gibt es eben noch die Datenbasis selbst. Wird die explizit mit Einverständnis von Personen oder über heimlich gesammelte Daten ermittelt? Werden die Daten eingebenen (was natürlich der Lüge auch Tür und Tor öffnet) oder durch Spionage? Man denke an Internetdienste, die aus der Position des Mauszeigers auf Interesse an einem Produkt schließen und nicht erkennen können. Aber da ist die Wahrscheinlichkeit von Fehlern extrem hoch. Etwa wenn ein „Interessent“ nur gerade abgelenkt war und was anderes gemacht hat und deshalb ein Mauszeiger längere Zeit an einer Position war. Solche Fehler kann man zwar über eine große Menge an Spionagefällen „glätten“, aber dennoch ist die Fehlerwahrscheinlichkeit hoch.

Und vor allen Dingen ist die Interpretation meines Erachtens oft falsch. Ich habe den Eindruck, dass man es in dem gesamten Umfeld immer mehr mit Glauben statt Wissen zu tun hat, wenn man aus gewissen Eigenschaften und Verhaltensweisen fiktive Folgerungen zieht.

Etwa wohnt eine Person in einer guten Gegend und geht regelmäßig zum Tennis -> interessiert am teuerem Schmuck.
Oder eben schlimmer: Eine Person wohnt in einer schlechten Gegend und geht regelmäßig zum Fussball -> kein Kredit oder schlechtere Konditionen. Gerade die Schufa ist so ein Beispiel für Missbrauch und Fehler.

Aber das Hauptproblem ist die Nachprüfbarkeit. Bewertungen müssen zwingend nachvollziehbar sein. Nicht die Algorithmen selbst, aber die Kriterien bei jeder gewünschten Testgruppe. Und dazu muss jede Organisation, die Scoring vornimmt, gezwungen werden, eine Schnittstelle bereitzustellen, mit denen unabhängige Prüfer mit Testdaten einen Blackboxtest ausführen können. Sonst bin ich dafür diese Scoringverfahren unter Strafe zu stellen.