Künstliche Intelligenz gilt in der Arbeitswelt als Hoffnungsträger und Herausforderung zugleich. Sie soll Entscheidungsprozesse beschleunigen und Kosten senken. Doch gerade bei der Bewertung menschlicher Leistung, etwa in Bewerbungsprozessen, stellt sich die Frage: Nach welchen Maßstäben urteilt KI? Und wie objektiv sind ihre Entscheidungen wirklich?
Diese Fragen hat eine aktuelle Studie des Exzellenzclusters ECONtribute untersucht, die als "Discussion Paper" erschienen ist. Das Forschungsteam, bestehend aus Professor Dirk Sliwka (Universität zu Köln) und Professor Rainer Michael Rilke (WHU Otto Beisheim School of Management), kommt zu dem Ergebnis: Sprachmodelle wie ChatGPT übernehmen häufig menschliche Bewertungsmuster, insbesondere dann, wenn sie einzelne Personen ohne klare Vergleichsmaßstäbe beurteilen. In solchen Fällen neigen sie zu Nachsicht, vergeben häufig mittlere Bewertungen und vermeiden negative Urteile.
Sprachmodelle reproduzieren erlernte Bewertungsmuster
Für die Studie analysierten die Forschenden drei unterschiedliche Szenarien. Dazu übermittelten sie Prompts über die Programmierschnittstelle des Softwareunternehmens OpenAI an das Sprachmodell GPT-5-mini.
Im ersten Szenario bewertete die KI die Leistung von 500 CEOs großer Unternehmen auf einer Skala von eins („unbefriedigend“) bis fünf („hervorragend“). Das Ergebnis: Die KI verteilte überwiegend mittlere Bewertungen und zeigte eine deutliche Zurückhaltung bei negativen Urteilen. „Sprachmodelle reproduzieren Bewertungsmuster, die sie aus ihren Trainingsdaten kennen“, erklärt Professor Dirk Sliwka. „Dazu gehört auch die menschliche Tendenz, im Zweifel milde zu urteilen.“ Auch als die KI beauftragt wurde, die CEOs einzeln danach zu beurteilen, ob sie beispielsweise zu den 20% schlechtesten der 500 Beurteilten gehören, zählte sie weniger als 0,3% der Manager zu dieser Kategorie.
Im zweiten Szenario beurteilte die KI Bewerbungen, die zuvor selbst mittels KI in unterschiedlichen Qualitätsstufen erstellt worden waren. Tatsächlich tendierte die KI auch in diesem Fall dazu, großzügig zu bewerten. Erst als mehrere Bewerbungen gleichzeitig verglichen und nach einer vorgegebenen Verteilung bewertet werden mussten, nahm die Differenzierungsfähigkeit deutlich zu und die Urteile wurden präziser.
Bei objektiven Daten bewertet KI akkurater als Menschen
Das dritte Szenario basierte auf objektiven Leistungssignalen aus einem Experiment mit Crowdworkern. In diesem Experiment führten die Proband:innen klar definierte Aufgaben durch. Die KI erhielt dieselben verrauschten, aber objektiven Informationen über die Arbeitsleistung wie menschliche Bewerter:innen. In diesem Fall bewertete die KI deutlich genauer als die menschliche Vergleichsgruppe, die beispielsweise bei leistungsabhängigen Boni zu besseren Bewertungen neigte. „Sobald es einen objektiven Anker gibt, nähert sich KI sehr stark dem auch statistisch optimalen Wert an und gibt dann sehr viel akkuratere Bewertungen ab als menschliche Beurteiler, da sie weniger Fehler macht“, fasst Professor Sliwka zusammen.