Prognosekraft: Generative KI schwächer als Superforecaster
Neue Benchmark zeigt, dass KI nicht besser vorhersagt als kaum prognoseerfahrene Menschen und deutlich schlechter als die „Seher“ unter uns.
Autoren: Ezra Karger, Houtan Bastani, Chen Yueh-Han, Zachary Jacobs, Danny Halawi, Fred Zhang, Philip E. Tetlock – verschiedene Institutionen (Federal Reserve Bank of Chicago, Forecasting Research Institute, New York University, University of California, Berkeley, University of Pennsylvania)
Zusammenfassung: Menschliche Prognosen sind anfällig gegenüber Verzerrungen, sie sind oft zeitaufwendig und erfordern häufig spezielle Kompetenzen, etwa wenn es um die Vorhersage der Entwicklung wirtschaftlicher Kenngrößen geht.
Daher beruht die Hoffnung auf neueren Sprach-Modellen (Large Language Models / LLMs) wie GPT-4, die zunehmend für automatisierte Vorhersagen genutzt werden. Die Frage stellt sich: wie gut sind diese KI-Prognostiker? Eine Antwort erfordert geeignete Benchmarks. Allerdings stoßen bisherige statische Testmethoden, die Modelle anhand vergangener Ereignisse bewerten, auf Probleme: Der zeitliche Wissensrahmen der Modelle ändert sich, Testsätze können verfälscht werden, und es besteht die Möglichkeit, dass Modellentwickler die Ergebnisse zumindest über die subtileren Bias-Quellen (z.B. Überanpassung) manipulieren.
Um diese Schwächen statischer Benchmarks zu beheben, entwickelten die Studienautoren die dynamische Benchmark „ForecastBench“, die kontinuierlich neue Fragen zu zukünftigen Ereignissen aus verschiedenen Quellen verarbeitet.
Im Rahmen der Studie wurden sowohl menschliche wie auch künstliche Prognostiker berücksichtigt, deren Vorhersage-Treffsicherheit bewertet wurde. Eine öffentliche Rangliste zeigt die Ergebnisse im Vergleich (siehe aktuelles Ranking LLM / Human Leaderboard).
Erste Tests zeigten, dass selbst fortschrittliche Modelle wie GPT-4 oft nicht besser abschnitten als Menschen, die im Prognosegeschäft eher unerfahren sind, und sie schnitten deutlich schlechter als die besten menschlichen Prognostiker ("Superforecaster").
Link zur Studie: Forecastbench: A Dynamic Benchmark of AI Forecasting Capabilities
Link zu https://www.forecastbench.org/ (mit der Möglichkeit, eigenes Modell bewerten zu lassen)