ChatGPT in der Finanzlizenz-Prüfung
Autoren: Douglas (DJ) Fairhurst and Daniel Greene; Washington State University u. Clemson University
Zusammenfassung: Besonders im Finanzsektor und hier wiederum bei Berufen wie Finanzanalyst oder Berater wird für die Zukunft die Substituierbarkeit von menschlicher Intelligenz durch generative KI als relativ hoch eingeschätzt.
In einer Studie untersuchten Fairhurst und Greene, wie gut Sprachmodelle (LLMs) wie ChatGPT, Bard und LLaMA derzeit überhaupt Finanzaufgaben lösen können.
Die Wissenschaftler legten diesen LLMs 1.083 Fragen aus Multiple-Choice-Tests für Finanzlizenzprüfungen in den USA vor. Die Studie maß zum einen die Anzahl der richtigen Antworten, die Treffergenauigkeit. Zum anderen wurde die Ähnlichkeit der LLM-Antworten mit Expertenantworten als Maß für die Güte der Erklärung gewertet. Das erlaubt auch eine Differenzierung innerhalb der falschen Antworten.
ChatGPT-4 schnitt bei der Treffer-Genauigkeit am besten ab, während feingetunte GPT-3.5-Modelle bessere Erklärungen lieferten. Bard (von Google) und LLaMA (von Meta) schnitten in Teilbereichen besser ab, wiesen jedoch oft Fehler auf. API-basierte Modelle konnten durch Parameteranpassung optimiert werden.
Die Ergebnisse zeigen, dass LLMs sich besonders für allgemeine Finanzthemen und die Zusammenfassung großer Datenmengen eignen. Komplexe oder spezialisierte Aufgaben, wie Steuer- oder Versicherungsberatung, führen jedoch zu mehr Fehlern.
LLMs können also Finanzexperten ergänzen, aber bislang nicht ersetzen. Kosten, Treffergenauigkeit und Erklärungsqualität müssen jeweils in Abhängigkeit vom Typ der Finanzaufgaben abgewogen.
Link zur Studie: “How Much Does ChatGPT Know About Finance?”