Zwei neue Publikationen zum LLM-Benchmarking für geistes- und sozialwissenschaftliche Aufgaben

27. März 2026 / News, Forschung

Zwei neue Publikationen zum LLM-Benchmarking für geistes- und sozialwissenschaftliche Aufgaben

Benchmarking verschiedener LLM Modelle tabellarisch dargestellt

Das Journal of Open Humanities Data (JOHD) hat zwei Artikel von Maximilian Hindermann, Sorin Marti, Lea Katharina Kasper und Arno Bosse zum RISE Humanities Data Benchmark veröffentlicht. Welche Large Language Models (LLMs) erzielen bei geistes- und sozialwissenschaftlichen Forschungsaufgaben die besten Ergebnisse, und wie lassen sich ihre Fähigkeiten bei diesen Materialien systematisch vergleichen?

Das Datenpaper “The RISE Humanities Data Benchmark: A Framework for Evaluating Large Language Models for Humanities Tasks” stellt ein Framework zur Beurteilung der Leistung von LLMs bei geisteswissenschaftlichen Aufgaben vor. Die Benchmark-Suite (verfügbar auf GitHub) umfasst Text- und Bilddatensätze, Prompts, Ground Truths sowie Auswertungsskripte und adressiert Aufgaben, die für die Digital Humanities zentral sind, darunter Dokumentenanalyse, Transkription und Metadatenextraktion aus historischen Materialien.

Der Diskussionsbeitrag “From Experiments to Epistemic Practice: The RISE Humanities Data Benchmark” zeichnet nach, wie die Suite aus der Beratungspraxis von RISE hervorgegangen ist, und reflektiert die methodischen Herausforderungen, die entstehen, wenn Benchmarking-Praktiken auf geistes- und sozialwissenschaftliche Kontexte übertragen werden. Der Artikel argumentiert, dass Ground Truth hier keine Frage objektiver Korrektheit ist, sondern expliziter, von Forschenden definierter interpretativer Entscheidungen, und dass Benchmarking daher als epistemische Praxis und nicht als neutrale Messung verstanden werden sollte

Beide Beiträge sind Teil der JOHD-Sondersammlung “Benchmarking in Digital Humanities”, die darauf abzielt, Benchmarking als gängige Praxis in den Geisteswissenschaften zu etablieren. Das Framework fördert evidenzbasierte Entscheidungen darüber, welche Modelle für bestimmte Aufgaben eingesetzt werden sollen, und ermöglicht quantifizierbare Vergleiche zwischen verschiedenen LLMs über ein interaktives Dashboard.

Forschende, die das Benchmark-Framework mit ihren eigenen Materialien nutzen möchten, sind herzlich eingeladen, sich zu melden. In ihren Rollen bei RISE beraten Maximilian Hindermann, Sorin Marti und Arno Bosse Forschende beim Einsatz computergestützter Methoden und LLMs in geistes- und sozialwissenschaftlichen Forschungsprojekten und besprechen gerne, wie das Framework auf neue Daten und Forschungskontexte angewendet werden kann.

Hindermann, M., Marti, S., Kasper, L. K., & Bosse, A. (2026). The RISE Humanities Data Benchmark: A Framework for Evaluating Large Language Models for Humanities Tasks. Journal of Open Humanities Data, 12(1), 24. https://doi.org/10.5334/johd.481

Hindermann, M., Kasper, L. K., Marti, S., & Bosse, A. (2026). From Experiments to Epistemic Practice: The RISE Humanities Data Benchmark. Journal of Open Humanities Data, 12(1), 38. https://doi.org/10.5334/johd.470