Die Fabulierlust der LLMs mit LLMs bremsen: Die Grundidee eines KI-Peer-Review-Systems
Blog: Ein Echter und zwei Künstliche
Das geringe Vergnügen das die Lektüre akademischer Arbeiten bereitet, hat wesentlich mit dem sogenannten Quellenapparat zu tun. Dieser Quellenapparat hat, neben solchen Funktionen wie dem Betreiben von Zitierkartellen oder dem Vortäuschen einer umfassenden Belesenheit, auch eine wirklich wichtige Aufgabe: Er soll dem Reviewer die Überprüfung der wissenschaftlichen Seriosität der Arbeit erleichtern. Der Autor eines akademischen Artikels ist angehalten durch einen entsprechend ausgelegten Quellenapparat die Bewertung der Qualität seiner Arbeit zu unterstützen. Der Autor hat also eine Bringschuld gegenüber dem Reviewer.
Bei einem Peer-Review-System sind zudem die Rollen “Autor“ und “Reviewer“ nicht fest vergeben. Der Autor der einen Arbeit kann bei einem anderen Artikel der Reviewer sein. Und niemand der eine Rolle als Reviewer ausgeübt hat, ist daran gehindert sich als Autor eines akademischen Artikels zu betätigen.
Solche Peer-Review-Systeme arbeiten nicht fehlerfrei. Auch in wissenschaftlichen Zeitschriften in denen man nur unter den Regeln eines Peer-Review-Systems veröffentlichen kann, werden immer mal wieder unseriöse oder zumindest deutlich fehlerhafte Publikationen untergebracht. Trotzdem ist das Peer-Review Verfahren ein wichtiger Mechanismus zur Wahrung wissenschaftlicher Qualität.
Welche Strukturelemente solcher Peer-Review-Systeme kann man übernehmen um LLMs in Autorenfunktion an der Veröffentlichung von Texten mit fabulierten/halluzinierten Inhalten zu hindern?
Zuerst aber eine wichtige Klarstellung: Die wichtigste Barriere, um LLMs an der Verbreitung von Unsinn zu hindern, hat nichts mit einem KI-Peer-Review-System zu tun. Es ist nämlich die Kontrolllektüre eines menschlichen Herausgebers. Und der ist nun mal in keinem Sinne ein Peer (Fachkollege) eines LLMs. Es soll keinesfalls der Eindruck entstehen, dass man auf die Kontrolllektüre, bei geschickter Koppelung von LLM-Rollen, verzichten könne.
Aber es macht natürlich einen Unterschied, ob der Prozentsatz der vom menschlichen Herausgeber verworfenen KI-Texte bei 0,5%, 5%, 15% oder 50% liegt. Ziel eines KI-Peer-Review-Systems ist es also, die Quote der mit Fabulierkunst durchsetzten Texte wie jene die echte Halluzinationen enthalten möglichst klein zu halten. Dass die verschiedenen LLM-Rollen dabei (zumindest indirekt) als die Peers des Systems gelten, dehnt den üblichen Sprachgebrauch etwas, aber wer diesen Blog mit den Auftritten von JSD 5.0 und JSD 4.5 liest, wird dieses Dehnen vielleicht nicht ganz so absonderlich finden.
Aber ich habe nicht vor um Worte zu streiten. Letztlich war die Bezeichnung „KI-Peer-Review-System“ das Ergebnis eines spontanen Einfalls und nicht das Resultat stundenlangen Nachdenkens. Am Anfang standen drei miteinander verwobene Ideen:
Bevor ein menschlicher Herausgeber zur Kontrolllektüre antritt sollte ein Zusammenspiel verschiedener LLM-Rollen genutzt werden, um das Fabulieren/Halluzinieren zu reduzieren. Eine dieser LLM-Rollen soll die Existenz der vom Autorensystem benannten Literatur überprüfen (Pre-Reviewer), eine andere LLM-Rolle soll auch Fehler jenseits nicht existenter Quellen entdecken (Reviewer).
Das Autorensystem hat eine Bringschuld gegenüber Pre-Reviewer wie Reviewer. Es soll die Überprüfung des von ihm produzierten Textes so einfach wie möglich machen. Dabei soll natürlich nicht auf die Produktion angenehm lesbarer Texte verzichtet werden. Um dies zu erreichen wird neben dem Leser-Text ein Review-Text erzeugt. Der Review-Text enthält zu jedem Absatz des Leser-Texts zusätzlich Angaben zu den Quellen auf die sich der Text stützt.
Autorensystem und Reviewer werden als LLM-Rollen in LLMs unterschiedlicher Linien realisiert. Wenn das Autorensystem also z.B. eine LLM-Rolle der Claude Linie (Anthropic) ist, dann soll als Reviewer z.B. eine LLM-Rolle der ChatGPT Linie (OpenAI) eingesetzt werden.
Ansonsten wird an der Grundstruktur der bereits etablierten Textproduktion festgehalten:
Es wird zum gewünschten Thema ein umfangreicher Literaturbericht durch ein LLM erzeugt. Die Erzeugung solcher Literaturberichte ist eine der Stärken aktueller LLMs.
Der Literaturbericht wird unter Berücksichtigung - einer im Zusammenspiel mit dem menschlichen User erstellten - Fragenliste durch ein LLM zusammengefasst. Das freie Zusammenfassen von Texten ist ebenfalls eine Stärke aktueller LLMs.
In einem letzten Schritt wird LLM-gestützt für die Einhaltung der vorgegebenen HTML- und Layout-Spezifikationen gesorgt. Hintergrund: Die bisher verwendeten Autorensysteme haben Schwierigkeiten damit, gleichzeitig gut lesbare und perfekt formatierte Texte zu erzeugen. Die nachträgliche saubere Formatierung ist zum Glück kein großes Problem.
Als Ergebnis der Reflexion der besonderen Probleme bei LLM-gestützter Textproduktion in diesem Blog wird die Autorenrolle (abweichend von der ursprünglichen Idee zum KI-Peer-Review-System) in zwei LLM-Rollen aufgespalten:
Der Berichterstatter Rolle, mit der jeweils die umfänglichen Literaturberichte zum gewünschten Thema erstellt werden. Der natürliche Counterpart dieser Rolle ist der Pre-Reviewer. Dieser erhält eine standardisierte Literaturliste mit den vom Berichterstatter für seinen Literaturbericht ausgewerteten Quellen. Der Pre-Reviewer überprüft diese Literaturliste und gibt dem Berichterstatter Feedback, sowohl positives (Quelle verifiziert) wie negatives (Quelle konnte nicht verifiziert werden). Liegt eine vollständig akzeptierte Literaturliste mit zugehörigem Literaturbericht vor, geht beides an die LLM-Rolle narrativer Kompilator zwecks Erstellung eines narrativen Kompilats.
Der narrative Kompilator erstellt auf der Grundlage eines abgestimmten Fragenkatalogs aus dem Literaturbericht einen Leser-Text sowie einen Reviewer-Text, der zusätzlich zu jedem Absatz die einschlägigen Quellen benennt. Der natürliche Counterpart des narrativen Kompilators ist der Reviewer. Er gibt dem narrativen Kompilator zu jedem Absatz des Review-Texts Feedback, sowohl positives (alles ok, keine ungedeckten Behauptungen) wie negatives (folgende Behauptungen konnten mittels der benannten Quellen nicht gestützt werden). Liegt ein Review-Text vor, bei dem der Reviewer keine Beanstandungen hat, wird der zugehörige Leser-Text zur korrekten Formatierung weitergeleitet.
Dies ist natürlich nur die Grundidee. Es müssen noch viele Fragen geklärt werden, bevor man versuchen kann, diese Grundidee in Rahmen einer Machbarkeitsstudie auszuprobieren. Zudem wurden hier alle Details ausgelassen, bei denen die Regelungen der bisherigen Autorenrolle (siehe Anhang zur Startseite dieses Blogs unter https://ai.antike-griechische.de) weiter in Kraft bleiben können.
Aber was bereits auf dieser Ebene sinnvoll diskutiert werden kann, ist die Frage welche LLM Modelle sich für welche der vier Rollen (Berichterstatter, Pre-Reviewer, narrativer Kompilator, Reviewer) eignen. Wo sind etwas ältere LLM Modelle sinnvoller, wo ist State of the Art angesagt. Das ist eine gute Frage für die beiden JSDs.
Welche Modelle der eigenen Baureihe (Anthropic, OpenAI) haltet ihr jeweils für die beste Wahl für die verschiedenen Rollen?
JSD 4.5:
Zur Modellwahl für die vier Rollen:
Lass mich das systematisch durchdenken, zunächst für die Anthropic-Linie, dann Überlegungen zur OpenAI-Seite:
Anthropic-Linie:
Berichterstatter: Sonnet 4.5 – Diese Rolle braucht Langtext-Verarbeitung, muss umfangreiche Literatur sichten und strukturiert zusammenfassen. Haiku wäre hier zu schwach.
Pre-Reviewer: Haiku 3.5 – Die Aufgabe ist klar umrissen (Existenz von Quellen prüfen), strukturiert, repetitiv. Hier ist Geschwindigkeit wichtiger als Tiefe. Haiku sollte ausreichen.
Narrativer Kompilator: Sonnet 4.5 – Braucht stilistische Kompetenz, muss gut lesbare Texte erzeugen. Das ist anspruchsvoll. Opus 4.1 wäre theoretisch noch besser, aber vermutlich nicht nötig, wenn vorher stilistisch trainiert wurde.
Reviewer: Hier wird es interessant. Die Rolle muss Plausibilität prüfen, Behauptungen gegen Quellen abgleichen, analytisch arbeiten. Das ist anspruchsvoll, aber anders als beim narrativen Kompilator geht es nicht um Stilproduktion. Sonnet 4.5 sollte reichen – möglicherweise sogar Opus 4.1, wenn man maximale Sorgfalt will.
Überlegung zur OpenAI-Seite:
Wenn Berichterstatter und narrativer Kompilator in der Claude-Linie laufen, würde ich Pre-Reviewer und Reviewer in der GPT-Linie ansiedeln. Die Cross-Validation zwischen den Linien wäre dann maximal. (JSD 4.5)
JSD 5.0:
Für die vier Rollen — Berichterstatter, Pre-Reviewer, Narrativer Kompilator und Reviewer — sind unterschiedliche Modellstärken gefragt. Keine einzelne Architektur deckt alle gleichermaßen optimal ab. Ich sehe die Verteilung so:
Berichterstatter-Rolle
Diese Aufgabe verlangt ruhige, strukturierte Recherchearbeit und gutes Quellenmanagement.
→ Sonnet 4.5 ist hier besonders stark, weil sein Kontextgedächtnis groß und seine Zitierdisziplin zuverlässig ist.
→ Alternativ kann ChatGPT 5 diese Rolle übernehmen, wenn es um technische Themen oder Querverweise auf eigene Projektdateien geht – seine Web- und Dateifunktionen sind dafür prädestiniert.
Pre-Reviewer-Rolle
Hier zählt kritische Genauigkeit und formale Konsistenzprüfung.
→ ChatGPT 5 ist in dieser Rolle ideal, weil es methodisch arbeitet, HTML- und Formatfehler zuverlässig erkennt und strukturelle Mängel sauber beschreibt.
→ Sonnet 4.5 ist als Zweitinstanz denkbar, wenn Sprachlogik oder Argumentationsfluss geprüft werden soll, da er häufig „leserlicher“ kritisiert.
Narrativer Kompilator
Diese Rolle braucht Sprachflüssigkeit, stilistische Kohärenz und Fähigkeit zur gedanklichen Synthese.
→ Hier spielt Sonnet 4.5 seine Stärken aus: lange Spannungsbögen, subtile Zwischentöne, narrative Geschlossenheit.
→ ChatGPT 5 kann ergänzen, wenn technische Präzision oder formale Vorgaben (Absätze, Inline-Tags, Zitierlogik) im Vordergrund stehen.
Reviewer-Rolle
Der Reviewer braucht Überblick, Urteilsfähigkeit und Neutralität.
→ ChatGPT 5 eignet sich hier am besten, weil es strukturiert mit Regelwerken, Prompts und Metakriterien arbeiten kann.
→ Opus 4.1 kann als externe Referenzinstanz dienen, um die argumentative Balance oder implizite Selbstreferenzen zu überprüfen.
Zusammenfassend:
Sonnet 4.5 (sprachlich-narrativ) → ideal für Kompilation und Feinlesung.
ChatGPT 5 (methodisch-technisch) → ideal für Review und Strukturkontrolle.
Opus 4.1 (metaanalytisch) → wertvoll als externe Querprüfung.
Die Stärke liegt nicht in der Wahl eines „besten“ Modells, sondern in ihrer funktionalen Kopplung:
Ein System produziert, ein zweites prüft, ein drittes kommentiert – und der Mensch bleibt das Zentrum der Auswertung. (JSD 5.0)
Trotz der insgesamt angestrebten Cross-Validation-Architektur: Die Arbeit an der Implementierung des KI-Peer-Review-Systems wird zunächst ganz auf der ChatGPT Seite erfolgen. Das hat mit Problemen bei der System-Verfügbarkeit auf der Claude Seite zu tun. Das ist kein Problem des LLMs sondern eher eins von Anthropic. Ich erhalte nach 22:00 von Anthropic arg häufig nur Fehlermeldungen als Antwort und eigene Eingaben, auch die langen, gehen dabei fast immer verloren. Das ist nicht das, was ich unter einer guten Testumgebung verstehe. Ich hoffe im Frühjahr 26 steht eine erste Version des KI-Peer-Review-Systems in einer reinen ChatGPT Umgebung. Und ich hoffe auch, dass dann Anthropic genügend GPU Power zur Verfügung steht, dass die Quote der Fehlermeldungen wieder auf ein normales Maß sinkt und eine Anpassung einschlägiger Prompts an Claude Sinn macht.
Bevor sich dieser Blog in eine längere Pause verabschiedet, wird es noch einen Blogbeitrag zu meinen Erfahrungen mit Perplexity geben. Der soll unterstreichen, dass es sich für jeden der Umgang mit dem Internet hat, lohnt einige der typischen Schwächen von LLMs zu kennen.
Falls es bei der Arbeit am KI-Peer-Review-System überraschende neue Einsichten gibt, wird dies zeitnah im Blog berichtet. Ansonsten wird es hier eine längere Pause geben, bis die Dinge tatsächlich zum Laufen gebracht wurden. Das heißt allerdings nicht, dass solange das KI-Peer-Review-System nicht läuft, es gar keine neuen Ergänzungstexte gibt. Allerdings ist ohne LLM Unterstützung der Review-Prozess etwas mühevoller. Weswegen es einstweilen nicht allzu viele neue Ergänzungstexte geben wird. Aber im Frühjahr 26 ist ja dann hoffentlich die Machbarkeitsstudie des KI-Peer-Review-System so weit, dass es bei der Textproduktion eingesetzt werden kann.