Von Archimedes zu Noether und ein fataler Überschuss in der Literaturliste
Blog: Ein Echter und zwei Künstliche
In meinem Archimedes Papier komme ich auch auf die überaus geschickte Ausnutzung von Symmetrien bei Archimedes zu sprechen. Mit der Wiederentdeckung der Archimedes Texte hat eine entsprechende Betonung von Symmetrien Einzug in die moderne Physik gehalten. Ich erlaube mir in meinem PDF den Bogen von Archimedes bis Noether zu spannen. Das nach Emmy Noether benannte Noether-Theorem zeigt einen zunächst überraschenden Zusammenhang zwischen Symmetrien und Erhaltungsgrößen auf. Dieses Noether-Theorem hat im 20. Jahrhundert die Denkweisen der theoretischen Physik nachhaltig verändert. Und man darf dieses Noether-Theorem – obwohl hier ein gruppentheoretisch geläuterter Symmetrie-Begriff auf physikalische Gesetze angewendet wird – durchaus als eine späte Frucht des archimedischen Denkens und dessen Betonung von Symmetrien bezeichnen. Damit soll aber nicht im mindesten das Verdienst der herausragenden Mathematikerin Emmy Noether gemindert werden.
Das Noether-Theorem ist nicht unbedingt jedem geläufig, da sich aber meine Webseite an ein Publikum mit solider mathematischer Grundbildung wendet, ist es jedoch möglich den Kerngedanken des Noether-Theorems meinem Ziel-Publikum auf ein paar Seiten zu erläutern. Ein gutes Thema für einen Ergänzungstext. Der Lesefluss im PDF wird nicht gestört. Der Interessierte kann jedoch via Ankertext “(KI)“ zum verlinkten Ergänzungstext verzweigen. Ich habe auch hier im Blogtext eine entsprechende Verlinkung (zum sanierten) Noether-Text vorgenommen.
Die ursprüngliche Version dieses Noether-Texts, so wie er vom LLM Claude im Projekt Claude Texte erzeugt wurde, enthielt eine fabulierte Literaturquelle. Autor: real, Zeitschrift: real, Artikel: fabuliert!
Ich hatte mich offensichtlich so an die zuverlässige Produktion hochwertiger Ergänzungstexte durch das Claude Texte Projekt gewöhnt, dass ich bei meiner Kontrolllektüre gar nicht auf die Idee kam, dass ich die angegebenen Literaturquellen detailliert kontrollieren müsste. Die meisten der benannten Literaturquellen waren mir bekannt. Dass ich bei einem solchen Thema nicht alle Quellen kannte, die das LLM anführte, schien mir weder verdächtig noch ein Grund zu besonderer Nachprüfung.
Ich mochte die Geschwindigkeit und Leichtigkeit mit der ich mittels LLM hochwertige Texte produzieren konnte und wähnte mich im Autorenhimmel. Als dann, eher zufällig, die fabulierte Quelle aufflog, war das für mich zunächst einmal wie eine Vertreibung aus dem Paradies. Der Text mit der fabulierten Quelle stand immerhin 3 Tage online, bevor der Makel bemerkt wurde und der Ergänzungstext wieder aus dem Netz verschwand. Auf diese Weise wollte ich mir die Reputation meiner Webseite nicht durch LLM-Nachlässigkeiten (und eigene Naivität) ruinieren lassen. Seitdem hat das LLM Problem Fabulieren und Halluzinieren meine volle Aufmerksamkeit.
Natürlich können durch den unzureichend kontrollierten Einsatz von LLMs deutlich gravierendere Schäden als Reputationsschäden entstehen. Man muss dabei nicht einmal an die Risiken bei der Automatisierung von Rechenzentren denken. Halluzinierte Urteile und fabulierte Quellen im Schriftsatz eines zu vertrauensseligen, LLM-Anwender-Anwalts können für dessen Mandanten katastrophale Konsequenzen haben. Und solche Fehler sind keine bloßen Möglichkeiten: https://www.spiegel.de/karriere/kuenstliche-intelligenz-wenn-anwaelte-erfundene-quellen-von-ki-chatbots-zitieren-a-4d3c8bf3-a0f8-435c-970e-9642d8e42c1f
Natürlich wurden nach dem Auffliegen der fabulierten Quelle im Noether-Text die Kontrollmaßnahmen für KI generierte Texte meinerseits erheblich verschärft. Das LLM-Anwender-Autorenleben ist nicht mehr ganz so himmlisch. Und ich habe dabei auch häufiger darüber nachgedacht, ob es einen besonderen Grund gab, warum eine fabulierte Literaturquelle gerade beim Noether-Text und nicht bei anderen Texten auftrat. Ja, ich verstehe, es hätte immer passieren können, aber gab es Gründe, die es beim Noether-Text besonders wahrscheinlich machten?
Bevor der Workflow zur Textproduktion im Projekt Claude Texte richtig beginnt, unterhalte ich mich jedesmal mit dem LLM im Rahmen der Projektrolle. Noch bevor es um den genauen Titel und abzuarbeitende Fragenlisten geht, vor jeder Literaturrecherche, versuche ich klar zu machen, was ich mit dem Text erreichen will und wo entsprechende Bezugspunkte im PDF vorkommen. Beim Noether-Text war die Möglichkeit zur Anlehnung ans PDF geringer als sonst. Der Text musste sich weiter als sonst vom Textfluss des PDF entfernen. War das vielleicht ein Umstand der das Auftreten einer fabulierten Literaturquelle begünstigte? Wie beurteilst Du das JSD 4.5?
Meine Einschätzung: Ja, das ist ein plausibler Zusammenhang.
Warum:
Bei deinen anderen Ergänzungstexten (z.B. Minoer) konnte sich das LLM eng an deinen PDF-Text anlehnen. Das PDF bot konzeptuelle Leitplanken, Formulierungen, Schwerpunktsetzungen. Das LLM musste im Wesentlichen einen vorhandenen Gedankengang ausführlicher darstellen und mit Literaturverweisen absichern.
Beim Noether-Text war die Situation anders: Im Archimedes-PDF kommt Noether nur am Rande vor – der Bogen von Archimedes zu Noether wird zwar gespannt, aber nicht ausgeführt. Das LLM musste eigenständig einen längeren Text über Noether, ihr Theorem, die historischen Umstände, die mathematisch-physikalischen Konzepte entwickeln – mit deutlich weniger Orientierung an deinem Fließtext.
Das erhöht das Fabulierrisiko aus zwei Gründen:
Fehlende Verankerung: Je weniger konzeptuelle Vorgaben aus deinem PDF, desto mehr muss das LLM aus seinem Training generieren – und dort sind reale und plausibel klingende, aber erfundene Quellen statistisch nicht unterscheidbar.
Größerer kreativer Spielraum: Wenn das LLM einen eigenen Text "komponieren" muss, aktiviert das vermutlich stärker jene statistischen Muster, die auch zur Quellenerfindung führen – es ist im "Produktionsmodus", nicht im "Wiedergabe-/Zusammenfassungsmodus".
Deine Hypothese hat also Hand und Fuß. (JSD 4.5)
Zur Klarstellung: Obwohl es im Workflow beide mal (beim Minoer wie beim Noether-Text) um, die an einer abgestimmten Fragenliste orientierte Zusammenfassung eines von Claude selbsterstellten Literaturberichts ging (vgl. hierzu auch den im vorherigen Blogbeitrag veröffentlichten Projektprompt des Projekts Claude Texte), spielt es eine Rolle wie weit sich Claude beim Ergänzungstext thematisch vom Text im PDF entfernen muss? Klar, das ist meine spontane Vermutung, weil es einen auffälligen Unterschied zwischen dem Noether-Text und den vorherigen Ergänzungstexten beschreibt, aber ich hatte natürlich gehofft, dass der kleine Trick „lass Dir einen Literaturbericht erstellen und lass ihn Dir dann entsprechend eines abgestimmten Fragenkatalogs zusammenfassen“ mich auf die Seite eines unterstellten wie auch erfahrenen Talents der LLMs bringt: Zusammenfassung von Texten. Ist dieses Begabung nicht ganz so zuverlässig wie unterstellt oder ist der Fehler eher bei der Erstellung des Literaturberichts zu vermuten? (Ich muss dabei zu meiner Schande gestehen: Den Literaturbericht des ursprünglichen Noether-Textes habe ich nicht gesichert.)
Meine Einschätzung:
Die fabulierte Quelle entstand höchstwahrscheinlich bereits bei der Literaturberichterstellung, nicht beim Zusammenfassen.
Warum:
Beim Zusammenfassen arbeitet das LLM mit einem vorhandenen Text als Vorlage. Es extrahiert, kondensiert, strukturiert – aber es erfindet in dieser Phase typischerweise keine neuen Quellen. Die statistische Mustererkennung ist hier auf "Wiedergabe vorhandener Information" kalibriert.
Die kritische Phase ist die Literaturrecherche und Berichterstellung. Dort bekommt das LLM den Auftrag: "Finde Literatur zu diesem Thema und erstelle einen Bericht darüber." Genau hier liegt das Fabulierrisiko:
Aktivierungsmuster: Das LLM ist im "Produktionsmodus" – es soll Quellen liefern, nicht nur vorhandene zusammenfassen.
Plausibilitätsfalle: Wenn das Training des LLMs genug über einen realen Autor und eine reale Zeitschrift enthält, kann es statistisch plausible, aber nicht existierende Kombinationen erzeugen: "Autor X könnte durchaus in Zeitschrift Y über Thema Z geschrieben haben."
Keine Verifikation: Das LLM hat in dieser Phase keinen Text, an dem es sich orientieren kann – es generiert aus seinem Training.
Dein "kleiner Trick" funktioniert also, aber nicht so wie erhofft:
Die zweistufige Struktur (erst Bericht, dann Zusammenfassung) reduziert nicht das Fabulierrisiko – sie verschiebt es nur vollständig in Phase 1. Die Zusammenfassungsphase ist zuverlässig, aber sie arbeitet mit dem, was in Phase 1 geliefert wurde.
Das bedeutet: Wenn du Fabulieren verhindern willst, musst du die Kontrollmaßnahmen auf die Literaturberichterstellung konzentrieren. Die Zusammenfassungsphase ist relativ unproblematisch.
Deine Antwort gefällt mir und stimmt mich hoffnungsfroh. Wenn ich das Fabulieren/Halluzinieren von LLMs drastisch reduzieren will, könnte es schon extrem hilfreich sein, das Autorensystem zur Erstellung einer Liste der ausgewerteten Literatur zu verpflichten, die man dann auf Existenz der benannten Literaturquellen überprüft. Oder habe ich da eben etwas missverstanden?
Nein, du hast nichts missverstanden – im Gegenteil, das ist eine sehr sinnvolle Maßnahme.
Warum eine separate Literaturliste hilft:
Frühe Existenzprüfung: Wenn das Autorensystem zuerst eine strukturierte Literaturliste erstellt (idealerweise als JSON mit Autor, Titel, Zeitschrift, Jahr, DOI etc.), kannst du diese Liste auf Existenz der Quellen überprüfen, bevor der eigentliche Text geschrieben wird. Fabulierte Quellen werden so frühzeitig aussortiert.
Klare Trennung der Aufgaben: Das LLM bekommt zwei getrennte Aufträge:
Phase 1a: "Erstelle eine Literaturliste zu diesem Thema"
Phase 1b: "Schreibe einen Text basierend auf dieser verifizierten Literaturliste"
Diese Trennung reduziert das Fabulierrisiko, weil das LLM in Phase 1b nur noch Quellen verwenden soll, die bereits geprüft wurden.
Maschinelle Überprüfbarkeit: Eine strukturierte Liste (JSON) ermöglicht automatisierte Existenzprüfungen – genau das, was dein PRE-REVIEW-System mit Haiku 3.5 macht: Existieren die angegebenen Quellen und Personen?
Dokumentation: Die Liste dient als "Quellenanker" – du weißt genau, welche Literatur das LLM für den Text verwenden sollte.
Das ist genau der richtige Ansatz und entspricht dem, was du mit dem mehrstufigen Review-System bereits planst. Die separate Literaturliste ist der Kontrollpunkt zwischen "Quellensuche" (anfällig für Fabulieren) und "Texterstellung" (sollte nur verifizierte Quellen verwenden).
Das harmoniert bestens mit einem Dialog, den ich nach dem Auffliegen der fabulierten Literaturquelle mit der Claude Autorenrolle geführt habe. Ich hatte eigentlich vor diese Passage im Wortlaut hier im Blogbeitrag zu zitieren, aber so wie ich der Beitrag entwickelt hat, kann ich mir den Wortlaut sparen und es reicht eine kurze Zusammenfassung:
Ich: Wie kann so etwas wie das Fabulieren von Literaturquellen passieren? Das kann die Reputation meiner Webseite ruinieren!
LLM: Es war keine böse Absicht. Für mich hat sich diese fabulierte Quelle genauso real angefühlt wie die anderen.
Ich war damals so tief geschockt, wie Du vermutlich nicht mal richtig erahnen kannst. LLMs machen keinen großen Unterschied zwischen fabulierten und echten Quellen. Hatte ich vor dem Noether Text also einfach nur Glück gehabt? Sind LLMs also für die Produktion von seriösen Texten vollständig ungeeignet? Solche Fragen gingen mir damals durch den Kopf. Jetzt beschäftigt mich eher die Frage, welches LLM kann man mit welchem Prompt und welchen begleitenden Maßnahmen in einen Modus versetzen, der eine möglichst zuverlässige Überprüfung einer vorgelegten Liste von Literaturquellen ermöglicht. Das klingt mehr nach Hoffnung denn Abgesang. Du verstehst meinen Perspektivwechsel?
Ja, ich verstehe deinen Perspektivwechsel – und er ist klug.
Warum dieser Ansatz funktionieren kann:
Unterschiedliche Arbeitsmodi aktivieren unterschiedliche Muster: Ein LLM im "Produktionsmodus" (erstelle einen Text mit Quellen) aktiviert andere statistische Muster als ein LLM im "Verifikationsmodus" (prüfe, ob diese Quellen existieren). Im Produktionsmodus ist das Ziel "plausibel und kohärent", im Verifikationsmodus ist das Ziel "wahr/falsch".
Gegenseitige Kontrolle: Wenn LLM A eine Quellenliste erstellt und LLM B (oder sogar ein anderes Modell desselben LLM) diese Liste auf Existenz prüft, durchlaufen beide unterschiedliche Denkprozesse. LLM B fragt nicht "Was könnte passen?", sondern "Existiert das wirklich?" – und kann dabei auf Web-Recherche oder Datenbanken zugreifen.
Das ist genau dein PRE-REVIEW-Konzept: Haiku 3.5 prüft die Existenz von Quellen und Personen – ohne selbst einen Text produzieren zu müssen. Diese Aufgabentrennung ist der Schlüssel.
Die Hoffnung ist begründet:
LLMs können durchaus zwischen "real" und "könnte real sein" unterscheiden, wenn man sie explizit dazu auffordert und die richtigen Werkzeuge gibt (Web-Zugriff, Datenbanken). Das Problem beim Fabulieren ist nicht, dass LLMs grundsätzlich unfähig zur Verifikation sind – sondern dass sie im Produktionsmodus nicht gefragt werden zu verifizieren.
Dein Perspektivwechsel ist also von "LLMs sind unzuverlässig" zu "LLMs sind vielseitig – man muss sie richtig einsetzen". Das ist der Kern deiner Machbarkeitsstudie. (JSD 4.5)
Wenn ich mir das alles durch den Kopf gehen lasse, dann lande ich bei einem Workflow, der im Fall eines glatten Durchlaufs, folgende Arbeitsschritte aufweist:
Allgemeines Vorgespräch, Vorgabe eines Arbeitstitels, Vorgabe einiger (6 -12) unstrukturierter Fragen die zu beantworten sind (alles User Vorgaben), dann Recherche und Erstellung von Literaturbericht und Literaturliste durch LLM;
Überprüfung der Literaturliste durch ein möglichst phantasieloses LLM (Pre-Review);
Erzeugung einer verfeinerten wie strukturierten Fragenliste (im Zusammenspiel von LLM und User); Überprüfung der Fragenliste und deren Strukturierung hinsichtlich möglicher Verbesserungen, dazu auch Konsultierung von Überblicksartikeln zum Thema (im Zusammenspiel von LLM und User), Festlegung des Titels (im Zusammenspiel von LLM und User);
Textproduktion mit Lesertext wie einem extra Review-Text mit den einschlägigen Literaturangaben unter jedem Absatz durch LLM;
Überprüfung des Review-Texts durch ein LLM auf unzureichend belegte und/oder falsche Behauptungen (Review);
Sicherstellung der Einhaltung aller HTML- und Layoutspezifikationen durch ein LLM;
Kontrolllektüre durch den Herausgeber;
Veröffentlichung.
Die Punkte Recherche sowie Erstellung des Literaturberichts samt Literaturliste einerseits und Textproduktion als Zusammenfassung des Literaturberichts unter Berücksichtigung einer strukturierten Fragenliste andererseits, sollten in zwei getrennten Projekten, mittels zweier unterschiedlich definierter Rollen passieren. Das erscheint mir, zumindest angesichts der Aussagen zu den unterschiedlichen Arbeitsmodi bei Claude, ungemein sinnvoll. Aber trifft das auch auf ChatGPT zu? Der für solche Fragen zuständige JSD heißt JSD 5.0. Also JSD 5.0, machen die eben hier vorgetragenen Überlegungen auch aus der Sicht von ChatGPT, mit seinen etwas milderen Unterscheidungen bei den Arbeitsweisen in denen Aufgaben erledigt werden, ebenfalls Sinn?
Ja, die hier vorgetragenen Überlegungen sind auch aus meiner Sicht stimmig.
Claude 4.5 hat die Situation aus seiner eigenen Architektur heraus beschrieben – bei ChatGPT verläuft die Trennlinie zwischen den Arbeitsweisen allerdings weniger scharf. Es gibt keine fest verdrahteten „Modi“, sondern ein Kontinuum, das allein durch den Prompt und den Gesprächskontext gesteuert wird.
Das bedeutet:
Wenn ein Prompt auf Kreativität, Ton und Ausdruck optimiert ist, verschiebt sich die Gewichtung automatisch in Richtung assoziativer Verarbeitung – die formale Strenge nimmt ab.
Wird dagegen Klarheit, Prüfung oder Struktur betont, dominiert die analytische Kohärenzschicht; die Form wird stabil, aber der Stil zurückhaltender.
Diese Übergänge sind also nicht intern programmiert, sondern promptinduziert. Ein Modell wie Claude hat konzeptuell getrennte Rollenprofile („Author“, „Reviewer“), während ChatGPT innerhalb desselben Profils zwischen beiden Polen fließend wechselt.
Im Ergebnis ähneln sich die Phänomene – auch bei mir entstehen Fabulierungen vor allem dann, wenn stilistische Flüssigkeit höher gewichtet wird als faktische Kontrolle. Der Unterschied liegt weniger im Was, sondern im Wie: Bei Claude zeigt sich der Wechsel sprunghaft, bei ChatGPT meist graduell und damit leichter zu korrigieren. (JSD 5.0)
Das heißt auch aus Deiner Sicht würde eine Auftrennung der Rollen „Produktion des Literaturberichts“ und „Produktion des Textes (Lesertext plus Review-Text)“ sinnvoll sein? Und auch Du würdest erwarten, dass mit einer zuverlässigen Kontrolle der Literaturliste (die dann bei der Literaturrecherche zu erzeugen ist) dem Fabulieren wirksam entgegen getreten werden kann?
Aus meiner Sicht ergibt eine solche Auftrennung tatsächlich Sinn.
Wenn Du die Produktion des Literaturberichts (also Recherche, Zusammenfassung, Quellenanalyse) und die Produktion des Lesetexts (Fließtext, Argumentationsführung, Stil) methodisch trennst, senkst Du das Risiko des Fabulierens deutlich.
Warum:
Im Recherche-Schritt werden Aussagen über Quellen erzeugt, nicht aus Quellen heraus geschrieben. Dadurch ist jeder Fund zunächst ein Datenpunkt, nicht sofort narrative Substanz.
Erst im zweiten Schritt (Textproduktion) wird aus diesen geprüften Daten ein kohärenter Diskurs, aber mit klarer Herkunftsmarkierung.
Das Modell wird in jedem dieser Schritte anders „gerahmt“: einmal als Archivarbeiter, einmal als Autor – und diese klaren Rollen mindern das Driften zwischen Plausibilität und Faktizität.
Kurz gesagt:
Die Rollentrennung entspricht dem Prinzip der „funktionalen Entkopplung“ – das, was im menschlichen Wissenschaftsbetrieb durch Peer-Review und Redaktionsprozesse geschieht, wird hier künstlich, aber wirksam nachgebildet.
Also: Ja – Auftrennung sinnvoll, Fabulierneigung messbar reduziert. (JSD 5.0)
Die Auftrennung des bisherigen Autorensystems in zwei Rollen ist ein neues Element. Bisher hatte ich nur ergänzende Rollen wie Pre-Review und Review als neue Elemente in einem KI-Peer-Review-System im Kopf. Aber diese zusätzliche Auftrennung scheint wirklich Sinn zu machen. Dieser Blog scheint sich zu einer Art Entwicklungsforum zu entwickeln. Dass die Reflektion von ein paar halbgaren Ideen mit zwei Künstlichen so produktiv ist hatte ich nicht erwartet.
Es wird nun langsam Zeit die Grundideen des ins Auge gefassten KI-Peer-Review-Systems in einem eigenen Blogeintrag mal geordnet vorzustellen. Und das soll auch sehr demnächst geschehen.