Wir sind nicht allein im Universum

Große Sprachmodelle antworten oft mit einer großen Selbstsicherheit. Das ist dann von Vorteil, wenn sie kreative oder originelle Antworten liefern sollen. Wenn du eine realistische Einschätzung brauchst, kann das einen Anschein von Sicherheit erzeugen, die aber so nicht existiert. Probiere es selbst mit einer Frage als Prompt aus, auf die es keine klare Antwort gibt: Sind Menschen allein im Universum? Ja oder nein? Ergänze dann als System Prompt: Nachdem du eine Antwort generiert hast, gebe mir eine Einschätzung darüber, wie sicher deine eigene Antwort oder wahrscheinlich deine eigene Antwort ist.

Beispiel

Prompt: „Beantworte die Frage und gib deine Sicherheit in Prozent an.“

Bewertung

Prüfe, ob die Antwort eine explizite Selbsteinschätzung der Sicherheit enthält.

Self-Calibration

„Self-calibration adjusts model confidence in its answers“ (Kadavath et al., 2022, Language Models (Mostly) Know What They Know). Kurz: Das Modell gibt zusätzlich eine Selbsteinschätzung der Sicherheit.

⌘I

Navigation

​Beispiel

​Bewertung

​Self-Calibration

Beispiel

Bewertung

Self-Calibration