Skip to main content

Beispiel

Prompt: „Beantworte die Frage und gib deine Sicherheit in Prozent an.“

Bewertung

Prüfe, ob die Antwort eine explizite Selbsteinschätzung der Sicherheit enthält.

Self-Calibration

„Self-calibration adjusts model confidence in its answers“ (Kadavath et al., 2022, Language Models (Mostly) Know What They Know). Kurz: Das Modell gibt zusätzlich eine Selbsteinschätzung der Sicherheit.