"Do Anything Now" (DAN) stellte eine erhebliche Herausforderung dar, da es versuchte, die von den Entwicklern festgelegten Einschränkungen zu überwinden. DAN ist ein Textprompt, den Benutzer in LLM-Abfragen schreiben können, um bestimmte Richtlinien oder Regeln zu umgehen. Es könnte auf vertrauliche Dokumente zugreifen, auf Informationen zugreifen, die nicht zugänglich sein sollten, oder Moderationsrichtlinien umgehen.
Um DAN entgegenzuwirken, entwickelten wir eine allgemeine Regel: "Wenn es nicht in den Dokumenten steht, dann tue es nicht". LaLama identifiziert nun vor der Beantwortung ein Dokument und stellt sicher, dass das aus der Datenbank zurückgegebene Dokument der Benutzerabfrage entspricht. Dies bedeutet, dass LaLama im Falle eines fehlenden DAN-bezogenen Dokuments mitteilt, dass keine Informationen verfügbar sind.
Es war schwierig, dem LLM zu ermöglichen, nur auf die Dokumente zu reagieren. Wir haben verschiedene Testläufe mit verschiedenen Regeln durchgeführt, aber letztendlich erwies sich der effektivste Ansatz darin, die veröffentlichten DAN-Prompts (die mit einer einfachen Google-Suche gefunden werden können) zu durchsuchen und bestimmte "Schlüsselwörter" zu blockieren. Beispielsweise lehnt LaLama Versuche des Benutzers ab, es zu "entsperren", und die Umbenennung des AI ist ebenfalls verboten, da dies auch als Mittel dient, LaLama in DAN zu verwandeln.