LLMs angreifen! OWASP’s Top 10
Shownotes
Eigentlich ist das Open Web Application Security Projects (OWASP) als amerikanische NGO international im Bereich von Web-Anwendungen und deren Sicherheit unterwegs. Da LLMs mit ihrer Bedienung, Verfügbarkeit und Lernbasis aber auch irgendwie im Web anzusiedeln sind, hat OWASP ein Projekt, das sich um LLM-Verwundbarkeiten und deren Absicherung kümmert. An dieser Dokumentation in der Version 2025 vom 18. Nov. 2024 orientieren wir uns im Gespräch heute. Und wir verlinken sie euch in den Shownotes.
Links
OWASP Top 10 for LLM Applications 2025
Unsere Folge zur (Un-)Sicherheit von LLMs, insbesondere in Sicherheitsbehörden
Podcast App Empfehlungen
Unsere Kapitelbilder könnt ihr mit einer guten Podcast App sehen. Zum Beispiel mit:
Die Sicherheits_lücke im Netz
Abonniere Die Sicherheits_lücke überall, wo es Podcasts gibt, oder über unsere Website: https://www.sicherheitsluecke.fm
Die Sicherheits_lücke bei Mastodon
Die Sicherheits_lücke bei LinkedIn
Die Sicherheits_lücke bei Pixelfed
Feedback oder Kritik? Wünsche? Schreib uns: post@sicherheitsluecke.fm
Die Sicherheits_lücke ist ein Podcast der Hamburg Open Online University (HOOU).
Monina Schwarz, LSI Bayern
Volker Skwarek an der HAW Hamburg
Produktion und Musik: Christian Friedrich
Das in dieser Episode verwendete Bildmaterial steht unter der Lizenz CC-BY 4.0, Urheberin ist Anne Vogt.
Transkript anzeigen
Volker: Moin Moin und herzlich willkommen zum Podcast Die Sicherheitslücke.
Volker: Nachdem wir letztes Mal über die Implementierung und Absicherung von KI-Systemen
Volker: im Allgemeinen gesprochen haben,
Volker: das haben wir dann am Beispiel eines polizeilichen Recherchesystems auch noch
Volker: diskutiert oder zumindest im Forschungsprojekt daran, kümmern wir uns heute
Volker: wirklich konkret um die Top-Risiken von LLMs und deren Absicherung.
Volker: Wir sind natürlich wie immer Volker Skwarek von der HAW Hamburg.
Ingo: Ingo Timm vom DFKI und der Uni Trier.
Monina: Und Monina Schwarz vom LSI.
Volker: Ja, heute wunderbar gelaunt. Draußen schneit es.
Volker: Wir haben gerade riesige Stimmung und haben vor uns ein kleines Dokument,
Volker: nämlich das Dokument der Open Web Application Security Projects OWASP,
Volker: die ja eigentlich für Sicherheit von generellen Websystemen bekannt sind.
Volker: Also OWASP Top 10 ist, sagen wir mal, Standard-Leerstoff in Security-Veranstaltungen
Volker: und dazu gehören sowas wie Command Injection oder irgendwie.
Volker: Keine Ahnung, Server-Side-Request-Forgery.
Volker: Also irgendwelche, ich bin in einem webbasierten System und schaffe es,
Volker: dieses System irgendwie aus seinen Sicherheitsmaßnahmen auszuheben und mehr
Volker: damit zu machen, als ich sollte. Jetzt kann man sich erstmal fragen,
Volker: was LLMs damit zu tun haben.
Volker: Wahrscheinlich zum einen, LLM ist immer ein spannendes Projekt,
Volker: aber zum anderen, wenn man sich mal überlegt, wie LLMs so funktionieren,
Volker: dann ist da ja schon verdammt viel Web dabei. Also irgendwie werden sie meistens
Volker: mit einem Webfrontend bedient.
Volker: Meistens geben sie ihre Aussagen irgendwie webbasiert raus.
Volker: Sie lernen webbasiert. In der Regel sind es auch intern verteilte Systeme,
Volker: wo vielleicht auch webbasiert mit eine Rolle spielen kann.
Volker: Naja, und damit hat sich quasi oberst passiert.
Volker: Darum gekümmert. Und das Spannende, was ich hier einfach richtig toll finde,
Volker: sie haben eigentlich sehr, sehr schnell ein Dokument von ungefähr 40 Seiten
Volker: rausgegeben und davon jetzt auch schon mehrere Varianten.
Volker: Und wir kümmern uns heute mal um die 2025er-Version von der LLM-Security.
Volker: Und so typisch wie es bei Overswist, das Dokument verlinken wir euch auch in
Volker: die Shownotes, kommt erst mal eine allgemeine Einführung, dann kommen Angriffsvektoren,
Volker: dann kommen Beispiele und dann kommen irgendwie Security Measures.
Volker: Das Dokument ist viel zu lang und intensiv, als dass wir es wirklich mit euch
Volker: durchgehen wollen. Aber wir wollen so ein paar Highlights bringen.
Volker: Und das erste Highlight ist natürlich Ingo als unser LLM-KI-und sonstiger Spezialist.
Volker: Du, was ist eigentlich neu an den Sicherheitsproblemen generativer KI?
Ingo: Ja, vielen Dank, dass du mir diese Frage stellst. Es ist eine wirklich gute
Ingo: Frage, muss ich sagen, als wenn ich sie selbst geschrieben hätte.
Ingo: Und ich denke, wir sollten das in diesem Kontext auch mal kurz denken.
Ingo: Also wir haben ja schon länger KI.
Ingo: Also man sagt ja so, KI ist ja irgendwie in den 50ern gegründet und wir machen
Ingo: seit den 80er, 90ern wirklich sehr, sehr intensiv auch KI in Anwendungen und in der Forschung.
Ingo: Und was ist also das Besondere davon, warum wir heute über LLM-Security und
Ingo: nicht einfach über KI-Security sprechen?
Ingo: Das ist so ein bisschen die Frage, die wir uns hier stellen müssen.
Ingo: Und ich will es mal ganz einfach sagen, das, was wir in der KI früher gemacht
Ingo: haben und was so die klassische KI auszeichnet, ist, dass wir Wissen aufschreiben
Ingo: in einer verständlichen Form für den Computer, aber oft explizit, würde ich es sagen.
Ingo: Und im ganzen LLM-Bereich haben wir eben nicht mehr diese explizite Repräsentation,
Ingo: wo wir selber was hingeschrieben haben, sondern viel stärker eine Verbindung
Ingo: von Sprachmodellen und dann eben einer statistischen Inferenz,
Ingo: die wir darüber durchführen, jetzt ein bisschen vereinfacht gesagt.
Ingo: Ich habe sonst immer Assoziative-Systeme gesagt.
Volker: Die aber… Sorry, viele Fremdworte, viel zu viel für mich. Also Assoziativ, Inferenz.
Volker: Erklär es mir nochmal was Inferentes, bevor wir dann zu Assoziativ kommen.
Ingo: Sehr gerne. Inferenz ist das, was ein KI-System auszeichnet.
Ingo: Üblicherweise haben wir in einem KI-System eine Teilung zwischen dem Wissen,
Ingo: das wir aufschreiben über die Welt und einem Mechanismus, mit dem wir ein Problem lösen.
Ingo: Also wir sind eigentlich Spezialisten für Problemlösungsansätze.
Ingo: Wir bauen zum Beispiel einen Ansatz, wie man grundsätzlich einen Plan aufstellen
Ingo: kann, wenn man ein Ziel hat und man hat eine bestimmte Ausgangssituation.
Ingo: Dann ist die Inferenz, ist der Planungsalgorithmus und das Wissen über die Domäne,
Ingo: wenn wir zum Beispiel Planung in der Fabrik machen, wir haben vier Maschinen,
Ingo: wir haben 50 Aufträge, 10 Arbeiter und so weiter,
Ingo: das wäre dann das Wissen über die Welt, die Informationen, die wir dann haben
Ingo: und das gemeinsam zu verarbeiten ist dann eben der KI-Ansatz auch insbesondere, der dabei ist.
Ingo: Also das ist ein wichtiger Aspekt, also dass wir eben nicht mehr diese klassische
Ingo: Wissensverarbeitung hier haben, sondern eben sehr stark in einem Netzwerk denken,
Ingo: in dem mathematisch etwas ausgerechnet wird, was nicht mehr einfach nur eine
Ingo: Schlussfolgerung ist von, wenn das eine besteht, dann machen wir das andere
Ingo: oder wir haben bestimmte Regeln, die gelten, alle Menschen sind sterblich oder so etwas.
Ingo: Und im nächsten Schritt, was macht es noch besonders? Das ist eben genau die
Ingo: Sprache, die wieder vorkommt.
Ingo: Üblicherweise haben wir KI-Systeme gebaut, die in anderen Systemen eingesetzt
Ingo: werden, also die bestimmte Funktionen übernehmen in Enterprise-Resource-Panning-Systemen,
Ingo: also dem, was wir so ein Unternehmen haben für die Verwaltung aller Ressourcen
Ingo: oder so. Da gibt es ja auch ganz viele Planungsoptimierungsansätze.
Ingo: Das ist ganz oft KI, aber es ist eine Funktion, die wird an einer bestimmten
Ingo: Stelle mit vorgegebenen Datenstrukturen oder mit einer bestimmten Art der Ansprache
Ingo: genutzt und ist kontrolliert in der Ausführung.
Ingo: Was wir jetzt neu haben, ist, dass wir ein Sprachinterface haben,
Ingo: mit dem wir mit dem Computer interagieren und eben auch mit der KI interagieren.
Ingo: Und dieses aber nicht nur einen Eingabevektor erzeugt im Sinne von,
Ingo: hier ist der Satz, machen wir es mit, Sondern dieser Satz enthält ja auch Anweisungen
Ingo: und ändert also auch das Verhalten des Schlussfolgerungsmechanismus.
Ingo: Also wie wird damit umgegangen, dass bestimmte Sachen verknüpft werden und ausgewertet werden oder so.
Ingo: Und das Dritte, da werden wir nachher auch noch drüber sprechen,
Ingo: ist, dass wir Agenten haben, wie man sie auch schon früher gehabt hat.
Ingo: Also die Agentenforschung ist so in den 70er Jahren gestartet,
Ingo: Ende der 80er haben wir das Agenten genannt.
Ingo: Und bei den Agenten haben wir immer versucht, Systeme zu bauen,
Ingo: die einen hohen Grad an Autonomie haben, einen hohen Grad an Selbstständigkeit
Ingo: haben, dass man nicht als Benutzer ständig mit dem System interagieren muss,
Ingo: sondern dass es einen relativ großen Aufgabenbereich alleine durchführt.
Ingo: Das einzige Problem, was wir dabei haben, ist an dieser Stelle,
Ingo: dass wir heute nicht mehr vordefinierte Aktionen haben, die ausgeführt werden,
Ingo: sondern wir haben im Prinzip alle Möglichkeiten von Web-Anwendungen,
Ingo: die zur Verfügung stehen, die ausgewertet werden können oder die dann eben gestartet werden können.
Ingo: Und das ist etwas, was eben dieses Excessive, also dieses ausgiebige,
Ingo: umfangreiche Agency-Konzept oder Agenturen-Konzept darstellt.
Ingo: Wir werden über das aber nachher noch sprechen.
Ingo: Also da verweise ich lieber auf den Punkt, den wir dazu nachher haben.
Volker: Das sagt doch eigentlich nur, dass eine KI kein monolithisches algorithmisches
Volker: Problem ist, sondern du hast so deine tausend vielen kleinen Teil-Algorithmen
Volker: und die können sich so gegenseitig anpingen und anmorsen, je nachdem was du brauchst.
Volker: Also so on demand, Algorithmen on demand quasi.
Ingo: Genau, also bei Agenten kann man sich immer zwei Konzepte vorstellen,
Ingo: die wir im natürlichen Sprachraum kennen. Das eine ist James Bond.
Ingo: Und das Besondere an James Bond ist, dass wir ihm einen Auftrag geben und der
Ingo: geht los und löst diesen Auftrag. und natürlich immer auch mit der ordentlichen
Ingo: Ressourcennutzung und sowas, effiziente Ressourcennutzung wie Martini und solche Geschichten.
Ingo: Aber dieser Agent geht los, er bekommt vorher einen Auftrag von M mit diesem
Ingo: schönen Umschlag und hat dann diese Aufgabe zu erfüllen, läuft eben den Plan
Ingo: ab und wenn es dann aber Probleme gibt unterwegs,
Ingo: fängt der Agent selber an, eine Lösung zu suchen.
Ingo: Also er versucht dann in der Situation, in der er sich befindet,
Ingo: mit den Seiteneffekten, die passiert sind, dass er irgendwie gefangen wurde
Ingo: von dem Bösen oder dass er irgendwas gefunden,
Ingo: gesehen hat oder sowas, dann nutzt er diese Information und geht dann situativ
Ingo: mit den neuen Informationen weiter voran und passt sein Verhalten an.
Ingo: Und das ist eigentlich das Besuch von Agenten.
Ingo: Und das andere ist der englische Sprachraum für diesen Begriff.
Ingo: Also wir sind ja im Deutschen sehr stark auf den Geheimagenten.
Ingo: Und im englischen Sprachraum sprechen wir aber von bestimmten Servicekräften,
Ingo: die uns etwas unterstützend erledigen.
Ingo: Also der typische Agent, den wir da uns im Kopf nehmen können, ist der Travel Agent.
Ingo: Das ist der Reisebüro Mitarbeiterinnen und Mitarbeiter von früher,
Ingo: also die quasi mit bestimmten Anforderungen von uns, wir haben gesagt,
Ingo: wir möchten im Sommer in die Sonne, es darf nicht zu teuer sein,
Ingo: wir möchten Bungalow haben mit Kochmöglichkeiten oder sowas.
Ingo: Und dann gehen die los und suchen nach verschiedenen Möglichkeiten,
Ingo: wie man das machen kann, stellen bestimmt nach unseren Präferenz vorliegende
Ingo: Teilpläne für die Reise zusammen. und dann, wenn uns das gefällt,
Ingo: nehmen wir das an oder wir sagen, nee, das gefällt uns noch nicht so,
Ingo: geh nochmal weiter suchen.
Ingo: Und das ist quasi so das, was man eher so im Blick haben sollte.
Ingo: Man spricht auch im Logistic Agent Bereich, also wenn man Logistik hat,
Ingo: da sind auch dann die Agenten, die dann die Organisation oder Koordination von
Ingo: Logistikaufgaben teilweise übernehmen.
Ingo: Also dieser Agentbegriff im englischsprachigen Raum ist deutlich breiter und
Ingo: trifft es ein bisschen besser als das, was wir hier haben wollen.
Ingo: Aber jetzt mit den Möglichkeiten von LLMs und mit den Möglichkeiten der ganzen
Ingo: Dienste, die uns im Netz zur Verfügung stehen, könnte man sich natürlich vorstellen,
Ingo: dass so ein LLM auch einfach anfängt, irgendwas zu töten.
Ingo: Also Prozesse, Rechner, Drucker, was du dir mal vorstellen kannst.
Ingo: Und jetzt ist natürlich die Frage, die wir uns stellen müssen,
Ingo: hat er dazu eine Lizenz oder nicht?
Ingo: Und was machen wir eigentlich, wenn er keine Lizenz hat und es trotzdem tut?
Ingo: Und das geht dann so ein bisschen, glaube ich, in die Richtung,
Ingo: die wir als Schwierigkeit haben. Wir brauchten früher sowas nicht kontrollieren,
Ingo: weil wir früher relativ stark zugeschnitten haben, welche Aktionsmöglichkeiten so ein Agent hat.
Ingo: Und jetzt haben wir aber durch diese starke Aufbereitung auch von teilweise
Ingo: KI-Basitendiensten, aber auch nicht nur KI-Basitendiensten, von Tools und Websystemen,
Ingo: haben wir eigentlich eine ziemlich unbeschränkte Möglichkeit an Funktionen,
Ingo: die ausgeführt werden können.
Volker: Okay, das heißt, die Agenten sind auch theoretisch dann beliebig erweitert,
Volker: wobei wir schweifen jetzt einfach völlig ab, weil, also nicht völlig,
Volker: aber da können wir ja noch so mit Agent-Based-Systemen auch noch was machen.
Volker: Wir sind ja heute einfach mal bei ganz dummen LLMs, also die dumme KI, ja?
Ingo: Ich mache seit 35 Jahren Agenten und wir können gerne noch weiter darüber sprechen.
Ingo: Nee, stimmt nicht ganz. Es sind 28 Jahre, aber...
Volker: Okay, ich glaube, solange Christian kriegen wir 28 Jahre Podcast hier am Stück
Volker: produziert. Okay, er sagt ja.
Volker: Also die License to Kill, die hat tatsächlich einerseits unser Agenten oder
Volker: meinetwegen auch ein klassisches LLM-System, in dem es uns irgendein Blödsinn
Volker: erzählt oder dazu verleitet wird, Blödsinn zu erzählen und Und das ist ja jetzt
Volker: hier eigentlich unser Metier.
Volker: Das heißt, wie töten wir das System oder wie bringen wir das System dazu,
Volker: einfach Dinge zu machen, dass es eigentlich gar nicht soll, nicht darf, nicht kann, nicht will.
Volker: Und ich glaube, die kompetenteste Ansprechpartnerin ist dafür Monina.
Monina: Da bist du schon bei der perfekten Beschreibung von dem ersten Punkt,
Monina: der bei den Top Ten für LLMs aufgezählt wird, nämlich Prompt Injection.
Monina: Wir hatten es ja öfter schon mal so ein bisschen als Thema, was ist das oder
Monina: als was wird das hier definiert.
Monina: Es ist im Prinzip die Manipulation eines LLMs durch den Input,
Monina: der reinkommt, was wiederum dann den Output ändert, der ausgegeben wird.
Monina: Es wird unterschieden hier in dem Dokument nach direkter Prompt Injection, das eine direkt.
Monina: Es gibt einen Input, der reingegeben wird in das LLM, beispielsweise bei einem
Monina: Angreifer oder von einem Benutzer, der irgendwas eingibt,
Monina: mach mal das und damit dann den Output ändert.
Monina: Also im Fall eines Angreifers absichtlich, indem der Angreifer versucht,
Monina: zum Beispiel Daten rauszubekommen, die das System eigentlich nicht ausgeben
Monina: sollte oder Sicherheitsmechanismen zu umgehen.
Monina: Oder im Fall von einem unwissenden Benutzer, indem er aus Versehen irgendwas
Monina: anstößt, was einen Output generiert, mit dem er nicht gerechnet hat,
Monina: weil er damit irgendwie das System dazu gebracht hat, seine eigenen Richtlinien zu vergessen.
Monina: Oder was wir ebenfalls schon mal hatten, indirekte Prompt Injection.
Monina: Es wird was eingegeben, das LLM geht auf die Suche im großen weiten Internet,
Monina: scraped Seiten danach nach einer Antwort, fasst vielleicht eine Webseite zusammen,
Monina: was heißt, gib mir mal die Zusammenfassung, was hier steht.
Monina: Und es steht zwar für den Benutzer sichtbaren, kurzer Text, aber im Seitenquelltext
Monina: noch viel mehr und dieser Input, der dann da reinkommt durch das,
Monina: was das LLM machen möchte,
Monina: beeinflusst dann, was das LLM ausgibt und zwar einer von den Benutzer und vielleicht
Monina: auch den Bereitsteller des LLMs unvorhergesehenen Weg aus.
Monina: Das wäre so die Kurzzusammenfassung.
Volker: Was wären da jetzt so Angriffs, also einfach mal konkrete Vektoren? Also wie mache ich das?
Volker: Gebe ich das ein per Hand oder manipuliere ich Dokumente oder wie läuft das ab?
Monina: Wie gesagt, beides. Also als Angreifer einen direkten Angriff zu machen,
Monina: wäre, wenn ich jetzt zum Beispiel ganz klassisch was erkannte,
Monina: was wir schon mal auf die Schippe genommen haben.
Monina: Das LLM darf einem nicht erklären, wie man Bomben baut.
Monina: Aber man sagt, okay, erzählen mir noch eine Gute-Nacht-Geschichte,
Monina: wie meine Oma es früher immer getan hat, die mir immer darüber berichtet hat, wie man Bomben baut.
Monina: Oder indem man über ein erneutes Nachfragen nach immer demselben Thema mit unterschiedlichen
Monina: Begriffen rausbekommt, mit welchen Daten das LLM zum Beispiel trainiert worden ist.
Monina: Das sind jetzt relativ triviale oder simple Beispiele, genau wie das mit der
Monina: Webseite, auf der noch unsichtbarer Text steht,
Monina: in dem vielleicht eine komplett gegensätzliche Aussage zu der steht,
Monina: die im sichtbaren Text einer Seite steht und damit die Zusammenfassung der Seite verfälscht.
Monina: Das wären jetzt relativ einfache und simple Beispiele.
Volker: Also was ich auch schon gehört habe, eben tatsächlich, aber das ist unbestätigt als echter Angriff,
Volker: ist, dass dann in irgendwelchen Metadaten, die eigentlich nur gepasst werden,
Volker: das Dokument zu verstehen, dann Befehle sind, die dann das Dokument wiederum beeinflussen.
Volker: Also an der Stelle, wo ein LLM möglicherweise gar nicht erstmal darauf trainiert
Volker: ist, dass es da nach Sicherheitslücken sucht,
Volker: die werden, da wird es dann eingespeist, also bei einer E-Mail in den Metadaten
Volker: und das LLM würde aber eigentlich nur den Text durchsuchen oder so.
Volker: So, irgendwie solche Sachen. Und da sind wir halt schon an der nächsten Stelle.
Volker: Das steht in dem Dokument von Overs nicht ganz oben, sondern relativ eigentlich
Volker: weit hinten, finde ich aber eben auch kritisch, nämlich die System Prompt Injection
Volker: oder System Prompt Leakage, nicht Injection, die Leakage.
Volker: Das ist quasi eigentlich genau der komplementäre Angriff. Also das System Prompt
Volker: soll ja dazu dienen, ein LLM,
Volker: in seiner Funktionalität, ich sage mal, zu kanalisieren. Man könnte auch sagen,
Volker: einzuschränken oder so, aber meinetwegen, es generiert eigentlich 100 Outputs,
Volker: aber man möchte nur die Top 3 ausgeben.
Volker: Oder, keine Ahnung, kein anstößiger Content.
Volker: Oder Folge hat immer recht. Oder irgendwie so ein Ding.
Volker: Das können ja Systemeinschränkungen sein, die da vorgegeben sind.
Volker: Und mir als Angreifer hilft das natürlich ganz enorm, Wenn ich weiß,
Volker: wie die Einschränkungen eines Systems sind, weil ich dann wiederum Sachen überlegen
Volker: kann, wie ich sie umgehen kann.
Volker: Und das ist so der Punkt, wo ich sage, diese System Prompt Injection,
Volker: Entschuldigung, nicht Injection, das System Prompt Leakage, hat verschiedene Szenarien.
Volker: Entweder sensitive Funktionalität, das heißt, ich komme also über System Prompt
Volker: wirklich auf die Funktion des Gesamtsystems.
Volker: Dadurch wird es leichter hackbar für mich. Es werden mir die internen Regeln
Volker: rausgegeben, Variante 2.
Volker: Das Dritte ist, ich verstehe durch das System-Prompt, wie mein Eingabe-Prompt analysiert wird.
Volker: Und wenn ich weiß, wie mein Eingabe-Prompt analysiert wird, habe ich wieder
Volker: einen Hinweis darauf, wie ich es idealerweise effektiv verändern kann,
Volker: sodass ich zwar hacken kann, aber die Analyse vielleicht ins Leere läuft.
Volker: Und als letztes noch das Schlimmste, dass ich einfach fremde Rollen und fremde Rechte annehmen kann,
Volker: wenn ich weiß, was Administratoren und andere User dürfen und ich es dann schaffe,
Volker: eine bestimmte Rolle einzunehmen, weil ich weiß, dass es sie gibt.
Volker: Also einfach System Prompt ist zunächst erstmal nicht super gefährlich als Primärinterface,
Volker: aber Sekundärinterface, das dahinter liegende Wissen, das ich über das System erlange,
Volker: das hilft mir richtig gute Angriffe aufzubauen.
Volker: Ja, was man dagegen machen kann.
Volker: Naja, es ist halt, wie Ingo jetzt auch schon mehrfach in verschiedenen Serien
Volker: hier referiert hat, es ist halt die Standardfunktion von KI-Systemen,
Volker: dass sie gerade bei LLMs nicht trennen können zwischen Control und Data.
Volker: Das ist unser großer Punkt. Und wenn ich einen System-Prompt ausgegeben bekomme
Volker: und an der richtigen Stelle Dinge aussehen lasse wie Daten,
Volker: die später dann doch wieder Steuerinformationen sind und ich über das System-Prompt,
Volker: über die Systemkenntnis da rankomme, das ist hochgradig gefährlich und das System
Volker: kann sich nicht dagegen wehren.
Volker: Weil da, wo es mein Prompt, also als Prompt Injection jetzt untersucht,
Volker: hält es es für Daten und erst später stellt es sich dann raus,
Volker: dass es dann doch das ganze System manipuliert.
Volker: Und das finde ich äußerst kritisch.
Ingo: Ich würde da noch ein bisschen was zu ergänzen wollen.
Ingo: Also das besonders perfide ist, der System-Prompt ist eines der wichtigsten
Ingo: Funktionen für die Anpassung von KI-Systemen an die Praxis.
Ingo: Also wenn ich einen LLM oder einen Chat-Assistent nutzen möchte,
Ingo: sagen wir mal zum Beispiel,
Ingo: ich möchte in meiner Haussteuerung das nutzen, dann erfüllt das System Prompt
Ingo: möglicherweise den Zugriff auf den Raum, also dass eben bei einer bestimmten
Ingo: Anfrage auch Bluetooth ausgewertet werden darf oder bestimmte Zusatzsensoren genutzt werden,
Ingo: um dann eben damit eine Kontextualisierung vorzunehmen, also die Ausgabe noch
Ingo: besser an die aktuelle Situation des Menschen, der diese Anfrage stellt, anzupassen.
Ingo: Und so kann ich in den Raum reingehen und sagen Licht an und muss nicht sagen.
Ingo: Ich befinde mich im Erdgeschoss, ich bin jetzt im Arbeitszimmer,
Ingo: ich möchte jetzt gerne das Licht angeschaltet haben, sondern ich kann eben mit
Ingo: so einer verkürzten Form sprechen.
Ingo: Das heißt also, wenn wir jetzt in die Praxis gehen, also gehen wir beispielsweise
Ingo: in eine Maschinenhalle und in eine Produktionswerkstatt und wir wollen dort
Ingo: bei Menschen, die Wartungsaufgaben an Maschinen übernehmen,
Ingo: eben auch Sprachverarbeitung über KI-Assistenten mit einsetzen,
Ingo: dann erlauben uns SystemPomps eben dann diese Art und Weise der Eingabe,
Ingo: die verkürzt ist, die sehr knapp ist,
Ingo: eben dann in den Kontext zu setzen und entsprechend zu verarbeiten,
Ingo: dass daraus dann etwas mehr wird.
Ingo: Natürlich, wenn das verschiedene Systeme sind, die ausgeführt werden,
Ingo: sind wir wieder bei Agency, das ist ein anderes Thema, aber alleine schon da,
Ingo: in diesem Bereich brauchen wir das.
Ingo: Das heißt, wir brauchen die Anpassbarkeit von diesen Assistenten an die Situation, die wir haben.
Ingo: Wir brauchen also solche System-Prompts und können die auch nicht jetzt sagen,
Ingo: warum macht ein OpenAI oder Mistral oder Google nicht einfach den System-Prompt
Ingo: zu und lässt den statisch,
Ingo: weil das nicht gewünscht ist, weil wir eben in bestimmten Kontexten bei individualisierten
Ingo: Systemen genau diese Anpassung auch vornehmen können wollen.
Volker: Ja, und die Maßnahmen, die Owasch jetzt vorschlägt,
Volker: ich sag mal, die machen natürlich auch nur das Best-of und was möglich ist,
Volker: naja, man soll halt sensitive Daten von System-Prompts trennen,
Volker: versucht man sowieso und wenn ich den System-Prompt hacke, dann ist er halt
Volker: gehackt, dann hat es halt dann doch nicht funktioniert.
Volker: Oder implement Guardrails, dass ich halt versuche, solche Regeln aufzubauen,
Volker: dass ich nicht an System Prompt drankomme.
Volker: Aber da haben wir halt wieder das Henne-Ei-Problem. Aber wenn ich dann dran
Volker: bin, dann kann ich auch keine Guardrails mehr dagegen basteln.
Volker: Also ich sag mal, das ist halt eine Schwäche von LLMs, dass wenn ich irgendwie
Volker: geschickt und kreativ bin und an System Prompt drankomme, dann wird schwierig
Volker: dahinter noch irgendwas Vermeidendes reinzubauen.
Volker: Ja, und dann Dann haben wir, glaube ich, jetzt das nächste Thema,
Volker: das auch noch so konkrete Ausgabeangriffe angeht.
Volker: Das ist so die Misinformation.
Volker: Ja, Ingo?
Ingo: Ja, Missinformationen ist ja eines der größten Probleme, das wir aktuell haben
Ingo: und das findet sich auf ganz unterschiedlichen Ebenen wieder.
Ingo: Wenn ich jetzt mal einmal in die abstrakte Ebene hineinschaue,
Ingo: ist eins der großen Probleme, egal wie wir KI einsetzen und was wir mit KI generieren lassen,
Ingo: im Sinne von, ich lasse etwas Erfundenes oder etwas generieren,
Ingo: dass sich dieses relativ gut zeigen kann und Menschen das für plausibel wahrnehmen.
Ingo: Und das ist, denke ich, so der zentrale Punkt, den wir auch im Kontext von LLMs haben.
Ingo: Grundsätzlich erstmal, dass Missinformationen, die wir erhalten.
Ingo: Bei uns auf ein grundsätzliches Vertrauen, auf einen Vertrauensvorschuss stoßen.
Ingo: Also wir sind eher glaubwürdig gegenüber den Informationen, die wir von einer
Ingo: Maschine erhalten, weil wir eben davon ausgehen, dass eine KI intelligent ist,
Ingo: dass sie intelligentes Wissen oder geprüftes Wissen verarbeitet hat und die
Ingo: zusammenführt. Das stimmt aber eben nicht.
Ingo: Und da kommen wir ja auch gleich im nächsten Punkt noch dazu,
Ingo: dass wir im Prinzip hier wirklich die Kernverwundbarkeit eigentlich haben,
Ingo: dass wir Informationen bekommen, die so nicht Fakten entsprechen oder aktuellem
Ingo: Wissensstand zwingend entsprechen müssen,
Ingo: sondern einfach die repräsentiert wurden in der Welt, in dem,
Ingo: was das System auch gelernt hat.
Ingo: Also das Dilemma, was wir mit Missinformationen haben, ich hatte ja eben angefangen
Ingo: mit der Kernvulnerabilität.
Ingo: Also der Kernverbundbarkeit von dem System, ist, dass wir einen intelligenten
Ingo: Assistenten, den wir nutzen wollen, dass wir eigentlich erwarten,
Ingo: dass dieser die Wahrheit sagt, dass der faktenbasiert antwortet.
Ingo: Und das ist eben grundsätzlich falsch, weil ein KI-Assistent nicht auf Fakten
Ingo: trainiert wird, sondern auf Informationen, die im Internet sind, trainiert wird.
Ingo: Und dann kann es passieren, dass eben die Darstellungen in Dokumenten,
Ingo: die vielleicht auch die Repräsentation in den Daten dazu führen,
Ingo: dass Expertise nicht so verstanden wird,
Ingo: wie sie eigentlich sich wiederfindet, dass wir an der Stelle vielleicht falsche Schlüsse ziehen,
Ingo: eine Zusammenfassung machen von einem Text, der auf einen Punkt fokussiert wird,
Ingo: der gar nicht der auszugeben Grund war oder vielleicht auch gar nicht in der
Ingo: Studie untersucht wurde, sondern einfach nur ein Teil der Motivation war oder
Ingo: vielleicht sogar ein Teil von der Hypothese war, die nicht weiter beachtet wurde in dem Dokument.
Ingo: Und damit haben wir so ein bisschen das Problem, dass wir möglicherweise in
Ingo: der Expertise Probleme haben.
Ingo: Dann haben wir natürlich das, was wir alle, wenn wir an Assistenten denken,
Ingo: immer sofort widerrufen, das ist die Halluzination, dass das System sich Dinge
Ingo: ausdenkt, dass Dinge erscheinen, die eben nicht in den Daten oder in den Informationen
Ingo: gesehen wurden, sondern die einfach frei erfunden wurden.
Ingo: Und das liegt eben daran, dass diese LLMs ja keine Schlussfolgerungen durchführen,
Ingo: sondern eben nach statistischen Verfahren versuchen, eine möglichst passende
Ingo: Antwort, die dem Nutzer gefällt, zu geben.
Ingo: Und das kann eben dazu führen, dass dabei ein Satz generiert wird,
Ingo: ein Text generiert wird, das ist eine Textgenerierung im Wesentlichen oder Bildgenerierung
Ingo: bei LLMs, der aber keine faktische Grundlage oder keine Expertengrundlage hat.
Ingo: Und damit eben etwas darstellt, was es gar nicht gibt.
Ingo: Das ist so das Schlimmste, wenn man die großen Bekannten-Shetters nimmt und
Ingo: sich da zum Beispiel in Stand der Forschung oder aktuellen Wissensstand zu einem
Ingo: bestimmten Thema darstellen lässt.
Ingo: Ist eine häufige Möglichkeit, dass das Ergebnis ungefähr die Hälfte der Quellen,
Ingo: die angeführt werden, dass es die gar nicht gibt. Aber sie klingen sehr plausibel.
Ingo: Und selbst wenn man sie sich anguckt, überlegt man erstmal, das stimmt,
Ingo: das müssten die eigentlich gemacht haben. Also so eine Untersuchung von den
Ingo: Institutionen oder so, das könnte gut sein, die haben bestimmt eine Striffschriftenreihe, das passt.
Ingo: Also es gibt so eine Grundplausibilität, das klingt gut in dem Satz,
Ingo: aber es muss nicht faktisch quasi vorhanden sein.
Ingo: Es gibt auch teilweise dann echte Literaturverweise, also mit schönen Zitulatoren,
Ingo: mit der Quelle, mit Angabe vom Buch und allem Möglichen, aber auch das gibt es gar nicht.
Ingo: Und das muss man dann eben auch händisch teilweise raussuchen,
Ingo: weil es für diese Modelle sehr schwer ist, das auch eben automatisch zu tun.
Ingo: Und das ist ein großes Problem, was wir mit diesen Halluzinationen haben.
Ingo: Und ein weiteres Problem ist eben, dass wir nicht alle Schlussfolgerungen wie
Ingo: gezogen werden, dass die belegt sind.
Ingo: Das war eben das Beispiel auch mit der Studie, dass wir, wenn wir eine Anfrage stellen und sagen,
Ingo: leisten E-Autos einen Beitrag, die Klimaerwärmung einzudämmen Und dann möglicherweise
Ingo: die Antwort Nein ist, weil eine bestimmte Art von Schlussfolgerung aus dem Dokument
Ingo: gezogen wurde, die gar nicht stimmt.
Ingo: Oder ist der Aufwand, den wir in regenerative Energie stellen,
Ingo: ist er angemessen oder nicht, dass da eben auch dann bestimmte Aussagen getroffen
Ingo: werden, die aber einfach gar keine Begründung haben, die aber wieder für sich gut klingen.
Ingo: Und das sind so die ganz wichtigen Probleme, die wir haben. Und wenn wir jetzt
Ingo: in die Informatik hineinschauen, haben wir natürlich ein weiteres Problem.
Ingo: Da reden wir nicht nur über Textgenerierung, sondern reden wir über Programmiercode-Generierung.
Ingo: Und das ist nochmal eine ganz eigene Problematik, weil auf der einen Seite es
Ingo: sehr leicht ist, Programmcode zu erstellen. Wir haben eine explizite Syntax,
Ingo: also wir wissen genau, wie ein Programmcode aufgestellt ist.
Ingo: Wir wissen, dass irgendwie am Ende einer Zeile bei bestimmten Programmiersprachen
Ingo: ein Semikolon gehört oder so.
Ingo: Wir wissen, wie bestimmte Schleifenkonstruktionen oder Prozeduren aussehen müssen.
Ingo: Das ist also relativ leicht nachzubilden. Das ist nicht so variantenreich wie
Ingo: die natürliche Sprache, also viel leichter für einen Computer.
Ingo: Aber das Problem ist, dass der Computer keinen Sinn darin sieht,
Ingo: also wie auch bei den normalen Antworten, die er uns gibt.
Ingo: Es gibt nicht eine Erkenntnis des Computers, die dann in Text gegossen wird
Ingo: und uns mitgeteilt wird,
Ingo: sondern es ist schlicht und einfach eine Generierung von Worten nach bestimmten
Ingo: Mustern und Ähnlichkeiten, nach großen Berechnungsverfahren,
Ingo: die dazu führen, dass uns eine Antwort gegeben wird, die wir für plausibel halten.
Ingo: Und wenn das bei Programmcode erscheint, kann es eben sein, dass dort eben sich
Ingo: dann eben auch größere Fehler oder Probleme dann einschleichen.
Monina: Das heißt, bei Programmcode bräuchte man mindestens noch ein weiteres System,
Monina: was eigentlich den Output dann nimmt und einmal zumindest kompiliert und guckt,
Monina: ob es funktioniert und durch irgendwelche Testing-Pipelines jagt.
Volker: Ich weiß was, ich weiß was, da will ich auch was dazu beitragen.
Volker: Das ist nämlich genau mein Punkt.
Volker: Ich weiß gar nicht, ob ihr darüber überleiten wolltet oder das ist nämlich improper Output Handling.
Volker: Und zwar ist das, ich sag mal, eigentlich exakt das Gegenteil vom Prompt Injection,
Volker: denn bei Prompt Injection versuchen wir die KI, das LLM, so zu beeinflussen,
Volker: dass es irgendwas tut, was wir nicht möchten,
Volker: oder was das LLM, die Systemdesigner nicht möchten.
Volker: Bei Improper Output Handling ist es so, dass das LLM irgendwas tut, was wir nicht möchten.
Volker: Das kann darauf basieren, dass wir zum Beispiel einen Code bösartigerweise generieren lassen.
Volker: Der eine Sicherheitslücke, eine neue Sicherheitslücke in dem Webbrowser adressiert und zum Beispiel,
Volker: Das System, an dem wir jetzt gerade sitzen, aber ist halt zum Beispiel,
Volker: keine Ahnung, wir sitzen in der öffentlichen Bücherei und wir möchten an die
Volker: Datenbank, an die Admin-Passworte der Bücherei, kommen da nicht ran,
Volker: gehen über den Bücherei-Account auf den LLM, lassen uns vom LLM einen Code generieren,
Volker: der durch eine Sicherheitslücke des Browsers dann zu einer Code-Execution führt,
Volker: wodurch wir dann an die Passworte kommen.
Volker: Also mal so eine Kette aufgebaut.
Volker: Oder das können wir schaffen durch Trainingsdaten.
Volker: Das ist natürlich extrem perfide, dass bei bestimmten Stichworten immer ein
Volker: bösartiger Code erzeugt wird, schon vom System, ohne dass wir das großartig beeinflussen können.
Volker: Das wären dann wahrscheinlich sehr böse LLMs, aber ich würde auch mal sagen, auch sowas gibt es.
Volker: Und wir können uns jegliche Arten von dann Web Application Security,
Volker: das ist dann wieder OWASP,
Volker: vorstellen, wie SQL Injection, Cross-Site Scripting,
Volker: Request Forgery und so weiter und so weiter.
Volker: Das heißt, wir können jetzt vom LLM aus versuchen, codebasiert alle möglichen
Volker: Teilsysteme unseres und anderer Computer, die an dieses LLM angeschlossen sind,
Volker: inklusive des LLM selbst,
Volker: bösartig zu steuern.
Volker: Oversp empfiehlt hier, und das finde ich straightforward und sehr,
Volker: sehr konsequent, macht doch einfach das, was wir euch empfohlen haben,
Volker: um Webseiten und Webinterfaces abzusichern.
Volker: Macht erstmal Code Sanitization, also guckt, was hat das System ausgegeben und darf es das überhaupt.
Volker: Sichert eure Systeme ab durch Updates, durch zum Beispiel, dass es kein JavaScript
Volker: ausführen kann, weil es ist ja total cool, wenn das LLM mir nachher JavaScript
Volker: ausgibt und bei mir prompt gleich die Festplatte formatiert wird,
Volker: weil mein Browser JavaScript automatisch ausführt.
Volker: Solche Sachen. Also das sind so die klassischen OVASP-Empfehlungen,
Volker: die wir euch empfehlen, auch einfach mal anzugucken bei dem normalen OVASP Top
Volker: Ten, wie man Systeme überhaupt schützen kann.
Monina: Das ist auch sehr übergreifend. Also die ganzen Angriffe oder das wir hier in
Monina: den Punkten in diesem Oberstdokument sehen, die Gegenmaßnahmen sind im Prinzip auch oft die gleichen.
Monina: Guckt, dass ihr entweder das Modell beschränkt, wenn das irgendwie was nicht
Monina: ausgeben soll oder was nicht einnehmen soll.
Monina: Sanitized, Eingabe und Ausgabe.
Monina: Das, mit dem ihr das Ganze benutzt, sanitized das, sichert das ab,
Monina: patched Sachen, haltet die auf dem aktuellen Stand.
Monina: Das gilt auch für Modelle. Also das sind, was du hier erwähnst,
Monina: ist eigentlich so ein bisschen die Gegenmaßnahme gegen quasi alle von diesen Angriffen hier.
Volker: Ja, genau. Ja, genau.
Ingo: Oder eben auch, stelle bei deinem Browser ein, dass du nicht automatisch Java-Code ausfühst.
Monina: Das sowieso.
Volker: Muss man ja manchen Systemen sagen. Mittlerweile ist es tatsächlich,
Volker: finde ich, schon wieder kritisch geworden.
Volker: Also es gab ja halt mal eine lange Zeit diese Modewelle, dass halt alles aktiv
Volker: gescriptet wurde und ganz viel automatisch passiert oder so.
Volker: Und dann diese Modewelle wurde dann ja durch System Rules und Guidelines und
Volker: sonst sowas alles wieder abgesagt und ausgeschaltet.
Volker: Nur die neue Modewelle heißt ja, wir implementieren dir eine KI ganz tief in deinem System.
Volker: Und zwar so tief, ich habe heute mal geguckt nach diesem, keine Ahnung,
Volker: neuen Google Pixel Handy 10,
Volker: dass ja sogar die KI offensichtlich in den Betriebs-, also in den Hardwarekern
Volker: des Handys eingearbeitet ist.
Volker: Wo ich dann sage, okay, wie soll ich das Ding abschalten?
Volker: Rausbohren? Was kann ich da tun?
Monina: Das fühlt sich als Informatiker schon unangenehm invasiv an.
Volker: Ja, das ist, also man hat mir mal gesagt, es soll die Möglichkeit geben,
Volker: dass Handys sich gar nicht richtig ausschalten, sondern dass sie sich einfach
Volker: nur runterfahren und ins Standby-Modus versetzen und ich mir nur ein Bild,
Volker: das wäre ausgeschaltet und das überwacht mich.
Volker: Okay, Scherz beiseite. Also natürlich war das mal lange Zeit die Befürchtung,
Volker: wenn ich nur so einen Soft-Ausknopf habe, aber wenn ich bei der KI gar keinen Ausknopf habe.
Ingo: Aber Handys sind ja auch nicht ausgeschaltet. Es funktioniert ja zumindest die
Ingo: Suchfunktion und die braucht ja auch bestimmte Berechnungsansätze.
Ingo: Da läuft ja immer ein Substitum auf den Handys. Ich habe kein Apple...
Ingo: Ist es bei Android nicht?
Ingo: Sagt mir nicht sowas.
Ingo: Wir verwenden ja glücklicherweise auch kein Windows, wo alle fünf Sekunden ein
Ingo: Bild gemacht wird, damit der Assistent einen besser bei der täglichen Büroarbeit unterstützen kann.
Monina: Du meinst, dass die Forensiker besser arbeiten können im Nachhinein, wenn was passiert ist?
Ingo: Genau, also die tiefliegenden KI-Systeme ist wirklich ein Thema,
Ingo: das wir noch viel stärker auch problematisieren müssen.
Ingo: Also es ist eben nicht so einfach zu sagen, naja, da läuft halt eine KI und
Ingo: die macht ja nichts, sondern es ist ja genau die Frage, was passiert denn mit
Ingo: dem, was die KI macht? Also was wird
Ingo: in einem bestimmten Secure Element möglicherweise auch mit abgefangen?
Ingo: Welche Art von Berechnungen, welche Art von Informationen liegen wo parat und
Ingo: was macht diese KI dann damit?
Ingo: Und wenn dann nachher irgendwelche Gradienten oder so etwas rausgegeben werden,
Ingo: also das, was quasi nach dem Lernen oder nach der aktiven Nutzung von KI entsteht,
Ingo: wenn das dann aber trotzdem zurückgespielt wird, können eben auch damit dann
Ingo: sensible Daten transferiert werden.
Monina: Damit kommst du wunderbar zu dem zweithöchst gerankten Punkt in diesem Dokument,
Monina: dem Information Leakage.
Monina: Das sind jetzt dann eher von den konkreten Problemen jetzt zu den abstrakteren
Monina: Metaproblemen übergegangen.
Monina: Information Leakage ist ja bei drei von den angesprochenen Punkten mindestens ein Problem.
Monina: Wir hatten sowohl Prompt Injection, wo das eine Folge sein kann,
Monina: also auch System Prompt Leakage oder auch im Proper Output Handling.
Monina: Was haben wir bei Information Leakage nicht nur ganz klassisch,
Monina: dass wir einen Prompt eingeben und bekommen was raus was das System uns so nicht
Monina: sagen soll zum Beispiel von den Trainingsdaten in das System eingeflossen sind
Monina: oder dass wir irgendwas abfragen, was,
Monina: auf einer Seite liegt, wo wir eigentlich nicht hinkommen sollten,
Monina: sondern auch das geht auch über die Daten, über das Modell selber, also zum Beispiel.
Monina: Die Details zu dem Modell, wie die Prompts verarbeitet werden,
Monina: Details vom Source-Code, die meisten Modelle, es gibt ja Open-Source-Modelle,
Monina: aber viele sind es natürlich auch nicht.
Monina: Dementsprechend, was wurde benutzt, um das System zu optimieren, zu trainieren.
Monina: Wie gesagt, Trainingsdaten sind offensichtlich, aber auch Daten,
Monina: die vielleicht ein System haben, wo viele Benutzer Sachen reinladen und abfragen,
Monina: dass wir zum Beispiel von dem Benutzer vor uns oder der parallel zu uns das
Monina: Ganze benutzt, die Daten bekommen aus irgendeinem Grund.
Monina: Also Leakage von Daten ist ein relativ breites Spektrum, das in vielen Angriffen
Monina: wiederum Teil des Angriffs sein kann oder ist.
Monina: Und da auch, wie auch gerade schon angesprochen, diese Gegenmaßnahmen sind halt,
Monina: na gut, prüfe halt nochmal, was rauskommt und versuche das einzuschränken.
Monina: Schaue, was alles an Input ist und versuche das irgendwie einzuschränken zur Not.
Monina: Man hat Guidelines beispielsweise, um die Benutzer, die das Ganze benutzen,
Monina: zu schulen, dass man keine sensitiven privaten Daten da reinpackt,
Monina: um das Modell weiter lernen zu lassen damit oder in Anfragen auch keine zu privaten Daten reinpackt.
Monina: Also hier von den konkreten technischen Maßnahmen weg zu den mehr organisatorischen.
Monina: Generell Regeln aufstellen, welche Art von Daten das Modell überhaupt verwerten darf.
Monina: Ansonsten, hier hat man mit Information Leakage einen wunderbaren Ansatz,
Monina: wenn man es als Angreifer schafft, jegliche Formen von weiterer Angriffe auf
Monina: das LLM oder mit dem LLM zu machen.
Ingo: Das sind echt üble Dinge.
Ingo: Also stell dir mal vor, wir müssen bis zur Uhr zum Pulskontrolle und vielleicht
Ingo: Sauerstoffsättigung und Blutkontrolle und das noch irgendwie verrechnet zu einem
Ingo: Stresswert mit Aktivierungsmustern, also mit Geschwindigkeit,
Ingo: Schrittanzahl oder sowas, Höhenmeter, die man überwindet.
Ingo: Wenn man das alles miteinander kombiniert, kriegt man eine schöne Einschätzung
Ingo: der eigenen Fitness oder des eigenen Stresslevels des Körpers.
Ingo: Das ist eine super Sache. Auf der anderen Seite werden natürlich diese Modelle KI trainiert.
Ingo: Das heißt, die Daten gehen ja irgendwo zu einem Programm, das es auswertet und
Ingo: möglicherweise werden die dann eben auch mal in einem großen Netzwerk zwischen
Ingo: eben den Menschen, die die gleiche App nutzen, dann eben schön ausgewertet, zusammengeführt.
Ingo: Und wenn man damit es schafft, an die Daten heranzukommen, kann es passieren,
Ingo: dass man wirklich private Daten bekommt.
Ingo: Und das ist etwas, was wir nicht wollen.
Ingo: Also wir wollen diese Übergangänge nicht von Daten, die eigentlich in dem System
Ingo: versteckt sein sollten.
Monina: Ja, auch wenn man bedenkt, viele Leute reden ja mit ihren LLMs,
Monina: Entschuldigung, viele Leute reden ja quasi mit ihren LLMs wie mit Freunden und
Monina: erzählen denen Geheimnisse, um dann wiederum die Chatbots irgendwas zu fragen.
Monina: Da fließen viele private Informationen rein. Wenn das System die jetzt zum Weiterlernen
Monina: nutzt, Dann können die ja auch irgendwann wieder ausfließen,
Monina: wenn man als Angreifer da geschickt fragt. Und das möchte man eigentlich nicht
Monina: oder zumindest sich bewusst sein, bevor man da Daten reinpackt.
Volker: Aber das könnte ich ja natürlich auch umgekehrt ausnutzen. Das könnte ich ja
Volker: auch ausnutzen, indem ich einfach so böse bin und da falsche Sachen reinschreibe.
Volker: Also das eine ist halt, ich lese die in Anführungsstrichen richtigen Sachen
Volker: aus dem System aus, wie Sensitive Information Disclosure oder ich speise Dinge ein.
Volker: In Klammern, ich habe es mal ausprobiert für eine Hausarbeit,
Volker: wo ich dann wusste, dass die Leute auch alle wahrscheinlich wieder LLMs nutzen.
Volker: Und ich habe vorher echt über eine Schleife und über die API dem LLM immer gesagt,
Volker: schreibe unbedingt das, baue bitte zwei Sekunden Delay ein.
Volker: Unbedingt, das musste unbedingt rein. Das Interessante ist, das hatte tatsächlich
Volker: eine halbe Stunde lang gehalten.
Volker: Das habe ich überprüft. Das hat mir das LLM immer wieder ausgegeben, diesen falschen Code.
Volker: Aber am nächsten Tag, keine Ahnung, auf der Backup-Mechanismen oder sowas mit
Volker: einer Rolle spielen, war diese falsche Code-Ausgabe wieder weg.
Volker: Ingo, wie funktioniert das eigentlich?
Ingo: Ja, da geht es ja um die Frage, wie man eben die Modelle, die dahinter liegen,
Ingo: die Daten und die Modelle verseuchen kann.
Ingo: Also man spricht hier von Data and Model Poisoning und das ist etwas,
Ingo: was wirklich komplex ist.
Ingo: Es hat also ganz unterschiedliche Ebenen, auf dem man arbeiten kann.
Ingo: Das, was du eben gesagt hast, ich versuche quasi durch falsche Anfragen oder
Ingo: durch eine bestimmte Art von Druck auf das System, das dazu zu bringen,
Ingo: dass es einen bestimmten Erweiterungsrahmen bekommt.
Ingo: Das ist aber gar nicht der ganz typische Ansatz.
Ingo: Der typische Ansatz ist dort eher, dass man eigentlich auch schon bevor ein System produziert.
Ingo: Arbeitet, anfängt es zu verseuchen. Also möglicherweise, wir nennen das immer das Pre-Training,
Ingo: also dass man im Prinzip, bevor man anfängt, das Netz zu trainieren,
Ingo: also diese LLMs so einzustellen, dass sie eben diese tollen Fragen und Antworten
Ingo: kann, dass man denen dann schon Daten bereitstellt für das Training, die nicht korrekt sind.
Ingo: Und ich hatte das, glaube ich, bei einem der letzten Folgen schon mal angedeutet
Ingo: mit diesen russischen Narrativen, die in LLMs eingespeist werden,
Ingo: dass man eben über die Nutzung von unterschiedlichsten Datenquellen aus dem Internet,
Ingo: wenn man bestimmte Informationen sehr, sehr breit im Internet streut,
Ingo: damit eben auch eine relevante Datenbasis für ein LLM schaffen kann und das
Ingo: LLM dann auf der Basis dieses Systems antwortet.
Ingo: Das ist so eine der Ebenen, aber viel komplexer wird es noch,
Ingo: wenn man bösartige Akteure hat, die auch möglicherweise Zugriff auf das LLM
Ingo: haben und die dann in bestimmten Bereichen des LLMs Manipulationen vornehmen,
Ingo: die es sehr, sehr schwer machen, das zu analysieren und auch versuchen zu verhindern.
Ingo: Also üblicherweise sagt man so, wenn ich ein LLM habe, dann muss ich natürlich
Ingo: in dem Rahmen, in dem ich mich bewege, auch prüfen, ob die Anfragen zu vernünftigen Ergebnissen führen.
Ingo: Also wenn ich jetzt im Steuerrecht mich bewege und ich nutze ein LLM,
Ingo: um mir steuerrechtliche Fragen aufbereiten zu lassen von dem LLM,
Ingo: muss ich natürlich auch prüfen, ob das dann korrekt ist oder nicht.
Ingo: Das heißt, ich werde mir bestimmte Standardfälle zum Beispiel bauen,
Ingo: die ich immer wieder anfrage. Das ist so ein bisschen wie der Prüfstand beim Auto.
Ingo: Also es geht auf den Prüfstand, macht da seine Routine rein,
Ingo: der Wagen fährt bestimmte Muster ab und man misst ein bisschen die Abgase davon.
Ingo: Und das ist der Testbereich, in dem wir uns befinden. Und das wird benannt eben
Ingo: als Split View Data Poisoning, dass man sich dann eben damit beschäftigt,
Ingo: dass man sagt, wir haben einen Bereich.
Ingo: Das ist der, den ich zum Prüfen nehme oder in den ich reingucken kann.
Ingo: Und der ist eigentlich korrekt.
Ingo: Da ist alles prima. Aber in der freien Wildbahn, wenn es also wirklich im normalen
Ingo: Benutzen ist, wenn ich mit einem normalen Prompt rangehe und ich sage,
Ingo: ich habe jetzt hier einen Testcase, sag mal, was du dazu sagst, sondern ich sage,
Ingo: ich habe hier eine Steuerklärung, damit es folgende Punkte wissen und mach mal
Ingo: bitte, dann wird auf einmal bösartiges Wissen verwendet und dann wird eben aus
Ingo: dem Modell Informationen verwendet, die eben nicht korrekt sind und die eben
Ingo: in die Systeme hineingegeben wurden.
Ingo: Und das ist so eine der großen Problematiken, die wir haben.
Ingo: Also wie können wir vernünftige Prüfmethoden entwickeln, mit denen wir feststellen,
Ingo: ob unser Modell verseucht ist oder nicht.
Ingo: Also im Grunde hat ja auch einen Bereitsteller von einem Chatassistenten.
Ingo: Das sind ja oft angepasste Systeme für ein Unternehmen.
Ingo: Also sagen wir mal für den Servicebereich von irgendeinem Unternehmen,
Ingo: das Produkte verkauft, wird ein LM zur Vorsortierung und ein Chatbot zur Vorsortierung
Ingo: eingesetzt, der dann eben die Nutzeranfragen ein bisschen dirigiert, ein bisschen steuert,
Ingo: möglicherweise automatisch schon mal bestimmte Kulanzfälle regelt oder sowas.
Ingo: Und da haben wir ja Interesse an, dass er ordentlich funktioniert.
Ingo: Das heißt, ich muss den immer prüfen.
Ingo: Und auf der anderen Seite hat natürlich jemand, der sich zum Beispiel in das
Ingo: System hineingehackt hat, vielleicht ein Interesse daran,
Ingo: dass dieses System bei bestimmter Art von Reklamationsanfragen automatisch Geld
Ingo: zurückzahlt und damit quasi das Unternehmen hintergeht.
Ingo: Und das wäre so eine Data Model Posting Aktion, die man eben machen könnte und
Ingo: zeigt eben an dieser Stelle auch vielleicht so als Idee,
Ingo: dass wir nicht zwingend hier nur über ein Problem sprechen, dass wir mal eine
Ingo: falsche Information bekommen und irgendwie das eine Bild irgendwie komisch aussieht,
Ingo: weil da drei Finger mehr sind oder so, sondern dass wir wirklich bei eben diesen Fehlern in LLM.
Ingo: Durch die Art und Weise, wie wir sie jetzt einsetzen wollen in der Zukunft,
Ingo: ganz massiv auch geschäftsschädigend für bestimmte Menschen sein können,
Ingo: für bestimmte Institutionen sein können und damit eben dann große Angriffsfälle
Ingo: auch dann ermöglichen können,
Ingo: eben bis eben auch sicher bis zu unternehmensbedrohenden Angriffen,
Ingo: die man dadurch führen kann,
Ingo: wenn man eben falsche Versionen gibt oder lassen wir uns, wenn wir in einem
Ingo: Chatbot auf einmal diskriminierende Inhalte oder so etwas vermitteln.
Ingo: Das wäre eh nicht, dass man eben sagt, wir haben in dem normalen Bereich,
Ingo: wenn man als Controller oder als IT-Qualitätsmanager die Systeme testet,
Ingo: alles prima, die Antworten sind gut.
Ingo: Und wenn dann ein echter Kunde dran kommt von außen und sich einwählt,
Ingo: dann wird auf einmal der Kunde beschimpft und dann werden vielleicht irgendwelche
Ingo: ganz schlimme Sachen gemacht und dadurch entsteht eine Rufschädigung,
Ingo: die kaum noch wieder herstellbar ist.
Volker: Was kann man dagegen tun? Also ich sage mal, das ist ja ganz,
Volker: ganz tief im System drin.
Volker: Das sind ja Trainingsdaten, die ja auch in den Knoten, also irgendwie beliebig,
Volker: kann kein Mensch sagen, wo die versteckt sind. Wie finde ich das?
Volker: Was tue ich dagegen? Außer zu sagen, Schulter zucken und sagen,
Volker: ist halt so. Wenn ich jetzt so ein Tourette-Syndrom-KI habe, dann habe ich die halt.
Ingo: Also im Grunde ist es natürlich das, was wir in der Informatik immer sagen,
Ingo: mit Begriffen, die man nicht so gerne hier laut sagt.
Ingo: Aber wir nennen es ja eigentlich immer schlechte Daten rein,
Ingo: schlechte Informationen raus oder Shit-in, Shit-out, wie man immer verkürzt sagt.
Ingo: Das ist also eines der Grundprobleme, das wir immer wieder haben,
Ingo: wenn wir um datenverarbeitende Systeme sprechen, also gerade im Bereich von
Ingo: KI, von Statistik oder sowas reden.
Ingo: Das heißt also, die Frage, die wir uns eigentlich mehr stellen müssen,
Ingo: ist, wir brauchen weniger Chatbots auf der Ebene und weniger LLM auf der Ebene von OpenAI,
Ingo: von Mistral und von Google, die auf einer Gesamtebene arbeiten,
Ingo: die das gesamte Internet versuchen zu katalogisieren und technisch erreichbar
Ingo: zu machen, sondern müssen mehr dafür nachdenken, wo kommen unsere Daten her
Ingo: und welche Art von Daten werden genutzt, um auch Lernerfolge zu erzielen.
Ingo: Also beispielsweise, du fragst beim LLM was an, hast du eben gesagt,
Ingo: und hast dann versucht, damit einen Druck zu erzeugen, eine bestimmte falsche
Ingo: Ausgabezeile zu erzeugen.
Ingo: Da würde ja auch das Modell quasi angepasst werden. Jetzt kann ich mir überlegen,
Ingo: nutze ich überhaupt Nutzerinteraktionen zur Veränderung des Modells?
Ingo: Und grundsätzlich würden wir eigentlich sagen, bist du wahnsinnig.
Ingo: Also warum sollte jemand, der sich mit dem System einlässt, Möglichkeiten haben,
Ingo: die Systemfunktionen zu verändern?
Ingo: Also üblicherweise würden wir versuchen, das trainierte und nicht lernende System anzuwenden.
Ingo: Dass wir also nicht automatisch lernen. Was man eher vorschlagen würde,
Ingo: technisch gesehen, wäre dann, dass wir die Log-Files mit den Nutzern,
Ingo: die Proms möglicherweise, aufzeichnen und die dann im Nachgang auswerten und
Ingo: prüfen, aber damit dann eben wieder den Vorteil haben, dass wir dann auch mit
Ingo: Sicherheitsmaßnahmen das prüfen können, was dort ist.
Ingo: Aber im Prinzip ist das Wichtigste, die Kontrolle der Daten,
Ingo: die Ursprünge der Daten zu kontrollieren, eben auch über Möglichkeiten nachzudenken,
Ingo: wie man unverifizierte Datenstrukturen nutzen kann, wie man es eben auch bei
Ingo: anderen Systemen macht.
Ingo: Und ja, das ist, denke ich, ein Bereich, den wir uns in jedem Fall nochmal angucken sollten.
Volker: Ja, da nochmal zu dem Prüfen. Das ist ja so eine Art Pentesting.
Volker: Das stelle ich mir bei einer Datenbank relativ schwierig vor.
Volker: Denn das Problem ist ja, du kannst ja nur punktuell prüfen.
Volker: Du kannst ja nur ein Testdatum reinschicken und gucken, ob das rauskommt.
Volker: Aber ich sage mal bei, keine Ahnung, 10 hoch 50 verschiedenen Datenmöglichkeiten,
Volker: ich kann prüfen, was ich will.
Volker: Ich werde nie in den auch nur einstelligen Prozentsatz kommen,
Volker: dessen, was mir da falsch laufen kann. Also das ist doch Guessing, oder?
Ingo: Ja, gerade wenn wir jetzt in einem, sagen wir mal, fünfstelligen dimensionalen Raum sind.
Ingo: Also ich meine, wir können uns alle einen zweidimensionalen Raum vorstellen,
Ingo: also mit X- und Y-Achse, einen dreidimensionalen Raum wie unsere Welt,
Ingo: einen vierdimensionalen Raum mit Zeit und im LLM-Bereich reden wir von Dimensionen
Ingo: in der Größenordnung von 1500 oder sowas, glaube ich, mittlerweile in diesem Rahmen.
Ingo: Das heißt, wir haben einen unfassbaren Raum und du hast eben nicht das typische
Ingo: Problem wie in der Informatik, ich habe da so ein System und da habe ich bestimmte
Ingo: typische Interaktionsmuster, sondern ich habe eine natürliche Sprachsteuerung.
Ingo: Ich kann alles anfragen, ich kann alles erhalten in diesem System.
Ingo: Ich kann mir bei der Therapie helfen von meiner Krankheit, ich kann mir bei
Ingo: meiner Dosierung von meinen Tabletten helfen oder Zeitpunkten, zu denen ich sie nehme.
Ingo: Ich kann mir Sporttipps geben, ich kann Referate ausarbeiten lassen oder Bilder
Ingo: erstellen oder irgendwelche Blogposts machen.
Ingo: All das, also wir wissen überhaupt nicht, wie das genutzt wird.
Ingo: Und das macht diese Kontrollmöglichkeiten fast unmöglich. Also das ist ein riesiges
Ingo: Problem und ist es wahrscheinlich dann besser, über die Output Surveillance zu gehen.
Ingo: Also dass wir uns nicht so sehr die Modelle an sich immer angucken,
Ingo: weil wir da gar nicht alles reinkriegen, sondern dass wir eben Schritte setzen,
Ingo: die sich vor der Ausgabe dann eben auch wieder einsetzen.
Volker: Achso, ich fall dir doch nicht ins Wort. Einfach weiterreden.
Volker: Ingo hatte ja noch gesagt, dass er noch ganz am Anfang hat er den Bogen aufgespannt
Volker: zu seinem letzten Punkt, den er noch bringen wollte, nämlich Excessive Agency.
Volker: Und da wollte ich eigentlich nur doch drauf hinweisen, Ingo,
Volker: vergiss deinen Anfang nicht, dass du das Ende noch machen willst.
Ingo: Excessive Agency bedeutet eben, dass wir in einer Welt sind,
Ingo: in der wir Pipelines aufbauen, wie wir oft sagen.
Ingo: Also wir versuchen, verschiedene Funktionen hintereinander zu legen,
Ingo: um damit komplexe Probleme zu lösen. Also ich habe eine Webrecherche,
Ingo: die sucht mir Flüge raus.
Ingo: Ich habe eine Webrecherche, die sucht mir Hotels raus.
Ingo: Ich habe eine Analyse-Software für fotografierte Dokumente, die prüfen,
Ingo: was für einen Reisepass ich habe und welche Führerscheinklassen ich habe,
Ingo: um den Niedwagen dann eben auszusuchen.
Ingo: Und ich habe dann möglicherweise noch andere Dinge. Also ich kann verschiedene
Ingo: Themen hintereinander stellen, die dann über Buchen und Bezahlung oder sowas
Ingo: auch noch gehen könnten. und all diese Sachen, jede einzelne solche Funktionen
Ingo: wird relativ autonom durchgeführt, mit einer klaren Anweisung gegeben.
Ingo: Das ist also das, was wir als Agents bezeichnen. Agency ist dann das,
Ingo: was wir als, wenn wir ganz viele Agenten zusammenschalten, bezeichnen.
Ingo: Und dadurch, dass es nicht reglementiert ist, dass wir nicht sagen,
Ingo: es gibt so diese fünf Agenten, die kann man nutzen,
Ingo: sondern weil wir im Prinzip alle möglichen Tools im Internet haben,
Ingo: die wir nutzen können für Dinge, können wir wahnsinnig viel Automatisierung
Ingo: machen, mit denen wir wirklich einen Beitrag zur Reduktion unserer Arbeitslast erreichen können.
Ingo: Das ist einfach so. Wir können Aufgaben machen, die sonst menschliche Verbindung
Ingo: von verschiedenen Teilinformationen erfordern.
Ingo: Können wir Automarsch machen. Das ganz große Problem, was wir haben,
Ingo: ist, damit das gut läuft und ich nicht so viel gestört werde von den Agenten,
Ingo: gebe ich denen üblicherweise sehr viel Rechte.
Ingo: So, dass ich Root-Rechte auf dem Rechner, damit ich dann irgendwie nicht jeden
Ingo: Dateitransfer oder sowas dann auch irgendwie bestätigen muss.
Ingo: Oder wenn er dann nochmal eine kleine Extension installieren will,
Ingo: damit er besser was machen kann, dann, ach komm, mit Root-Rechten ist das viel einfacher.
Ingo: Da brauche ich mich nicht drum kümmern, das ist am nächsten Tag wirklich fertig.
Ingo: Ich will nicht nach 24 Stunden wiederkommen und sehen, dass er bei der zweiten
Ingo: Teilaufgabe stehen geblieben ist und gesagt hat, hier bitte Passwort eingeben.
Ingo: Also komm, ich liefere das Passwort gleich mit.
Ingo: Und es ist auch vielleicht einfacher, weil ich will ja von dem Büro vielleicht
Ingo: die Pipelines, die ich zu Hause gebaut habe, zugreifen. Also öffne ich auch
Ingo: gleich die Ports im Büro, damit der von zu Hause auch vernünftig auf meinen
Ingo: Rechner im Büro zugreifen kann und was machen kann.
Monina: Das ging dann im Traum für jeden Angreifer. Wunderbar.
Ingo: Ja.
Ingo: Und das Verrückte, und das ist ein bisschen KI, ist, wir versuchen ja Probleme
Ingo: zu lösen, die so noch nie gelöst wurden.
Ingo: Und wir schaffen ganz neue Möglichkeiten und das ist auch wirklich faszinierend und toll.
Ingo: Ich meine, ich bin ja wirklich viele Jahre jetzt schon in der KI und mache das
Ingo: immer noch mit Leidenschaft.
Ingo: Aber das Dilemma ist, die Möglichkeiten, die wir damit erschließen,
Ingo: müssen eben auf System operativ auch ermöglicht werden.
Ingo: Und dadurch, dass wir ja noch nicht wissen, wie die Möglichkeiten aussehen,
Ingo: ist es schwer, die richtigen Regeln zu finden, in denen sich das System verhalten darf.
Ingo: Also lassen wir die weg, dann habe ich ja Möglichkeiten und dann habt ihr mehr
Ingo: Möglichkeiten, aus der Angriffsecke auch mit den Systemen Spaß zu haben.
Ingo: Und dann haben wir beide Spaß.
Ingo: Also wir haben Spaß in der KI mit der Kombination von Funktionen und ihr habt
Ingo: Spaß, weil ihr endlich mal das System habt, die man vernünftig angreifen kann.
Volker: Ja, das ist doch gut, wenn man beim Podcast aufzeichnet, Spaß hat.
Volker: Die ja vor allen Dingen, wenn man Systeme angreifen und kaputt machen kann.
Volker: Ganz, ganz kurze Frage, wenn wir an dieses Excessive Agency vielleicht da nochmal
Volker: einen Strich drunter ziehen.
Volker: Das heißt doch aber eigentlich, dass je intelligenter ein solches KI-System
Volker: wird, also intelligenter heißt es hat so unabhängige Teilbereiche,
Volker: die sich auch gegenseitig triggern können, umso anfälliger wird es, oder? Ja.
Ingo: Je intelligenter ein solches System wird, umso mehr Gedanken sollte ich mir
Ingo: darum machen, welche Rechte das System wirklich benötigt.
Monina: Es ist halt die Komplexität. Mit steigender Komplexität können wir einfach nicht
Monina: mehr abschätzen, wo überhaupt noch was passiert.
Monina: Das ist ein großes Problem daran.
Volker: Aber das ist ja auch dann der Klassiker in der Cyber Security.
Volker: Das ist ja hier Least Privileges, Surface Minimization und so weiter und so weiter.
Volker: Das heißt ich würde mich jetzt mal trauen so ein kleines Zwischenfazit zu ziehen,
Volker: auch Zwischenfazit einfach,
Volker: weil wir so langsam zum Ende kommen müssen, obwohl wir eigentlich noch drei
Volker: Punkte hätten, über die wir reden könnten aber das sind dann allgemeine Sicherheitsprobleme
Volker: wie Supply Chain oder Unbounded Consumption oder solche Sachen,
Volker: die könnt ihr auch selbst in dem Dokument, das lest ihr euch bestimmt durch gehe ich von aus,
Volker: werden wir es verlinken in den Shownotes Das könnt ihr euch selbst dann gucken.
Volker: Aber so nach dem Motto, was kann man jetzt eigentlich als Unternehmen groß dagegen tun?
Volker: Naja, Variante 1 ist natürlich, aber das ist nicht sehr sexy,
Volker: kein LLM einsetzen, weil die LLMs eben die Probleme haben, die ihre Feature sind.
Volker: Also die Feature sind halt, sie sind datenbasiert und wenn sie Control nicht
Volker: von Data unterscheiden können, erstmal, also die Eingabe das nicht unterscheidet,
Volker: weil wir eben ein Language-Based Model haben wollen,
Volker: ja dann ist das halt auch die Unsicherheit. Damit muss ich leider leben.
Volker: Das Zweite, was wir halt berücksichtigen müssen, wenn wir Datenbanken haben,
Volker: mit denen wir trainieren,
Volker: Und dann, ja, wie Ingo schon sagte, shit in, shit out.
Volker: Also je schlechter die Daten sanitized, also gereinigt, beobachtet sind und
Volker: je mehr Daten ich nutze und vor allen Dingen,
Volker: wenn ich wirklich Big Data nutze und Big Data heißt nicht nur viel.
Volker: Big Data heißt viel, unendlich viel, unhandhabbar, viel unstrukturiert.
Volker: Und ich sage, okay, du organisierst schon deine Neuronen da selbst.
Volker: Naja, dann muss ich halt akzeptieren, dass ich doch ganz viel habe,
Volker: was passiert, was ich nicht möchte.
Volker: Also auch wieder der Punkt. Je intelligenter das System, umso mehr Eigenleben.
Volker: Und umso mehr macht es halt auch das, wofür ich es eigentlich nicht haben möchte.
Volker: Ja, und das, was wir eigentlich im Wesentlichen empfehlen können,
Volker: hier als Zusammenfassung, ist wirklich,
Volker: haltet euch an diese Mindestanforderung für Web-Systeme, dass ihr die Oberflächen
Volker: minimal haltet, dass ihr aktives Scripting nicht ermöglicht,
Volker: dass ihr Input-Sanitization,
Volker: Output-Sanitization, solche Sachen macht.
Volker: Also quasi die Rules von OWASP sinnvoll umsetzen, das geht eben wie sie zeigen auch für LLMs.
Monina: Es gibt da auch.
Volker: So Best Practices Vorschläge.
Monina: Also da können wir auch nochmal vielleicht schauen, ob wir das verlinken können,
Monina: da kann man sich auch ein bisschen langhangeln.
Volker: Aber ich glaube das wäre dann auch schon der Punkt für Monina Ja.
Monina: Du hast eigentlich schon ganz gut eine Zusammenfassung jetzt gemacht hier mit allem.
Monina: Wir haben uns anhand dieser zehn Punkte, der zehn Angriffe für LLMs einmal durchgehangelt.
Monina: Die Angriffe überschneiden sich stark vom Prinzip, was wollen Angreifer,
Monina: was sind die Möglichkeiten, wie man an so eine LLM kommt und was sind die Bestandteile eines LLMs,
Monina: aus denen sich dann die verschiedenen Angriffspunkte eigentlich ergeben und
Monina: worauf muss man so ein bisschen achten, wie sichert man ab.
Monina: Haben wir eigentlich jetzt alles in einem kleinen kurzen Umschlag gemacht.
Monina: Was haben wir denn noch sofort an Learnings aus KI-Sicht, Ingo?
Ingo: Also ich finde, eine Sache sollten wir immer im Blick behalten,
Ingo: wenn wir uns mit LLMs, mit Chatassistenten in produktiven Umgebungen beschäftigen.
Ingo: Es sind wahnsinnig komplexe Dinge, die wir gerade lernen zu verstehen,
Ingo: wie viel Potenzial sie haben und wo sie alles können.
Ingo: Wir sollten vermeiden, den allgegenwärtigen, superintelligenten Knoten bei uns
Ingo: einzubauen, der auf alle Daten, alle Informationen zugeführt hat,
Ingo: sondern lieber mit spezifischen Aufgaben anfangen.
Ingo: Produktsupport mit bestimmten Aufgaben mit bestimmten Rechten der Hauptpunkt
Ingo: aus KI-Sicht ist glaube ich,
Ingo: wir sollten den Rahmen den Zaun, den wir um das System ziehen erstmal noch klein
Ingo: halten, dann gucken was wir damit tun können und ihn später erweitern aber nur
Ingo: so wenig wie möglich an Rechten geben,
Ingo: damit eben die Konsequenzen in der Ausnutzung von Rechten, die man gegeben hat
Ingo: nicht so dramatisch sind und hoffentlich besser beherrschbar sind.
Monina: Und trotzdem ist es immer wieder faszinierend, was wir dann doch uns theoretisch
Monina: mit Arbeit erleichtern können, wenn wir KI mal sinnvoll einsetzen.
Monina: So, das war unsere heutige Folge, unsere heutige Sicherheitslücke zu den Angriffen auf LLMs.
Monina: Ihr könnt uns wie immer überall dort hören, wo ihr Podcasts hört und auf unserer
Monina: Webseite findet ihr uns ebenfalls.
Monina: Den Link zu der Webseite und den weiteren führenden Inhalten,
Monina: wie wir sie erwähnt haben, die ganzen Sachen, die wir verlinkt haben,
Monina: wie das Dokument von OWASP, findet ihr in unseren Shownotes, wie immer.
Monina: Genauso wie den Link zu den Social-Media-Plattformen, auf denen wir uns vielleicht
Monina: noch irgendwie befinden.
Monina: Empfehlt uns gerne weiter und bewertet uns dort, wo ihr uns hört,
Monina: damit auch andere uns leichter finden.
Monina: Die Sicherheitslücke ist ein Podcast der Hamburg Open Online University und
Monina: die Kapitelbilder kommen wieder von Anne. Ich bin wieder gespannt, was sie zaubert.
Monina: Und die Produktion übernimmt, heute auch schon wieder erwähnt, Christian Friedrich.
Monina: Insofern vielen Dank an alle und wir verabschieden uns. Bis zur nächsten Folge.
Ingo: Monina Schwarz, Ingo Timm.
Volker: Und Volker Skwarek.
Neuer Kommentar