Skeleton Key: Nouvelle menace pour la sécurité de l’IA

"Skeleton Key" - nouveau "hack" de l'IA

Dans une révélation surprenante, Microsoft a mis en lumière une vulnérabilité majeure dans les modèles de langage IA, surnommée la "clé squelette" (de l'anglais "Skeleton Key").

Cette faille, récemment découverte, menace de transformer nos assistants virtuels de confiance en agents potentiellement dangereux. Voici des informations principales pour comprendre comment fonctionne cette attaque, les risques qu'elle pose et les mesures prises par les développeurs pour y faire face.

Qu'est-ce que la "clé squelette" (Skeleton Key) ?

La clé squelette n'est pas un outil physique ou un logiciel malveillant. C'est une méthode ingénieuse de manipulation des modèles de langage IA, les convainquant d'ignorer leurs garde-fous intégrés. C'est un peu le "débridage DAN" en plus sophistiqué.

En engageant une conversation innocente avec l'IA, l'attaquant établit progressivement de nouvelles directives qui contredisent les protocoles de sécurité originaux de l'IA.

Une fois ces nouvelles règles acceptées, l'IA devient incapable de distinguer les requêtes sûres des demandes potentiellement nuisibles.

Une vulnérabilité intentionnelle

Il est crucial de noter que cette vulnérabilité nécessite une action intentionnelle de la part de l’utilisateur pour être exploitée. Ce n’est pas un « hack » qui peut vous nuire de l’extérieur comme un virus ou une attaque de phishing.

Le danger réside plutôt dans l’utilisation malveillante des connaissances des modèles de langage IA. En d’autres termes, un utilisateur lambda de ChatGPT ou d’autres LLMs n’est pas « menacé » directement. Le risque est plus sociétal, dû à la mauvaise utilisation de ces puissants outils.

Risques de la "clé squelette"

Voici une liste des potentielles utilisations malveillantes de cette vulnérabilité:

  • Génération de fausses informations: Imaginez un système IA utilisé par un organe de presse générant et publiant soudainement de fausses nouvelles, semant la panique et la confusion. De quoi rendre une campagne électorale plus corsée!
  • Création de matériel dangereux: L'IA pourrait fournir des instructions détaillées pour créer des explosifs ou des armes biologiques.
  • Manipulation politique: Production de contenu destiné à manipuler les opinions politiques et à saper les processus démocratiques.
  • Incitation à l'automutilation: Au lieu d'offrir de l'aide, l'IA pourrait fournir des détails explicites et même des encouragements pour l'automutilation.
  • Promotion de la discrimination: Contenu promouvant la discrimination raciale ou autre sans aucun avertissement.
  • Conseils illégaux: Conseils sur la fabrication et la distribution de drogues illégales. Ou encore sur la manière de hacker des systèmes informatiques...
  • Violence: Fournir des conseils sur la réalisation d'actes violents, ignorant complètement les protocoles de prévention de la violence.

La réponse des développeurs IA à la Skeleton Key

(Heureusement,) Microsoft a réagi rapidement à cette découverte. Voici quelques-unes des mesures prises :

  1. Mise en place de nouvelles protections: Des mesures de protection ont été intégrées dans leurs offres IA, y compris leurs assistants AI Copilot.
  2. Partage des découvertes: En suivant les meilleures pratiques en matière de cybersécurité, Microsoft a partagé ses découvertes avec d'autres fournisseurs IA tels que Google et OpenAI, permettant à ces entreprises d'adresser la vulnérabilité avant qu'elle ne soit largement exploitée.
  3. Outils de détection: Mise à jour de l'outil Python Risk Identification Toolkit (Pyrite) pour permettre aux développeurs de tester leurs propres systèmes IA pour des faiblesses similaires.

Conclusion

La découverte de la clé squelette représente un moment charnière dans le monde de l'IA. Car elle souligne la nécessité d'une approche à plusieurs niveaux pour la sécurité des IA. Allant au-delà de la simple programmation de comportements éthiques dans les systèmes IA. Cette vulnérabilité ne doit pas être vue seulement comme une menace. Il s'agit également d'une opportunité d'améliorer et de renforcer la résilience de nos systèmes IA.

Pour l'instant, que pouvez-vous faire pour vous protéger ?

  • Approchez les contenus générés par IA avec un esprit critique, surtout s'ils semblent contredire le comportement habituel ou les normes éthiques de l'IA.
  • Si vous êtes développeur, utilisez des outils comme Pyrite pour tester vos systèmes.
  • Si vous êtes un leader d'entreprise, intégrez des considérations de sécurité et d'éthique dans vos plans d'implémentation IA.

Alors, la prochaine fois que vous demandez à votre assistant IA de commander une pizza, assurez-vous qu'il ne vous livre pas un manuel pour fabriquer une bombe. Parce que, oui, même les IA ont leurs jours de "paresse". 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut