16 janvier

Analyse détaillée de la sanction d’Open AI par l’autorité de protection des données italienne

Une décision inédite

L’Autorité italienne de protection des données a prononcé une amende de 15 millions d’euros contre OpenAI pour non-conformité au RGPD concernant son service ChatGPT. La décision, datée du 20 décembre 2024 est la première (à ma connaissance) décision européenne à l’encontre de l’entreprise américaine et, de manière plus générale, la première sanction administrative dans le domaine de l’IA générative.

Contexte de la décision

L’enquête de l’autorité italienne a été initiée en mars 2023 suite à des préoccupations concernant la gestion des données personnelles par OpenAI. En effet, plusieurs violations ont été constatées :

- Absence de notification de violation de données personnelles : OpenAI n’a pas informé l’Autorité italienne d’une fuite de données survenue en mars 2023.
- Absence de base légale justifiant le traitement des données personnelles : la société n’a pas établi une base légale adéquate pour le traitement des données personnelles utilisées pour entraîner ChatGPT.
- Manque de transparence : OpenAI a été critiquée pour son manque de clarté dans sa politique de confidentialité, empêchant les utilisateurs d’exercer leurs droits.
- Absence de contrôle de l’âge des utilisateurs : l’absence de mécanismes appropriés pour vérifier l’âge des utilisateurs expose potentiellement les enfants de moins de treize ans à des contenus inappropriés.
- Production de données inexactes : ChatGPT générant en effet à certaines occasions des « hallucinations » c’est-à-dire des résultats qui sont en réalité des informations incorrectes.

Au-delà de son caractère inédit, l’intérêt de cette décision réside dans les explications détaillées qu’elle apporte sur le fonctionnement de ChatGPT et sur les réponses qui sont apportées en miroir par l’autorité italienne, au regard des exigences du RGPD. Nous allons donc analyser chaque point de la décision en présentant les arguments opposés par OpenAI aux différents manquements qui lui sont reprochés et la réponse de la « CNIL italienne » à ceux-ci.

Pour rappel, le RGPD est le règlement européen applicable en matière de traitement de données personnelles. Pour en savoir plus, consultez notre page dédiée.

Sur la fuite de données

Il a été révélé, visiblement par la presse italienne, un bug technique de ChatGPT survenu en mars 2023 qui faisait qu’étaient visibles, sur la page principale du service, les titres et chats d’autres utilisateurs.

OpenAI a confirmé publiquement l’incident et a précisé que les données qui pouvaient être divulguées dans ce cadre étaient les suivantes : le prénom, le nom, l’adresse électronique, ainsi que les quatre derniers chiffres et la date d’expiration de la carte de crédit utilisée pour payer le service ChatGPT Plus (la version payante du service).

En vertu de l’article 33 du RGPD, toute fuite de données personnelles doit être notifiée à l’autorité compétente dans les 72 heures suivant l’événement.

A ce sujet, les arguments d’Open AI sont en synthèse :

- Open AI a bien notifié l’incident, dans le délai imparti, à l’autorité de contrôle irlandaise étant donné la création de la société OpenAI Ireland Ldt, quelques jours après l’incident ;
- Elle a publié un message sur son site web intitulé « Here’s what happenned » afin d’informer également les utilisateurs.

L’autorité italienne considère cependant :

- Que le mécanisme du guichet unique n’est pas applicable car la société n’avait pas, à la date de l’incident, d’établissement au sein de l’UE ;
- Qu’elle aurait donc dû notifier l’incident à toutes les autorités européennes dont les personnes concernées étaient des ressortissants (et à l’autorité italienne en raison des 440 utilisateurs affectés).

D’un point de vue pratique, il semble utile de conseiller aux entreprises qui se trouveraient dans la même situation, de faire usage du principe de précaution et de notifier l’incident à toutes les autorités potentiellement compétentes.

Sur la licéité du traitement

L’article 6 du RGPD exige que tout traitement de données personnelles soit fondé sur une base légale. La base légale doit être identifiée avant la mise en œuvre du traitement et précisée dans les mentions d’information fournies aux personnes concernées.

En l’espèce, l’autorité reproche à OpenAI d’avoir effectué un traitement de données personnelles consistant à utiliser les données des utilisateurs et de leurs requêtes aux fins de formation du langage, sans fondement juridique prédéterminé.

L’autorité reproche également à l’entreprise, une fois les bases juridiques choisies à savoir l’exécution du contrat et l’intérêt légitime, de ne pas avoir suffisant étayer ces choix.

A ce sujet, OpenAI réplique que :

- Chat GPT a été ouvert au public afin de faire progresser la recherche et le développement de l’IA et qu’il ne s’agissait pas au départ d’un outil commercial grand public
- Que dès lors à son lancement ChatGPT n’était pas soumis au RGPD ;
- Que par la suite il n’était pas nécessaire pour la société de justifier en quoi le consentement ne devait pas être utilisé comme base juridique ;
- Une analyse d’impact présentant les garanties mises en œuvre par la société a été réalisée.

L’autorité italienne rejette ces arguments et relève notamment qu’une fois la base légale de l’intérêt légitime choisi, cette dernière n’était pas justifiée dans les documents d’information mis à disposition des personnes concernées.

Cependant, elle ne se prononce par sur la légitimité de ce choix mais en réfère à l’autorité irlandaise, autorité chef de file en vertu de l’article 56 du règlement. Affaire à suivre donc !

D’un point de vue pratique, il convient de rappeler aux responsables de traitement l’importance d’une part de déterminer AVANT la mise en œuvre du traitement la base légale adéquate et d’autre part d’en justifier.

Sur la politique de confidentialité

Il faut tout d’abord préciser que la politique de confidentialité évaluée est celle de la version mise à jour du 14 mars 2023. Celle-ci a naturellement dû évoluer depuis (même si je vous avoue ne pas être allée vérifier pour l’instant).

Il faut également, comme le fait très bien l’autorité italienne que je vais donc me permettre de paraphrase, préciser que le fonctionnement du service ChatGPT implique deux traitements de données distincts :

1. Un traitement limité aux données des utilisateurs du service, données requises pour la souscription au service et utilisées dans l’interaction avec la plateforme ;
2. Un traitement consistant en la formation du modèle GPT – qui est à la base du service offert – et qui implique les données disponibles sur le réseau qui peuvent également être référées à des tiers qui ne sont pas des utilisateurs du service.

Une information appropriée doit dès lors être donnée sur chacun. Or, l’autorité italienne relève que ce n’était pas le cas pour le second traitement à savoir l’entrainement du modèle.

Plus particulièrement, elle considère que la formulation n’était pas assez claire. En effet, la politique de confidentialité précisait tout de même qu’Open AI utilisait les données personnelles pour

« – Fournir, administrer, maintenir, améliorer et/ou analyser les Services ;

– Effectuer des recherches ;

– Pour communiquer avec vous ;

– Développer de nouveaux programmes et services ;

– prévenir la fraude, les activités criminelles ou les utilisations abusives de nos services, et assurer la sécurité de nos systèmes informatiques, de notre architecture et de nos réseaux ; et

– Respecter les obligations légales et les procédures judiciaires et protéger nos droits, notre vie privée, notre sécurité ou nos biens, et/ou ceux de nos sociétés affiliées, les vôtres ou ceux d’autres tiers […]. »

En réponse, Open AI fait valoir, outre que les termes ci-dessus sont suffisamment clairs selon elle :

- Être transparent en ce qui concerne le traitement des données à caractère personnel et avoir informé les non-utilisateurs intéressés depuis 2016 en publiant plus de 170 post différents, documents de recherche, articles et communications afin d’éduquer les gens sur divers sujets liés à l’IA et au développement de ses modèles ;
- Avoir mis en ligne un formulaire permettant aux utilisateurs de refuser l’utilisation de leurs conversations pour entrainer le modèle (à titre personnel je n’ai jamais entendu parler de cela) ;
- Informer ses utilisateurs via un pop-up.

L’autorité écarte ses arguments et considère que le principe essentiel de transparence n’a pas été respecté.

D’un point de vue pratique, il convient de rappeler l’importance d’identifier l’ensemble des traitements de données personnelles et de justifier pour chacun du respect de l’ensemble des exigences du texte. Le travail de cartographie des données et des traitements est donc primordial dans le respect des obligations légales.

Sur l'absence de vérification de l'âge des mineurs

L’autorité a reproché à OpenAI de n’avoir adopté aucun mesures techniques ou organisationnelles visant à prévenir l’accès aux services aux mineurs (étant ici entendu comme les moins de 13 ans).

OpenAI s’est défendu comme suit :

- Les conditions de services précisent que celui-ci n’était pas destiné aux moins de 13 ans puis dans leur version actualisée que si l’utilisateur avait moins de dix huit ans il devait obtenir l’autorisation de son représentant légal ;
- Une application (Yoti) a ensuite été utilisée pour contrôler l’âge des utilisateurs.

L’autorité italienne a estimé que cela n’était pas suffisant et a retenu une violation du texte à ce titre.

D’un point de vue pratique, il convient d’être particulièrement vigilant en cas de traitement de données de mineurs, les opérateurs étant dorénavant de plus en plus souvent tenus responsables à ce titre.

Sur les données inexactes

L’art. 5, par. 1, lettre. d) du Règlement prévoit que les données personnelles doivent être exactes et, si nécessaire, mises à jour (principe d’exactitude).

Sur ce point, l’autorité relève que « les résultats fournis par ChatGPT sont susceptibles d’être considérés comme factuellement exacts par les utilisateurs finaux, quelle que soit leur exactitude réelle. Il est donc important que le responsable du traitement fournisse des informations adéquates sur les mécanismes probabilistes permettant de créer les résultats et sur leur niveau limité de fiabilité, y compris une référence explicite au fait que le texte généré, bien que syntaxiquement correct, peut être déformé ou discriminatoire. »

OpenAI dit indiquer clairement aux utilisateurs que l’exactitude des résultats n’est pas garantie et que les utilisateurs peuvent signaler de telles inexactitudes.

Cette question est également renvoyée à l’autorité irlandaise ; affaire à suivre donc et c’est à mon sens le cœur du sujet en matière d’intelligence artificielle utilisée par le grand public comme une source d’information. Je ne suis pas certaine cependant que le RGPD soit le meilleur fondement juridique pour réguler ce point.

Sur l'audition d'OpenAI

Dans le cadre de l’instruction, la société OpenAI a été auditionné par l’autorité italienne. Ce passage de la décision est très intéressant pour avoir plus de détails sur le discours d’Open AI en matière de données personnelles. Je n’ai cependant pas eu le courage de la synthétiser et vous laisse le soin de d’en prendre connaissance directement si cela vous intéresse, c’est une des parties les plus courtes 😉

Les mesures correctives imposées

En plus de l’amende, l’Autorité a ordonné à OpenAI de mener une campagne d’information pendant six mois, visant à sensibiliser le public sur le fonctionnement de ChatGPT et sur les droits des utilisateurs en matière de protection des données. Cette campagne devra être réalisée via divers médias, y compris la télévision et Internet.

OpenAI a exprimé son intention de faire appel de cette décision, qualifiant l’amende de « disproportionnée » par rapport à ses revenus en Italie.

Les conséquences de la décision

Pour Open AI

Une telle décision a tout d’abord un impact financier notable, l’amende devant être payée même si la société fait appel.

Elle a également, au regard de sa publicité, un impact réputationnel et ce d’autant plus que les consommateurs sont aujourd’hui sensibilisés et sensibles au sujet de protection des données personnelles.

Par ailleurs, cette décision pourrait établir un précédent pour d’autres pays européens, incitant davantage d’autorités à examiner les pratiques d’OpenAI et potentiellement d’autres entreprises technologiques. Cela pourrait conduire à une vague d’enquêtes similaires dans l’UE.

Pour les entreprises utilisatrices

Cette décision a également des conséquences pour les entreprises qui opèrent des prestations commerciales en utilisant des outils d’IA dont ChatGPT. Ces dernières doivent être conscientes qu’elles pourraient également être tenues responsables en cas de non-conformité aux réglementations sur la protection des données. Cela inclut la nécessité de s’assurer que les données utilisées avec ces technologies sont traitées légalement et de manière transparente.

Les organisations utilisant ces technologies doivent aussi former leur personnel sur les exigences du RGPD et les meilleures pratiques en matière de gestion des données, afin d’éviter des violations potentielles.