L'observation de la généalogie d’un modèle d’intelligence artificielle consiste à reconstituer l’historique de sa création et de ses transformations :
• À partir de quel(s) modèle(s) il a été dérivé (ascendants)
• Quelles modifications ont été apportées (ajustement,quantisation, adaptation, fusion…)
• Quels nouveaux modèles ont été produits à partir de celui-ci (descendants )
Cela peut être représenté sous forme d'arbre généalogique, retraçant l’ensemble des étapes qui ont conduit à un modèle open source donné.
L'observation de la généalogie d’un dataset consiste à reconstituer l’historique de sa création et de ses différentes utilisations :
• À partir de quelle(s) source(s) de données le dataset a été construit
• Quels modèles ont été entrainés sur ce jeu de données
• A quelles(s) organisation(s) appartient l'auteur qui a publié ce jeu de données
La généalogie retrace toutes les étapes et ramifications de l'utilisation d'un dataset donné.
Visualiser la généalogie des modèles est une étape importante pour :
• Protéger la vie privée des personnes dont les données pourraient être mémorisées par un modèle ou contenues dans un dataset
• Assurer la traçabilité sur les chaînes de modification des modèles
Date de téléchargement de la base de donnée : 01/09/2025
Afin d’étudier le développement de la communauté de l’IA open source, et de préparer la possibilité d’exercices de droits des citoyens, le projet vise à étudier la base de données des jeux de données et modèles présents sur la plateforme HuggingFace. Cette base de données permet d’établir un arbre généalogique des modèles.
Les données traitées sont le pseudonyme de l’auteur (quand il apparaît dans les métadonnées), le nom du modèle/jeu de données et plusieurs informations inhérentes à ce modèle/jeu de données telles que la date de publication, la licence utilisée ou encore le nombre de téléchargements.
Ce projet relève de la mission d’intérêt public dont est investie la CNIL en application du règlement général sur la protection des données et de la loi Informatique et Libertés modifiée (article 8).
Les données sont publiées à partir de l’espace CNIL sur HuggingFace.
Une première phase d’évaluation de l’utilité de l’outil interviendra après 6 mois de publication. A cette échéance, l’outil pourra être modifié et le projet reconduit.
Vous pouvez accéder et obtenir une copie de vos données, vous opposer au traitement de ces données, les faire rectifier ou effacer. Vous disposez également du droit de limiter le traitement de vos données.
Vous pouvez exercer vos droits ou poser vos questions sur ce projet en contactant le service IA de la CNIL : ia@cnil.fr.
Si vous estimez, après nous avoir contactés, que vos droits « Informatique et Libertés » ne sont pas respectés, vous pouvez contacter le DPO de la CNIL ou adresser une réclamation à la CNIL.