Bienvenue sur l'explorateur de généalogie des modèles publiés sur HuggingFace

Plus d'infos

Qu'est-ce que la généalogie d'un modèle ?

L'observation de la généalogie d’un modèle d’intelligence artificielle consiste à reconstituer l’historique de sa création et de ses transformations :

• À partir de quel(s) modèle(s) il a été dérivé (ascendants)
• Quelles modifications ont été apportées (ajustement,quantisation, adaptation, fusion…)
• Quels nouveaux modèles ont été produits à partir de celui-ci (descendants )

Cela peut être représenté sous forme d'arbre généalogique, retraçant l’ensemble des étapes qui ont conduit à un modèle open source donné.

Et dans le cas d'un dataset ?

L'observation de la généalogie d’un dataset consiste à reconstituer l’historique de sa création et de ses différentes utilisations :

• À partir de quelle(s) source(s) de données le dataset a été construit
• Quels modèles ont été entrainés sur ce jeu de données
• A quelles(s) organisation(s) appartient l'auteur qui a publié ce jeu de données

La généalogie retrace toutes les étapes et ramifications de l'utilisation d'un dataset donné.

Pour quoi faire ?

Visualiser la généalogie des modèles est une étape importante pour :

• Protéger la vie privée des personnes dont les données pourraient être mémorisées par un modèle ou contenues dans un dataset
• Assurer la traçabilité sur les chaînes de modification des modèles

Pour mieux comprendre l'utilité de cet outil, prenons le cas d'Alice Dupont:
• Alice utilise un chatbot issu d'un modèle publié sur HuggingFace.
Sa requête est : "Qui est Alice Dupont ?", le chatbot renvoie son adresse et son numéro de téléphone.

• Alice veut connaître l'impact de la mémorisation potentielle de ses données personnelles, ainsi que l'origine de ce modèle.

Avec cet outil, Alice a accès :
• aux modèles issus du modèle interrogé et publiés sur HuggingFace
• aux modèles parents de ce modèle.

(A condition que les liens entre modèles soient déclarés par les utiliateurs sur HuggingFace)

Vous souhaitez connaître la descendance et l'acsendance de ...




Date de téléchargement de la base de donnée : 01/09/2025

Mentions d'information sur les traitements de données à caractère personnel

Afin d’étudier le développement de la communauté de l’IA open source, et de préparer la possibilité d’exercices de droits des citoyens, le projet vise à étudier la base de données des jeux de données et modèles présents sur la plateforme HuggingFace. Cette base de données permet d’établir un arbre généalogique des modèles.

Les données traitées sont le pseudonyme de l’auteur (quand il apparaît dans les métadonnées), le nom du modèle/jeu de données et plusieurs informations inhérentes à ce modèle/jeu de données telles que la date de publication, la licence utilisée ou encore le nombre de téléchargements.

Ce projet relève de la mission d’intérêt public dont est investie la CNIL en application du règlement général sur la protection des données et de la loi Informatique et Libertés modifiée (article 8).

Les données sont publiées à partir de l’espace CNIL sur HuggingFace.

Une première phase d’évaluation de l’utilité de l’outil interviendra après 6 mois de publication. A cette échéance, l’outil pourra être modifié et le projet reconduit.

Vous pouvez accéder et obtenir une copie de vos données, vous opposer au traitement de ces données, les faire rectifier ou effacer. Vous disposez également du droit de limiter le traitement de vos données.

Vous pouvez exercer vos droits ou poser vos questions sur ce projet en contactant le service IA de la CNIL : ia@cnil.fr.

Si vous estimez, après nous avoir contactés, que vos droits « Informatique et Libertés » ne sont pas respectés, vous pouvez contacter le DPO de la CNIL ou adresser une réclamation à la CNIL.