Au cœur de l'IA
5 minutes de lecture

Transparence des modèles et qualité de la donnée

Publié le
19/09/2023

Au menu aujourd’hui :

💾 Le rôle central de la data en IA

🤖 Des tips pour juger et améliorer la qualité de sa data

🙂 La transparence et l’open science pour une meilleure fiabilité des résultats issus de modèles IA

👀 Où se renseigner - les sources recommandées par Camille

🍰 MF : hello Camille, peux tu nous parler un peu plus de l’importance de la data en IA ?

👉 Camille :

Pour faire simple, l’IA ce sont des modèles entraînés sur de la data. Si la data utilisée n’est pas de qualité, la qualité de l’output du modèle sera mauvaise. C’est le principe du « Garbage In, Garbage Out », qui est valable pour tout type de AI, que ce soit de simples et classiques algorithmes de régression jusqu’à ceux de deep learning.

Pendant très longtemps, l’apprentissage de l’IA a été très model-centric, c’est-à-dire qu’on utilise des datasets déjà tout prêts et il faut trouver le meilleur modèle, alors que dans la réalité, mettre en place un dataset de training qui soit consistent, propre et de qualité demande beaucoup d’efforts et de temps et est une étape absolument nécessaire pour développer des modèles performants. La place primordiale de la data a cependant été plus mise en avant ces dernières années grâce au mouvement de «data-centric AI », soutenu notamment par Andrew Ng (fondateur de Google Brain research lab et co-fondateur de Coursera) (lien), qui consiste à se concentrer plus sur la data utilisée en input et sur comment l’améliorer de manière systématique et scalable et moins sur le modèle. Par ailleurs, plusieurs LLMs, développés sur de « petits » datasets public sélectionnés spécifiquement pour leur très haute qualité, ont réussi à avoir des performances proches de GPT-3 malgré leur taille bien inférieure, par exemple Koala, développé par le labo de recherche en AI à Berkeley.

Source : https://dcai.csail.mit.edu/

🍰 MF : Comment déterminer si la data est de bonne qualité en IA et quelles sont les conséquences d’une mauvaise qualité ?

👉 Camille :

Pour moi, la première étape est toujours de s’assurer de la fiabilité de la data.

Certaines questions à se poser pour cela : qui est à l’origine de cette data, comment celle-ci a-t-elle été générée et de quand date-t-elle? Vient-elle d’une source reconnue pour son expertise ou est-elle générée par un utilisateur lambda ? Par exemple, vous ferez peut-être plus confiance à une analyse financière de Bloomberg basée sur les derniers résultats d’une boite Y plutôt que celle faite par votre oncle qui n’y connait rien en finance mais a entendu quelqu’un en parler derrière lui dans le métro.

L’un des autres points nécessaires pour avoir une data de qualité est que celle-ci soit représentative du sujet traité. Une partie de la population est-elle manquante du dataset? La data a-t-elle un “blind spot”? Le dataset peut être biaisé ou incomplet ; les prédictions faites par l’IA le seront alors également. Par exemple, Amazon avait entraîné une IA pour aider au recrutement et avait utilisé des CVs qui étaient principalement masculins en training set. L’IA développée a ensuite montré des biais et discriminait les CVs féminins ce qui a conduit à l’abandon du projet. Les conséquences de ce type de mauvaise qualité sont énormes car l’IA peut alors être discriminatoire ce qui pose de gros problèmes éthiques (et légaux).

Le point de vue temporel est également très important lorsqu’on parle de représentativité car un training dataset qui serait représentatif de la réalité à un moment M peut très vite ne plus l’être car tout évolue et parfois très vite. Par exemple, les habitudes alimentaires de maintenant sont bien différentes de celles d’il y a même 10 ans seulement. Si le training dataset n’est pas mis a jour et les modèles re-entrainés, la performance de l’AI va diminuer, c’est ce qu’on appelle une dérive conceptuelle ou concept drift (pour en savoir plus, une bonne intro ici).

Source: https://arxiv.org/pdf/2004.05785.pdf**

Enfin finalement, une fois que tout cela est clair, il reste toujours un énorme travail de cleaning de la data, pour vérifier que les données sont correctes, avec un format consistent (par exemple si votre dataset contient une colonne avec des dates, vous ne devez pas avoir les formats YYYY-MM-DD et DD-MM-YYYY). Il faut aussi vérifier la proportion de données manquantes, la distribution des points de données pour voir s’il y a des outliers qui pourraient fausser les modèles, ou si certaines données sont dupliquées dans le dataset. Cette étape de cleaning et filtre de la donnée brute a par exemple fait diminuer de 5% la taille du dataset de training pour DALL-E 2.

🍰 MF : Tu nous parles de fiabilité de la data et la notion de fiabilité est justement au cœur des débats autour de l’AI notamment a cause des hallucinations que produisent les LLM. Comment pourrait-on améliorer la confiance dans les résultats d’une AI ?

👉 Camille :

Vaste sujet !

Personnellement, l’un des points importants pour moi c’est d’être capable d’expliquer, de comprendre et de monitorer les modèles de machine learning. Pour cela, la transparence qui est au cœur du mouvement de l’open science (que ce soit l’open source, l’open data ou autres) est absolument clé. L’idée est de détruire l’image de black-box qui retourne un résultat comme par magie sans donner d’explication pour au contraire être transparent sur tout ce qui a été fait pour obtenir ce résultat. Cette transparence s’applique à la manière dont le modèle a été entraîné et testé, mais aussi sur quelles données et comment celles-ci ont été nettoyées. Être ouvert ajoute une pression car il faut être capable de montrer et d’assumer tout ce qui a été fait mais c’est pour moi absolument nécessaire pour augmenter la confiance en IA. C’est d’ailleurs l’un des grands débats en ce moment parmi les développeurs de LLM avec par exemple OpenAI qui préfère ne pas donner de détails sur la manière dont GPT-4 a été entraîné pour des questions de compétitivité (article ici) alors que Meta a pris la décision opposée (ici LLama 2 details) ou encore Mistral AI qui explique que le fait d’être open sera un de ses points de différentiation.

Plus spécifiquement pour les LLMs, il y a une approche intéressante qui a été développée pour augmenter leur performance (et réduire leurs hallucinations) : la Retrieval Augmented Generation (RAG). Le principe des RAG est de récupérer de la data d’une source externe (qui peut être publique ou privée selon l’utilisation) et de la combiner avec les capacités habituelles d’un LLM. Quand l’utilisateur fait une requête, dans un premier temps toutes les données pertinentes vont être extraites de différentes sources, puis elles vont être ajoutées en tant que contexte à la requête pour le LLM. Grâce à ce système, le LLM peut notamment avoir accès à de la data à jour et cela permet également de dire précisément à l’utilisateur d’où provient l’information factuelle qui a été utilisée, ce qui résout les problèmes de traçabilité de la data des LLM. Avec ça, on pourrait ensuite utiliser les sources d’open data pour améliorer les outputs des LLMs et diminuer les problèmes d’hallucinations !

🍰 MF : canon merci Camille ! Est-ce que tu peux nous laisser les sources que tu recommandes pour aller plus loin sur le sujet ?

👉 Camille :
  • Un article pour approfondir sur les RAG : https://arxiv.org/pdf/2005.11401.pdf
  • Une personne a suivre: Cassie Kozyrkov qui poste régulierement et arrive a expliquer de maniere tres simple plein de concepts techniques concernant la data et l’AI
  • Un projet: The Algorithmic Justice League, organisation créee par Joy Buolamwini pour sensibiliser aux biais algorithmiques en AI et leurs impacts sur la société

Très belle semaine à tous !

— l’équipe millefeuille.ai

Image graphique d'un millefeuille
Millefeuille.ai

Le média explorant l'impact de l'IA sur la société et les métiers, présenté par un collectif d'ingénieurs & entrepreneurs français.

Comprendre les enjeux de l’IA pour y prendre goût !

Millefeuille.ai c’est le recap quotidien de toutes les news sur l’IA !

Les newsletters du moment

Les ESN : Pilier Incontournable de l'Adoption de l'IA Générative

Aujourd’hui, vous pourrez découvrir plus en détail ce que sont les entreprises de services numériques (ESN).

5 minutes de lecture

Les Ops : Le Moteur Caché de la Transformation IA des Entreprises

Aujourd’hui, vous pourrez découvrir quelques analyses sur le métier d'Ops.

5 minutes de lecture

Réinventer les compétences dans un monde dominé par la Tech ! et ... l'IA !

Aujourd’hui, vous pourrez découvrir quelques analyses sur l'évolution des compétences sur le marché du travail à l'heure de l'IA et de la croissance de la tech dans notre quotidien.

5 minutes de lecture

La meilleure façon de prendre goût à l'IA.

Applications concrètes. Actualités. Analyses d'experts.
Si comme près de 5'000 personnes tu veux tout comprendre à l'IA, abonne-toi.