Informatique / IA / NLP

Pierre à rejoint SCIAM à la suite de son Masteren Mathématiques Appliquées, fort de ses expériences à la Direction Générale deL'Armement (DGA) et pour une grande banque française. Il est actuellementdoctorant auLISN, à l'Université Paris Saclay.

Son domaine de recherche est l'IA,particulièrement les modèles de langue (GPT3, GPT4, Llama, Falcon, etc). 
Comment entraîner de tels algorithmes lorsque les données sont de mauvaisesqualités ou en quantité insuffisante ?
Comment utiliser ces algorithmes dans un contexte de données dégradées ?

Abstract

Nous abordons le problème des données limitées et de mauvaise qualité pour les modèles d'IA.
Pour traiter ce problème nous utilisons les modèles de langues génératifs (LLM) pour surmonter ces obstacles.

Les données de mauvaise qualité peuvent être des données textuelles sans étiquette ou des données trop bruitées pour le problème.

Par exemple, un email client peut contenir une demande qui n'apparait pas dans les problèmes déjà identifiés ou une demande trop vague. Pour résoudre cela, nous utilisons les LLM génératifs pour interpréter le contexte et identifier l'étiquette manquante, en créant des prompts de haute qualité.

Une autre piste envisagée est la génération de texte de hautes qualités et entraîner des modèles de classification sur ces données dans le but de compenser les problèmes d'étiquetage.

Nous utilisons des données de benchmarks internationaux et évaluerons les modèles de langue en mode zero-shot.

Ces travaux nous permettront de développer des stratégies d'amorçage efficaces pour des données souvent rencontrées dans l'industrie, qui sont limitées ou de mauvaise qualité.