Retour aux formations

Évaluation des produits d'IA Générative

Évaluation des produits d'IA Générative

Les LLMs sont flexibles et créatifs, c'est précisément ce qui les rend difficiles à évaluer. Sorties probabilistes, entrées imprévisibles, composants qui dérivent : mettre un produit IA en production exige une stratégie d'évaluation rigoureuse et spécifique.

Cette formation outille les développeurs pour évaluer leurs systèmes de bout en bout : définir les bons critères, choisir les scorers adaptés, construire des datasets représentatifs et monitorer la qualité en continu.

Durée

7 heures (1 jour)

Référence

IA-GEN-EVAL

Tarif inter HT

900€*

  • (déjeuner inclus, hors frais de déplacement et hébergement)
Tarif intra
Délai d'accès

2 à 4 semaines après validation de l'inscription, selon les disponibilités.

S'inscrire / Nous contacter

Cette formation est-elle faite pour vous ?

Objectifs
  • Comprendre les spécificités de l'évaluation des systèmes LLMs par rapport aux approches classiques
  • Définir une stratégie d'évaluation adaptée à son produit : périmètre, critères, fréquence
  • Construire et maintenir un dataset d'évaluation représentatif
  • Choisir et implémenter les bons scorers selon la nature des outputs
  • Mettre en place un monitoring continu en production
Public cible
  • Développeurs
  • Tech Leads
  • Data Scientists
Prérequis
  • Maîtrise d'un langage de programmation (Python recommandé)
  • Expérience d'intégration d'une API LLM
  • Notions de base en IA générative
Modalités
  • En présentiel
Évaluation des acquis

Évaluation des acquis par des exercices pratiques (travaux pratiques) tout au long de la formation et un questionnaire d'auto-évaluation en fin de session. Une attestation de fin de formation est remise à l'issue.

Accessibilité

Accessible aux personnes en situation de handicap. Pour toute demande d'adaptation pédagogique ou matérielle, contactez notre référent handicap : formation@sciam.fr

Programme

Les spécificités de l'évaluation en IA générative
  • Les variables contrôlées, les variables subies et la dérive dans le temps : cartographier l'incertitude de son système
  • Le trade-off créativité/contrôle et ses implications pour la mise en production
La définition de la stratégie d'évaluation
  • La raison d'être du produit comme boussole : la qualité, la latence, les coûts et la robustesse
  • Le quoi, le où et le quand évaluer : le composant par composant ou le end-to-end, le développement comme la production
  • Le happy path, le realistic path et l'adverse path : la couverture de l'espace des inputs
La construction du dataset d'évaluation
  • La structure, les méthodes de construction et la gestion dans le temps
  • La représentativité, l'exhaustivité et la gouvernance
Les scorers et les métriques
  • Les outputs structurés vs les outputs libres : les critères et les méthodes adaptés à chaque cas
  • L'évaluation humaine, les métriques déterministes, les métriques sémantiques et le LLM-as-a-Judge
  • La combinaison des scorers pour couvrir l'ensemble des dimensions du produit
L'évaluation dynamique et le monitoring en production
  • L'évaluation unitaire vs l'évaluation dynamique multi-tours
  • L'observabilité : les logs, les métriques de latence et de coût et l'alerting
  • Les guardrails : la frontière entre l'évaluation et le contrôle en temps réel

Modalités pédagogiques

Support de cours et cahier de travaux pratique.

Modalités d'inscription

Pour vous inscrire, téléchargez et complétez le formulaire d'inscription, puis retournez-le à formation@sciam.fr.

Formulaire d'inscription

Indicateurs de résultats

Taux de satisfaction

Disponible sur demande

Taux de recommandation

Disponible sur demande