Évaluation des produits d'IA Générative

Les LLMs sont flexibles et créatifs, c'est précisément ce qui les rend difficiles à évaluer. Sorties probabilistes, entrées imprévisibles, composants qui dérivent : mettre un produit IA en production exige une stratégie d'évaluation rigoureuse et spécifique.

Cette formation outille les développeurs pour évaluer leurs systèmes de bout en bout : définir les bons critères, choisir les scorers adaptés, construire des datasets représentatifs et monitorer la qualité en continu.

Durée

7 heures (1 jour)

Référence

IA-GEN-EVAL

Tarif inter HT

900€*

(déjeuner inclus, hors frais de déplacement et hébergement)

Tarif intra

Nous contacter

Délai d'accès

2 à 4 semaines après validation de l'inscription, selon les disponibilités.

S'inscrire / Nous contacter

Cette formation est-elle faite pour vous ?

Objectifs

Comprendre les spécificités de l'évaluation des systèmes LLMs par rapport aux approches classiques
Définir une stratégie d'évaluation adaptée à son produit : périmètre, critères, fréquence
Construire et maintenir un dataset d'évaluation représentatif
Choisir et implémenter les bons scorers selon la nature des outputs
Mettre en place un monitoring continu en production

Public cible

Développeurs
Tech Leads
Data Scientists

Prérequis

Maîtrise d'un langage de programmation (Python recommandé)
Expérience d'intégration d'une API LLM
Notions de base en IA générative

Modalités

En présentiel

Évaluation des acquis

Évaluation des acquis par des exercices pratiques (travaux pratiques) tout au long de la formation et un questionnaire d'auto-évaluation en fin de session. Une attestation de fin de formation est remise à l'issue.

Accessibilité

Accessible aux personnes en situation de handicap. Pour toute demande d'adaptation pédagogique ou matérielle, contactez notre référent handicap : formation@sciam.fr

Programme

Les spécificités de l'évaluation en IA générative

Les variables contrôlées, les variables subies et la dérive dans le temps : cartographier l'incertitude de son système
Le trade-off créativité/contrôle et ses implications pour la mise en production

La définition de la stratégie d'évaluation

La raison d'être du produit comme boussole : la qualité, la latence, les coûts et la robustesse
Le quoi, le où et le quand évaluer : le composant par composant ou le end-to-end, le développement comme la production
Le happy path, le realistic path et l'adverse path : la couverture de l'espace des inputs

La construction du dataset d'évaluation

La structure, les méthodes de construction et la gestion dans le temps
La représentativité, l'exhaustivité et la gouvernance

Les scorers et les métriques

Les outputs structurés vs les outputs libres : les critères et les méthodes adaptés à chaque cas
L'évaluation humaine, les métriques déterministes, les métriques sémantiques et le LLM-as-a-Judge
La combinaison des scorers pour couvrir l'ensemble des dimensions du produit

L'évaluation dynamique et le monitoring en production

L'évaluation unitaire vs l'évaluation dynamique multi-tours
L'observabilité : les logs, les métriques de latence et de coût et l'alerting
Les guardrails : la frontière entre l'évaluation et le contrôle en temps réel

Modalités pédagogiques

Support de cours et cahier de travaux pratique.

Modalités d'inscription

Pour vous inscrire, téléchargez et complétez le formulaire d'inscription, puis retournez-le à formation@sciam.fr.

Formulaire d'inscription

Indicateurs de résultats

Taux de satisfaction

Disponible sur demande

Taux de recommandation

Disponible sur demande