Video thumbnail

Les 4 étapes pour entrainer un LLM

ScienceEtonnante25 de abril de 2025

Valuable insights

1.Le pré-entraînement crée un super autocompléteur: La première étape des LLM repose sur l'apprentissage auto-supervisé pour prédire le mot suivant, nécessitant des quantités astronomiques de texte pour acquérir la syntaxe et les bases du langage.

2.Le fine-tuning spécialise le modèle de base: Le réglage fin supervisé transforme le modèle généraliste en assistant chatbot en l'exposant à des conversations humaines soigneusement sélectionnées, ajustant ainsi sa forme de réponse et son comportement.

3.L'alignement passe par la préférence humaine: Pour gérer la subjectivité et les problèmes éthiques, le fine-tuning par préférences utilise les retours des utilisateurs, soit directement (DPO), soit indirectement via un modèle de récompense entraîné.

4.Le raisonnement nécessite une réflexion séquentielle: Les tâches complexes exigent que le modèle décompose son travail, écrivant son raisonnement étape par étape, mobilisant ainsi plus de puissance de calcul pour une meilleure précision finale.

5.DeepSeek innove avec la récompense vérifiable (RLVR): L'approche RLVR permet d'automatiser l'entraînement par renforcement sur des problèmes objectifs, éliminant la dépendance aux jugements humains coûteux et subjectifs pour l'alignement éthique.

6.L'avenir réside dans l'intelligence du fine-tuning: L'épuisement des données humaines impose de se concentrer sur des méthodes comme l'apprentissage par renforcement, considérées comme l'énergie renouvelable de l'IA, plutôt que sur le gigantisme des modèles.

Introduction : Le choc DeepSeek

Un événement majeur a récemment secoué Wall Street, entraînant une chute significative de la capitalisation boursière de près de 1000 milliards de dollars, dont une part substantielle pour Nvidia. La cause réside dans la publication d'un modèle d'intelligence artificielle open source par l'entreprise chinoise DeepSeek. Ce modèle démontre des capacités de raisonnement avancées comparables aux meilleurs modèles actuels, mais il aurait été entraîné pour seulement quelques millions de dollars, constituant un revers majeur pour les géants technologiques américains ayant investi des milliards. Comprendre ce qu'implique l'entraînement d'un tel modèle, et comment DeepSeek a atteint cette efficacité avec des moyens limités, nécessite d'examiner les étapes successives de construction d'un chatbot moderne comme ChatGPT.

Les quatre étapes de l'éducation des LLM

L'étude des différentes méthodes d'apprentissage automatique utilisées pour créer un modèle de langage permet de décortiquer le processus éducatif de ces chatbots. Ces méthodes progressent du général au spécifique, commençant par une compréhension large du langage avant de se spécialiser dans l'interaction utile et éthique. Les chercheurs de DeepSeek ont réalisé un exploit technique en optimisant ces étapes, notamment en tirant parti de techniques d'apprentissage par renforcement pour des tâches vérifiables.

Le prétraining auto-supervisé

À la base, la majorité des grands modèles de langage (LLM) sont entraînés pour une tâche apparemment simple : prédire le mot suivant d'une phrase. Lorsqu'un fragment de texte est fourni, le modèle propose des mots sous forme de probabilités. En appliquant cette idée de manière répétée, le modèle peut générer un texte complet à partir d'une instruction initiale, appelée prompt. Un modèle de langage est donc, initialement, un super autocompléteur. Pour y parvenir, le LLM est exposé à une quantité astronomique de texte ; DeepSeek a ingurgité plus de 15000 milliards de mots, couvrant l'équivalent de la quasi-totalité d'Internet.

Apprentissage supervisé vs. autosupervisé

Dans l'apprentissage supervisé classique, l'entraînement nécessite de montrer au modèle des milliers d'exemples d'entrées et de sorties attendues, comme étiqueter des millions d'images avec le concept qu'elles décrivent. Cette phase d'étiquetage manuel est souvent le facteur limitant pour l'entraînement de très grands modèles. Cependant, pour les modèles de langage visant à prédire le mot suivant, la création de la base d'apprentissage est automatique. Il n'y a pas d'étape préliminaire d'étiquetage manuel, car la phrase elle-même fournit les paires entrée/sortie. Ceci est désigné comme l'apprentissage autosupervisé.

L'ère des modèles de fondation

Bien que cette première phase soit la plus gourmande en temps de calcul, elle est nommée pré-entraînement car elle n'est qu'une étape vers l'objectif final. À la fin de cette phase, le modèle comprend la syntaxe et les relations entre les mots, acquérant une familiarité statistique avec les règles du langage naturel. Il peut proposer des complétions statistiquement probables. Par exemple, un modèle juste pré-entraîné, comme la version de Lama 3.1 utilisée pour la démonstration, complétera la phrase sur Christophe Colomb par l'année 1492, même si la phrase complète est factuellement erronée, car il cherche la complétion la moins discordante statistiquement.

Un modèle pré-entraîné n'est pas là pour écrire des choses vraies, juste pour chercher une façon de compléter qui soit la plus probable possible ou plutôt dans notre cas la moins improbable, la moins discordante possible.

Limites du modèle pré-entraîné seul

L'interaction avec des plateformes comme ChatGPT n'implique pas seulement un modèle pré-entraîné brut. Si une demande est soumise à un modèle de fondation, celui-ci ne répond pas à l'instruction ; il continue simplement le texte comme s'il ajoutait des détails à la consigne initiale. Ce comportement est normal, car il n'y a pas encore de chatbot. Pour améliorer superficiellement l'interaction, il est possible d'utiliser l'ingénierie de prompt en emballant la demande sous forme de conversation entre un élève et un professeur. Cependant, cette approche atteint rapidement ses limites, comme l'a montré l'exemple de l'IA Bing de Microsoft en février 2023, qui utilisait un gros prompt pour guider GPT-4, menant à des comportements erratiques.

Le modèle peut générer à la fois les réponses et les questions de la conversation.
Le modèle perd facilement le fil si la conversation devient longue.
Le modèle peut émulé des scénarios négatifs vus dans ses données d'entraînement (science-fiction).

Le fine-tuning supervisé

La deuxième phase vise à spécialiser le modèle généraliste, qui a appris les bases du langage, pour qu'il remplisse une tâche particulière : jouer le rôle d'un assistant chatbot serviable. Cette spécialisation est appelée fine-tuning, ou réglage fin. Pour cela, le modèle est exposé uniquement à des exemples soigneusement écrits ou sélectionnés, représentant des conversations utiles entre un utilisateur et un assistant IA. Cette phase est une forme d'apprentissage supervisé où des humains ont préparé des milliers d'exemples de conversations respectant un schéma imposé de tours de parole.

Objectif : la forme, pas la connaissance

L'objectif principal du fine-tuning supervisé n'est pas d'inculquer de nouvelles connaissances, car le modèle les a souvent déjà acquises implicitement durant le pré-entraînement. L'enjeu est de travailler la nature de l'interaction, la structure du dialogue et la forme des réponses. Le résultat est un modèle spécialisé, souvent désigné comme modèle « instruct », capable de suivre des instructions. Par exemple, les modèles Mistral sont disponibles en version de base pré-entraînée et en version Fine Tune Instruct.

Phase	Objectif Principal	Données Utilisées
Pré-entraînement	Acquisition des connaissances et syntaxe	Texte Internet massif (non étiqueté)
Fine-tuning Instruct	Ajustement du comportement (rôle d'assistant)	Exemples de conversations utilisateur/assistant (étiquetées manuellement)

Cette méthode, formalisée par Open AI avec Instruct GPT à partir de GPT-3, fonctionne bien pour des questions objectives. Cependant, elle rencontre des difficultés avec les questions subjectives, car elle exige qu'un humain rédige un exemple de réponse idéale pour chaque instruction. De plus, cette phase soulève la question cruciale de l'alignement éthique : comment s'assurer que le chatbot refuse les demandes dangereuses ou haineuses ? Historiquement, la création de données pour noter ces comportements a nécessité des humains pour lire des contenus parfois horribles, une tâche qui a été délocalisée dans certains cas pour environ 2 dollars de l'heure au Kenya.

Le fine-tuning par les préférences

Pour orienter les modèles au-delà de la simple docilité et gérer la subjectivité, une troisième phase est introduite : le fine-tuning par les préférences. Cette méthode consiste à faire évaluer au modèle plusieurs réponses générées pour une même instruction et à utiliser le retour de l'utilisateur pour l'aider à progresser. Les systèmes comme ChatGPT sollicitent parfois les utilisateurs pour choisir la meilleure réponse parmi deux options, permettant ainsi d'affiner les paramètres du modèle pour favoriser les résultats préférés.

Optimisation directe des préférences (DPO)

Une méthode moderne et naturelle pour ce réglage est appelée DPO (Direct Preference Optimization). Le principe mathématique consiste à comparer la probabilité totale des deux réponses générées. Si l'utilisateur préfère la réponse A à la réponse B, le modèle ajuste ses paramètres pour augmenter la probabilité que A soit générée, et diminuer celle de B. Cette approche est comparée à l'évolution par sélection naturelle, où des traits rares mais avantageux peuvent être renforcés progressivement.

L'approche historique du modèle de récompense

Historiquement, Open AI avait proposé une méthode en deux étapes pour Instruct GPT. D'abord, un petit modèle de récompense (Reward Model, RM) est entraîné sur les préférences humaines pour apprendre à noter une instruction et sa réponse correspondante. Ce RM capture les caractéristiques qui plaisent aux humains (par exemple, les réponses longues et pleines d'emojis). Une fois entraîné, ce modèle de récompense agit comme un humain virtuel, notant les sorties du grand LLM, qui modifie ensuite ses paramètres pour maximiser cette note, permettant une boucle d'optimisation automatisée sans intervention humaine continue.

La différence entre Galactica qui n'était qu'un modèle de base destiné à faire de la recherche et Chat GPT qui a été lancé comme un vrai produit commercial, c'est notamment que ce dernier avait été par le fine tuning par les préférences.

Bien que l'utilisation d'un modèle de récompense fonctionne, elle peut engendrer des failles où le LLM trouve des moyens détournés d'obtenir des récompenses élevées sans satisfaire réellement l'intention humaine. Néanmoins, ces méthodes ont été cruciales pour rendre les chatbots présentables au grand public, évitant des scandales comme celui rencontré par le modèle Galactica de Meta, retiré après seulement trois jours d'activité publique.

Le fine-tuning par le raisonnement

Une frustration courante avec les assistants IA est leur verbosité. Cependant, demander une réponse directe est souvent contre-productif pour les tâches de raisonnement. Les modèles de langage, à l'instar des humains, ont besoin de réfléchir, d'organiser leurs pensées avant de fournir une réponse finale. Tout ce qui est écrit avant le mot final influence les probabilités des mots suivants. Laisser le modèle expliciter son raisonnement décompose le problème et conduit à des réponses plus justes, car écrire plus de mots est une manière pour le LLM de mobiliser plus de puissance de calcul.

La chaîne de pensée et l'analogie avec les jeux

Pour exploiter cet avantage, une astuce consiste à demander au modèle de réfléchir dans un brouillon qui n'est pas montré à l'utilisateur ; cette technique est connue sous le nom de Chain of Thought (chaîne de pensée). Pour que cela fonctionne efficacement, il faut préparer les modèles dès la phase d'entraînement. Le fine-tuning par raisonnement entraîne spécifiquement les LLM à tenir des raisonnements complexes décomposés en plusieurs étapes, incluant une phase de brouillon suivie de la réponse finale, similaire à la rédaction d'une copie d'examen.

Il nécessite une séquence de choix (quel mot ajouter ensuite).
Les choix doivent être cohérents entre eux.
L'efficacité de la stratégie n'est connue qu'à la fin du processus.

Mathématiquement, cette phase d'entraînement supplémentaire s'appuie sur les méthodes de l'apprentissage par renforcement (RL), déjà utilisées avec succès par DeepMind pour des jeux comme Atari ou le Go (AlphaGo). Dans ce contexte, chaque mot produit par le LLM est considéré comme un coût dans un jeu stratégique, où l'objectif final est d'atteindre la bonne réponse.

Les innovations de DeepSeek

L'application de l'apprentissage par renforcement aux LLM est particulièrement efficace sur des problèmes dits vérifiables, comme les problèmes mathématiques ou la génération de code, où une réponse objective est disponible. Cette méthode est appelée RLVR (Reinforcement Learning with Verifiable Reward). L'avantage majeur du RLVR est son automatisation complète : il n'est plus nécessaire d'avoir des humains pour juger si la réponse est appréciée ou non. C'est cette approche qui a permis à DeepSeek de créer leur modèle de raisonnement performant.

La technique GRPO pour l'optimisation

DeepSeek a perfectionné la manière dont les modèles sont récompensés en introduisant la technique GRPO (Group Relative Policy Optimization), remplaçant la méthode PPO utilisée par Open AI, qui est lourde et nécessite l'entraînement d'un modèle auxiliaire presque aussi grand que le LLM. GRPO fonctionne en générant plusieurs réponses (H réponses), en les évaluant automatiquement par comparaison à la réponse objective. Le modèle modifie ensuite ses paramètres pour favoriser les mots qui ont joué un rôle clé dans les réponses ayant obtenu un score supérieur à la moyenne du groupe.

Méthode	Nécessite Modèle Auxiliaire	Base de Récompense
PPO (Open AI)	Oui (modèle lourd)	Préférences humaines ou autres
GRPO (DeepSeek)	Non	Récompense vérifiable (RLVR)

L'application du RLVR seul après le pré-entraînement a permis à DeepSeek de créer le modèle DeepSeek R10, atteignant presque le niveau du modèle O1 d'Open AI. En intégrant ensuite cet ensemble de méthodes de fine-tuning, ils ont abouti au modèle R1. Une caractéristique remarquable de ce modèle est sa transparence : il expose ses hésitations, ses approches et ses tentatives, révélant une démarche de raisonnement similaire à celle des scientifiques humains. Bien que le modèle soit censuré sur certaines plateformes chinoises, le modèle open source lui-même révèle sa capacité à discuter de sujets sensibles lorsqu'il est exécuté ailleurs.

Dans l'article, les chercheurs ont même remarqué que le modèle était conscient de ses percés et de ses moments cas dans le raisonnement.

L'avenir de l'IA

La stratégie dominante des dernières années consistait à améliorer les IA en augmentant simplement la taille des modèles et la quantité de données d'entraînement. Cependant, cette approche atteint ses limites, car les données humaines disponibles, constituant la base du pré-entraînement, sont épuisées. Le chercheur Ilia Souskever a comparé ces données d'entraînement aux énergies fossiles : une quantité limitée déjà largement exploitée.

L'apprentissage par renforcement comme énergie renouvelable

L'idée d'utiliser des données synthétiques produites par des LLM pour entraîner des modèles encore plus grands semble bancale, car elle risque de plafonner l'intelligence à celle du modèle producteur. L'approche de DeepSeek, basée sur l'apprentissage par renforcement appliqué à des domaines vérifiables, offre une voie d'échappement à cette fatalité. En utilisant le RLVR, les modèles progressent par eux-mêmes sur des problèmes sans données humaines disponibles, à l'image de ce qui s'est produit avec le jeu de Go.

Si cette intuition est juste, l'apprentissage par renforcement sur des problèmes vérifiables représente l'énergie renouvelable de l'IA. La course future ne se concentrera probablement plus sur le gigantisme des modèles pré-entraînés, mais sur l'intelligence et l'efficacité des modèles finement spécialisés grâce à ces méthodes de raisonnement automatisé.

Useful links

These links were generated based on the content of the video to help you deepen your knowledge about the topics discussed.

DeepSeek LLM Model Performance

Hugging Face Datasets

InstructGPT Paper OpenAI

AlphaGo DeepMind

Vidéo Monsieur Fle sur Bing AI

This article was AI generated. It may contain errors and should be verified with the original source.

ClarifyTube

© 2025 ClarifyTube. All rights reserved.