Jeudi, OpenAI a publié un billet de blog expliquant qu’elle avait créé un nouveau modèle concernant la génération de code par IA : CriticGPT. Ici, l’idée n’est pas de générer du code via un prompt, mais de trouver les erreurs dans du code généré par GPT-4.

L’entreprise assure qu’avec ce nouveau modèle, dans 60 % des cas, les personnes qui l’utilisent ont de meilleurs résultats qu’avec seulement GPT-4.
L’idée est d’améliorer les systèmes d’apprentissage par renforcement à partir de rétroaction humaine (Reinforcement learning from human feedback, RLHF). Ils permettent à des relecteurs humains d’améliorer la précision des sorties des grands modèles de langage.
Comme à son habitude, l’entreprise publie un « papier » déposé sur son propre serveur (PDF). S’il ressemble à un article scientifique, il n’est pas déposé sur un serveur de prépublication ni encore moins publié dans une revue scientifique.