En fait il y a deux niveaux d apprentissage. Le modèle est d abord nourri de tas de textes par apprentissage automatique, ensuite on l ‹instruit› on lui donne des récompenses s il répond correctement (reinforcement learning by human feedback)
larevueia.fr/quest-ce-que...