21 novembre 2024

Krusell France

Ta dose d'actu digital !

Comment les humains perfectionnent l’IA : l’essentiel de l’entraînement répond à ces enjeux

‘Humans in the loop’: RHLF and how real people are quietly training generative AI
Rate this post

Le rôle crucial des humains dans l’entraînement de l’IA

Alors que l’IA générative continue de s’infiltrer dans presque tout, nous examinons l’élément humain caché dans le perfectionnement de ses résultats. Lorsque OpenAI a d’abord développé ChatGPT, le succès n’était en aucun cas assuré. La poursuite de l’intelligence artificielle (IA) était en cours depuis des décennies. Le licorne de la Silicon Valley (à l’époque une organisation à but non lucratif avec des engagements précoces de personnalités telles qu’Elon Musk et Reid Hoffman de LinkedIn) était arrivée sur un modèle qui semblait fonctionner à petite échelle. En ajoutant davantage de données, en augmentant les paramètres sous-jacents à ses résultats, le résultat semblait fonctionner : l’entreprise avait créé un chatbot cohérent et informatif. De nombreux points d’interrogation subsistent encore sur le fonctionnement interne des grands modèles de langage (LLMs), même au sein des communautés de programmeurs – le modèle développé par OpenAI est en quelque sorte une boîte noire, tout comme ses concurrents. Et à ce stade de leur développement, il y a un élément de chance ou de hasard dans la sortie du modèle. Des hallucinations, des erreurs et d’autres inexactitudes se produisent, réduisant inévitablement la confiance dans les produits.

Dans la course à l’IA générative et conversationnelle qui ne commet pas ce genre d’erreurs, les enjeux (et les investissements) sont très élevés. OpenAI a été valorisée le mois dernier à 157 milliards de dollars, et il est estimé que l’entreprise dépense 3 milliards de dollars par an pour former ChatGPT. Pour atténuer les erreurs, une grande partie de ces dépenses est consacrée à l’apport humain : de vraies personnes, ‘en chair et en os’, ‘entraînent’ l’IA à faire mieux.

RLHF: Le facteur humain dans l’entraînement de l’IA

Parallèlement à mon travail freelance pour The Drum, j’ai passé une partie de l’année dernière à travailler pour des agences qui facilitent cette formation humaine pour certains des LLMs les plus avancés et les plus connus. L’ampleur de l’apport humain dans ces opérations est stupéfiante : des centaines d’écrivains et d’éditeurs façonnent des dizaines de milliers de conversations sur mesure à alimenter dans l’IA pour améliorer sa sortie finale. Voir ces équipes était un peu comme aller derrière le rideau du Magicien d’Oz.

Alors, jusqu’où peut-on façonner les réponses qu’une IA donne? Et avec les marques et les éditeurs incorporant de plus en plus des chatbots dans leur expérience de marque, que peut-on faire pour garantir que les IA restent sur un script, représentant en toute sécurité ces entreprises? Le travail dans lequel j’étais impliqué faisait partie de ce qu’on appelle l’apprentissage renforcé par les commentaires humains (RLHF). Un aspect de cela consiste à former un modèle de récompense en notant les réponses données par des LLMs les unes par rapport aux autres, ou sur une échelle numérique. Le deuxième élément est l’ajustement fin supervisé, où des conversations d’exemple sont écrites et entrées dans le LLM. Tout cet entraînement humain, selon Bob Briski, vice-président principal mondial de l’IA chez Dept, peut être une entreprise coûteuse.

Ces coûts signifient naturellement que les acteurs de l’espace de l’IA cherchent également comment l’IA pourrait être capable d’assumer la tâche de la formation. Il y a quelques semaines à peine, Meta a annoncé avoir découvert un Graal : le mécanisme tant recherché par lequel les IA peuvent s’améliorer d’elles-mêmes, sans avoir besoin de cet apport humain.

Source : www.thedrum.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications