Aller au contenu principal
shapes shapes
Quoi de neuf dans la Silicon Valley ?

Intelligence artificielle : les grands modèles de langage approchent de leurs limites
par Georges Nahon

image hero
Les énormes investissements consommés pour l'entrainement des grands modèles de langage (LLMs) pour l'IA génératif (IAG) ne semblent plus se traduire par de meilleures performances en rapport avec le cout. Plusieurs analyses suggèrent que l'on aurait atteint une sorte de "mur" (ou plafond) infranchissable avec les techniques actuelles. On serait arrivé aux limites de la philosophie du "plus c’est grand, mieux c’est". En d'autres termes, toujours plus de données d'entrainement et de puissance de calcul et d'énergie générerait désormais des rendements décroissants à chaque nouvelle itération des LLMs. Cela montre que l'on approcherait du sommet de la courbe d'innovation en S pour cette technologie qui est peut-être en train d'atteindre ses limites naturelles. On voit aussi que les produits de différentes entreprises d'IA sont devenus presque indiscernables les uns des autres que ce soit ChatGPT, Claude, Gemini, ou Grok. Tous ces concurrents cherchent de nouvelles façons de faire progresser leurs produits et de se démarquer des autres. Et jusqu'à présent agrandir les LLMs était la bonne solution.

Limitations game

Chaque nouvelle version de LLMs depuis ChatGPT 3.5 avait apporté jusqu'à présent une amélioration substantielle de leurs fonctionnalités et de leurs possibilités. Ce n'est plus le cas apparemment.

Le nouveau modèle Orion d'OpenAI n'est pas substantiellement plus performant que son prédécesseur ChatGPT-4. Situation analogue avec l'Opus 3.5 d'Anthropic. Chez les autres acteurs des LLMs on a observé des retards à la mise en service de leurs nouvelles versions. Ilya Sutskever co-fondateur d'OpenAI a déclaré à Reuters que la phase d'entrainement d’un modèle d’IA qui utilise une grande quantité de données non étiquetées pour comprendre les modèles et les structures du langage - ont atteint un plateau.

Tout le monde n'est cependant pas d'accord avec le syndrome du "mur" : Sam Altman, PDG de OpenAi créateur de ChatGpt a déclaré : "il n'y a pas de mur" en réponse aux tenants de la thèse de la fin de l'efficacité de la course à l'échelle pour les LLMs. C'est aussi le cas des capital risqueurs Marc Andreessen et Ben Horowitz, et du CEO d'Anthropic Dario Amodei. Le CTO de Microsoft Kevin Scott avait de son côté déclaré en juillet "nous ne sommes pas arrivés à des rendements décroissants dans le passage à l'échelle".

Mais en l'espace de deux jours en Novembre 2024, deux articles convergents de Bloomberg ("OpenAI, Google et Anthropic peinent à construire une IA plus avancée.") et de Reuters ("OpenAI et d’autres cherchent une nouvelle voie vers une IA plus intelligente alors que les méthodes actuelles se heurtent à des limites") sur la décélération des améliorations avec la croissance de la taille des LLMs ont soulevé la question des limites des méthodes actuelles de croissance des LLMs et s'interrogeaient sur ce qui viendrait après pour l'IA.
La question de la limite de l'efficacité de la croissance concerne les LLMs mais pas tout le domaine de l'IA.
 

Les causes de la décélération des nouvelles performances des LLMs 

Jusqu'à récemment encore, le credo du monde de l'IA était que les puces, les données et l’énergie" étaient les ressources essentielles nécessaires pour réussir dans la course à l’IA. (Selon le FT)

Mais les améliorations attendues par le passage à l’échelle, le toujours plus grand, pourraient ralentir à mesure que les données de haute qualité deviennent limitées, même en augmentant la quantité de données globale ingérées par les LLMs en phase d'apprentissage. En d'autres termes, miser uniquement sur des modèles plus gros et davantage de données ne garantit plus que l'on obtiendra des LLMs nettement plus intelligents à chaque itération. Et certainement cette situation ne justifie plus les énormes investissements de plusieurs dizaines de millions de dollars pour entrainer de nouvelles versions des modèles existants ou en créer de nouveaux.

Même si les LLMS ont épuisé toutes les données facilement accessibles dans le monde, il reste bien sûr toutes les données détenues par les entreprises et les institutions qui sont de meilleure qualité mais en nombre bien moindre que ce l'on trouve dans l'internet.

Pour entrainer les LLMs on a en effet utilisé gratuitement des données venant notamment de livres, de publications (posts) sur les réseaux sociaux, des commentaires sur les sites, les sous-titres des vidéos, le contenu de Wikipédia, les réservoirs de programmes informatiques comme GitHub. Pour passer à l'étape supérieure, il faudra disposer de nouvelles données plus riches et spécialisées. L’IA semble à court de nouvelles informations : des données brutes, synthétiques ou fabriquées par des humains.

On a notamment recours à des données synthétiques créées par des IAs, comme des images générées par ordinateur ou des textes sensés simuler une production par des humains et ceci provoque dans certains cas des résultats anormaux, à cause d'une sorte de dégénérescence des LLMs qui les utilisent. La consanguinité pose problème. C'est comme un serpent qui se mord la queue (l'ouroboros). Ce problème est semblable à ce qui se passe quand on fait des photocopies de photocopies : chaque itération de l’apprentissage de l’IA à partir du contenu généré par l’IA peut entraîner une perte d’informations originales et une augmentation des artefacts. Il peut aussi y avoir une amplification des erreurs : les erreurs commises par un modèle vont faire partie des données d’entraînement du modèle suivant, ce qui peut entraîner une accumulation d’erreurs au fil du temps.


Le "SLOP" ou la détérioration des contenus d'internet

Le slop est aux données de l'internet ce que le spam est pour l'email.
De façon générale la qualité des nouvelles informations sur internet a baissé.
Internet est de plus en plus inondé de mots et d’images générés par l’IA. Il devient difficile d'y trouver des informations fiables et cela ira de pire en pire.
Le slop généré par l’IA rend difficile de trouver des informations fiables sur le web. Les moteurs de recherche sont moins pertinents.
Une expression voisine a même été inventée en 2022 pour décrire ce déclin de la qualité des informations numériques, en anglais Enshitification.
Signe des temps peut-être, Enshittification a été défini humoristiquement comme LE mot de l’année par le dictionnaire Macquarie, qui est le dictionnaire national de l’Australie, ce qui stigmate le déclin d’Internet au cours des dernières années.


Les risques des contenus créés par les traductions automatiques

Un autre facteur de détérioration des contenus du web est dû aux traductions automatiques en plusieurs langues d'un document ou de phrases sources.
Selon une étude menée en janvier 2024 par des chercheurs d'Amazon Web services (AWS) 57,1 % des phrases analysées parmi 6,3 milliards de phrases du web avaient été traduites en deux ou davantage de langues différentes. La qualité des traductions décroît fortement avec chaque traduction successive du fait de la prépondérance de traductions automatiques. La situation est pire pour les langues minoritaires dites "à faibles ressources" pour lesquelles les contenus traduits automatiquement constituent une grande partie de leurs contenus web ce qui appauvrit les réservoirs de données dans ces langues.
Ces résultats soulèvent de sérieuses inquiétudes quant à la qualité des données d’entraînement pour les LLMs lorsqu’ils proviennent de contenus récupérés sur le Web. La prévalence de traductions automatiques de mauvaise qualité peut conduire à des modèles moins fluides avec plus d’hallucinations.
Ce qui engendre une dégradation de la qualité, de l’authenticité et de la fiabilité du contenu sur Internet avec pertes de contexte, de signification, et une difficulté à restituer les émotions et le ton. Et il en résulté une baisse de confiance de la part des utilisateurs.


Les lois d'échelle (scaling laws) ont atteint leurs limites

Les lois de Moore sur l'évolution des semi-conducteurs et de façon générale les lois d'échelle en technologie perdent-elles leur validité ?
Actuellement elles semblent moins bien expliquer ou prédire l'évolution des technologies numériques.
Ces lois font référence à l’hypothèse selon laquelle les LLMs deviendront de plus en plus intelligents au fur et à mesure de leurs entrainements successifs et jusqu'à récemment, elles ont été prouvées empiriquement par les faits. Le fait que les rendements deviennent décroissants montre que la quantité d'améliorations obtenues n'est pas alignée sur le cout d'entrainement des systèmes, notamment la puissance de calcul, la quantité de données et l'énergie consommée pendant la phase d'entrainement.
Pour le CEO d'Anthropic, "les lois de passages à l’échelle, c’est un abus de langage" ce ne sont pas des lois de l’univers. Ce sont des régularités empiriques... Je vais parier en faveur de leur maintien, mais je n’en suis pas certain."
Il reste que maintenant les lois d'échelle appliquées aux LLMs patinent.


La quête de l'intelligence artificielle générale (IAG ou AGI en anglais)

Elle motive cette course à la performance des LLMs. L'IAG pourrait un jour égaler ou dépasser les humains dans leurs capacités intellectuelles. Mais le raisonnement basé sur les statistiques est très loin de tout ce qui se rapproche de l’AGI. Les prévisions ne sont pas vraiment précises sur l'échéance à laquelle l'AGI arrivera. Ces prédictions comportent une incertitude importante, et certains experts mettent en garde contre un excès d’optimisme dû aux surestimations passées. Les plus optimistes dans le camp des startups d'IA parlent de 2026 à 2035 et les experts en prévisions parlent de 50% de chance de voir son apparition en 2059. Sam Altman, CEO d'OpenAi pour sa part parle de 2025 et son homologue à Anthropic, Dario Amodei parle de 2025 ou 2027. Le développement de l’IAG peut nécessiter de nouveaux paradigmes au-delà des approches actuelles d’apprentissage profond.
 

Les États-Unis sont-ils en train de perdre leur avantage face à la Chine dans la course à l'IA ?

Le fait est que pour les USA, l'IAG est devenue une question stratégique dans le domaine de la domination compétitive du monde.
En effet, le rapport annuel de novembre 2024 de la Commission américaine d’examen de l’économie et de la sécurité dans la relation Amérique-Chine conclue que la course à l’IAG est une question de sécurité nationale extrême, une garantie (ou une condamnation) pour la suprématie mondiale des États-Unis, comparable à la façon dont les bombes atomiques étaient traitées il y a des décennies.

"La Commission recommande que le Congrès établisse et finance un programme de type Projet Manhattan [de 1942] dédié à la course et à l’acquisition d’une compétence d’intelligence artificielle générale (IAG)." En d’autres termes, ce rapport considère le développement de l’AGI d’une importance stratégique comparable au développement de la bombe atomique pendant la deuxième guerre mondiale.

La course mondiale à la suprématie en intelligence artificielle s’intensifie la Chine réduisant rapidement l’écart technologique avec les États-Unis. Les estimations récentes suggèrent que cet écart a diminué à seulement 6 à 12 mois, une amélioration spectaculaire par rapport aux 2 à 3 ans initialement estimés. Ces progrès sont d’autant plus remarquables que les restrictions américaines sur l’exportation de puces avancées, telles que les GPUs, visaient à ralentir l’essor de l’IA chinoise.

En novembre dernier, deux modèles chinois d'IA open source notables ont été annoncés : Deep Seek R1 et Qwen 2.5, développé par Alibaba. Le modèle Deep Seek R1, un modèle de raisonnement, est souvent comparé au dernier modèle o1 d'OpenAI. DeepSeek est une filiale de la société financière hedge fund High-Flyer Capital Management de Hong Kong. Ces annonces ont surpris et inquiété les acteurs de l'IA et les pouvoirs publics aux USA.
 

Pour contourner les limites du passage à l'échelle des LLMS

L'ère du raisonnement agentique a commencé : "les modèles de raisonnement"

Selon l'ancien CTO de OpenAI, la façon dont nous entraînons la "pensée" ne se fait pas par un apprentissage par imitation. Un modèle de raisonnement n’est "pas formé pour prédire les pensées humaines", mais pour produire, ou du moins simuler, "des pensées par lui-même". Il s’ensuit que parce que les humains ne sont pas des machines à prédire les mots, les programmes d’IA actuels ne peuvent pas non plus le rester s’ils espèrent s’améliorer.

OpenAI a ouvert une nouvelle ère dans l'intelligence artificielle générative avec le lancement d'OpenAI o1, un modèle novateur conçu pour résoudre les problèmes pas à pas et de façon raisonnée. Ce modèle repose sur l’apprentissage par renforcement, une méthode qui affine le processus de raisonnement en offrant un feedback positif lorsque le modèle trouve la bonne réponse et un feedback négatif en cas d’erreur. L'IA peut ainsi apprendre à "penser avant de parler".

Mais c'est aussi une façon de rendre les LLMs plus intelligents et moins impulsifs. Et de les conduire à "raisonner" pour résoudre des tâches plus complexes.
Cette approche marque un tournant dans le développement de l’IA : les modèles de raisonnement, comme OpenAI o1, se révèlent plus économiques et simples à concevoir, évitant les investissements colossaux nécessaires pour entraîner des LLM traditionnels tels que GPT-4. Tout de suite perçu comme l'alternative à la course à la croissance massive et onéreuse des LLMs, elle a fait dire au CEO de Microsoft : "ce que nous voyons c'est l'émergence d'une nouvelle loi de passage à l'échelle".

Les modèles de raisonnement contournent également les défis juridiques liés à l'acquisition de vastes ensembles de données d'entraînement. "OpenAI o1 apprend à penser par lui-même, plutôt que de tenter d'imiter la façon dont les humains pensent", explique un porte-parole de l’entreprise.
OpenAI o1 implique également l’utilisation de données et de commentaires provenant d’experts de l’industrie. Une autre innovation de OpenAI o1 est une autre série d'entrainements effectuées sur des modèles "de base" comme GPT-4".

De son côté, Google n’est pas en reste. L’entreprise a récemment annoncé le projet AlphaProof, qui combine la puissance des LLM avec l’apprentissage par renforcement. Ce modèle vise à s’attaquer à des problèmes mathématiques complexes en développant des capacités de raisonnement méthodique en analysant les bonnes réponses.
On voit ainsi apparaitre les contours d’une IA capable non seulement de générer, mais aussi de comprendre et de résoudre des problèmes de manière autonome, une avancée qui peut redéfinir les frontières de l’intelligence artificielle. La couche de raisonnement, véritable moteur d’une pensée plus délibérée est souvent qualifiée de "système 2" en référence aux théories cognitives.
Les premières utilisations des LLMs utilisent un processus de réflexion ou de raisonnement "dit Système 1" qui est rapide, intuitif et émotionnel alors que le nouveau processus de réflexion est le "Système 2" est plus lent, plus réfléchi, plus contrôlé et plus logique. Le prix Nobel Daniel Kahneman avait popularisé ces systèmes dans son livre Système 1 / Système 2 [Thinking, fast and slow] Les deux vitesses de la pensée.
La synergie entre l’open source et les techniques de raisonnement offre aux petites structures une nouvelle opportunité : développer rapidement des modèles de langage plus compacts et performants. Cette approche permet de contourner les investissements colossaux, pour les LLM traditionnels, tout en évitant les coûts considérables liés à l’acquisition légale des données d’entraînement.
 

Le prompting Chain of thoughts (COT) ; faire "raisonner" les LLMs

L'approche chaine de pensée (chain of thoughts) consiste à faire une invite CoT qui donne un ou plusieurs exemples d’un problème et les étapes de raisonnement nécessaires pour le résoudre, puis pose un nouveau problème. Le LLM émule le "raisonnement" qu'on lui a soumis et suit pas à pas le prompt avant de produire sa réponse.
On fait en sorte que d’autres modèles génèrent les processus de pensée qu’ils ont suivis pour résoudre des problèmes – également connus sous le nom de chaînes de pensée – et qu’ils n’entraînent ensuite un LLM que sur ceux des processus qui fournissent une réponse correcte.
Les sceptiques disent que les LLMs actuels ne peuvent pas raisonner et ne pourront jamais raisonner comme les humains. Même l'approche chaine de pensée ne le permettrait pas. "Ce qui se passe c'est que [le LLM] peut régurgiter des étapes de raisonnement qu’il a vues dans ses données d’entraînement avec une fiabilité pas très élevée, mais ce n’est pas du raisonnement. "C’est en quelque sorte "faire comme si."
Le raisonnement est donc perçu comme pouvant vraiment être un moyen de briser la barrière que les modèles de prédiction des LLMs semblent avoir atteint.
 

"Test time compute", la prochaine frontière pour passer l'IA à l'échelle ?

Tout se passe dans la phase d'inférence" quand on interagit avec le LLM. Donc après la phase d'entrainement.
Les modèles bénéficient d’un temps de traitement supplémentaire lors de l’exécution pour produire de meilleurs résultats. La nouvelle approche implique que les modèles génèrent plusieurs solutions, les évaluent systématiquement et sélectionnent la meilleure. Au lieu de s’appuyer uniquement sur les connaissances acquises lors du pré-entraînement, les modèles reçoivent des ressources de calcul supplémentaires pendant l’inférence pour générer plusieurs solutions potentielles et évaluer systématiquement chaque option et sélectionner la voie la plus prometteuse. Ce processus s'inspire du comportement humain de résolution de problèmes.
Les modèles améliorent leurs réponses de manière itérative grâce à l’auto-révision guidée. Au cours de ce processus, le modèle génère une séquence de révisions, chaque tentative s’appuyant sur les informations de la précédente
C'est approprié pour des problèmes de codage informatique ou de mathématiques.
Une conséquence est une évolution du marché des clouds d'entrainement vers des clouds d'inférence.
 

Les réseaux neuronaux liquides (LNNs)

Il y a d'autres approches dont les réseaux neuronaux liquides (LNNs) inventés au M.I.T en 2021
"les Liquid Neural Networks ajustent en permanence leurs poids et leurs fonctions d’activation, afin d’imiter la plasticité des organismes vivants. 
Cette souplesse permet aux Liquid Neural Networks de traiter efficacement des données séquentielles, et donc de s’adapter à des environnements en constante évolution, sans besoin de réentraînement."
 

Autres approches

Plutôt que d'augmenter la taille des LLMs, la prochaine vague d’innovation en matière d’IA pourrait se concentrer sur l'accroissement de leur intelligence et leur efficacité actuelles, sans les modifier directement ouvrant ainsi la voie à un plus large éventail d’applications spécifiques de secteurs d'activités.
 

L’IA contextuelle (Context-aware AI)

Elle fait partie de ces nouvelles approches. Les LLM d’aujourd’hui perdent souvent le fil du contexte dans les conversations, ce qui conduit à des contradictions ou à des réponses absurdes. Les futurs LLMs pourraient maintenir le contexte plus efficacement, ce qui permettrait des interactions plus profondes et plus significatives." Ce qui se traduira aussi par une augmentation substantielle de la mémoire
 

L'IA neurosymbolique: une approche hybride

Cette approche hybride combine les capacités de reconnaissance de formes des réseaux neuronaux avec le raisonnement logique de l’IA symbolique. L’IA neuro-symbolique combine des réseaux neuronaux avec des techniques de traitement symbolique basées sur des règles pour améliorer l’exactitude, l’explicabilité et la précision des systèmes d’intelligence artificielle. L’aspect neuronal s'appuie sur les techniques statistiques d’apprentissage profond utilisées dans de nombreux types d’apprentissage automatique. L’aspect symbolique fait référence à l’approche de raisonnement basé sur des règles qui est couramment utilisée en logique, en mathématiques et dans les langages de programmation ce qui permettrait une véritable compétence de résolution de problèmes et la pensée critique.
 

Le raisonnement en temps d’inférence : inference time reasoning

Le raisonnement en temps d’inférence est une phase importante du cycle de vie d’un modèle d’IA, au cours de laquelle le modèle, déjà entraîné avec des données historiques, est utilisé pour traiter de nouvelles données inédites afin de générer des résultats basés sur son entraînement précédent. Cette phase est importante pour évaluer l’efficacité et l’efficience réelles des systèmes d’IA, car elle influence directement les performances et la réactivité des applications d’IA.
 

Accroissement de la mémoire

La fenêtre contextuelle dans l’IA est l’espace où un LLM traite du texte découpé en petits sous-éléments (jetons). C'est la mémoire de travail d’une IA.
Des fenêtres contextuelles plus longues permettent de gérer des informations contextuelles plus étendues et améliorer la compréhension ; les LLMs doivent gérer de très longues séquences d’entrée pendant l’inférence. Avec l’accès à plus de textes précédents, les LLMs peuvent générer des réponses plus appropriées et plus pertinentes en termes de contexte.
Il y a ainsi une meilleure rétention de la mémoire : des fenêtres contextuelles plus grandes permettent aux LLM de "se souvenir" et de faire référence aux détails importants mentionnés plus tôt dans la conversation ou le document.
 

L'IA agentique : la nouvelle donne pour l'IA grâce aux agents

Le focus dans les milieux de l’IA se porte désormais sur les agents – des LLMs qui peuvent prendre le contrôle d’un ordinateur et agir en son nom. Une partie importante des investissements se fait d'ailleurs actuellement dans des startups d'IA agentique.
Les agents d’intelligence artificielle s’imposent comme le segment à la croissance la plus rapide dans l’univers de l’IA. Ces agents autonomes, véritables logiciels intelligents, se distinguent par leurs capacités remarquables. Ils peuvent non seulement exécuter des tâches de manière indépendante, mais également agir, conserver une mémoire, mobiliser d’autres agents et apprendre de façon autonome.
L'IA agentique est conçue pour prendre des décisions, s’adapter à de nouvelles situations et effectuer des tâches de manière indépendante sans conseils humains continuellement.
Elle représente un changement vers des processus cognitifs plus proches de l’humain dans les systèmes d’intelligence artificielle.
Souvent comparés à des organismes simples, elles évoluent rapidement, redéfinissant les possibilités offertes par l’intelligence artificielle.
 

Conclusion

Bien que les approches traditionnelles du passage à l'échelle montrent des signes de rendements décroissants des LLMs, il est trop tôt pour affirmer que les limites de l'IA générative ont été atteintes. Mais des sceptiques soulignent l'imprécision et le manque de cohérence, d'explicabilité et de prédictibilité des modèles qui selon eux ne s'améliorent pas beaucoup. Comme le dit l'un d'entre eux, G. Marcus : les LLMs sont "brillamment stupides". Et ce sont des "perroquets stochastiques".

Mais avec un domaine en évolution rapide, des percées et de nouvelles méthodes pourraient bientôt résoudre leurs faiblesses en majorité sans avoir besoin de continuer la course au gigantisme rendue caduque par la raréfaction des données de qualité.

L'orientation très nette  des investissements vers l'IA entreprise laisse penser que des efforts importants seront faits pour apporter des solutions robustes et fiables. En effet les sociétés de capital-risque (VC) privilégient les investissements dans l’IA d’entreprise plutôt que dans l’IA grand public, les startups d’IA B2B ayant reçu 16,4 milliards de dollars de financement pour 2024, contre 7,8 milliards de dollars pour les startups d’IA B2C soit presque le double selon PitchBook. Il s’agit d’un renversement par rapport aux époques technologiques précédentes, où les entreprises axées sur le consommateur comme Amazon et Uber ont été les premières à tirer l’adoption.

L’avenir semble être des LLM combinés à des modèles de raisonnement qui s’en sortent mieux avec plus de puissance d’inférence. Les agents d'IA vont aussi compenser une partie des faiblesses et limitations des LLMs en ouvrant d'autres possibilités inédites.
De ce point de vue, il ne s’agit donc pas de la fin du passage à l’échelle, mais d’une déviation sur la route.
Le ciel ne va pas nous tomber sur la tête.
 
Georges Nahon
Analyste des technologies numériques de la Silicon Valley, consultant, conférencier et auteur
Précédemment pendant 15 ans, CEO d'Orange Silicon Valley à San Francisco et de l'Orange Institute
12 décembre 2024
Sources : P McGuinness, The Financial Times, The Atlantic, O'reilly, The Information, A. EfratiBloomberg, Reuters, VentureBeat, Sequoia Capital, B. Gurley, Ikangaï, TechTarget, Nebius, Wired, J. Owyang

Autres articles sur le même thème

image
Quoi de neuf dans la Silicon Valley ?
Trump 2.0 et la tech américaine
par Georges Nahon
Mag #19
Lire l'article
image
Quoi de neuf dans la Silicon Valley ?
Du financement aux innovations, l'IA continue de dominer le secteur du numérique
Mag #18
Lire l'article
image
Quoi de neuf dans la Silicon Valley ?
Les sceptiques de l'IA ont dominé les médias pendant l'été technologique 2024 Bulle ou pas Bulle ? Et quel ROI ?
Mag #17
Lire l'article
image
Quoi de neuf dans la Silicon Valley ?
Un premier semestre 2024 en surchauffe pour l'IA générative présage un S2 effervescent
par Georges Nahon
Mag #15
Lire l'article