Aller au contenu principal
shapes shapes
Quoi de neuf dans la Silicon Valley ?

Les défis et les perspectives des LLMs dans l'IA
par Georges Nahon

image hero

Jusqu'où ira la course aux (très) grands modèles de langage de l'IA générative (IAG)

Les résultats financiers du premier trimestre 2024 pour Google, Amazon, Microsoft, et Meta ont été très bons notamment en raison de leurs activités d'IAG qui ont dopé leurs clouds. La demande des clients semble réelle et substantielle. La course aux investissements de plus en plus énormes en milliards de dollars dans les infrastructures capables de faire fonctionner les IAG et leurs grands modèles de langages (LLMs) semble bien partie pour continuer. C'est une course de vitesse à la taille, où les Big Tech de l'IA défient leurs concurrents, sur le mode "catch me if you can", rattrape-moi si tu peux.

Par exemple, Meta a annoncé des investissements colossaux et une stratégie d'IAG qui n'est plus seulement centrée sur le dopage de leurs produits et services actuels comme Facebook, Instagram et WhatsApp. La posture a changé et Meta s'attaque à ses concurrents Google, Amazon et Microsoft. Il y aura chez Meta une augmentation des dépenses d’investissement pour l’ensemble de l’année de 37 milliards de dollars à 40 milliards de dollars pour tenir compte des besoins de l'IA alors qu'elles étaient de 28,1 milliards de dollars l'an dernier.
Dopé par l'IAG, le cloud a fait un retour en force au premier trimestre 2024. Le marché dans son ensemble a augmenté de 13,5 milliards de dollars pour atteindre 76 milliards de dollars, soit une hausse de 21 % par rapport au premier trimestre de 2023, selon Synergy Research et TechCrunch.

"Il y a une relation symbiotique entre d'une part l’avancement et l’adoption rapides de l’IA et d'autre part les fournisseurs de cloud, les Big 3".
Amazon a généré un chiffre d'affaire de 25 md$, soit une croissance de 17% par rapport à l'année précédente avec 31% de part de marché. Microsoft a 25% de part de marché avec une croissance de 31% par rapport à l'année précédente Google est en troisième position avec 11% de part de marché en croissance de 28% par rapport à l'année précédente
En même temps apparaissent de nouveaux acteurs venant du monde des startups et des innovations susceptibles de changer les trajectoires de développement.

 

Jusqu'où ira la taille des LLMS?

Chaque nouvelle génération de grand modèle de langage (LLM) consomme une énorme quantité de ressources : plus de données, plus de puissance de calcul et plus d'énergie et de dollars.
"Meta, par exemple, a entraîné ses nouveaux modèles Llama 3 avec environ 10 fois plus de données et 100 fois plus de puissance de calcul que Llama 2". Microsoft entraine un nouveau LLM dénommé MAI-1 développé en interne qui est assez grand pour rivaliser avec ceux de Google, Anthropic et OpenAI soi-même, avec qui Microsoft a pourtant un lien capitalistique majeur qui n'est pas mis en cause.


Selon Reuters, "MAI-1 sera beaucoup plus grand que tous les modèles open source que Microsoft a précédemment créés. MAI-1 aura environ 500 milliards de paramètres, qui peuvent être ajustés pour déterminer ce que les modèles apprennent pendant l'apprentissage. A titre de comparaison, GPT-4 d’OpenAI a plus de 1 billion de paramètres, tandis que les modèles open source plus petits de Meta Platforms et Mistral ont 70 milliards de paramètres."

La question est de savoir si on aura besoin de faire des LLMs de plus en plus gros si l'innovation dans le domaine, notamment dans l'inférence (la partie qui construit les réponses aux "invites"), permet d'abaisser les couts sans augmenter la taille. Ou si l'on peut changer de méthode et de technologie pour définir et entrainer plus efficacement des nouveaux LLMs dans la phase d'apprentissage. Peut-être aussi que les puces faites sur mesure vont permettre de progresser plus vite et pour moins cher. Les acteurs misent aussi sur une baisse à long terme du prix des puces selon -plus ou moins- la loi de Moore des semi-conducteurs. Mais le temps presse et tous les gros acteurs veulent créer la distance avec leurs concurrents en intensifiant la course rapide au gigantisme car personne ne veut rater le train ni risquer de perdre des clients: il s'agit surtout de pouvoir en acquérir des nouveaux grâce à l'IAG.

Pour les semi-conducteurs, Nvidia le roi de la puce IA, détient une part de marché de 92 % dans les puces de datacenters, selon IoT Analytics et ses prix sont ainsi maintenus à un niveau élevé. Son premier sérieux concurrent américain AMD, Advanced Micro Devices, n’est qu’à 3 % de part de marché.
En dehors de Nvidia, tous les acteurs du cloud et Apple ont développé leurs propres puces IA optimisées pour leur cloud, et des accélérateurs personnalisés capables d’exécuter rapidement des processus d’IA spécifiques. Apple qui a déjà une bonne expérience dans la création de ses puces a annoncé pour l'IA le "Project ACDC" pour "Apple Chips in Data Center" et également la puce M4 pour les nouveaux iPad, IPhone et Mac. Avec pour M4 un fonctionnement de l'IA en local dans les appareils grâce à son "Neural Engine" sans besoin de connexion à internet.

Les autres sociétés du monde du silicium, comme AMD et intel proposent également des puces concurrentes à celles de Nvidia, ou adressent et optimisent des tâches spécifiques de l'IA: c'est le cas de Groq. Avec l'évolution actuelle de l'IAG vers des "agents", ce que le secteur appelle "l'IA agentique" cette tendance va s'accélérer avec des produits comme "Devin", un assistant de codage motorisé par l’IA.

 

La croissance de la taille des LLMs est-elle soutenable ?

On peut se demander si le rythme actuel des développements et des couts associés est durable et soutenable économiquement.
Face au cout très élevé du ticket d'entrée dans la conception et l'exploitation des LLMs (on parle en centaines de millions de $), on voit apparaitre des initiatives originales visant à concevoir des … petits LLMs ! Les systèmes géants ne sont pas nécessairement ce dont tout le monde a besoin. On pense à des systèmes plus petits et beaucoup moins onéreux, un peu moins performants mais plus spécialisés. Ils sont optimisés pour des cas d'usage qui ne nécessitent pas une connaissance encyclopédique de toute le web mais plutôt des données très spécialisées pas nécessairement disponibles sur l'Internet public mais plutôt dans les entreprises ou les institutions.

On voit ainsi arriver des petits modèles ou Small Language Models (SLMs) par exemple chez Microsoft avec ses trois modèles d’IA plus petits -Phi-3- dont les performances seraient presque aussi bonnes que le GPT-3.5 d'OpenAI lancé en novembre 2022 et à l'origine de l'engouement mondial pour l'IAG. Microsoft a ainsi une offre d’IA, visant à développer à la fois de « petits modèles de langage » peu coûteux à intégrer dans des applications et qui pourraient fonctionner sur des appareils mobiles, ainsi que des modèles d’IA plus grands et à la pointe de la technologie comme MAI-1 évoqué plus haut.
De son côté, Apple a annonce OpenELM, un SLM en open source. Meta et Google ont également "open sourcé" leurs modèles récents, pour stimuler leur adoption par les développeurs.

Selon Semafor, la bonne approche pour construire des modèles petits mais puissants réside dans la qualité du texte utilisé pour les entraîner. Des chercheurs d’Apple ont par exemple filtré le texte de jeux de données public, en conservant des phrases composées d’une plus grande variété de mots et plus complexes. Microsoft de son côté a utilisé un mélange de données réelles extraites du Web et de données synthétiques générées par l’IA pour entraîner leur SLM Phi-3.

L'accès à des données plus abondantes, plus précises, plus spécifiques conduit certains gros acteurs à négocier des droits d'usage de données qui sont soit inaccessibles librement sur le web soit protégées par des droits. Certains envisageraient même d'acheter des maison d'édition. Selon The Guardian, ce serait le cas de Meta qui envisagerait d'acheter la maison d'édition en langue anglaise Simon & Schuster pour l'apprentissage de ses IA. C'est une des "top cinq", les "Big Five", avec Penguin Random House, HarperCollins, Hachette et Macmillan. Un Vice-Président de Meta pour l'IAG, aurait indiqué que sa société avait [déjà] utilisé presque tous les livres, poèmes et essais écrits en anglais accessibles sur internet pour entrainer leurs LLMs et cherchait d'autres sources.



La course au gigantisme des LLMs et leurs faiblesses actuelles

Une limitation des chatbots des LLMs actuels est liée à l'utilisation de la technologie des "transformers" inventée par des ingénieurs de Google qui permet les échanges conversationnels avec l'IA (les chatbots) comme popularisés par ChatGPT en 2022. En effet, le contexte maximum de texte accepté dans les invites (prompts), "la fenêtre contextuelle" est trop limité actuellement pour réduire les inexactitudes ou les aberrations éloquentes et convaincantes que l'on trouve dans les réponses des transformers. L'augmenter pour améliorer la précision des réponses des chatbots serait très couteuse en puissance informatique (compute).

Le Docteur Percy Liang, professeur à l'institut "Human-Centred Artificial Intelligence" à l'Université de Stanford, a déclaré dans The Economist, "le doublement de la longueur de la fenêtre [contextuelle] multiplie par quatre la charge de calcul, ce qui limite la vitesse à laquelle les LLMs peuvent s’améliorer. Aussi, de nombreux chercheurs travaillent sur des architectures post-transformers capables de prendre en charge des fenêtres contextuelles beaucoup plus grandes, une approche qui a été dénommée "apprentissage long" par opposition à "apprentissage profond")."

Une autre faiblesse est l'inexactitude imprédictible (ou hallucinations) des réponses des IAG qui freine leur adoption dans les entreprises. De nombreux initiatives sont consacrées à réduire ou à contourner cette faiblesse. Des startups travaillent par exemple à enrichir et à augmenter le contexte textuel des demandes adressées aux IAG comme indiqué plus haut. Amazon de son côté a mis au point une technique propre pour réduire les hallucinations: le dégorgement (disgorgement). Le problème aujourd'hui c'est que ces LLMs sont si grands et si complexes que l'on ne peut pas les modifier comme on le fait pour un bug dans du logiciel. Avec "le dégorgement" il s'agit en fait de retirer de ces LLMs des données qui posent problème. Il faut notamment utiliser des interventions d'humains (reinforcement learning with human feedback) qui classent les réponses des LLMs sur certains sujets.
C’est une façon d’entrer dans un modèle déjà entraîné et d’en retirer du contenu, sans que cela n’affecte l’ensemble du système. Ce qui permettrait aux entreprises de modifier les modèles de langage une fois qu’ils ont été formés.


Faiblesses des LLMs dans leurs interactions avec le monde réel physique

Dans ses interactions avec le monde réel physique, par exemple avec des robots, un espoir est que les LLMs auront moins d’hallucinations s’ils sont entraînés sur des jeux de données combinant du texte, des images et des vidéos pour leur fournir une idée plus riche de la façon dont le monde fonctionne, selon, Nathan Benaich d'Air Street Capital.
Une autre façon d'améliorer les LLMs est d'utiliser des modules externes comme les listes de tâches et la mémoire à long terme. Les solutions telles que les bases de données RAG (Retrieval-augmented generation ou génération augmentée de récupération) permettent d'intégrer la recherche d'informations externes en temps réel dans la génération de réponses par les LLMs.

Cela signifie qu'ils peuvent chercher des informations au-delà de ce qu'ils savent déjà et qui est peut-être trop ancien, pas assez spécialisé au vu du contexte de la question, voire obsolète. RAG améliore significativement la précision et la pertinence des réponses que génèrent les LLMs. Il leur permet ainsi de s'adapter à des domaines spécifiques ou aux bases de données d'entreprises sans nécessiter de refaire un apprentissage du LLM.

 

Les LLMs ne seront pas que des géants du prêt à porter de l'IAG

La vitesse et la richesse de l'innovation et des développements dans le monde de l'IAG sont étonnantes. On peut s'attendre à ce que des nouvelles solutions originales émergent rapidement du fait des besoins spécifiques des entreprises et institutions qui ne nécessiteront pas de passer seulement par l'usage de LLMs colossaux. Beaucoup d'argent est investi aussi dans des startups positionnées de plus en plus "autour" des LLMs pour apporter des outils et des solutions complémentaires et personnalisées. Elles ne nécessitent pas de recréer à partir de zéro des nouveaux LLMs mais elles permettent de mieux répondre aux caractéristiques et aux besoins des entreprises utilisatrices qui n'attendent pas forcément des IAG prêt à porter. Coté LLMs, comme le montre Microsoft, il faudra proposer plusieurs "tailles" de LLMs, y compris ceux venant d'autres entreprises, ce que font actuellement les acteurs du cloud. Il y aura aussi des LLMs sur mesure, mais le marché semble actuellement se diriger aussi vers la "retouche" des grands LLMs sans les modifier, pour les adapter par l'extérieur à des environnements spécifiques qui disposent d'informations propres, inconnues des LLMs génériques.

Mais on ne peut pas négliger les apports prévisibles des nouveaux LLMs géants aux pieds agiles.Dans tous les cas, on peut s'attendre à un accroissement rapide des performances des LLMs avec et sans passage à des échelles gigantesques.



Georges Nahon
Analyste des tendances de la tech numérique de la SIlicon Valley. Auteur et conférencier.
10 mai 2024
Sources:
Amazon, Meta, Apple, The Economist, The Wall Street Journal, The Financial Times,The New York Times, Reuters, The information, Wired, Alex Kantrowitz Big , Synergy Research, TechCrunch et des conversations avec des experts.


 

Autres articles sur le même thème

image
Quoi de neuf dans la Silicon Valley ?
Trump 2.0 et la tech américaine
par Georges Nahon
Mag #19
Lire l'article
image
Quoi de neuf dans la Silicon Valley ?
Du financement aux innovations, l'IA continue de dominer le secteur du numérique
Mag #18
Lire l'article
image
Quoi de neuf dans la Silicon Valley ?
Les sceptiques de l'IA ont dominé les médias pendant l'été technologique 2024 Bulle ou pas Bulle ? Et quel ROI ?
Mag #17
Lire l'article
image
Quoi de neuf dans la Silicon Valley ?
Un premier semestre 2024 en surchauffe pour l'IA générative présage un S2 effervescent
par Georges Nahon
Mag #15
Lire l'article