Une question d'actualité est de savoir si des systèmes comme ChatGPT (de la société open.ai) peuvent transformer la façon dont on se sert d'internet et la recherche sur internet au point de s'installer comme des concurrents sérieux du moteur de recherche de Google ?
La position de domination absolue de Google dans les moteurs de recherche sur internet peut-elle être sérieusement être ébranlée ? Le moteur de recherche Bing de Microsoft ne représente que 3% des recherches mondiales, contre 93% pour Google en 2022. Aujourd'hui, seuls ces deux acteurs tiennent ce marché de la recherche sur internet, en dehors de certaines régions du monde dont la Chine.
La perception de ce qu'est la recherche sur internet est en train d'évoluer rapidement
Avec l'apparition de chatGPT, un chatbot d'IA générative, en décembre 2022 avec son extraordinaire succès auprès du grand public, la perception de l'usage d'internet a évolué. On a trouvé une façon de faire faire un travail par ces systèmes et pas seulement de récupérer des liens vers des pages ou des sites sur internet. On exprime des demandes en langage clair comme si on dialoguait avec une personne réelle. Cet échange conversationnel n'existe pas avec les moteurs de recherche de qui on n'attend pas qu'ils dialoguent avec vous ni qu'ils vous apportent une réponse structurée et fiable -car ils fournissent des liens- en réponse à une demande assez précise que l'on exprime en trente mots maximums. Les systèmes d'IA générative se servent, eux, de ce qu'ils ont vu sur internet et analysé pour trouver de façon probabiliste des relations très fines entre les mots au point de pouvoir écrire comme un humain sur n'importe quel sujet. Ce qui déjà en soi est très impressionnant. D'autres versions d'IA générative peuvent créer des images, des photos, des peintures, de la vidéo, de la musique et plus.
Par une requête textuelle (prompt) ou par la voix on peut leur demander quelque chose ou de produire un travail et pas seulement poser une question. D'autres modalités d'interaction se développent.
Ainsi ChatGPT n'est pas un moteur de recherche conventionnel mais plutôt un outil de productivité.
Des réponses rédigées plutôt que des liens
L'idée d'un "moteur de réponses" offrant des réponses à toute question (ask me anything en anglais ou AMA) a toujours séduit les esprits de concepteurs des moteurs de recherche. Google avait aussi cherché à développer une sorte de concurrent de wikipedia du nom de Knol (assez vite abandonné) et on a vu apparaitre également ASK (anciennement ASK Jeeves) et WolframAlpha. Le succès n'a pas été au rendez-vous probablement parce que ces systèmes ne pouvaient pas produire de textes inédits sophistiqués ou accomplir vraiment des tâches comme écrire des programmes informatiques. L'absence d'une interaction conversationnelle comme un chatbot n'a pas apporté l'attractivité de chatGPT et de son côté un peu magique. Et l'IA a ces époques était encore peu développé pour ce genre d'applications. La différence avec Google et Bing n'était pas suffisante. Sauf pour des demandes dans des domaines spécialisés et plutôt scientifiques. L'usage de WolframAlpha était assez limité à certains types de requêtes, telles que les calculs mathématiques, les données scientifiques et l’analyse statistique. Mais Google et Bing ont continué à augmenter le champ de leurs moteurs de recherche ce qui a réduit le faible écart avec les moteurs de réponses.
Quelles sont les forces en présence ? D’où vient cette urgence (panique) ?
La position de domination absolue de Google dans les moteurs de recherche sur internet peut potentiellement être ébranlée par chatGPT couplée au moteur de recherche BING de Microsoft et à son navigateur Edge. C'est au moins ce que souhaite Microsoft et son PDG pour qui son moteur de recherche Bing n'est pas la source vitale de revenus pour sa société. Gagner quelques points de pourcentage de plus sur ce marché serait pour lui une grande victoire et affaiblirait son concurrent Google. Les enjeux sont très importants. Si avec chatGPT, Microsoft parvient à s'attaquer efficacement à l'activité de moteur de recherche de Google cela fera plus de mal à Google qu'à Microsoft. Comme le dit le PDG de Microsoft, "Il y a une telle marge dans le [business de moteur de recherche de Google] qui pour Microsoft est [seulement] incrémentale. Pour Google, ce n'est pas le cas, ils ont tout à défendre… A partir de maintenant, la marge brute de l'activité de recherche sur internet va chuter irrémédiablement" prédit-il.
En effet on voit bien le rapport de force. Les revenus de Google proviennent principalement de la publicité liée à son moteur de recherche, qui ont atteint 224,47 milliards de dollars américains en 2022. Microsoft a réalisé 11.59 milliards de dollars américains de revenus en 2022 dans son activité de recherche internet. Pendant l'année fiscale 2002, le chiffre d’affaires total de Microsoft a été de 198 milliards de dollars avec un bénéfice d’exploitation de 83 milliards de dollars. Et les activités cloud ont dépassé, elles, les 100 milliards de dollars de revenus annualisés.
Donc Microsoft a tout à gagner sur le front sur "search" notamment sur le dos de Google. Les autres acteurs capables d'aligner des énormes puissances de traitement pour entrainer et former les IA Génératives et l'accès à des grandes quantités de données sont Amazon, Meta (Facebook) et Apple. Pour le moment Meta semble la plus avancée et engagée.
Meta n'a jamais eu d'activité de moteur recherche sur internet mais dispose d'une quantité énorme de données notamment grâce à ses service Facebook, Instagram et WhatsApp. En revanche les recettes publicitaires générés par ses services sont le nerf de la guerre dans ce groupe. Comme chez Google. Et il est important pour Meta que le temps passé en ligne par ses utilisateurs ne soit pas détourné vers des services comme chatGPT qui attire beaucoup de monde. Il faudra donc incorporer à ses services une forte dimension d'IA Générative.
Pourquoi penser que l'IA générative est un nouveau moyen de faire des recherches sur internet ?
Avec le lancement de chatGPT au grand public en décembre 2022 suivi de son extraordinaire succès totalement inattendu en seulement deux mois la perception de la façon d'utiliser et d'exploiter internet a évolué.
On a l'impression qu'un nouveau moyen formidable presque magique de trouver et de faire concevoir des produits informationnels nouveaux, comme des textes, des vidéos, des images, et des sons est désormais à portée de doigts de tout un chacun. Encore faut-il que les demandes soient pertinentes et par certains aspects, futées. Il s'agit en fait de bien comprendre comment affiner ses demandes en fonction des réactions du chatbot utilisé dont on découvre progressivement ses façons de faire après un certain nombre d'interactions. Chaque chatbot est différent.
Les utilisateurs ont découvert que l'on pouvait poser des questions ou faire produire un travail par ces systèmes dénommés grands modèles de langages (LLMs en anglais) sans se limiter à seulement récupérer des liens vers des pages sur des sites sur internet. On exprime des demandes en langage clair comme si on dialoguait avec une personne réelle. C'est très fluide, séduisant et engageant. Il y a un côté ludique évident comme au début du moteur de recherche de Google. On pense et on espère trouver de nouvelles choses, des idées, faire écrire des textes, faire dessiner ou peindre des choses ou demander de produire à façon des sons ou des vidéos totalement inédites. Et même faire écrire ou transcrire du code informatique. Certains y voient comme un oracle, tant les textes produits sont élégants, bien renseignés et bien articulés (en majorité…).
Cet échange conversationnel n'existe pas avec les moteurs de recherche actuels de qui on n'attend pas qu'ils vous apportent une réponse structurée et fiable à une demande que l'on explicite.
Les services comme chatGPT ont une approche probabiliste du sens. L'exactitude n'est pas l'objectif central dans l'équation mais ils y arrivent souvent. C'est que ces systèmes ne comprennent pas ce qu'ils produisent et n'ont pas de connaissances comme un humain. Ces modèles d’IA fabriquent des informations par une sorte d'assemblage sophistiqué de mots et peuvent ainsi présenter avec confiance (on dirait presque avec aplomb) des mensonges ou des inventions comme des faits (mais pas délibérément …). Tout ce que l'on obtient d'eux est une approximation crédible et plus ou moins proche de l'exactitude sans pouvoir la vérifier. "Mais, parce que l’approximation est présentée sous la forme d’un texte grammaticalement correct et bien rédigé que ChatGPT excelle à créer, elle est généralement acceptable."
Les moteurs de recherche, eux, fournissent des liens (URLs) donc la question de la fiabilité de l'information ne se pose pas à ce niveau car un lien est n'a pas de valeur informationnelle propre. C'est la destination du lien qui en a. A chaque utilisateur de déterminer si les informations obtenues via ces liens sont pertinentes et crédibles. Et des utiliser comme bon lui semble.
Dans le cas des IA Génératives, on n'est pas sûr de la véracité de ce qui est produit et délivré. Il y a des erreurs des incongruités, des divagations mais toujours dans un style éloquent et convaincant. Il est donc difficile d'avoir des doutes d'autant que ce qui est produit ne propose aucune information permettant de vérifier ce qui est décrit ou l'origine du savoir exposé. Il se dit que ces IA Génératives peuvent inventer de 15% à 20% en moyenne de choses délirantes mais plausibles donc potentiellement acceptées par les utilisateurs mais sans vérification possible car il n'y a pas la source (liens) de ce qui est délivré. On parle d'hallucinations de ces systèmes dans ce cas.
Ces systèmes ne font pas des assemblages ou juxtapositions basiques d'éléments informationnels repérés pendant l'apprentissage. Ce ne sont pas des mashups ou des patchworks. Il y a vraiment une fabrication originale basée sur ce qui a été appris en matière de cohérence entre les mots les phrase et les contextes. Comme s'ils raisonnaient. Mais comme on l'a vu plu haut, en réalité ils ne comprennent pas ce qu'ils produisent.
De leur côté, les moteurs de recherche comme Google et Bing, peuvent parfois ne pas être en mesure de fournir des réponses complètes et précises à certaines questions même si leur prise en compte de questions exprimées en clair s'est beaucoup améliorée dans le temps même avec seulement trente-deux mots maximum pour la question posée. On obtient un résumé au début de la liste des réponses qui est une tentative de répondre précisément et en langage naturel à la question posée. L'IA générative est capable elle, de "comprendre" le contexte d'une question et de produire des réponses qui sont plus complètes sous forme de texte structuré et plus précises que celles fournies par les moteurs de recherche traditionnels. Il s'agit bien de réponses rédigées comme des rapports et non d'une liste de liens. De plus, l'IA générative peut également générer des réponses sous forme de textes sophistiqués et érudits, d'images ou même de vidéos, ce qui la rend plus polyvalente que les moteurs de recherche.
Mais une IA générative ne fait pas de recherche sur internet. Elle a été formée à reconnaitre des textes, documents, images, vidéos et sons sur un ensemble gigantesque de documents et de données provenant notamment d'internet. Et pour le moment, les données observées sont anciennes, par exemple elles datent de 2021 pour chatGPT au début de 2023. Avec les progrès attendus, on trouvera surement des moyens de tenir à jour ces IA générative avec peut-être des fonds plus spécialisés et moins gros car le temps d'entrainement des IA générative est très long et l'apprentissage lui-même est très couteux. Ce qui limite pour le moment ce rôle d'apprentissage aux gros acteurs disposant d'infrastructure de cloud géantes.
Une fusion ou peut être mieux, une collaboration entre les moteurs de recherche et l'IA générative est possible. On parle de surcouche au-dessus des moteurs de recherche. Elle peut se faire en intégrant les algorithmes de l'IA générative dans les moteurs de recherche existants. Les algorithmes de l'IA générative peuvent être utilisés pour améliorer les résultats de recherche en fournissant des réponses plus complètes et plus précises que les moteurs de recherche traditionnels.
Lorsque les algorithmes de l'IA générative sont intégrés aux moteurs de recherche, les requêtes des utilisateurs sont traitées par les algorithmes de traitement du langage naturel de l'IA générative pour produire des réponses plus pertinentes. Les algorithmes de l'IA générative peuvent également utiliser des techniques d'apprentissage automatique pour s'adapter à l'utilisateur et produire des réponses encore plus pertinentes.
En outre, les moteurs de recherche peuvent utiliser les algorithmes de l'IA générative pour affiner leurs algorithmes de classement. Ils le font déjà dans une bonne mesure. Les algorithmes de l'IA générative peuvent aider les moteurs de recherche à mieux comprendre le contexte et la pertinence des pages web, ce qui peut les aider à fournir des résultats de recherche plus précis.
Les IA génératives peuvent-elles faire des recherches sur Internet comme Google et Bing.
Les modèles de langage comme GPT pourraient très bien faire des recherches sur internet. Mais ce n'est pas encore leur but principal.
"En effet, la technologie n’est pas prête à être utilisée de cette façon à cette échelle. Les modèles de langage de l’IA sont [occasionnellement] des menteurs et des falsificateurs (inconscients) notoires, présentant souvent des mensonges comme des faits. Ils sont excellents pour prédire le mot suivant dans une phrase, mais ils n’ont aucune connaissance de ce que la phrase signifie réellement. Cela rend incroyablement dangereux de les combiner avec la recherche, où il est crucial de clarifier les faits." [1]
Les IA génératives et les grand modèles de langages ( LLMs) produisent régulièrement des informations inexactes, trompeuses ou fausses
Les utilisateurs n’accepteront pas un moteur de recherche de type AI générative avec même 99% de précision s’il se trompe sur les faits de base et invente un nouveau contenu farfelu difficile à distinguer des vraies informations et analyses. En supposant que l'on pense à vérifier.
Le PDG d’OpenAI le reconnaît lui-même, mettant récemment en garde : "ChatGPT est incroyablement limité, mais assez bon à accomplir certaines choses pour créer une impression trompeuse [qu'il est très fort]. C’est une erreur de s’y fier pour quelque chose d’important en ce moment."
Nous sommes donc prêts à tolérer les erreurs. Ces deux exigences – disposer d'une abondance de données pour élargir le champ de connaissance des IA et une approche bienveillante des erreurs – sont ce qui permet actuellement une progression rapide de ces IA génératives.
Mais qui reste une situation délicate pour Google surtout mais aussi pour Bing.
Cependant, avec l’IA générative, il pourrait être possible de créer des moteurs de recherche capables de comprendre l’intention derrière la requête d’un utilisateur et de générer des résultats plus pertinents. L'IA générative en moteur de recherche peut générer un résumé des informations recherchées, créer des visualisations ou des graphiques pour aider à comprendre des données complexes, ou même générer un rapport personnalisé basé sur les besoins de l’utilisateur.
Où en sont les principaux protagonistes Microsoft et Google ?
Microsoft a développé une version de Bing qui utilise la technologie de chatGPT4, le successeur de celle utilisée dans chatGPT... Et elle l'a intégrée dans son navigateur Edge. Par ailleurs une grande partie de ses produits seront dotés des possibilités offertes par l'I.A et chatGPT. Microsoft a investi lourdement dans l'IA et open.ai le concepteur de chatGPT.
Google a répondu en annonçant Bard AI, son concurrent de chatGPT et en investissant dans la société Anthropic et son chatbot "Claude".
Les grands modèles de langage ne sont pas susceptibles de remplacer Google Search, car ils constituent déjà un élément central du moteur de recherche.
On peut déjà rechercher des informations spécifiques et si l'IA est suffisamment confiante dans la réponse, elle apparaîtra en bonne place en haut de la page de résultats. C'est possible car elle utilise le modèle de langage BERT de Google.
Contrairement à GPT-3, Google ne fournira pas une réponse à n'importe quelle question, sans s'assurer de la viabilité de ce qui est fourni. Sinon, c'est la porte ouverte à la désinformation incontrôlable. Google veille à fournir des informations fiables car cela engage sa responsabilité et sa réputation vis-à-vis des utilisateurs et de ses annonceurs.
Des modèles de langage toujours plus puissants seront éventuellement intégrés à la recherche. Ils transformeront la recherche progressivement en quelque chose de différent. À l'avenir, il est probable que nous dialoguerons avec une I.A pendant la recherche d'informations au lieu de naviguer à travers des liens.
En conclusion
EN comparaison avec les moteurs de recherche, Les chatbots de l'IA générative comme ChatGPT peuvent apporter de nouvelles idées et de nouvelles façons de voir les choses en proposant des réponses et des perspectives qui peuvent être différentes de celles auxquelles les utilisateurs sont habitués et qui peut leur apparaitre comme de vraies nouveautés. Mais leur capacité à générer des idées vraiment nouvelles et originales est limitée par les données qui leur ont servi à s'entrainer. Il faudra pouvoir injecter plus de données récentes plus fréquemment y compris sur des domaines très spécialisés grâce à la production de données synthétiques par d'autres IA par exemple.
Les limites actuelles de l'IA générative malgré l'énorme engouement suscité ramènent les pieds sur terre et atténue la tendance à vouloir trop anthropomorphiser ces systèmes.
Pour les utilisateurs, on peut s'attendre à ce que les moteurs de recherche évoluent rapidement de leur côté en intégrant des versions de plus en plus sophistiquées d'IA génératives. Ce qui offrira d'abord un combiné recherche+conversation puis une intégration-fusion sans couture avec des garde fous de fiabilité et d'exactitude motorisés également par des IA (notamment connaitre les sources).
Il n'y aura probablement pas de remplacement pur et simple des moteurs de recherche par l'IA générative mais un déplacement des usages de la recherche vers un mix recherche et découverte. Les moteurs de recherche de leur côté ne restent pas sans évoluer. Ils seront de moins en moins ce qu'ils étaient il y a encore quelques années.
Les progrès sont plus rapides que jamais dans ce domaine et nous aurons de bonnes surprises.
2023 restera l'année du décollage en flèche de l'IA générative.
Georges Nahon
Analyste Conférencier Auteur
Sources :
The New York Times
The Financial Times
The New Yorker
Jerusalem Post
Technoly Review
Fast
Wired
Håkon Hapnes Strand
Prof Nadav Cohen
Conversations avec des experts et des investisseurs dans la Silicon Valley