Une étude américaine actuelle montre que les modèles linguistiques de l’IA ont encore un énorme potentiel d’amélioration. Selon les experts, la différence avec les humains est encore très grande.
- Comparaison examens humains et IA de paires de phrases
- Écarts au évaluation de phrases absurdes
- Potentiel d’amélioration de Traitement de la parole par l’IA et approches neuroscientifiques identifié
Les absurdités verbales dans la communication révèlent souvent plus qu’il n’y paraît à première vue. À l’ère du numérique, des chatbots IA sont développés pour permettre des conversations de type humain. Mais à quel point ces systèmes ressemblent-ils réellement à des humains lorsqu’ils sont confrontés à des textes absurdes ? Une nouvelle équipe de recherche a placé cette question au centre d’une enquête approfondie. Les résultats montrent que même les modèles de langage d’IA avancés comme ChatGPT ont du mal à distinguer les absurdités du langage naturel. Les résultats de l’étude mettent non seulement en évidence les limites de l’intelligence artificielle, mais offrent également une base intéressante pour la recherche sur la compréhension du langage humain.
New York (États-Unis). À l’ère de la numérisation, les scientifiques et les développeurs s’efforcent de créer des chatbots IA permettant la compréhension et le traitement du langage naturel. Ces efforts sont motivés par le désir de combler le fossé entre la communication humaine et machine. Les grands modèles de langage, un type particulier de réseau neuronal, constituent l’épine dorsale de ces chatbots et promettent des capacités conversationnelles semblables à celles des humains. Cependant, de nouvelles recherches montrent que ces modèles ont encore du mal à distinguer le non-sens du langage significatif, ce qui indique que leur traitement du langage diffère de celui des humains.
L’étude récente menée par une équipe de recherche de l’Université de Columbia représente une contribution significative à l’exploration de cette divergence. En testant différents modèles de langage avec des centaines de paires de phrases, dont certaines étaient absurdes, les chercheurs ont pu déterminer comment ces modèles fonctionnaient par rapport aux évaluations humaines. . L’étude a révélé que même des modèles sophistiqués comme ChatGPT classent parfois les phrases absurdes comme naturelles. Ces résultats ouvrent non seulement la voie à l’amélioration des performances des chatbots, mais pourraient également stimuler de nouvelles questions et hypothèses pour les neurosciences afin de permettre une meilleure compréhension du traitement du langage humain et de la cognition.
Focus sur les méthodes de recherche
La méthodologie de base de l’étude est basée sur une comparaison entre les évaluations humaines et celles de modèles d’IA du caractère naturel des paires de phrases. Les chercheurs ont présenté des centaines de paires de phrases aux participants à l’étude et aux modèles d’IA et ont demandé aux participants de juger quelle phrase semblait la plus naturelle dans chaque paire. Les ensembles ont été conçus pour couvrir un large éventail de structures et de contenus afin de tester minutieusement les modèles. Les modèles d’IA ont ensuite été présentés avec les mêmes paires de phrases et leurs notes ont été comparées aux notes humaines.
L’étude a couvert un large éventail de modèles d’IA, y compris différents types de réseaux neuronaux tels que les réseaux basés sur des transformateurs et récurrents, ainsi que des modèles statistiques. Cela a permis aux chercheurs de procéder à une évaluation complète de la manière dont les différentes approches de traitement du langage de l’IA relèvent le défi des phrases absurdes. Cette méthode a permis non seulement de comparer les performances des différents modèles, mais également d’approfondir les forces et faiblesses spécifiques de chaque modèle.
Un élément clé de la méthodologie était la confrontation directe des modèles d’IA avec l’évaluation humaine. En comparant la façon dont les humains et les machines jugent le caractère naturel des phrases, les chercheurs ont pu obtenir des informations significatives sur la capacité des modèles à traiter le langage d’une manière similaire au traitement humain. Cette méthodologie ouvre également des opportunités de recherches futures pour explorer davantage la manière dont les modèles d’IA peuvent être améliorés pour permettre une meilleure compréhension et un meilleur traitement du langage.
Aperçu du test de langage IA
Les résultats de l’étude ont montré un écart significatif entre les évaluations des modèles d’IA et celles des participants humains, en particulier lors de l’évaluation de phrases absurdes. Certains modèles avancés, en particulier ceux basés sur les réseaux Transformer, ont obtenu de meilleurs résultats que d’autres, mais ne correspondaient pas toujours au jugement humain. Par exemple, le modèle BERT a classé une phrase particulière comme plus naturelle et jugée moins probable par les participants humains, tandis que GPT-2 reflétait le jugement humain dans ce cas spécifique.
Chacun des modèles testés présentait des vulnérabilités spécifiques, et certains modèles avaient tendance à qualifier de significatives certaines phrases qui étaient classées comme absurdes par les participants humains. Ces résultats soulèvent des questions sur la fiabilité et l’état de développement des modèles de langage d’IA actuels. Malgré les performances impressionnantes de certains modèles, les perceptions erronées révèlent une lacune évidente dans la compréhension et le traitement du langage naturel par ces systèmes d’IA, indiquant des domaines d’amélioration possibles pour les développements futurs de la technologie linguistique de l’IA.
Façons d’améliorer l’IA et d’acquérir des connaissances
Les résultats de l’étude constituent un terrain fertile pour de futures recherches, tant dans le domaine de l’intelligence artificielle que des neurosciences. Les faiblesses identifiées dans le traitement du langage des modèles d’IA peuvent servir de point de départ pour affiner les algorithmes et les modèles afin qu’ils permettent une distinction plus précise entre le langage significatif et le langage absurde. De plus, les résultats obtenus fournissent une base solide pour le développement de nouveaux modèles mieux préparés aux défis du traitement du langage naturel.
D’autre part, l’étude ouvre également de nouvelles portes aux neurosciences en montrant des points de comparaison intéressants entre le traitement du langage humain et celui de l’IA. Les différences dans l’évaluation du caractère naturel des phrases entre les humains et les machines pourraient soulever des questions plus profondes sur la cognition humaine et le traitement du langage. De plus, l’exploration des mécanismes qui sous-tendent les modèles d’IA pourrait fournir de nouvelles hypothèses et pistes de recherche pour faire progresser notre compréhension de la manière dont le cerveau humain traite et interprète le langage.