ChatGPT génère de fausses données d’études médicales

Pour démontrer le potentiel d’abus de l’intelligence artificielle (IA) ChatGPT dans le domaine scientifique, les chercheurs ont créé une fausse étude médicale. Les données n’ont pu être reconnues comme inauthentiques qu’au prix de grands efforts.


Catanzaro (Italie). Ces derniers mois, diverses études ont examiné les performances du Large Language Model (LLM) ChatGPT. Selon les résultats, l’intelligence artificielle (IA) peut surpasser les étudiants à de nombreux examens et rédiger des textes scientifiques que même les linguistes ne peuvent distinguer des textes humains. Des chercheurs de l’Université Magna Græcia de Catanzaro ont publié une étude dans la revue JAMA Ophthalmology qui montre le potentiel d’utilisation abusive de l’IA dans la science.


Selon un rapport paru dans Nature, les scientifiques ont créé de fausses données d’étude à l’aide du plugin ChatGPT Advanced Data Analysis (ADA), généralement utilisé pour l’analyse statistique et la visualisation de données, afin de prouver une thèse scientifique non vérifiée.


Etude des interventions chirurgicales

Le projet visait à démontrer que l’IA est capable de générer de faux ensembles de données pouvant soutenir ou réfuter des recherches existantes en quelques minutes. Le LLM a généré des données sur la kératoplastie pénétrante (PK) et la kératoplastie lamellaire antérieure profonde (DALK), deux opérations destinées au traitement du kératocône, une maladie oculaire.

Les chercheurs ont demandé à ChatGPT de montrer les différences de vision des participants avant et après le traitement. Cela a abouti à des données apparemment réalistes pour une étude portant sur 160 sujets masculins et 140 sujets féminins.

Informations inhabituelles sur l’âge des sujets de test

Jack Wilkinson, biostatisticien à l’Université de Manchester, a identifié certaines divergences lors d’une analyse détaillée des données générées par l’étude. Il a noté que les informations sur le sexe ne correspondaient pas toujours aux noms des participants à l’étude. Il a également remarqué un nombre inhabituellement élevé d’âges se terminant par 7 ou 8. De plus, il a constaté qu’il n’y avait aucune corrélation entre les mesures de vision pré- et postopératoires et le test d’image oculaire.


Correction manuelle des fausses études

Il est actuellement encore possible de détecter de fausses données d’étude. Cependant, selon les auteurs, dans de fausses études, des chercheurs malveillants pourraient corriger manuellement ces écarts ou supprimer des ensembles de données incorrects et demander à l’IA d’en créer de nouveaux. De plus, ChatGPT pourrait générer de meilleures données si les requêtes étaient mieux formulées et on peut s’attendre à ce que les LLM deviennent meilleurs pour identifier et éviter eux-mêmes de telles erreurs.

JAMA Ophtalmologie, doi : 10.1001/jamaophthalmol.2023.5162

La nature, est-ce que je : 10.1038/d41586-023-03635-w