Interview avec Guillaume Cabanac : traqueur de faux articles scientifiques

GUILLAUME CABANAC
©Frédéric Scheiber

Guillaume Cabanac, dit le “détective”, est maître de conférences en informatique à l’université de Toulouse. Il fait partie des 10 personnalités qui ont contribué à façonner la science en 2021, selon la revue scientifique Nature. Pour cause, il a développé un logiciel, « Problematic Paper Screener », capable d’analyser et d’identifier les fausses informations dans les articles scientifiques. 

Le Problematic Paper Screener c’est quoi ?

G.C : C’est un projet que j’ai lancé avec un collègue grenoblois Cyril Labbé et un chercheur russe Alexander Magazinov. Le logiciel, que j’ai développé, traque les fraudes et les non-sens dans les publications scientifiques. Il analyse les 110 millions d’articles publiés et trouve des termes incorrects que nous appelons “expressions torturées”, comme “péril de la poitrine” au lieu de “cancer du sein”. Ces fautes sont souvent issues de paraphrases. C’est une preuve de plagiat ou texte généré par d’autres logiciels. Par exemple, en 2021, les scientifiques du monde entier ont publié 6 000 000 d’articles. Avec le Problematic Paper Screener, on a trouvé que 3 articles sur 10 000 sont faussés. C’est inquiétant et inacceptable. 

Comment se fait-il que des publications scientifiques soient générées par des logiciels ?

G.C : D’un côté, il y a les autorités, comme en Chine, qui mettent les scientifiques sous pression, dans un but de produire rapidement les résultats de leurs recherches. N’ayant pas le temps, ils peuvent avoir recours à ces logiciels. Puis il y a les “maisons d’éditions prédatrices”, comme on les appelle. Elles sont payées cher par les scientifiques pour qu’ils soient publiés. Sans passer par la vérification et validation par un comité scientifique, ce qui est la norme. Tout cela donne lieu à une fraude considérable.

Pourquoi ces logiciels générateurs de textes scientifiques ont-il été créés ?

G.C : Initialement, le but n’était pas de s’en servir dans le but de produire de fausses publications. Un premier générateur, SCIgen est né en 2005 d’un travail de trois étudiants du MIT. Suite à leur apprentissage des techniques de génération de texte, ils se sont entrainés en développant un logiciel. Dans un deuxième temps, ils ont voulu tester la fiabilité des maisons d’éditons et comités de relectures en proposant les publications générées. Ils se sont aperçus que ces articles faussés étaient publiés par ces entreprises prédatrices. 

Qu’est-ce qui vous a poussé à vous intéresser à ce thème ?

G.C : Depuis le début de mon éducation scientifique, je m’intéresse au travail du sociologue des sciences, Robert Merton. Son travail le plus reconnu porte sur les normes encadrant l’activité des membres de la communauté scientifique. Ces quatre normes sont le communisme, l’universalisme, le désintéressement et le scepticisme organisé. Moi je me concentre beaucoup dans mon travail sur ces deux derniers points qui visent à faire progresser la science pour la société et non pour l’ego des scientifiques. Ils indiquent aussi qu’il faut soumettre les résultats scientifiques à l’évaluation par les pairs. C’est pour ces valeurs-là qu’on lutte. Exactement tout le contraire de ce qu’on a pu révéler avec Problematic Paper Screener.

Quel est l’objectif final de votre logiciel ?

G.C : Mon projet de “dépollution de la littérature scientifique” s’articule en deux volets. Le volet curatif vise à éradiquer cette “pollution” de mauvais articles. Ces publications frauduleuses sont citées, ce qui suggère que d’autres études y font confiance. On entre alors dans un schéma interminable de désinformation en cascade. Le deuxième volet est préventif, le but final étant de prévenir ces fraudes. 

Cette recherche n’en est qu’à son début, la dépollution initiée avec l’aide d’autres chercheurs ne correspond qu’à la face visible de l’iceberg. D’autres techniques de manipulation existent. J’espère que mon travail alertera les autres scientifiques. Certaines publications n’ont aucun sens et, à l’avenir, il faudrait être encore plus vigilant durant l’évaluation par les pairs.

Et si vous lisiez des articles sur le même thème ?