Étude : Les chatbots AI répondent-ils précisément aux questions des patients sur la vasectomie?

Étude : Les chatbots d’IA peuvent-ils répondre de manière précise aux questions posées par les patients concernant les vasectomies ?
Une récente étude publiée dans le journal IJIR : Your Sexual Medicine Journal a évalué l’efficacité et l’exactitude de trois chatbots d’intelligence artificielle (IA) générative courants dans la réponse à des questions de santé de base. Les chercheurs ont examiné la performance de ChatGPT-3.5, Bing Chat et Google Bard dans la réponse à des questions liées aux vasectomies.
Une évaluation critique réalisée par une équipe d’urologues qualifiés a révélé que, parmi ces modèles, l’algorithme de ChatGPT a obtenu le score moyen le plus élevé (1,367), surpassant significativement Bing Chat et Google Bard (respectivement p=0,03988 et p=0,00005). Toutes les réponses des chatbots d’IA générative ont été classées comme étant soit “satisfaisantes” ou “excellentes”, à l’exception d’une réponse jugée “insatisfaisante” par Google Bard, à la question “Est-ce que la vasectomie est douloureuse ?”. Ces résultats soulignent les avantages du développement de l’IA générative dans l’industrie de la santé, en particulier pour répondre de manière précise et rapide aux questions basiques et courantes des patients.
Contexte
L’intelligence artificielle (IA) regroupe un ensemble de modèles et de technologies permettant aux ordinateurs et aux machines d’effectuer des tâches avancées avec une perception, une compréhension et un apprentissage itératif semblables à ceux des humains. L’IA générative est une sous-catégorie de ces technologies qui apprennent à partir de vastes ensembles de données d’apprentissage automatique fournis par l’homme, générant ainsi du contenu textuel, audiovisuel et informatif original.
Les progrès récents en matière de matériel informatique (puissance de traitement), de logiciels (algorithmes avancés) et de vastes ensembles de données d’entraînement ont permis une croissance sans précédent de l’utilité de l’IA, en particulier dans le secteur de la santé. Avec la récente pandémie de maladie à coronavirus 2019 (COVID-19), le nombre de patients cherchant des conseils médicaux en ligne a atteint des niveaux records.
À propos de l’étude
Cette étude vise à combler ce vide dans la littérature en utilisant la logique subjective des experts pour évaluer les réponses des chatbots à des questions urologiques courantes concernant la procédure de vasectomie. Les chatbots évalués incluent ChatGPT-3.5, Google Bard et Bing Chat, en raison de leur utilisation répandue (au-dessus de 100 millions d’utilisateurs).
Les données de l’étude ont été recueillies en une seule session, au cours de laquelle trois urologues qualifiés ont évalué les réponses à 10 questions courantes sur la vasectomie. Les réponses ont été notées sur une échelle de quatre points. Des analyses statistiques, incluant une Analyse de Variance (ANOVA) à un facteur et le test significatif global de Tukey (HSD), ont été utilisées pour déterminer les différences entre les résultats spécifiques des chatbots.
Les résultats ont montré que le modèle ChatGPT performait le mieux des trois, avec une note moyenne de 1,367 sur les 10 questions. En comparaison, Bing a obtenu une note moyenne de 1,800 et Bard une note moyenne de 2,167. Notamment, les notes de Bing et de Bard étaient statistiquement indiscernables.
Conclusions
Cette étude est la première à évaluer scientifiquement la performance de trois chatbots d’IA couramment utilisés dans la réponse à des questions médicales des patients. Les chatbots ont reçu des évaluations positives, soulignant leur précision et leur efficacité en tant que sources d’informations pour les patients recherchant des conseils éducatifs sur des affections médicales courantes. Cela réduit le fardeau des praticiens médicaux et les dépenses potentielles pour le public en consultations. Cependant, l’étude souligne également des préoccupations éthiques potentielles, en particulier en ce qui concerne les évaluations non-aveugles et le faible nombre de réviseurs, pouvant introduire un biais dans les résultats.
Source : www.news-medical.net