Selon des tests réalisés pour l’autorité australienne de régulation des entreprises, la Securities and Investments Commission (ASIC), l’intelligence artificielle produit de moins bons résultats que les humains dans toutes les tâches de résumé. Au point que ces technologies pourraient créer du travail supplémentaire plutôt qu’en enlever.
L’expérimentation a été réalisée par Amazon, en s’appuyant sur des documents soumis à un comité parlementaire lors d’une enquête sur les entreprises d’audit et de conseil. Selon Crickey, il s’agissait d’abord de tester plusieurs modèles, de sélectionner le plus prometteur, puis de soumettre à ce dernier cinq des réponses fournies au Parlement australien.
L’expérience s’est portée sur le modèle de Meta Llama2-70 B, auquel a été soumis la requête de résumer les interventions, en s’attachant à repérer les mentions et les recommandations de l’ASIC, les références à d’autres régulations, et d’inclure une page de référence et de contexte.
En parallèle, dix membres de l’ASIC de divers degrés de séniorité ont rempli la même tâche.
Puis une équipe de contrôle a examiné en aveugle les résumés ainsi produits, en les évaluant autant sur leur cohérence, leur longueur, leurs références à l’ASIC, à d’autres régulations, et l’identification des recommandations essentielles. Cette dernière équipe n’avait pas été informée que certains des documents avaient été produits par un modèle génératif.
Les examinateurs ont conclu que les textes produits en interne, par des humains, étaient meilleurs que ceux produits par le modèle génératif sur tous les critères. En moyenne, les premiers ont obtenu 81 % des points de la grille d’évaluation, contre 47 % pour les productions par IA.
Parmi les principaux défauts de ces dernières, le modèle peine à produire de la nuance et du contexte, inclut des informations inutiles, en oublie d’autres plus importantes, et tend à se focaliser sur des sujets auxiliaires.
Trois des cinq examinateurs ont déclaré avoir deviné durant l’exercice qu’ils se penchaient sur des textes produits par IA. Et de souligner leur inquiétude que l’usage de telles machines ne crée du travail supplémentaire, puisqu’elle nécessiterait de fact-checker les textes produits en les comparant précisément aux documents initiaux.
Parmi les limitations soulignées par le rapport de l’ASIC à sa propre expérimentation, le modèle choisi avait entre temps été dépassé par d’autres, qui pourraient se montrer plus efficaces sur ce type de tâche. Par ailleurs, Amazon avait amélioré les résultats en affinant ses requêtes, ce qui laisse la possibilité que des progrès supplémentaires soient possibles en travaillant encore sur le prompt.
Le rapport conclut néanmoins sur l’importance de considérer l’IA générative comme un outil pour augmenter, et non remplacer, les tâches réalisées par des humains.