Pauvre Albert !

Pauvre Albert !
Pourquoi l’IA générative ne peut pas répondre de façon fiable à des questions pointues?

 

Je parle ici de l’application Albert, l’IA déployée dans l’administration française et qui, selon les sources, proposerait des réponses pertinentes dans 65% à 10% des cas.
65%, ça veut dire que 1 réponse sur trois est fausse. Et il semble que ce soit le taux officiellement annoncé, une bonne moyenne pour un LLM.
10%, ça veut dire que 9 réponses sur dix sont fausses. Et il semble que ce soit le taux attribué par les bêta testeur depuis quelques mois maintenant. « Un peu moins bien ».

Soyons clairs, aucun outil ni service n’est et ne sera utilisé s’il n’est pas fiable. La fiabilité n’est pas la perfection, mais en est proche. On attend donc des performances de l’ordre de 95%, voire 99% !

Alors, que se passe t’il?
Pour nous, c’est simple : l’IA générative n’est pas faite pour atteindre 95% de fiabilité dans ses réponses sur des sujet pointus !
Elle est conçue pour, sur la base de milliers, voire dizaines ou centaines de milliers de sources, nous proposer une réponse « moyennement » acceptable.
C’est déjà génial. Mais ça n’est fiable que pour des situations ou il y a beaucoup de sources de données (sur le net) qui donnent des réponses correctes. Nous n’abordons ici même pas la notion de fakenews.

Quel est donc le problème avec Albert?
Il est redoutablement simple : sur la base d’une question pointue, les textes sources ne proposent « que » quelques sources directement liées à cette question. Quelques phrases, peut être quelques paragraphes, une page au total, tout au plus.
Le reste n’a rien à voir. Alors quand on lui demande de répondre, il base sa réponse sur une moyenne qui, à coup sûr, ne sera pas bonne (au sens statistique du terme) puisqu’il y a beaucoup plus de sources hors sujet de DANS le sujet.

Le cas extrême, il y UNE SEULE PHRASE qui contient la réponse.

Là, vous l’avez compris, c’est mort. Les lois de la statistique sont redoutables : pas de calcul possible avec moins de TROIS sources.

Est-ce insoluble?
Je ne crois pas.
Et je suis sûr que l’IA générative seule ne pourra jamais résoudre ce type de problème.

Nous avons spécifiquement conçu niiwaa pour qu’elle soit fiable dans ce genre de situation.
Fiable au point ou sa réponse est bonne dans au moins 95% des cas de figure.

niiwaa est un outil de veille, mais son algorithmique peut tout à fait être utilisée dans d’autres cas d’usage où la fiabilité de la réponse est le premier critère d’usage.