Que ce soit via Siri, Google ou Alexa, mais aussi Free et SFR pour leurs dernières box internet, ou encore certains constructeurs de voitures, la plupart des entreprises technologiques nous proposent leur assistant intelligent. Un appareil ou logiciel qui nous comprend, et exécute le moindre de nos désirs : chercher un mot dans le dictionnaire, la météo pour demain, fermer les volets électriques ou faire le café…

Mais pour être compris d’une machine il faut parfois répéter plusieurs fois sa demande en le précédant généralement d’un mot clé (« Dis Siri », « Ok Google », « Alexa »,…). Car l’appareil nous écoute en continu pour discerner cette commande clé et accomplir la commande qui suit. Cet assistant peut aussi échouer à comprendre nos mots… voire mal discerner le fameux mot clé dans une conversation et vouloir par erreur y décoder une requête qui n’existe pas.

Imaginez par exemple ce que pourrait faire votre Mac s’il entend la phrase suivante :

«  Actuellement en Amazonie, la surface de forêt en feu ou la quantité de bois débité par plus des cent-dix scieries envoie un message désespéré au président de la république brésilienne »

Pour développer un assistant personnel performant il est donc nécessaire d’avoir au préalable échantillonné des milliers de fois les variantes de ces mots, accents régionaux et contextes dans lesquels peuvent se retrouver des mots-clés pour mieux les associer à des empreintes de mots et à un contexte connu …

Afin d’enrichir la connaissance et la compréhension de leurs assistants intelligents Google, Amazon ou Facebook ont déjà par le passé fait appel à l’homme pour mieux analyser les causes d’erreur et les corriger dans l’algorithme

Une telle opération se fait généralement sur des données anonymisées et avec des employés qui ont signé un accord de confidentialité. Mais quand le service est gratuit qui peut faire la fine bouche sur les moyens développés pour arriver à un résultat… Le client est le produit mais aussi le cobaye, permettant ainsi d’améliorer le traitement de ce que l’on nomme les processus de langage naturel (NLP).  Google ne fait-il pas la même chose pour les assistants de conduite Waze et Google Maps, ou l’utilisateur de ces services ne se rend pas compte qu’en utilisant ce logiciel il fournit également en même temps ses conditions de circulation à toute la communauté des autres utilisateurs de ces applications…

L’année dernière le site belge VRT News avait révélé que certains enregistrements capturés par l’assistant de Google avaient fuité sur le net, puis un bug du Google Home Mini avait permis de capturer des conversations sans que le mot clé ait même été prononcé.  Bloomberg de son côté avait plus tôt révélé que l’Echo d’Amazon avait de son côté transmis des clips audio sans l’accord de son utilisateur. Facebook a admis de son côté avoir également fait écouter des échantillons audio captés dans Messenger

Et le mois dernier une polémique s’est à son tour développée autour d’Apple, et cette société a annoncé de son côté avoir mis fin à une telle activité via son fournisseur Globetech.

Mais quel est l’objet de la polémique ? Une petite proportion des enregistrements Siri serait transmise à des sous-traitants chargés de noter la validité des réponses de l’assistant en fonction de divers facteurs, notamment de déterminer si l’activation de l’assistant vocal est volontaire ou accidentelle, si la requête concernait quelque chose où  Siri pouvait donner une réponse, et si la réponse de Siri était appropriée. Un employé de ce sous-traitant avait révélé que certains de ces enregistrements pouvaient parfois contenir de quoi identifier l’utilisateur, des informations sensibles, ou des extraits de situation à caractère explicite…

Apple a déclaré au journal Le Guardian: «Une petite partie des demandes de Siri (moins de 0,2%) est analysée pour améliorer Siri et la dictée. Les demandes d’utilisateur ne sont pas associées à l’identifiant Apple. Les réponses Siri sont analysées dans des installations sécurisées et tous les examinateurs sont tenus de respecter les strictes exigences de confidentialité d’Apple. ” De plus ces enregistrements ne durent généralement pas plus de quelques secondes.

Pour répondre à cela, Apple a donc décidé désormais de changer le mode d’amélioration de la reconnaissance via Siri, en demandant l’autorisation à chaque utilisateur avant de capturer au besoin des échantillons de données audio anonymisées, en ne conservant pas de données d’activation accidentelle après analyse, et en employant uniquement des employés Apple pour traiter ces données.

En attendant d’implémenter ces règles supplémentaires via une prochaine mise à jour de ses systèmes Apple a donc décidé et annoncé arrêter temporairement tout traitement des données audio Siri par des humains.

Pourtant cela pourrait parfois être dommage de s’en passer :