R&D

Depuis quelques mois, nous voyons apparaître sur le marché ce que l’on appelle des « assistants vocaux », appelés aussi « bots » ou encore « interfaces conversationnelles », qui peuvent prendre diverses formes. Intégrés dans des enceintes connectées, dans nos smartphones ou via un navigateur web ou application mobile, ils permettent d’interagir avec une intelligence artificielle, en général dans le cloud, avec la plus naturelle des interfaces : notre voix.

« Quel temps fera-t-il demain? », « appelle Bernard », « rappelle-moi de ne pas oublier d’acheter du pain à 19h », « donne-moi la recette du crumble aux pommes », « envoie un SMS à Alexandra », les usages sont simples, multiples et utiles, surtout quand on n’a pas les mains libres : en voiture, en train de cuisiner, sous la douche…

Mais après réflexion, un autre type d’usage nous vient naturellement : l’accessibilité, c’est à dire l’accès aux services numériques pour les personnes handicapées, exclues du numérique ou encore illettrées, soit au total près de 10 millions de personnes en France.

En particulier, ces assistants peuvent offrir un grand service aux non-voyants, représentant près d’un million de personnes en France. Voyons cela plus en détail dans un premier temps.

Alors que les personnes non-voyantes peuvent comprendre un texte lu par un synthétiseur vocal bien plus rapidement qu’une personne valide (jusqu’à 25 syllabes par seconde contre 10 !) leur donnant en théorie un avantage quant à la navigation par synthèse vocale, l’accès aux services numériques et la navigation en leur sein restent un parcours du combattant sur le site web lambda. Pour vous en convaincre, si vous avez la chance de pouvoir voir ce texte, je vous défie d’activer sur votre téléphone mobile le mode accessibilité et de naviguer sur internet afin de comprendre les difficultés rencontrées quotidiennement par les non-voyants.  

France Télévisions travaille donc sur ces nouvelles interfaces conversationnelles en permettant de lancer la diffusion de la version audio-décrite d’un programme par reconnaissance vocale : « Je veux écouter France 2 en audiodescription », « Je veux écouter le dernier épisode de Chefs en audiodescription ».

Ce type d’interfaces ne remplace pas la bonne accessibilité d’un site web, mais vient en complément de ces problématiques et pourrait bien dans l’avenir proche s’imposer naturellement comme l’interface la plus simple pour les non-voyants en s’intégrant au sein des enceintes connectées, smartphones, sites web, applications mobiles…

France Télévisions vous propose de découvrir le premier prototype de ce travail : un site web simple et accessible sur lequel il est possible d’écouter les flux audio-décrits des chaînes de France Télévisions… Et bien entendu, de pouvoir démarrer un flux à la voix : « Je veux écouter France 2 », avec un navigateur compatible.

L’intelligence embarquée reste pour le moment modeste et se contente de repérer les mots « France 2 », « France 3 », et ainsi de suite, sans réelle analyse de l’intention donnée par l’utilisateur, et propose d’écouter le direct en audiodescription — lorsque celui-ci est disponible, principalement en « prime time », l’émission de la soirée.

D’autres étapes viendront bientôt : d’autres plateformes, d’autres fonctionnalités, plus de contenu, une meilleure analyse du langage, etc, c’est donc une affaire à suivre sur le Lab de France Télévisions !