R&D

2017 était l’année de la voix. De plus en plus d’objets de notre quotidien intègrent un assistant vocal, du smartphone au thermostat, en passant par la TV, et bientôt frigos, lave-linge ou serrures. Après le clavier, la souris et l‘écran tactile, la voix s’annonce être la prochaine révolution au foyer. Retour d'expérience sur LIA, le projet d'assistant vocal de France Télévisions.

Noël 2016 avait consacré la borne Amazon Echo comme le cadeau le plus populaire aux Etats-Unis, 2017 a vu arriver Google Home, et signe l’intégration de Google Assistant dans la TV. Une récente étude de Strategy Analytics parle de 24 millions d’enceintes intelligentes qui seront expédiées à l’échelle planétaire en 2017. Amazon et Google se partagent un marché qui ne tardera pas à se diversifier : l’assistant intelligent de Facebook, “M” est pour l’instant encore limité à Messenger, mais la firme prévoit bien le lancement d’un dispositif indépendant. L’Apple HomePod se concentre surtout sur la musique, mais la marque met à disposition son SiriKit pour tous les développeurs iOS. Logitech lance la première enceinte connectée intelligente nomade, tandis que des Invoke, Bixby, Sonos, Lenovo veulent eux aussi avoir voix au chapître.

En France, le marché est encore relativement restreint: seule Google Home est disponible et les premières applications en français compatibles avec Google Home et Google Assistant sont sorties depuis fin octobre 2017. Amazon (71 % de part de marché Outre-Atlantique) prévoit son lancement dans la langue de Molière au 1er trimestre 2018. Orange, associé à la Deutsche Telekom, tente de casser l’hégémonie des Gafa avec son assistant Djingo, également prévu pour une sortie début 2018.

On se comprend mieux

L’essor des assistants vocaux est surtout dû à l’amélioration de la reconnaissance vocale. Là où le taux de réussite de l'interprétation d’une voix était en 2013 à moins de 80 %, la reconnaissance vocale de Google est depuis cette année passée à moins de 5 % de marge d’erreur grâce aux avancées du NLP (Natural Language Processing). Lorsque l’on atteindra 99 % de taux de réussite, le marché risque de passer à une vitesse encore supérieure.

Aujourd’hui, 20 % des recherches sur mobile se font par la voix. D’ici 2020, selon Comscore, elles passeront à 50 %. Même si certaines voix des assistants peuvent nous rappeler le vieux robot de Star Trek, la technologie est déjà capable d’imiter des voix humaines, et créera peut être bientôt des liens aussi passionnés que celui de Joaquin Phoenix avec son assistant digital Samantha dans le film “Her”, en 2013.

Quelle différence avec la recherche par mots-clés classique ?

La première utilisation paraît évidente : la recherche par voix prend surtout le relais quand nos mains sont occupées, par exemple en conduisant. Mais déjà en 2016, Mary Meeker citait un rapport dans lequel certes 36% des sondés utilisaient la commande vocale en voiture, mais 43 % affirmaient que leur 1er usage était à la maison. On connaît tous la difficulté d’utilisation d’une télécommande lorsque l’on veut aller plus loin que le zapping classique entre chaînes : la voix semble être un compagnon privilégié dans ce type d’usage. 

Pourquoi utiliser une interface vocale ?

La recherche par la voix a aussi l’avantage d’être plus précise : comme elle est conversationnelle, elle dure plus longtemps, et révèle donc plus de détails sur l’intention du chercheur (et donc plus d’informations sur sa personnalité pour lui proposer un contenu adapté).

Quelle place pour un média ?

Bien sûr, la personnalisation par la maîtrise des algorithmes et des big data nous permet déjà de proposer au public le produit qui lui correspond le mieux, grâce à un certain nombre de critères comme son comportement, ses appétences, les goûts de ses amis, les programmes les plus vus, ou les plus sponsorisés. Mais le pilotage par la voix rend encore plus accessible la découverte de contenus.

Une analyse de l’appli Hound a différencié 4 catégories de recherche, dont une particulièrement intéressante pour France Télévisions : Assistant Personnel (27 % de l’utilisation de l’appli), Divertissement (21 % avec un accès aux vidéos, y compris des achats), Information générale (22 %) et Infos locales (22 %). 

LIA : France Télévisions teste son propre assistant vocal

Pour tester les champs d’application de cette nouvelle interface, France Télévisions s’est associée début 2017 à la start-up LLC One afin d’expérimenter un assistant vocal propriétaire, nom de code : LIA.

Le projet comprend deux phases :

Phase 1 : Comment peut-oninteragir avec les services de France Télévisions: lancer une vidéo, rechercher un article d’actualité, trouver un programme ?

Phase 2 : Comment se donne-t-on la possibilité des’interfacer avec les produits du marché(Amazon, Google, ...) ?

L’interaction avec les contenus France Télévisions

Le service conversationnel LIA a été développé sur un environnement iOS. Il permet de lancer à la voix des services vidéo (direct, replay, futur catalogue SVOD) et d’effectuer des recherches avec une précision au mot près (un nom, une marque...). Il donne également la possibilité de chercher un extrait parmi tous les replays disponibles.

Démonstration de l’utilisation dans la vidéo ci-dessous ⬇️

L’enjeu pour France Télévisions est multiple :

L’assistant vocal permettra de rendre un nouveau service au public.Il transforme les perspectives de consommation vidéo, déjà largement délinéarisées.Il apportera aussi une réponse en matière d’accessibilité.

Retour d’expérience de la phase 1 du test : les réactions des testeurs internes et externes (présentation à l’occasion du RG Lab à Roland Garros) sont positives, le service est rapide, précis, pertinent et intuitif.

L'expérimentation est toujours en cours, l’objectif à terme étant de transformer LIA en véritable service conversationnel au-delà de la simple commande par la voix. Un service qui dialogue avec le spectateur, capable de qualifier des requêtes et de proposer plusieurs possibilités de résultats, le tout dans une convivialité augmentée par rapport à la simple barre de recherche, un peu en remplacement des speakerines disparues depuis longtemps de nos écrans.

Interfacé avec la DMP et le CRM de France Télévisions, il devra permettre une recommandation pertinente et une meilleure fidélisation. L’objectif : faire de LIA le guide personnalisé dans les contenus de France Télévisions.

Autre amélioration en cours : la voix de synthèse de base sera remplacée par une voix plus évoluée.

L’interfaçage avec les produits du marché

La phase 2 du test consistera à passer à un service multiplateforme (mobile, desktop + multi OS), disponible sur le plus grand nombre d’appareils du marché. LIA devra ouvrir ses API à Amazon, Google, etc pour que les assistants dans les mobiles et enceintes connectées puissent lancer des vidéos et les lire sur leur TV sans aucune autre interaction. Des tests avec certaines plateformes sont en cours.

Pour France Télévisions, il est important de maîtriser la technologie pour ne pas être enfermé dans les solutions clés en main proposées par les géants du marché. La maîtrise de la technologie permet d’être davantage au service de notre public, de proposer des solutions personnalisées et d’innover.

Conclusion

La voix est un enjeu de taille pour FTV : ce nouvel usage doit être mis au cœur des produits, et démultipliera l’offre en permettant de naviguer d’un produit à l’autre. LIA va évoluer pour être à la fois présente dans nos services et connectée aux nouveaux usages qui émergent tous les jours, par exemple la voiture autonome. Au-delà de la recherche par la voix, les médias audiovisuels doivent aussi trouver un moyen d'exploiter toute la richesse de leur catalogue d'images. Quel nouvel usage inventer, comment valoriser au mieux nos contenus sur ces plateformes centrées autour de la voix, en attendant l'arrivée des enceintes connectées munies d'écrans ?

Les assistants vocaux sont une plateforme supplémentaire sur laquelle les médias vont devoir être présents, en innovant et en optimisant les processus de production de contenus. Mais elles sont aussi une formidable occasion de créer le lien avec le spectateur, de valoriser des programmes en lui facilitant la vie tout en lui laissant un choix. Pour se lancer, il est primordial de maintenir une approche méthodologique et stratégique qui requiert de mettre l'utilisateur final et sa protection au cœur de la réflexion. Comme pour chaque nouvelle technologie : on doit partir de l’histoire que l’on veut raconter et non pas de l’outil. Il nous a fallu cinq à dix ans pour apprendre les subtilités du dialogue avec nos écrans tactiles, il n’en faudra pas plus pour la voix...