VoiceXML – Wikipedia

Voicexml (Language de balisage extensible vocale) est une application XML qui sert la description des processus de dialogue dans un système de dialogue de langue. Il a été particulièrement développé pour les applications téléphoniques. Depuis juin 2007, la version actuelle VoiceXML 2.1 est une recommandation du World Wide Web Consortium (W3C) et a donc le même statut qu’une norme Web que HTML. Les applications développées dans VoiceXML fonctionnent sur chaque plate-forme linguistique compatible VoiceXML. En raison de l’analogie avec le navigateur Web HTML, l’interprète VoiceXML est également appelé VoiceBrowser. [d’abord]

En tant qu’extension des interfaces utilisateur graphiques dans le World Wide Web afin d’utiliser et de sortir via le langage naturel aux interfaces utilisateur multimodales, d’autres langages de description de dialogue se sont développés en tant que supplément ou alternative à VoiceXML:

Le sel a été initié par Microsoft et sert à lier les applications vocales avec le contenu et les procédures du World Wide Web. X + V connecte les éléments XHTML et VoiceXML pour fusionner Internet et la téléphonie.

L’API de la parole Web permet l’extension contrôlée par ECMascript des sites Web par langage et sortie.

Dans les applications de première langue, il n’y avait pas de séparation de l’application et de la plate-forme. Les processus de dialogue ont été programmés et compilés «câblés durs» ainsi que les interfaces du système téléphonique. Cela avait l’avantage que les applications vocales pouvaient généralement être créées rapidement et se dérouler de manière fiable, mais avaient une rigidité inacceptable pour les termes d’aujourd’hui. Si, par exemple, un dialogue est modifié, le programmeur d’application a dû faire des interventions profondément dans le code source.

Dans les applications linguistiques plus récentes, l’application a donc été séparée de la plate-forme afin de pouvoir maintenir les dialogues plus facilement. Les écritures ou les outils pour décrire ces applications étaient (et sont encore en partie aujourd’hui) propriétaires – c’est-à-dire du fournisseur à un fournisseur.

Voicexml 2.0 est un effort de normalisation du W3C dans le but d’obtenir une description uniforme des applications vocales. Dans le même temps, c’est une langue d’interface qui peut être utilisée pour communiquer entre l’application et la plate-forme. La norme a maintenant trouvé une distribution généralisée et est soutenue par de nombreux fournisseurs. En plus des solutions et des plateformes d’application propriétaires, qui sont toujours très courantes sur le marché, il existe des approches de normalisation concurrentes, en particulier la norme de sel qui a été motivée par un consortium autour de Microsoft.
La spécification a été publiée le 16 mars 2004.

Voicexml 2.1 A été publié le 19 juillet 2007 et étendu la version 2.0 par quelques compétences supplémentaires. Ceux-ci devraient compenser les lacunes reconnues pendant le travail avec VoiceXML 2.0. La version 2.1 est complètement compatible à la baisse avec la version 2.0.

Actuellement sur la spécification aussi Voicexml 3.0 travaillé. Cette version est destinée à apporter une refonte complète de la spécification afin de permettre l’utilisation comme un langage spécifique au domaine pour le développement des interfaces linguistiques, également en dehors de la téléphonie. La compatibilité descendante avec Voicexml 2.1 doit être rendue possible par un profil spécial.

Si vous comparez VoiceXML avec HTML, il y a un certain nombre de parallèles. Comme HTML, VoiceXML est à la fois un langage de description et une norme d’interface:

  • Vous pouvez utiliser VoiceXML directement pour encoder les applications linguistiques, tout comme vous pouvez utiliser HTML directement pour encoder les interfaces utilisateur.
  • Vous pouvez également définir l’application avec un outil propriétaire et générer du code VoiceXML (dynamiquement ou statique). Cela correspond à l’utilisation d’un système de gestion de documents pour maintenir un site Web. Dans ce cas, VoiceXML est largement réduit à sa propriété en tant que norme d’interface.

À l’état de l’état d’aujourd’hui, cependant, l’analogie est toujours à la traîne à un point important: le navigateur VoiceXML (dans le cadre de la plate-forme) ne se situe pas directement dans le téléphone du client final, mais est souvent (pour des raisons d’efficacité) même dans la même salle de serveur que le serveur d’applications. La communication entre l’appelant et la plate-forme est via le réseau téléphonique public. Cela signifie que l’appelant et souvent aussi pour l’opérateur n’ont aucune importance quant à la plate-forme et à l’application standard communiquent. Ce n’est que lorsque le navigateur (et avec lui en particulier la présence de la parole et la synthèse du langage) est au téléphone, la question de la normalisation pour l’appelant (plus précisément: l’utilisateur de l’application linguistique) est d’une importance réelle. La situation est toujours comparable aujourd’hui à la question de savoir si une interface utilisateur pour une application à commande locale dans la langue HTML, ou dans Visual Basic ou avec un outil (propriétaire) pour la création de GUI doit être réalisée – la qualité de l’interface utilisateur résultante est particulièrement importante.

La gamme de fonctions de la norme VoiceXML est un compromis. Cela signifie que les fonctionnalités souhaitées peuvent ne pas être prises en charge ou uniquement prises en charge dans une version ultérieure. Dans ce cas, cependant, VoiceXML peut être élargi par des ajouts propriétaires. Cela édoute les avantages mentionnés ci-dessus, mais est toujours plus pratique que de mettre l’ensemble du système sur un script propriétaire.

VoiceXML en tant que langage de script pour le développement d’applications est basé sur le concept de base que les dialogues entre les humains et les machines peuvent être formalisés à travers des diagrammes d’écoulement explicitement prédéfinis. Dans cette idée, l’appelant “navigue” par le processus de dialogue prédéfini, souvent même en utilisant des commandes de navigation explicites telles que “back” et “menu principal”. Ce concept atteint les limites où l’interaction s’approche d’un dialogue libre-machine humain, dans lequel l’appelant peut reprendre l’initiative de dialogue en formulant des phrases entières, par ex. B. “Non, à Hambourg, afin que je sois là vers 18 heures” (soi-disant de la conversation ou Dialogues à initiative mixte ). Il y a des constructions dans VoiceXML qui ouvrent certaines libertés à l’appelant lors de la navigation dans le dialogue (par exemple, Remplissage de formulaire )); Cependant, l’effort de développement d’applications augmente considérablement avec l’augmentation de la liberté dans la séquence de dialogue. Pour la mise en œuvre de ces dialogues, l’introduction d’un gestionnaire de dialogue So-appelé s’avère utile, qui détermine dynamiquement la réaction système basée sur l’historique de la boîte de dialogue. Un tel gestionnaire de dialogue peut être utilisé pour générer des documents VoiceXML – comme une interface à la plate-forme vocale.

Les applications multimodales – c’est-à-dire la combinaison de la langue et de l’édition graphique – ne sont actuellement prises en charge que par VoiceXML. Cependant, il y a des tendances à établir des langues de description de la boîte de dialogue basée sur le multimédia. X + V (Xhtml + Voice) essaie de rassembler VoiceXML avec XHTML à l’aide d’éléments de synchronisation spéciaux. Une autre approche offre le sel linguistique, qui est destiné à un essai sur HTML, mais pour la fonction vocale sur une approche propriétaire et différente. Jusqu’à présent, cependant, ces solutions techniques ont toujours le principal problème qu’un cas d’utilisation convaincant pour leur utilisation pratique est manquant.

  1. https://www.w3.org/voice