中文XML论坛--VoiceXML介绍

2002/03/11

一． VoiceXML简介

　　VoiceXML（Voice eXtensible Markup Language）是由VoiceXML论坛制定的通过电话访问Internet网络的标准。1999年3月，由Motorola、Lucent、AT&T和IBM四家公司联合发起成立了VoiceXML论坛www.voicexml.org），其目的在于为电话和移动设备提供一种便捷的访问Internet网络，获取服务和信息的手段。2000年3月，VoiceXML论坛发布了VoiceXML 1.0标准。5月，W3C（World Wide Web Consortium）接受了VoiceXML1.0。目前，国内外共有150多家公司支持VoiceXML，Motorola、Lucent等公司已开发出了基于VoiceXML的产品。
　　VoiceXML是W3C定义的可扩展标记语言(XML)的一种扩展，根据播放的提示信息、口述的命令、要记录和识别的语音或按键音输入，实现人和计算机之间的交互对话。VoiceXML的标准化将简化Web上具有语音响应服务的个性化界面的创建，使人们能够通过语音和电话访问网站上的信息和服务。
　　VoiceXML的主要目标是希望通过交互式语音界面应用Web上已经有的大量信息，同时VoiceXML希望能够将开发人员从最低级的编程和资源处理工作中解放出来。VoiceXML能够利用人们已经非常熟悉的客户机/服务器方式，将语音服务和数据服务融合起来。
　　VoiceXML作为一种标记语言，主要有以下特点：
　　1． VoiceXML作为一种通过每一文件里指定的多重的交互作用，最小化客户机/服务器之间的交互工作。
　　2．实现应用开发者与低层的软件和系统平台上的软、硬件细节无关。
　　3．将用户交互作用的代码（在VoiceXML中）从服务逻辑（CGI 脚本）中分离出来。
　　4．要使提供的服务能随处可得，要求这些服务能够跨越不同的执行平台。对于内容服务商、工具提供商和平台提供商来说，VoiceXML是一个公共语言。
　　5．使简单的交互作用非常易于使用，要求所提供的语音界面能支持复杂的对话。

二． VoiceXML的结构模型

　　VoiceXML的模型如图1所示，一个文档服务器比如说一个Web服务器，处理一个来自终端应用的请求，这一请求经过了VoiceXML解释程序和VoiceXML解释程序环境处理。作为响应，服务器产生出VoiceXML文档，在回复当中，要经过VoiceXML解释程序的处理。
　　执行平台是被VoiceXML解释程序环境和VoiceXML解释程序控制的。例如，在一个交互式语音应答应用中，VoiceXML解释程序环境能可靠地监测到呼叫，获得初始的VoiceXML文档，并且回答这一呼叫，在回答之后VoiceXML解释程序引导这一对话。执行平台产生事件响应用户的动作（说话或者字符输入）和系统事件（例如计时器溢出）。这些事件中的一部分依照相应的VoiceXML文档按照VoiceXML解释程序的解释加以执行，其他的被VoiceXML解释程序环境控制。
　　VoiceXML解释程序是一个计算机程序，它解释一个VoiceXML文档，引导和控制用户与执行平台之间的交互作用。VoiceXML解释程序环境也是一个计算机程序，用一个VoiceXML解释程序解释一个VoiceXML文档，并且可以与执行平台相互作用而与VoiceXML解释程序无关。
　　执行平台是指一个能支持VoiceXML定义的交互作用的计算机。执行平台提供字符和语图1 VoiceXML的结构模型
音的输入和音频输出，包括合成语音的输出（TTS，text to speech）、音频文件的输出、话音输入的识别（ASR ，automated speech recognition）、DTMF输入的识别、语音输入的录音、电话功能像呼叫转移等。

三． VoiceXML的基本概念

　　首先举一个简单的例子：
　　<?xml version="1.0"?>
　　<vxml version="1.0">
　　<form>
　　<block>Hello World!</block>
　　</form>
　　</vxml>
　　这是一个简单的VoiceXML文档，执行时输出Hello World!的合成语音。<vxml>可以看作一个包含会话的容器，所有的VoiceXML文档都是由一系列会话构成的。一个VoiceXML文档（或称为请求的一组文档）构成了一个对话式的有限状态机。用户总是处于某一对话状态（或称为会话）。每一个会话决定要转移到的下一个会话。转移由URIs指定，URIs定义下一个要使用的文档和会话。当一个会话没有指定后继者或指明退出对话状态时操作才会终止。
VoiceXML中的基本概念主要有：
　　1．会话和子会话：VoiceXML中定义了两种类型的会话，表单（forms）和选单（menus）。表单定义了一个获取一组字段变量的值的交互过程。每一个字段可以指定一个文法，定义了该字段的允许的输入值。选单提供选项供用户选择，然后根据选择的结果转移到另一个会话。
　　子会话像函数调用，它引起一个新的交互作用并且返回给上一层的表单。局部的数据，文法和状态信息被保存，当返回到调用文档时可以使用。例如，子会话可以用于创建一个在数据库查询时需要的确认序列；创建在单一请求中的多个文档共享的一批组件；或创建一个在多个请求中共享的可重用的会话库。
　　2．会话期：会话期从用户与VoiceXML解释程序语境交互开始，持续进行文档的装载和处理，直到由用户，文档或解释程序环境发出终止请求才结束。
　　3．请求：一个请求就是一组共享同一个请求根文档的文档。在一个请求中，无论何时用户与文档交互，请求根文档总是被加载。当用户在同一个请求中的不同文档间转换时，请求根文档总是被加载，只有用户转换到别的请求中的文档时请求根文档才被卸载。请求根文档被加载后，它的变量作为请求变量被其它文档使用，而且它的文法在请求的持续时间一直起作用。
　　4．文法：每一个会话有一个或多个语音和（或）DTMF文法。在定向对话应用中，一个会话的文法只有在使用者与此会话交互时才起作用。在混合主动式对话中，机器和用户交替控制下一步的操作，一些会话被标记以使它们的文法（如侦听呼叫）即使当用户在同一文档的其它会话时也起作用。在这种情况下，如果用户进行的操作与另一个会话的有效文法匹配，执行就会转移到另一个会话。混合主动式对话增加了语音应用的适应性和能力。
　　5．事件：VoiceXML提供一种表单填充机制处理"正常"的用户输入。另外，VoiceXML也定义了处理异常事件的机制。如用户在一定时间内没有作出应答，请求系统帮助等情况下平台会产生事件。如果解释器在VoiceXML文档中发现语义性错误也会产生事件。
　　6．链接：链接支持混合主动式对话，当用户在链接的作用范围时它指定的文法就起作用。如果用户的输入与链接的文法匹配，控制就转移到链接的目的URI。<link>可以用来产生一个事件跳转到目的URI。

四． VoiceXML的未来

　　VoiceXML与XML相比具有某些重要的优点，其中最主要的优点是能够重复使用和容易重组现有的软件工具，以生成、转换和分析XML文件，而且还能使VoiceXML利用其他基于XML的补充标准。例如，VoiceXML应用程序有时需要确定语音合成参数，比如音量、讲话快慢和音调等。
　　与WAP相比，VoiceXML有突出的优点。由于手持移动设备(如WAP手机)只有很小的显示屏，有限的输入能力和有限的处理功能，文本界面的数据处理设备很难被使用。VoiceXML不存在这些限制，用户可以用声音与系统交互，通过一系列的对话选择，找到所需的信息。服务器上的语音识别软件把用户的输入语音的选择转换成文本的选择，这一过程与在传统的网页上选择一个超连接类似。对话选择的结果由相应的音频文件播放(可以是事先录下的或采用TTS技术动态产生)。
　　在手机等手持移动设备上通过语音而不是烦琐的输入来获取信息和服务更符合人们的习惯，随着语音信号处理技术，特别是ASR和TTS技术的发展，语音将成为人机交互的一种主要形式。VoiceXML论坛就是顺应这种潮流而成立的，VoiceXML论坛获得了国内外知名的通信公司和网络公司的广泛支持，目前已有包括国内的华为公司在内的的150多家公司加入VoiceXML论坛。

颖科公司供稿　CTI论坛编辑


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	54.688ms