以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 XML在语音技术中的应用 』 (http://bbs.xml.org.cn/list.asp?boardid=47) ---- VoiceXML与多通道 (http://bbs.xml.org.cn/dispbbs.asp?boardid=47&rootid=&id=9742) |
-- 作者:admin -- 发布时间:9/4/2004 12:52:00 AM -- VoiceXML与多通道 - 语音界面的新标准 2003/01/28 世界上最古老的用户界面--人类语言终于在二十一世纪借助于VoiceXML,一种语音可扩展标记语言发展成熟起来。作为世界上第一个真正的语音通信标准,它定义了应用开发商向用户提供新型信息访问服务的方式。通过这种服务,用户在任何地方,都可以通过电话或任何移动设备,虚拟访问任何信息。VoiceXML正在被广泛应用于旅游、金融与信息服务等行业的各种业务领域中,甚至是政府部门与市政机构,全球的无线运营商等。 VoiceXML最初由VoiceXML论坛创建,现在VoiceXML由万维网联盟(W3C)主持。后者是一个全球性组织,它已经制定了一系列网络技术标准。其宗旨在于为用户定义一种新方法,运用基于Web的服务通过口头指令和DTMF键盘实现交流,通过事先记录的话音、合成话音或音乐流获取信息。为了迎接这种挑战,W3C定义了一套在设计上与网页编写标准相类似的标记语言,以规范应用程序的语音问题,例如用户对话流、自动语音识别与相关语法、语音合成与呼叫控制等。 在今天的通话应用市场上,应用VoiceXML的基本目标在于全力扩大现有网站及其内容的容量,使它们适应交互式语音响应应用,同时减小复杂应用方案的编程复杂性。此外,在客户服务器信息处理环境中,它允许语音与数据服务的轻松结合。 VoiceXML是专门设计用于抽取应用开发商在底层特定平台上的编程内容。在本质上,由于开发商不再需要在通话平台上编写微小细节的地址代码,从而简化了语音应用的创建。它实现了应用程序内容的标准化,例如话音识别语法与呼叫控制等。因此,应用VoiceXML编译程序的系统,虽然具有自己的特定规格,但是无需考虑已经抽取的特定系统的要求,就可以容易地移植到其他系统中。作为一种通用语言,VoiceXML不但适合应用开发商,而且也适合提供新闻、天气预报及航空服务信息的服务提供商。 然后,这些页可以向编译程序提供系统需要的对话流和各种操作,例如要求呼叫用户提供特定语音输入。用户的回应影响对话编译,会使上述请求返回文件服务器。而后,下一VoiceXML页会完成答复,从而用户对话得以持续。 VoiceXML应用于简单应用比较理想,例如自动值班应用程序。在此程序中,呼叫用户与系统间的对话不很复杂,用户交互简单。同时,VoiceXML也可应用于较为复杂的应用中。在这些应用中,向用户提供多种选择,数据检索范围较大。基于VoiceXML的应用接口向用户提示事先录制的和合成的对话,可以理解简单的单词和词组。随着这种技术的不断改进,它可以支持更丰富的人机自然语言对话。 结构与HTML相同 就结构而言,VoiceXML应用与目前应用广泛的HTML应用相同。唯一的差别在于前者使用语音浏览器,而后者使用Netscape或Internet Explorer作为浏览器。语音浏览器可以生成HTTP请求,形成结果标记。在这种情况下,VoiceXML图2说明了语音系统的基本结构。 更多新规范 话音合成 话音合成标记语言(SSML)规范,界定了一种通过话音合成器生成合成话音的标准方法。在语音应用方案中,合成话音又称之为正文-语音合成。基于Sun Microsystems的JSGF或JSML规范,SSML规范设计用于向应用开发商提供一种控制合成话音输出,如单词发音、大小、音调、语速与节奏等的标准方法。 SSML提供一些关键设计元素,帮助实现跨平台和跨不同文语转换引擎之间语音输出的一致性。 呼叫控制 目前,存在一种话音交互与其他交互模式相融合的趋势。多通道顺应了应用开发商的需求。在多通道应用中,使用话音作为输入输出,同时还提供数据接口访问,例如应用HTML的网络接口、短信息服务(SMS)与无线应用协议(WAP)等。换一种说法,多通道应用不仅仅限于简单的输入输出,还能够容纳多种模式,用户不仅可以实现说、写、打字,而且可以通过更为自然的用户界面实现听和看。 W3C已经认识到,把各种不同的设备融合成一种综合应用的需求,并且成立了一个小组进行研究。他们把多通道视为一种扩展网络用户接口、应用多种交互模式的方法,让用户自由选择语音和输入设备,例如辅助键盘、键盘、鼠标和输入笔等。对于输出,用户能够听到语音提示和音频,而且能够查看图形显示器上的信息。 一般来说,真正的多通道应用将不仅允许在访问服务器信息时,不同模态共存于一个设备上,例如移动电话,而且可以存在于多个一起使用的设备上。例如,用户可以一边驾车,一边询问行驶方向。系统响应生成,并通过图形和文本显示器传送到司机的个人信息终端(PDA)或全球定位系统设备上。 W3C已经认识到,把各种不同的设备融合成一种综合应用的需求,并且成立了一个小组进行研究。此机构正在制定一种各种容量下的多通道、多设备同步化规范。 除了W3C正在进行的工作外,其他组织机构也认识到多通道应用的重要性,也提出许多不同的实现多通道的方法。IBM提出一种名为XHTML + 语音的设计方案,将 VoiceXML、XML和HTML相结合。此外,Microsoft、Cisco与Phiplips 语音处理以及其他一些公司共同建立一个研究机构,已经开发出一种名为语音应用语言标记(SALT)的多通道设计方案。 目前的多通道应用 一些目前成功应用VoiceXML的多通道应用包括: · 蜂窝广播 - 使用SMS 通知服务用户,某一事件发生,允许用户即时操作按钮接受服务。 事实上任何应用方式都是可能的! VoiceXML与多通道应用,目前应用正在逐步扩大 - 电信运营商DoCoMo与SprintPCS等将其应用于增值服务,以增加自己的收入,旅游巨头美联航等将它用于旅游信息服务,通用电气等企业将它用于允许公司用户访问公司的数据库等。 本文中简要说明的VoiceXML标准以及辅助技术,正在逐步激励应用开发商创建新型服务,鼓舞用户接受新型服务的信心。 可以在下列网站上查看关于VoiceXML的信息: Salt Forum [URL=http://www.saltforum.org/]http://www.saltforum.org/[/URL]
|
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
3,640.625ms |