2013智能语音识别精度将更高
- 来源:中国安防展览网整理 作者:编辑部
- 2013/1/14 13:51:563291
1、语音识别精度更高
语音识别是智能系统技术的基础,语音识别的准确性一直在稳步提高,之所以这么说,是因为现在已经把更加丰富的训练数据、更加强大的计算能力以及全新更加复杂的建模方法(如目前非常流行的基于人脑如何完成模式识别的技术“深度信念网”(DeepBeliefNetworks))结合在一起,提高了语音识别的精度。
2、设备将具备更强的识别能力
不管是在城市街道上,还是在汽车里或客厅里,语音识别的功能性和性正越来越高。的信号处理能够区分不同的声音,语音生物统计学有助于判定谁在说话。并排的多个麦克风能够动态引导“听光束”,并可在摄像头的辅助下跟踪用户的位置。因此,在与用户联系更加紧密的移动设备上应用这项功能,将会提高移动设备的识别能力。
3、设备将具备更强的感知能力
未来完成一项任务可减少许多必需的步骤,如必须选择设备、打开设备、找到目标应用、启动应用,然后与应用互动。不久,用户将可以简单地用自然语言告诉处于睡眠状态的设备干什么——不用触碰它。具备这种低功耗模式状态下听功能的设备将可以鉴别用户,并通过逐步唤醒其处理器的其他功能来确认要求的操作,终按照要求完成相应的操作。
4、互动性的普遍性和连续性
随着语音识别技术和自然语言理解技术的发展,用户希望能够在不同设备(智能手机、平板电脑、电视或汽车)的显示屏上进行互动,并拥有一致的体验。用户可以在一台设备上开始任务,在另一台设备上完成任务。这种互动将通过基于客户识别器和云识别器,以及自然语言理解引擎的框架联系在一起。用户的互动历史将被聚合在云端,用来改进识别模型,以便在其他所有相关设备中应用。
5、自然语言处理和人工智能将更加智能化
自然语言理解(猜测用户输入并据此操作的意图)的能力也在不断提高。今天的技术把功能强大的语言框架(被称作符号处理)、知识显示法(知识本体)和利用大数据用观察到的例子和模型来填充框架的机器学习结合在一起。这种互补性至关重要:过去的符号方法被证明是不可靠的,纯数据驱动型自然语言理解一般仅是肤浅的理解。
智能系统现在已从对任务目标的预定程序描述迁移至以用户的背景、参数选择和互动历史为条件的动态操作,系统据此有效地自我编程。这将允许我们从简单的任务向更加复杂的任务过渡,可能必须访问协调工作流中的各种应用和信息源。
比如,为了响应“核查下比尔(Bill)和艾利森(Allison)明天晚上是否来吃饭”的请求,手机个人助手将确定喜爱的饭店,并基于通信历史来决定你所说的是哪个比尔和艾利森,同时联系对方的虚拟助手核对他们的安排,并草拟一份有关预定和人员组成等信息的电子邮件发给对方。
这种推理属于人工智能范畴,不过,早期系统可靠性差,新一代系统将依靠一种被称为“非单调推理”的更加灵活和稳健的方法,在模糊状态下表现更好,并生成近似的解决方案,尽管可能无法给出准确的解决方案。
6、语义搜索将直接访问信息
理解用户意图可以穿过多个屏幕的应用图标、文件夹和子文件夹,或一系列中间网页。在搜索方面,频繁提问的自然语言理解应用可以跳过搜索引擎检索的所有象征性链接列表,直接导向希望的目的地。这种快速和直接访问信息的功能非常强大,潜在地威胁到普通的搜索业务。一些搜索服务提供商也开始测试用直接应答提问来替代网页链接,不过,他们现在还不允许用户直接获取想要的第三方内容。
7、用户关注虚拟助手
用户服务业务很难按照有效和可理解的方式组织成菜单结构——不管是在互动语音应答(IVR)系统,还是在移动应用中。专业化虚拟助手的自然语言理解将完全绕开互动语音应答系统直接访问信息,此外还将支持灵活的对话,允许用户前瞻性地提供未受提示的信息,任意在不同联系中心功能间切换。
8、自然语言理解将改进医疗保健
医师利用语音识别系统来描述包含大量关键信息的接诊患者病情,但这很难实现共享。利用自然语言理解应用,与医学有关的事实将被筛选并被输入电子健康记录数据库。自动化事实筛选的精度现在已经接近人工操作,使得系统可以帮助医师“说清”患者的病情。改进的患者信息记录能被进一步处理,以分配帐单代码,节约成本,提高信息和护理的质量。
结语:
综合利用这些进步表明新一代计算——第三代计算革命的开始,意义相当于引入图形和触摸用户界面。自然语言理解和人工智能在设备功耗管理、快速网络以及基于云的内容、服务和应用领域取得了长足的进步,并发挥了巨大作用。2013年将是智能系统年,期待着那些梦幻般的智能应用能够尽快变成现实。
关于智能语音
智能语音,简单的说就是以语音为载体的智能人机交互形式。要完成这一交互过程主要通过两方面的技术来实现。如果我们把Siri作为智能语音交互技术的代名词的话,那么可以简单的列一个等式:Siri=语音 智能机器人(或者叫“智能人机交互”)。如果再说的更形象一些,可以把智能语音比作一个人,前端的语音部分就相当于人的“耳朵”,而后者则相当于人的“大脑”。“耳朵”负责接收语音信息,“大脑”负责对这些信息进行语义解析,做出反馈。
目前在上,语音技术已经比较成熟,代表企业正是被苹果Siri技术整合的大、也是技术的语音厂商Nuance,该公司占据该领域80%的市场份额。国内的企业像科大讯飞、云知声、中科信利、盛大语音云等均可提供中文语音系统,另外百度、搜狗等也都在做自己的系统。
智能机器人是智能语音技术的核心部分,被苹果收购之前的Siri公司正是专攻于此,2010年,苹果收购该公司后,直接用Siri来指代智语音技术,也从一个侧面说明了智能机器人技术的核心地位。因为需要长久的技术沉淀和数据、知识库的积累,专研智能机器人部分的国内厂商目前有代表性的仅有小i机器人一家。而这家企业也占据了国内智能机器人商用领域90%的市场份额。