声纹识别进入落地阶段 技术仍有发展空间
- 来源:亿欧网 作者:张晟宁
- 2021/1/6 8:55:4237877
【安防展览网 企业关注】 2020年受疫情影响,消费者需求向线上倾斜,智能客服需求量也随之增加。因此,尽管疫情影响下中国经济下行,但人工智能尤其智能语音行业市场整体利好。激增的市场消费者群体,一方面带来了多元化的市场需求,另一方面,促使技术服务商不断探索新的产品功能和应用场景。近年来,许多智能语音技术服务商开始布局声纹识别领域。随着技术成熟与商业化落地,声纹识别逐渐进入大众视野。
一、声纹识别技术
声纹识别是生物识别技术的一种,也是语音技术的分支,也被称为说话人识别,包含声纹注册和声纹认证两道程序。所谓声纹识别就是把声信号转换成电信号,提取特征、搭建模型,根据匹配度进行识别判断。
声纹识别VS语音识别
声纹识别相比于语音识别,近年来才逐渐进入大众视野,两者同为语音前端信号处理,经常被放在一起比较。而谈及两者的共性及区别时,快商通联合创始人李稀敏博士在接受亿欧智库采访时表示:“声纹的载体是语音,而所谓语音就是指人说的话。在人类正常的语音交互中,我们可以识别语音主体的意图、情绪、性别、身份以及内容等信息。而利用人工智能技术完成这一识别,则需要依靠语音及声纹的提取与处理。语音识别和声纹识别虽然在智能语音技术流程中都属于对语音信号的处理,但实际的技术方向及应用却截然相反。”
“语音识别追求的是声音的共性”,李稀敏博士表示。也就是针对不同个体对于同一句话的不同声音、口音、语速表达,可以翻译成同样的文字。比如在使用智能音箱时,对于同样的指令,无论发出这个指令的个体是男是女,南方抑或是北方口音,智能音箱都需要能够对语音输入提取共性,并作出准确的一致的应答。
与之相比,“声纹识别则追求声音的个性”,即针对同一个体在不同情境下的不同表达,可以认证声源来自同一个体。比如微信的语音登陆系统,有时因外部环境,身体状态等因素,说话人的语音输入会出现语速,音高等变化,而一个完善的声纹识别系统,则需要能够提取不同情境下语音输入信号的个性,并准确认证说话人的身份以完成登陆。
声纹辨认VS声纹确认
声纹识别主要有两大应用场景,声纹辨认和声纹确认,其中:
声纹辨认,也被称作1:N识别,主要应用于在语音库范围内的语音筛查,即在海量声纹数据库中找到说话人的过程。比如,金融语音销售场景下,可以迅速根据来访者声纹信息与自身声纹数据库对比,判断客户是否为初次购买,抑或是否在征信黑名单中,从而调整销售策略。
声纹确认,也称1:1验证,主要应用于安全访问验证及身份认证等场景,系统对说话人进行语音认证,完成”你是不是你”的身份判断。相比起声纹辨认,声纹确认对于语音输入信息的质量要求更为严苛,比如微信的语音登录功能会要求使用者在无嘈杂环境中对固定文本进行语音输入。
声纹识别进入落地阶段,技术仍有发展空间
谈及声纹识别技术成熟度,李稀敏博士表示:“声纹识别拥有数十年的研究历史,但由于技术的局限,近年来才逐渐进入应用落地阶段,技术成熟度相当于3年前的语音识别。”
因此语音识别所面临的绝大部分技术痛点,也同样影响着声纹的发展。因声源采样率、信噪比、信道、语音时长、文本内容等因素变化而造成的准确率变化明显。因此提升声纹识别系统的鲁棒性是声纹识别大规模落地应用的前提条件。
深入金融安防领域,多元语音技术融合助力场景落地
由于声纹识别系统的特殊性,在进行识别前,需要进行声纹注册,因而声纹识别的应用对于数据库有着较强的依赖。另一方面,前文提到的声纹识别技术的不成熟,也导致其使用体验无法达到预期效果。因此数据的缺乏以及技术的痛点导致声纹识别与行业融合程度较浅,也成为声纹识别落地传统行业的主要障碍。
李稀敏博士表示,现阶段声纹识别主要应用在公安、司法以及金融领域。主要是因为声纹识别直接的解决了这些行业的痛点,应用价值大,因而在行业的资本投入下,声纹识别的行业落地获得了快速发展。
除金融安防领域外,现阶段声纹识别在民生场景中的应用还处于初期试水阶段,如家居车载中声纹判定系统,硬件中的声纹门禁等等。
智能语音技术的全面发展,以及智能设备的爆发式增长,为声纹识别提供了更多的应用端口,而与多元语音技术的融合也成为声纹识别落地更多行业场景提供了技术保障。在未来声纹识别将向着声纹+智能,以及多模态识别的方向发展。
二、声纹识别市场
应用前景广阔
相比为人所熟知的指纹识别、人脸识别,声纹识别作为生物识别的另一个主要的分支,虽然刚刚从实验室走出进入大众视野,但却拥有较强的适用性和较大的应用空间。根据快商通提供的信息整理,首先,声纹识别具有更高的采集便捷性,用户接受度更高,被采集者无需接触传感器或面对镜头,即可完成识别。在疫情所带来的新需求下,声纹识别拥有极大的落地空间。
与此同时,声纹识别在1:1验证应用下的准确率高,并因声纹的稳定性,造假难度较高,是理想的生物识别模式。此外声纹传感器相对低廉的造价及部署成本也使得声纹识别拥有可被广泛应用的优势。
声纹技术难盈利,技术服务商何去何从?
现阶段声纹识别赛道的服务商普遍处于亏损状态,而剖析这一现象,需要从利润和成本两个方向进行考虑。
声纹技术和行业早期磨合阶段,渗透率较低
声智科技战略合伙人&COO李智勇首先表示:“声纹识别作为一种新的技术,虽然提供了更多的可能性,但是必须要和行业进行进一步的深度结合。然而在技术落地早期阶段的磨合试探过程中,通常不会很通畅,这也导致了现阶段的声纹识别应用势必无法深度渗透行业。”
李稀敏博士也有类似的观点,他认为在声纹产品在没有深度结合产业的情况下,产品过于单一,盈利的可能性很小。而另一方面声纹技术仍不成熟,在无法达到预期使用期望的情况下,签单量及签单价都不理想。
技术红利下,企业不断增加研发成本
在投入成本方面,李智勇表示:“目前国内企业正第一次主要进行原创的技术研发,技术研发本身所投入的成本相比于产品公司更高。此外,在技术红利驱使下,企业也纷纷将大量的人力物力投入到科研研发中,以期望技术所带来的未来的巨大利润空间。”
据亿欧智库调查统计,现阶段大部分声纹技术服务商的研发人员占比均在50%以上,与此同时,国内相关*公开数量也不断提升,技术研发已然成为了服务商的发展重点。
厚积薄发,多年沉淀等待破茧成蝶
综合论述,较低的渗透率,及尚未成熟的技术体系导致声纹识别营收并不理想,另一方面技术红利下,企业不断加大自身研发成本。收支两方面的因素导致现阶段声纹技术服务商的盈利十分艰难。然而这是一项新技术发展所需要经历的必然阶段,新的技术势必会引发新的产品和新的模式,而当我们回顾2000年左右的互联网市场,会发现和现阶段的语音市场相差无几。整个语音市场是否会像互联网市场一样,成为一个时代的标志,我们尚未可知,不过可以相信的是,在不久的将来,待语音技术成熟,和行业深度融合的那一天,声纹识别业务一定会迎来属于他们的春天。
声纹市场风口何时到来?
2017年,6月《中华人民共和国网络安全法》正式施行,明确将个人生物识别信息纳入个人信息范畴管理。同年12月,工信部引发《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,智能身份识别系统、智能语音交互系统被率先列入重点发展8大领域。直至2020年,相关政策纷纷出台,尤其是受年初疫情影响,无接触,无感知的声纹识别系统需求随之增加。
市场方向,近年来生物识别产业规模不断扩大,声纹识别的市场占比也逐年上升。而随着技术的成熟以及在产业内的不断渗透,这一规模仍会继续增加。市场参与者方向,综合语音厂商,声纹专业厂商,人工智能初创公司以及互联网巨头纷纷入驻声纹赛道,并在各自细分领域不断进行行业融合,整体市场处于良性竞争状态。2016-2020年期间,声纹识别赛道资本投资进入加速阶段,哪怕在2020年,资本市场整体遇冷情况下,赛道仍获得多笔融资。
技术方向,李稀敏博士表示:“当前声纹学术领域,已经在广泛地使用前沿的神经网络技术,用于解决声纹技术所存在的问题,比如人声分离、远场识别、跨信道等。预计3年左右,这些问题将得到较好地解决,在通过一段时间的实践,算法和工程化都将得到验证。总而言之,5年以内,风口将来。”
综合论述,尽管现阶段声纹识别的应用仍具有局限性,但是声纹主导的生物识别模式已经进入公众视野,并被时代所接受。相信在未来,人脸识别大热过后,声纹识别一定能迎来属于他的风口。
三、声纹识别市场参与者
企业不断入局声纹赛道,原因为何?
近年来加入声纹赛道的企业越来越多,包括腾讯、百度、字节跳动、平安科技等,创业者也不断入局,究其原因,我们可以从以下几个视角进行思考。
1.技术视角
李稀敏博士表示:“2011年前后神经网络技术在人脸识别和语音识别领域的广泛应用,带动了神经网络技术在声纹技术领域的探索,直至2018年前后达到了一个高潮,各种算法层出不穷。所以,这个阶段加入声纹赛道,有其技术方面的因素。”在另一方面,李智勇也指出,在原创技术的推动下,声纹识别所带来的技术红利也是企业入局的促进因素。
2.市场视角
在语音研发的道路上,服务商们逐渐发现了声纹的重要性,以及潜在的市场需求,因而逐渐向声纹技术发展。而随着声纹技术在金融、安全领域的探索应用,身份认证及声纹反欺诈应用不断成熟,并引发了行业的广泛关注。以金融、安全为引,声纹市场逐渐向其他行业落地拓展,市场规模增长的情况下,企业纷纷入局声纹赛道。
3.政策视角
生物识别政策频出,2018年,央行正式发布《移动金融基于声纹识别的安全应用技术规范》,加深了声纹识别在金融行业的应用落地,大批声纹服务商涌现。
声纹识别服务商分类及布局
受市场、战略以及技术的影响,声纹识别技术服务商呈现出了多元化的趋势,业务模式、产品形态以及用户群体都展现出了较大的差异化。现阶段声纹识别的市场参与者主要有四类,分别为综合语音技术服务商、人工智能初创公司、深耕声纹的技术服务商以及互联网巨头。
1.综合语音技术服务商
多为传统语音服务商,普遍成立于2000年左右,拥有较为成熟的技术支持及产品体系。整体业务以融合了多元语音技术的通用解决方案为主,客户群体以大型客户为主。声纹识别作为语音的技术分支,更多作为定制化选项搭配语音方案进行输出。企业战略本身就是平台+赛道,也就是将其自身的AI平台,落地到各种赛道。典型的综合语音技术服务商为科大讯飞,捷通华声等。
2.深耕声纹的技术服务商
在传统语音技术服务商进入市场后,一部分专注与语音细分赛道的企业相继出现,以得意音通、远鉴科技为代表的深耕声纹识别的服务商进入市场。整体业务以声纹识别产品及方案为主,相比起综合语音技术服务商,更加聚焦行业的特定需求,并专注于声纹技术的落地,探索各类潜在的应用场景。
3.人工智能初创公司
2010年开始,专注于特定行业的人工智能初创公司陆续进入市场。因聚焦行业,因此在行业图谱及数据库搭建上具备更大的优势。整体业务以特定行业的SaaS服务及落地方案为主,在行业的基础上应用声纹技术,更加深入行业需求,主要面向中小企业。典型的代表企业为快商通,声智科技等。
4.互联网巨头公司
近年来互联网巨头公司纷纷开始布局声纹赛道,依托自身云服务优势及庞大C端客户流量进入市场。业务布局较广,拥有较大的潜在用户群体。典型的互联网巨头为阿里云、腾讯云、百度智能云及华为云。