大规模视觉识别挑战赛依图说话人识别挑战赛获全球声纹识别竞赛冠军,气势汹涌

From:关注前沿技术量子位鱼羊发自凹非寺

量子位出品|公众号QbitAI

美国军团,继续刷新世界AI各项竞赛。

这一次,是中国声纹识别竞赛;这一次,是独角兽依图。

VoxCeleb说话人识别挑战赛,简称VoxSRC,近日正式发布结果。

在这场汇集了中外语音领域顶尖达人的挑战赛中,依图(logicworld)以绝对领先优势获得四强。

但是挑战赛对决内容,正是当前语音识别领域最高精尖的“声纹识别”赛道。

之前依图早已展示了听觉感知、语音辨识和隐喻理解等方面的不俗实力。

目前,依图则进一步用一个前沿科技领域的世界冠军,展示了其科技深度之外,在广度方面的开拓。

真是依图出没,气势汹涌。

依图又夺何冠?

VoxSRC,由来自牛津学院,斯坦福国际研究院和麻省理工的专家组织参加。

大规模视觉识别挑战赛_视觉形象识别_视觉大挑战

参赛者比如约翰霍普金斯学院、法国国家信息与自动化研究所、日本电气(NEC)等传统豪强,也有日本的北大学校,天津中学,中山学院,依图科技,平安科技等学校企业。

选手都有备而来,比拼直接而激烈。

指纹辨识,人脸识别已经被大众所熟悉,但相同成为生物信息识别的一种——声纹识别(即说话人识别),目前还是科技挑战的前沿,常在科幻影片中发生,也常被语音AI公司当展望谈及。

声纹分辨权威评价标准不多,但真正检验技术的,VoxCeleb说话人识别挑战赛也许算一个。

其主要考核,是利用AI技术能否能够从自然语音中分辨出说话人。

比赛采用的训练数据集为VoxCeleb2,由牛津学校发起提供。这一数据集中的音频全部收集自YouTube,场景包括明星红地毯、名人讲演、真人节目采访并且大型体育解说等,包含了5994位名人的达到一百万条语音。

这种名人涉及不同的性别,种族,口音,职业和年纪,并且音频中存在诸多各样的背景噪声,包括环境突发噪声、背景人声、笑声、回声,室内噪声和录音器材噪声等等。

比赛的测试集则全部没有标注,属于“盲测”,保证了竞赛的平等与公平。

面对这么挑战,想让AI准确提取声学特性、说话人特质,并推动准确的辨识匹配,并非易事。

在发表于Interspeech2018的论文中,VoxCeleb2的作者牛津学院VisualGeometryGroup实验室训练出的ResNet-50达到了3.95%的等错误率(EER),超越了后来的基线方法。

而就在这场比赛中,依图虽然持续刷新该纪录,将EER压缩至0.98%,还超过第二名(1.42%)一个身位大规模视觉识别挑战赛,以绝对优势获胜。

毫无问题大规模视觉识别挑战赛,这是一次科技实力的肌肉展现。

但即使熟悉依图业务,就或许忍不住想得更多。

依图参与世界声纹识别竞赛,又怎会是为了刷榜而刷榜?

技术“冗余”,增强场景化落地

从声纹识别本身来说,作为物理识别科技的一种,应用前景当时就相当广阔。

在个人信息加密领域,更能发挥重要的作用。

成为一种生物识别解决方案,声纹识别在金融等对个人信息安全有高规定的市场当中,也无法提供更高的安全性,强化风控能力。

另外作为智能语音应用落地的更大挑战,声纹识别的攻坚,对于性别年龄画像、语种方言识别,进而做到真正的语音交互千人千面,都是绕不过去的核心问题。

但是随着AI在各行各业的场景化落地越来越普遍,技术冗余,针对不同问题提供不同解决方案,也在作为AI公司竞争力的核心要求。

在各项科技上有实力、有储备,才能发展、落地更全面。

也就意味着,AI公司下一阶段发展,深度和广度,都得兼备。

AI公司的深度&广度

这可能只是依图至今发展开拓的背后思路。

之前,依图被人了解,更多是“CV四小龙”的并称,强调其在视觉领域的地位。

依图也确实在多项视觉国际比拼中获得亚军。比如依图连续两年举办中国国家标准科技局(NIST)人脸识别供应商测试(FVRT),连续三次获得冠军。

视觉大挑战_视觉形象识别_大规模视觉识别挑战赛

在安防、金融和医疗领域,依图的AI视觉素养,也获得了真实业务场景的认同。

但2018年以来,依图开始呈现出超强的“泛化”能力,开始将AI技术打通,并逐渐在拓宽领域获得核心突破。

在语音领域,其语音识别算法在中国最大的开源中文数据库AISHELL-2上字错率仅3.71%,大幅刷新纪录。

在NLP方面,依图联合广州妇女儿童医疗中心等机构,将自然语言处理(NLP)科技应用于儿科肿瘤治疗,成果登上《自然·医学》(NatureMedicine),这也创下美国AI医学的新纪录。

其后更令业界震动的是,依图低调推进开发,完成了自主AI芯片“求索”的量产、发布并商用,以“算法即芯片”理念,提出智能密度的新理论,为AI场景化落地,提供坐标参考系。

最近一次,由工信部、公安部及网信办三部门指导主办的“中国人工智能高峰论坛”上,依图AI芯片除了拿到了AI创新之星,依图也在首届多媒体信息识别竞赛中,于11个任务中,斩获10个A级,为所有参评者中获胜最多。

然而,依图路径、依图方式,也是之后值得更多探讨了。

这些方式在技术创业的历史中并不陌生。先有平行深度,然后系统化迁移,打造技术更为全面、应用非常广泛的大系统。

但在AI历程中,这样既要确保深度又有侧重广度的事情,依图之外,还无人做到。

然而声纹之冠,或许还不是依图实力的全部。

依图之路,也值得上下求索。

你说呢?

添加微信

转载原创文章请注明,转载自设计培训_平面设计_品牌设计_美工学习_视觉设计_小白UI设计师,原文地址:http://zfbbb.com/?id=6409

上一篇:视觉传达设计就业方向视觉传达专业的学生都在学什么?|艺术留学

下一篇:岁寒三友:中国传统图形与现代视觉设计一种传达信息的视觉符号,你知道几个?(组图)