人工语音机器人,从语音产业的拓荒者到领头羊,科大讯飞智能语音的探索和突破
始终保持每年30%的技术进步,这是科大讯飞的技术要求,也是公司每一位科研人员的自我要求。
作者 | 胜利者
编辑 | 岑峰
巴别塔是犹太教、圣经、旧约、创世记中的一个故事,为人类讲述了不同语言的起源。在这个故事中,人类团结起来建造一座希望通向天堂的塔;上帝为了阻止人类的计划,让人类说不同的语言,使人类无法相互交流,计划失败,人类从此四处散落。.
语言是最自然、最便捷的交流方式,是人类社会的瑰宝,传承文明,承载文化。让机器理解语言,扩展人类能力,实现人机交互,直至万物互联,一直是人类的远大梦想。
语音将在未来的人机交互中发挥关键作用。1952年,贝尔研究所的戴维斯等人成功研究出世界上第一个能识别10个英文数字发音的实验系统;1970年代以后,小词汇量和孤立词的识别取得了实质性进展;80 1990年代逐渐从孤立词识别转向连接词识别;1990年代以后,对大词汇量的连续语音识别进行了优化。
科大讯飞就是在这个时候成立的。1999年之前,中国语音市场几乎完全掌握在跨国公司手中。当时,微软、IBM等国际巨头纷纷在中国设立语音研究基地,国内语音技术人才毕业后基本外流。从中国语音行业的先行者,到如今成为国际知名的智能语音和人工智能上市公司,科大讯飞成功改写了外资巨头控制的中国语音市场格局,从追赶到领先。
“打造属于中国人的核心技术,用顶尖技术引领世界”的梦想一直隐藏在熊师傅的心中。在技术理想主义者熊士富看来,科大讯飞是实现梦想的最佳舞台。
在智能语音和人工智能行业,技术创新日新月异,要想赢得领先地位,就必须在源技术上保持领先。保持领先的秘诀在于“愿意坐在板凳上十年”的决心。是企业研究人员反复试验,穷尽每一种可能性,推动技术上的微小变化的耐心,也是面对失败的毅力。
正当22岁的科大讯飞在人工智能的道路上探索曲折时,身为“年轻后浪”的熊十夫接过科大讯飞语音识别技术的接力棒后却面临失败。
1 不是天才
人工智能被很多人称为会改变未来的颠覆性技术,而深度学习则是加速人工智能发展的颠覆性创新。
在 2010 年之前,语音识别的主流方式是使用高斯混合模型(GMM)进行建模。虽然有效降低了语音识别的错误率,但GMM在自然场景中还达不到实用水平。要实现语音识别技术更广泛的商业应用,必须取得新的突破。2010年,微软通过研究如何利用深度神经网络改进大词汇量语音识别,成功在大规模语音识别方面取得突破,这项研究也改变了世界语音识别行业。
除了微软总部,科大讯飞也成为最早接触深度学习并开始研究的团队。一年后,科大讯飞成功将深度神经网络(DNN)应用到中文语音识别领域,并通过语音云平台提供给开发者。
熊十夫在科技引领变革的时代开始了对人工智能领域的深入探索,一步步从代码新手向行业专家转变。
如今,在加入科大讯飞的第七个年头,熊士富带领团队成功研发新一代端到端语音识别系统并上线,再次保持了科大讯飞在语音识别领域的国际领先地位。也有人一直认为,这家知名公司的技术大师应该是“独树一帜”,具有“超能力”的光环。殊不知人工语音机器人,从语音产业的拓荒者到领头羊,科大讯飞智能语音的探索和突破,技术能力不是一蹴而就的,而是需要随着时间的打磨和沉淀。研究生的培养方式与本科生不同,除了理论知识外,还需要工程实践能力。中国科学技术大学语音研究实验室研究生第一年熊十夫 s 导师让大家写一个程序。他想了想,挠了挠头,于是问同学们:“喂,你好Word,用编程语言怎么写?”
独自来到一个并不陌生的领域,但这里的所有规则都必须重新学习和探索。
第一次认识深度学习是在熊十夫在科大讯飞实习期间。从最初的跨语言迁移学习任务到提升深度学习的训练效率,带着升级和打怪的乐趣,熊师傅始终在演讲方向探索最具前瞻性的技术领域。
勇气是他探索深度学习技术的个人优势和个人特点。从我的职业生涯开始,就选择了大规模深度学习探索的道路,并且这种选择一直持续到今天。
2013年,当业界批评深度学习的培训效率时,还是实习生的熊师傅立刻想到了多卡培训的路径。多卡背后的代名词是计算资源,只有通过大量资源的实验才能找到答案。“我也很幸运,当时我的导师是魏斯,他现在是我们的首席科学家,我跟着他探索了很多前沿方向,当时想申请计算资源,研究院会批准的人工语音机器人,虽然我只是个实习生。” 熊师傅每到第二次记忆中,都感叹AI研究院重视前瞻性研究、包容技术、支持人才。
2 面临不确定性:愿意坐在板凳上十年
科大讯飞董事长刘庆峰曾不止一次说过这一段话:“未来我们必须在人工智能核心技术上有所突破,不能抱着急功近利的思想。基础理论的创新和源技术的创新往往是最大的不确定性,人家说三年一鸣惊人,但其实真正原创,可能要坐十年板凳,甚至要做好准备一生一世。”
这也是中国科研人员需要攀登的下一座山峰:如果不知道哪一年能看到曙光,技术人员还会全力以赴吗?
“愿意坐十年板凳这句话,对我们研究人员的影响是巨大的。这也是我们对技术的追求,因为我们相信技术创新才能真正引领未来。”熊士富说。
2018年,科大讯飞提出了领先的全新语音识别框架——深度全序列卷积神经网络(DFCNN),进一步提高了语音转录的准确性,引领了语音识别技术的发展。在此之前,最好的语音识别系统使用双向长短期记忆网络(LSTM)。但是,该系统存在训练复杂度高、解码延迟高的问题,尤其是在业界的实时识别系统中。应用。
另一方面,熊十夫在2017年悄悄启动了下一代端到端语音识别系统的研发。“开发一代预留一代,这是我们的技术要求。” 因此,在上一代技术DFCNN尚未成熟的时候,熊师傅就已经开始研究新一代端到端智能语音系统。
与传统语音系统相比,端到端系统具有结构简单、通用性强、不依赖语言知识等优点。进一步,通过减少人工预处理和后续处理,可以使模型尽可能地从原始输入到最终输出,给模型更多的空间根据数据进行自动调整,增加模型的整体拟合度,避免多个模型之间的错误。传导。更一般地说,端到端技术意味着对于需要多阶段或多步骤解决方案的问题,可以将模型堆叠在一起进行优化。因此也被认为是未来智能语音的主流技术框架。
想法很简单,但在简单的背后,总有“字越少,事越大”的规律。这种技术思路原本在翻译任务中发挥了重要作用,端到端技术在语音研究中的应用也是顶级团队尝试过的方向,但效果从来没有比非端到端好技术。
熊师傅用了两年半的时间打造了一个端到端的智能语音系统。
“确实啃了不少硬骨头,尤其是项目后半程的差异化训练技术,已经在大数据上得到验证,但还是达不到预期的效果。” 为了突破这项技术,熊师傅花了三个月的时间攻关。
当没有结果时,自我怀疑是常态。“其实这三个月的一个半月是没有用的,从科研的角度来看,做任何事情都可能面临失败。十个项目中能有两个成功已经是非常了不起的成就了。我们有接受我们所做的大部分事情。这一切都可能以失败告终。
“但从之前的实验结果和我多年的语音识别经验来看,我相信端到端的语音识别技术一定是有前途的,可能真的比上一代要好。” 熊师傅在沉淀数据的同时,不断发现问题的迭代算法系统。
2018年,科大讯飞端到端技术首次亮相国际口语翻译研讨会(IWSLT),以端到端模型(End-to-End Model)优势显着,荣获全球第一世界。
如果说 2010 年引入深度学习是语音识别领域的最后一次颠覆性创新,那么新一代端到端语音识别的研究无疑标志着语音识别新一轮创新的里程碑。
新一代端到端语音识别系统带来的效果非常显着——识别效果比传统语音识别系统提升15%-30%。在某些场景下,尤其是当前应用热点的端到端语音识别场景下人工语音机器人,从语音产业的拓荒者到领头羊,科大讯飞智能语音的探索和突破,新系统可以达到同样的效果,大大降低系统资源占用。
同时,科大讯飞也成为了使用该技术最广泛的公司。该系统于2019年行业首次上线,应用于科大讯飞输入法、翻译机、语音转写等重点业务。识别带来更大的想象空间和更丰富的产品形态,如无方言切换,多语种统一建模,中英文畅通等。
回顾端到端语音识别系统成功的原因,熊士富认为:“当时业内大部分团队,包括公司内部的一些团队,都在做小数据训练,我认为只有大数据可以用来有成功的可能,这后来证明是成功的关键突破口。另外一个难点是算法框架的参数调整非常困难,这是我个人的优势。在科大讯飞,我经历过最新语音识别框架的几代迭代,也可以说是接触到了业界最前沿的技术。”
3 持续改进:勇闯科研无人区
一项技术从研发到真正落地,人们对它的要求通常都很苛刻。这可以从 Gartner 的技术曲线中看出:一项新技术刚出现时处于起步阶段,然后进入预期膨胀期,然后又回落到低谷。在低谷期,各种困难逐渐找到解决,才能进入稳步攀升期,进而形成生产成熟期。
新一代端到端语音识别系统的研发,是熊士富及其团队努力的第一步。“端到端语音识别技术的难点之一是它非常依赖数据。在一般领域,有大量的数据积累,但在垂直领域,会有各种面向行业的适当的名词,而且端到端的效果还不够好,所以end-to-end 端系统现在面临着如何渗透到各个领域,解决一个领域的效果,只有克服这个问题,端端到端模型真正‘走出去’。”
或许,声学模型和语言建模能力的结合,可以打破数据的局限,解决垂直领域的定制化问题。“比如我想看西洪市首富,模型直接输出食物品种的西红柿很容易,很难做到准确转换,上一代深度学习只进行声学建模,现在我们正在尝试解决声学和语言的解决方案。耦合虽然是联合训练,但可以达到单独挑选特定领域的单词并用我们想要的语言替换它们的目的。
熊师傅提出的热词全词建模方法,显着提升了热词识别效果,也为克服端到端语音识别领域定制化问题奠定了关键基础。
但随着人工智能技术门槛的降低,领先核心技术的窗口期正在逐渐缩短。带领团队不断提升公司在语音识别方面的领先水平,站在世界前列,是熊士富和他的团队不断努力的结果。“压力一直都在,我不敢有丝毫放松,始终保持每年30%的技术进步,这是我们对技术的要求,也是科大讯飞每一位科研人员的自我要求。”
随着万物互联时代的到来,物理空间与现实空间融合共生,科技的每一次技术突破,都是为了让人们以更“自然”的方式与机器交流。“未来,无论我们是与人工智能还是机器人之前的交互,都应该是一种自然的交互。比如智能汽车和智能家居可以和你说话、交流,能够听懂你说什么来提供服务。” “
寻找下一代人机交互是熊十夫和他的团队的终极使命。
“或者说很多模态技术可以打通人机交互的最后一公里,从而带来颠覆性的交互体验。” 熊十夫预言。多模态技术又称深度学习多模态融合,是指机器从文本、图像、语音、视频等领域获取信息,实现信息转换融合,从而提高模型性能的技术。例如,在车载交互领域,科大讯飞的车规级视线追踪技术,让用户可以在凝视时实现唤醒交互,眼睛在哪里都可以控制。同时,创新加入唇音融合语音技术,拥有唇音免唤醒、唇音检测、唇音增强三大核心能力。可以直接说话,
4 科大讯飞——无限深度神经网络
从面对国内语音市场的空白人工语音机器人,到如今代表世界领先水平的技术实力,科大讯飞智能语音的发展在一定程度上也代表了科大讯飞一路走来的创业历程。
可以说,在智能时代,科大讯飞是中国智能语音的一面旗帜。中国语音产业联盟刚刚发布的《2020-2021中国智能语音产业白皮书》援引德勤数据显示,作为大型智能语音技术公司的代表,科大讯飞凭借强大的研发优势,以60%的市场份额。一是竞争优势明显。
科大讯飞的理想也从让机器说话转变为让机器听和说、理解和思考,用人工智能建设更美好的世界。
我们曾经将科大讯飞比作一个非常广泛和深度的生成神经网络。
典型的生成神经网络包括输入层、编码层和输出层。对于一个人工智能企业来说,输入是人工智能的三个要素:算力、数据和算法,输出是技术和产品,编码层是企业的组织和技术方法,以及企业的人才。
在《不一样的科大讯飞,他们把计算机视觉踢进了“世界杯”一文中,我们了解到科大讯飞对人才的重视和独特的组织方式。在《科大讯飞认知智能,从场景到行业》一文中,我们窥探了这个无限扩展的神经网络的秘密——如何定义和建立对不同行业的真正理解。
这个非常广泛和深度的生成神经网络开发中的紧张来源,或许可以从创业之初的故事中探寻——在公司历史上著名的“半汤会议”上,当团队聚在一起的时候在对公司未来进行了一番讨论后,创始人刘庆峰终于做出了决定,“继续做语音,谁不愿意直接离开”,并确定了“智能语音”的战略方向。“最亮的火炬,要么最先燎原,要么最先熄灭。” 刘庆峰当年年会上的话,至今仍挂在科大讯飞大厦的墙上,激励着公司在智能语音和人工智能的道路上不走’
现在科大讯飞在这个领域已经耕耘了22年,而这个非常广泛和深度的生成神经网络发展中的张力的根源在于对爱的初衷的坚持。因为爱,我们将继续坚持22年,不改变初心;因为信念,我们愿意坐十年板凳,从源头上不断创新突破,让人工智能多项核心技术世界领先,在国际竞争中拥有话语权。权,或许这也是科大讯飞成立22年来最大的一笔财富。一路走来,他们也让世界变得更美好,引领中国人工智能产业转型。
不一样的科大讯飞,他们把计算机视觉踢进了“世界杯”
2021-11-01
科大讯飞认知智能,从现场到行业
2021-12-03
评论前必须登录!
注册