改动和再行公布。Kaldi这个命名源于传说中第一个找到咖啡的人,以此名为目的获取一个像咖啡一样灵活性便利、风行的语音辨识工具包,便利开发人员用于。Kaldi项目在过去的6、7年中早已有约150多名有所不同的贡献人,在主干版本外还有8个分支,2000多个注目者,还有很多人用于该项目所做到的工具,以及一个很活跃的邮件列表。下载量早已多达两万多次,论文The Kaldi Speech Recognition Toolkit被提到次数低约一千七百多次。
Kaldi是C++撰写的一系列资料库,命令行工具,以及一些搭起特定语音识别系统的脚本,这些程序告诉他大家在特定的情况下要怎么做,比如你有很多来自很远地区的语音材料,或是各种语言夹杂的语音材料。Kaldi在学术界和工业界也被普遍使用:MIT,CMU,微软公司、谷歌等都有在用Kaldi做到研究工作。Kaldi主干版本是由Dan Povey博士确保。
随着语音辨识技术的不断进步,Kaldi工具也在高效地维持改版:从高斯模型到应用于神经网络,获取资源短缺条件下的语音辨识解决方案,反对GPU训练,从近场辨识扩展到远场辨识,反对训练数据来自多风格和多设备源,效率和性能更高的Chain Model,训练过程重新加入对付自学。此外也有更加多的研究人员和开发者在Kaldi的基础上展开新技术的探寻和改良。针对大数据量情况下训练速度优化问题,Kaldi使用的是多GPU数据分段策略。一方面,用于大自然梯度(NG-SGD)代替常规梯度以加快当前训练目标函数上升速率;另一方面,GPU分享模型参数同时计算出来适当batch数据,而后统计资料梯度并改版分享参数。
对于一个语音识别系统来说,发音人的口音,语速有所不同;发音人所处场景千变万化,一般来说预示着各式各样的噪声;音频收集的硬件设备和编码格式的不统一。这三个因素使语音识别系统在实际用于时面对着极大挑战。研发出有一套对各种不确定性仍然有效地的识别系统,就出了语音辨识技术的终极目标。此亦为美国国家情报高级研究计划局所举行的ASpIRE竞赛所执着的目标。
在2015 IARPA举行的ASpIRE比赛上,Kaldi获得了第一名的成绩。在此次竞赛中,Kaldi用于的黑科技主要有:1. 用于了下取样的TDNN网络,更加高效且有可能用于更好的上下文信息。
2. 数据预处理,融合现实远场环境的冲击号召和噪音情况对训练数据做到转换以仿真各种远场场景。3. 用于i-vector特征,在TRAP特征外重新加入对说出人和环境萃取的i-vector特征。
Chain Model的启发源于CTC训练方法,我们新的设计了状态和HMM移往的流形结构(hmm状态数从3或5再降1,实际还有一个用作磁矩可反复0次或多次的空白状态),减少了帧亲率(从100Hz再降33Hz), 相同了hmm移往概率。另外传统的SDT(序列区分性训练方法)必须再行用于交叉熵目标函数训练一个初始模型,然后在此模型上分解lattice,lattice中包括了准确路径和概率上较高的其他路径,以此计算出来互信息和梯度展开偏移传播。Kaldi中的Chain Model是一种Lattice Free的训练方法,它在网络输入层计算出来了所有有可能标示序列的后验概率并以此必要计算出来MMI和梯度。
实验结果表明,比起传统的TDNN模型,Chain Model(LF-MMI)+TDNN模型在解码速度和准确率上都有显著提高。Chain Model(LF-MMI) 比起传统TDNN+sMBR(最小化状态错误率)在解码时字错误率减少了6%-11%,训练速度提高5-10倍,解码速度提高3倍。
另外,实验指出对Chain Model(LF-MMI)训练后生产量的模型基础上再行展开一次序列区分性训练(sMBR)带给的获取并不大。数据:对话式AI与数据的关系Antoine Raux博士是Facebook前研发科学家,对话式AI创业公司CTO及牵头创始人。他指出,当前在对话式AI发展过程中,数据非常短缺,充裕有效地的数据需要很大程度地协助解决问题对话式AI发展过程中的一些挑战。所以说道数据是至关重要的,有如下两个问题是我们必须思维的: 1)有哪些需要用于的数据 2)在对话数据搜集当中,什么样的设计是合理的。
例如右图是一个典型的对话式AI系统,数据经过这些子系统,最后给用户对系统输入: 首先,用户的语音通过自动语音辨识(Automatic Speech Recognition,ASR)辨识为文本数据,经过自然语言解读(Natural Language Understanding,NLU)模块处置沦为NLU结果(intent+slots 的结果,即 PPT 中的 intent frame)。再行在对话状态追踪(Dialogue State Tracking,DST)模块,该模块根据多轮的NLU辨识结果以及整个对话过程中的历史数据改版当前对话状态(dialogue state),然后经过 Policy 模块输入intent frame。
intent frame被自然语言分解(Natural Language Generation,NLG)模块转化成为文本,最后通过语音合成(Text To Speech,TTS)模块转换成语音主播给用户。这里面有很多数据,其中从audio、到text、到intent frame、再行到dialogue state,所需的数据量是渐渐增加的,但是每个任务的特殊性是渐渐减少的。左手边你有大量的数据,这些数据不是针对特定任务的,到了中间的时候,数据增加了,并且对任务更加有针对性。下面的报告内容不会分成如下三个部分,首先不会谈数据搜集方面的问题,其次不会谈数据标示的问题,最后举例一些Antonie参予过的实例,也代表了领域近期的一些工作。
首先,来说下数据搜集的涉及问题。你要要求必须用于什么类型的数据,是不是静态语料库,就是你创建一个语料库然后展开用于和发给,还是说道要限于现场对话,即让别人用于你想测试的系统,必须现实的人和系统展开交互。首先,对于静态语料来说,具备如下4个优点:• 可以建构大型的语料• 可以分享• 便利对比数据分析• 通过重复使用,降低成本但是受限于数据搜集的策略,静态语料有一定的局限性,你无法探寻数据之外的对话方式。
再行来谈谈在线交互的优点:• 可以测试有所不同的Policy,探寻新的Policy,以及通过对系统做到A/B test(这一点静态语料是无法做的)• 数据分布更为相似现实用户但是在线交互数据搜集一起非常便宜,不会花费大量的时间和金钱,并且很难提供大量数据。搜集的对话数据可以分成2种类型:• 一种是人和人的交互• 一种是人和机器的交互首先说道下人与人交互特点:• 交互更为大自然、没容许• 不必须建构一个系统• 某些场景,有数现成数据,例如客服系统,不会有电话录音• 可以模拟系统,即一个人扮演着系统,一个人扮演着用户但是人人对话的问题是无法应用于的,因为这些对话是开放式的,而且十分大自然,相比有一定掌控范围的数据更加无以用于。
这类数据也不会跟你要做到的应用于相去甚远。再行谈谈嵌入式的特点:• 相似实际应用于• 搜集一起成本低但是必须建构一个系统,系统能力的优劣也影响到数据的搜集质量。由于系统能力的受限,很难探寻新的特性。如果你要用户的对话录音,不管是用作语料库还是在线交互,有两种用户可以自由选择:一个是实际用户:更为解决问题实际应用于,需要产生好的未预料到的输出数据;缺点:搜集一起非常便宜,不会花费大量的时间和金钱。
另一个是仿真用户:需要生产大量的数据,需要大大地测试有所不同的策略,以便挑选拟合的号召给用户,搜集一起成本低,会花费大量的时间和金钱;缺点:和实际用户的不道德有偏差,有些情况可能会偏差相当大,同时研发一个好的仿真用户也很难。【注解:参照文章 LEARNING END-TO-END GOAL-ORIENTED DIALOG Antoine Bordes, Y-Lan BoureauJason Weston】这是Facebook在2017年公开发表的论文,其中对语料库的方式展开了评估:文章中的数据集分成3类: 一类就是指模板中分解的语料;一类是雇用人员和系统对话分解的语料;最后一类是人和人对话的语料。从实验结果可以显现出,在分解的对话数据中效果很好,效果也有60%到100%,但是在人机对话的数据中,效果上升一半,到了41.1%,而在人和人对话的语料中,效果更进一步折扣,才到16.7%。
所以在分解对话方面的成果并无法确保简单案例的顺利。该实验效果也印证了之前的分析结论:1)静态语料受限于数据搜集的策略,有一定的局限性,你看到不出数据中的效果;和实际用户数据不会有偏差; 2)人和人数据无法在实际应用于中用于,因为过于对外开放,过于大自然,无法对数据展开掌控;数据与最后应用于的差异较为大。接下来,我们再行来想到实际用户和雇用人员的区别实际用户:• 相似实际应用于• 享有大量潜在的用户难题• 必须生产并确保有竞争力的产品• 具备潜在的隐私考虑到• 没有效地的对系统信号,无法告诉一个对话否顺利雇用人员:• 合适在产品初期用于(即产品公布用于之前)• 需要容许试探未成熟有风险的策略(需要损害用户体验,因为不是实际用户)• 没隐私考虑到(所以百度才不会想通过众筹的方式来分解数据,而不是用于消费者的信息,因为这些信息是无法发给的。)缺点• 和实际用户不道德有差异• 用户量受限制,必须使用众包说到现实和召募用户的差异,我想要说一说2010年CMU的这篇论文,他们的组织了一个比赛,让其他大学与他们学校现有的系统交换,每天有现实用户打电话来告知巴士时刻表信息,他们让其他大学的系统与自己的系统交换,已完成某种程度的任务,但是系统是几乎不一样的,他们利用现实用户来已完成比赛。
这竟然我们有机会较为实验室的召募用户数据与后来的现实用户数据。【录:参照文章 Spoken Dialog Challenge 2010: Comparison of Live and Control Test Results 】左上角是语音辨识测试,在实验中有三个有所不同的系统,系统1就是CMU的基准系统,系统3是学界顶尖研究人员创建的系统,系统4是业界的一个参赛团队做到的,可以看见三个系统从实验室召募用户数据(control 组)并转到现实用户数据(live 组)后错词亲率(WER)下降。
系统3的展现出显著上升,对话成功率从90%降至65%,而系统4没明显上升。系统4更加针对商业应用于,所以更加慎重,而不执着花哨,而系统3运用了先进设备的增强自学等技术,这些技术在明晰的语料环境下运作较好,但在现实用户数据下显著质量下降。另外一个涉及的问题,大家可以看下方的图表,左边是control 组,右边是 live 组。
在control 组,最上方的系统3,即使ASR准确率很低,它的展现出也没过于大的上升,也就是说他们需要利用对话技术来补偿较好的ESR展现出。但是在live 组,所有系统对付 ASR 准确率的能力都差不多,随着 ASR 准确率的上升,实时有显著上升。
在数据分布有所不同的情况下(即实验室召募用户数据(control 组)并转到现实用户数据(live 组)的差异),系统对于 ASR 准确率的容错能力也消失了。另外有一篇2007年的文章,也通过实验数据说明了雇用人员和实际用户的不道德差异。
在左边这个图中,表明了对话长度、每轮长度等,可以显现出雇用人员一般来说不会使用更加简单更长的传达。他们的系统中还有一个是/否按键或问功能,在问某些问题是用户只需按是或是否,或者问是或是否才可,但在实验室状态下,完全没用户用于是/否功能,他们更加偏向于不时地说出,但现实用户只要一有机会就立刻转换到是/否模式。
“必须协助”功能的差异更加显著,实验室用户完全从不要协助,而现实用户则十分频密地谋求协助。所以说道雇用人员和实际用户的不道德还是有不少差异的,对于数据搜集来说,实际用户的数据是必不可少的部分。
接下来的内容是关于数据标示的问题数据标示方面的问题就是,在你获得了数据之后,要如何处置呢。一个作法是释放出原始数据,还包括音频或拉丁化后的文本,或者两者一起释放出,这就是对话最更容易被吸取的一面,你不必须坚决某一个分类系统或者某一个会话或语言学派,只要释放出数据,大家都会表示同意音频中的词语是什么。但是必要从文本做到末端到末端自学很艰难,必须十分大量的数据。
【录 :Non e2e approaches rely on own annotation(这个没听得明白)】另一方面,你可以获取统一的标示,但是必须解决问题很多的语言评估问题、形式标准化等问题,让大家在有所不同的数据集中于用于完全相同的标示,这就必须用于明确的理论。自由选择什么样的标示体系(还包括有哪些intent 和 slots等),比一般预期花上的时间精力都要多。标示对话状态是很艰难的事情,首先必需定义确切对话状态有哪些包含,其次对于人工标示来说,很难有统一的标准去标示。在DSTC 中,在标示对话状态时出有了问题,在标示NLU时很不明晰,因为各个系统用于的分类方法有所不同,某个特定的间隙值也没统一标准,所以被迫通过众筹,告知工作人员某个特定的NLU假设否准确。
最后没做每一轮的参照标签标示,而是确认哪个NLU假设是准确的,然后用这个结果再行估算对话状态。接下来,辩论下目前的一些对话数据计划首先是,第一界对话状态追踪挑战,搜集了之前的对话数据集,还包括匹兹堡公交乘客的电话记录,一共A,B,C三种有所不同的对话系统用户数据搜集。数据集中于还包括系统和用户的对话,以及 slot 和 dialog state 的标示。
其中 NLU 的输入是一个slots 的 nbest列表, dialog state则是 slots 上的概率分布估算。最后托一下现有的几个倡议,大家有可能也早已听闻过一些了。CMU现在有一个项目,是对于刚说到的竞赛的沿袭,他们的方式是向学界的一些对话系统获取一个统一的界面,你可以去他们的网站跟他们的系统聊天,这个系统融合了学界的很多系统。
如果你是实验室,可以把你的系统加进去,并提供用户与系统聊天的数据。还有一个亚马逊的组织的竞赛,是针对创建聊天系统的,可以跟你展开25分钟的闲谈,不会有很多团队相互竞争,普通的Alexa用户可以去尝试一下,这是用现实用户的开放式竞赛。现在正在展开决赛,期望需要看见亚马逊竞赛的结果。另一个项目是来自Facebook的,是针对对话共享很多数据集,报告说到的第一篇论文就是通过这个项目发给的数据集,你还可以让别人用于你的系统,来看一看系统质量如何。
这些项目的有意思之处是,很多项目更加注目现场对话,其中的几个项目让现实用户与系统对话,而不是用于语料库,还有一些项目侧重于数据读取和发给的标准化,还有一些用于仿真任务。最后Antoine Raux博士对报告展开了总结:对话系统是个十分复杂的任务,必须各种各样的数据集。研究者和参予人员在设计语料搜集时,必须留意作好权衡。
最近的趋势是积极开展在线交互的方式搜集数据,而某种程度是相同的语料。正如百度度秘事业部总经理景鲲所说,AI操作系统必须大大自学和演化,数据越少就就越智能。百度DuerOS普罗米修斯计划公布的三个大型数据集不仅可以有效地唤起、希望杰出的对话式AI人才及项目,更加将推展该领域的产-学-研同步发展,推展智能语音的落地与应用于。
AI的变革由每一组数据填充而出,AI的未来也孕育出在这些数据及其背后的大大自学之中。原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:Kaiyun·yunkai(中国)官方网站-www.xyhmys.com
Copyright © 2007-2024 www.xyhmys.com. Kaiyun·yunkai(中国)官方网站科技 版权所有备案号:ICP备71043881号-8