对话微软黄学东:语音语言技术是镶在AI皇冠上的明珠-亚博APP买球

企业新闻 | 2021-07-19
本文摘要:【照片来源:MicrosoftresearchBlog所有者:MicrooftresearchBlogt》按:上次和你的电脑展开有意义的对话,感觉确实能解读你,什么时候?

【照片来源:MicrosoftresearchBlog所有者:MicrooftresearchBlogt》按:上次和你的电脑展开有意义的对话,感觉确实能解读你,什么时候?微软公司技术研究员、微软公司语音组长黄学东博士做的话,你也能做到。而且,如果你知道他以前的研究超过了他所说的水平,那么这一天的到来可能比你想要的要慢。黄学东教授在播音员中讲述了他作为微软公司的最高语音技术科学家的工作内容,讲述了语音技术最近的里程碑的内部细节,讲解了控制语音识别、翻译、交流如何使机器从感觉人工智能到理解人工智能的道路,远远地回顾了语音识别、翻译、交流全文编译器如下。

主持人:黄学东喜欢回到微软公司的播客节目。黄学东:谢谢你。

亚博APP买球

主持人:你是语音集团的微软公司技术研究人员,领导微软公司的口语工作,我们几天后不会深入探讨。但是,首先,作为微软公司的最高语音科学家,请简单地告诉我们你做了什么,为什么要做。让你每天睡觉的动力是什么?黄学东:是的,我们现在做的是保证我们最差的语音技术应用于更广泛的领域。

我们之所以有团队做这件事,是因为我不仅是人类最自然的交流方式,也是我们现在面临的最艰苦的人工智能挑战。这是我们所做的。

在我们的云中,AzureServices试图确实突破,获得优秀的服务,保证微软公司的顾客和微软公司以外的顾客失望。如果你想框定整个事情,主要有三个方面。首先,我们有能力驱动语音识别的准确性,驱动准备工作的自然性,把英语翻译成中文、法语、德语时,保证翻译质量正确。

因此,许多科学家在背后确认这些准确性、自然性和潜在因素,他们是世界一流的科学家。这是第一个方面。

第二,我们不仅获得技术,还获得Azure的服务。从Office到Windows,Cortana,依靠同一个云服务。不仅如此,我们还有边缘设备,如我们的语音设备SDK。因此,我们想保证边缘设备和云端的语音技术是现代化的。

这是第二个方面。平台是现代化的。第三,我们在世界上享意。因为我们在世界上享受着普遍的顾客。

我们想让消费者高兴,想让消费者体验他们使用的语音翻译是一流的。这是我实质上主要做的三件事:提高人工智能的能力,使我们在云和边缘设备上的平台现代化,爱我们的客户。主持人:嗯。

你有很多团队在这些团队工作来解决问题。我们称之为支柱。黄学东:是的,我们在世界各地都有团队。

此外,这些团队的多样性令人难以置信,因为我们正在尝试解决语言障碍。因此,我们在中国有一个团队,、以色列、印度和美国也有一定程度的团队。

我们的工作遍布世界,试着应对这些语言的挑战。主持人:我想再提一次你的话,为我们今天的对话制定计划。语音语言技术是嵌在AI皇冠上的明珠。

让我们解释一下。黄学东:嗯,太好了。我们可以从人类进化的范畴来思考。

在某个时期,语言出现,加快了人类的进化。看看这个星球上的所有动物,就像你说的那样,很多动物比人类跑得慢,视力比人类好。主持人:牙齿也很尖锐。

黄学东:尤其是晚上。主持人:很强。

黄学东:是的。听得比人近,嗅觉比人敏感,但只有人享受语言。

我们需要很好的组织,需要用科幻小说的术语叙述,需要自己的组织,需要写宪法。看到人类的这些方面,语音和语言就不会区别我们和其他动物。对于人工智能来说,语音语言技术需要驱动人工智能的进化,就像驱动人类的进化一样。

所以是嵌入人工智能皇冠的明珠。而且还是柔软的,不能破坏。主持人:是的。

有一场关于这个话题的哲学辩论,但它引发了一些有趣的问题。如果你在机器语言上取得了相当大的顺利,那么这些机器不是什么呢?黄学东:充分发挥想象力吧。

有时,我们说计算机需要解读300种语言,需要流利的交流和对话。还没有遇到需要说三百种语言的人。此外,机器不仅需要流利的交流和对话,还需要理解、解读、自学、假设和所有科目获得博士学位。

这种科学知识的提供,假设达到了任何人的个人能力。当这一刻到来时,你可以想象人工智能不会有多聪明。主持人:这是你想象的吗?黄学东:是的。

主持人:你想这样做吗?黄学东:是的。我真的需要把这个世界变成更好的世界。几周前,我在日本,有一个装在移动设备上的微软翻译器。

我需要和一个会说中文或英语的日本人交流。微软翻译器需要说一些我会说的话。当我在日本时,它能帮助我看起来更有效。

主持人:我完全同意。想起这台机器,我有点害怕。

我们不是第一个,不是最后一个,我们只是下一个黄学东:但这种智能有两个层次。第一个水平是感觉智能,它可以看到,可以听到,可以听到。

接次,高水平的是理解智能。我们今天获得的人工智能的突破,在感觉层面,如语音识别、语音合成、计算机视觉。

但是,在高级推理小说和科学知识提供这些理解能力方面,人工智能远离人类水平。而且,最让我感动的是翻译器,是感觉智能和理解智能的东西。事实上,我们需要在感官智能的基础上取得成功,扩展到理解智能是一个非常漫长的过程。不告诉我们什么时候需要抵达那个里程碑。

但是当天就在附近,这只是时间问题。可能还有五十年,但我指出不会再发生。主持人:因为现在正在谈论里程碑,所以在别的博客上详细讨论。但是现在,我想先总结一下,在Rick·Rashid正式成立的组织和建立第一个语音组的时候,已经在微软公司的研究院工作了一段时间。

根据MSR的传说,该组的目标是使声音成为主流,请详细告诉我在MSR的声音历史。这项研究是如何从早期的不主流勇于冒险,共创未来到今天,微软公司的所有产品都经常出现的?黄学东:在我再次加入微软公司之前,我是匹兹堡CMU的教师。当时RickRashid是那里的教授,我是初级教师。

我的语音研究主要是在CMU积极开展的。后来,微软公司和我认识,他们想建立一个语音研究团队。因此,在1993年的第一天,我在新的一年假后搬到了这里。

我从匹兹堡飞到西雅图,开始了这次没有变化的旅行。这就是微软公司语音研究的开始。我们是开始为开发商带来语音技术的研究团队。

主持人:嗯。黄学东:所以…主持人:所以,还是特别深的纯理论研究黄学东:是的,不是特别深的纯理论研究。我们从CMU获得技术许可,我们就是这样开始的。

我们非常感谢CMU在这个领域的开拓性研究。我们是研究团队,在Windows95发表了第一个语音API、sAPI。

作为研究团队,我们非常自豪,因为一般的研究只是开展特别深入的纯理论研究。我们不仅开展了特别深入的纯理论研究,之后挑战无限大,之后提高了解的准确性,我们还与Windows合作,为Windows开发dows开发者。SAPI是业界首个基于Windows的语音API。

主持人:哇!黄学东:这是一个非常长的过程。接着,我带着我的团队最后离开研究部门,重新加入了产品组。我带着团队去了产品团队,和我同行的是优秀的微软公司语音研究团队。这是我在微软公司27年的精彩经历。

2004年,在我们发布语音服务器后,我暂停了语音研究,我开始做很多事情,包括开始研究产卵。Satya、Nadella运营Bing的时候,我兼任过建筑师。并且,在Harry管理研究和技术团队的那时候,我协助产PU集团、Projectophilly、深度自学工具包CNTK等一系列人工智能项目。

大约三年前,我幸运地回去管理了融合语音和语言的团队。基本上,我们需要整合所有的语音和翻译资源。

这就是我的故事,我的经验,精彩的27年。主持人:现在语音语言研究在哪里展开?黄学东:正如我所说,我们在研究组和产品组之间多次往返。现在我们在云端和人工智能团队,这是一个产品团队。

我们是这些云服务的一部分,获得了整个公司和整个行业的语音翻译。我们也开展语音和对话研究,像他们运营的研究小组一样。黄学东:他们都是那个小组的研究人员。

就像Rick说的那样,科学研究的成果必须由各部门来改变。在我们的微软公司,已经在一定程度上各部门紧密合作,我们是整体。主持人:研究模式仍有前瞻性..黄学东:前瞻性和充分依据。我们需要脚踏实地地获得服务,从基础设施到服务成本,站在低处展望未来,定义人们需要的解决问题的方法是什么,现在这个解决问题的方法可能不存在,也可能不告诉他们什么。

主持人:让我们明确谈谈你前面提到的研究里程碑。这应该不太有趣。你刚涉及三个领域:对话语音识别、机械翻译和对话解释。

让我们从对话语音识别开始。2016年,你领导了一个团队,在抄写对话的声音上超过了与人类匹敌的历史水平。让我们谈谈。那是什么部分,是怎么产生的?黄学东:2016年,我们在交换机会话的mRNA任务中超过了与人类匹敌的水平。

这项任务可能在研究界和工业界已经用了十多年。2017年,我们新定义了这个里程碑,必须超过与人类匹敌的水平。在mRNA任务中,我们不是很容易和一个人竞争,而是和一群人竞争。

亚博APP买球英超首选

2017年是历史性的时刻。将微软公司的语音堆栈栈和各组的人,mRNA完全相同的任务,其表现比这四组的总和高。当我用它挑战我们的研究组时,没有人想起它可能会失败。

但令人惊讶的是,近两年来,我们有信念,有资源,有焦点时,奇迹再次发生。这对团队来说,对科学和技术堆栈来说。

这是我个人职业生涯中第一个需要与人类匹敌的里程碑。主持人:我想研究这个领域,你刚说的很有趣。两年来,没有人相信这件事需要构筑,但你们最后顺利了。

请分享更多关于如何建立语音mRNA人类水平的技术水平。黄学东:所以,调查语音研究的历史,可以找到很多被后代重复使用的突破性成果是我们的语音研究组首次。

以翻译为例,在上世纪70年代初,即使在语音研究领域,语音识别也更多地用于传统的教育AI。例如,基于规则的方法、专家系统等。IBMWatson在研究中首次明确提出统计数据语音识别方法,用于隐马尔可夫模型和统计数据语言模型构建语音识别,大大推进了该领域的发展。

因此,这也成为语音领域的亮点时刻。之后,来自IBM的语言研究组的研究者们将语音识别所使用的想法应用于翻译,确实实提高了翻译质量,重写了历史!隐马尔可夫模型后,语音识别领域开始用于深度自学方法,即神经语音识别。因此,翻译成再次吸收神经语音识别的想法,开始用于神经机械翻译的方法,使整个翻译成领域再次取得进展。因此,可以看到其他领域利用语音领域研究者最初的技术镜像。

实质上,语音领域的研究者们仍在引导技术的开拓性进展。例如,众所周知的DARPA创立的系统基础测试使用了非常严格的评价标准,确实改变了科学和工程的评价方式。主持人:是的。黄学东:实质上,语音语言技术给语音以外的领域带来了广泛应用的经验。

因此,我们仍在训练研究团队来处理困难的问题。显然,我们的同一个研究团队建立了这些历史里程碑也不足为奇。

主持人:好吧,接下来,让我们来谈谈另一个里程碑:在2017年,中英新闻将自动翻译成任务中的人类水平。对此,我在采访节目中与ArulMenezes闲谈。这个成就的一切。但是,我们来理解一下现在的机械翻译和传统的人工翻译相当吗?而且,为什么这个成果对于超越人类和文化之间的障碍来说是最重要的突破性进展呢?黄学东:我的研究团队第二次取得人类水平建设的突破性成果也令人兴奋。

正如我所说,交换台不会发出声音,mRNA是最好的里程碑。但是,明显处于非常低级的水平,也就是说处于感官AI的水平。翻译成果是感官、AI、理解、AI之间的任务。当然,翻译是更有趣的任务,没有人相信我们需要取得这样的成果。

因此,我们设定了5年内能否将机器在句子水平的基础上翻译为任务构筑人类水平的目标。所以我也想在这里分享这个故事。

人类如你我翻译的时候,我们不去看句子的整个段落,有更广阔的上下文境界,我们的翻译工作也更好。与普遍意义上的翻译相比,WMT允许人类的水平。因为那只是为了翻译句子级的新闻。主持人:嗯,嗯。

黄学东:因此,我们积极开展的只是普遍对外开放的研究-公共基准测试。即使如此,我们也指出可能需要五年时间。因此,我们使用了一定程度的原则:基于交换台语音识别mRNA的成果,积极开展研究。

但实质上这次,我们打破了这一步。由于任务是将中文翻译成英文,我们与微软在北京的研究团队合作。因此,跨越太平洋的许多微软公司亚洲研究院团队在几天晚上进行了合作研究。

令人惊讶的是,这些研究者给所有人带来了惊讶。我们在近一年内构筑了这个目标,使机器翻译构筑了人类水平。

这也是机器构筑的历史最佳翻译水平,同时经过我们科学家的评价,比专业翻译人员在同一任务上的表现更出色。这一刻,我们知道建设有奇迹。

我非常自豪这个研究团队和这次合作。主持人:我想谈谈你的另一个有趣的研究成果。

也就是说,你被称为COQA的解说数据挑战比赛。很明显,我们谈论的是需要和我们说话的计算机。

请分享这项语音识别技术中最像人类或可玩性的任务。接下来要积极开展的工作是什么黄学东:COQA解说数据挑战赛是斯坦福大学研究人员首次开始的比赛,与理解的AI更相似,实质上是包括不会话、会话、相关任务的机器读者任务。假设在读者的某个文字中,让读者挑战正确的问题。

例如,如果读者写了比尔盖茨的文字,第一个问题是谁是微软公司的创立者?第二个问题与第一个问题无关。这个人创办微软公司时的年龄是多少?之后的问题可能是这个人退休的时候,他的年龄是多少?因此,上下文的关联性不如非常简单的机器读者。因为我们必须问一系列与等价相关的问题。

因此,关于这个最近的突破,我必须重点向在北京研究实验室的同事们传达赞许。同时,我们还在利用共享的资源和基础设施,积极开展这项开创性的研究,知道很有趣。

同时,我们完成了难以置信的对话解说挑战的灵活性和速度,给人留下了印象。其中的主力研究者现在在北京,他们也在协助微软公司再次在这个不受关注的AI任务中首次构筑人类水平,发挥着最重要的支柱作用。没有人相信有人需要在这样短的时间内在传统的QA任务中构筑人类水平。

因此,我们最初预计这个目标需要两年时间,最后再次超过了历史记录。主持人:我们已经谈到了关于你积极开展的研究和如何积极开展的偏差技术的话题。

如何积极开展与研究有关的工作,还有其他攻击这项QA工作的方法论和技术吗?黄学东:微软公司在AI领域已经积累了约30年的研究经验,不是吗?微软公司在北京的自然语言研究组过去20年间,仍在研究QA工作,在文化基础上有很多先天优势的同时,积累了很多经验。同时,我们基本上用于深度自学和入学,完成了QA任务。因此,我们的顺利是基于整个研究领域的成果。主持人:嗯,嗯。

黄学东:例如,谷歌发表了特别篮球的技术BERT。主持人:BERT是简单的文字吗?黄学东:字母简单,是映射技术。我们的研究成果以该技术为基础扩展,我们的顺利也有其功劳。这也是我们需要获得机器翻译建立人类水平的突破方法。

主持人:嗯,嗯。黄学东:这只是整个研究领域的光盘。我刚说的微软公司亚洲研究院团队与美国团队合作,实质上可以说是整个行业合作的例子。(听音乐)主持人:你在节目中描绘给我们的东西很兴奋。

一切都朝着正确的方向发展后,如果顺利的话,我们必须解决问题。黄学东:是的。主持人:计算机需要听、听、说、翻译、问题和最基本的地方。

有什么让你感情深刻的事情吗?黄学东:几乎有。实质上,我的担心是,将来的某一天人类不太依赖AI。

但是,AI总有一天看起来不完美,没有一系列独特的种族主义。因此,我非常担心这个人类无法察觉的影响。主持人:赞成。

黄学东:因此,如何应对这个忧虑,实质上是我们必须意识到解决问题的普遍社会议题。正如我们们每个人一样,一旦我们有一个助手,我们几乎需要知道助手给我们带来的影响有多大:他不会改变你的议程,甚至改变你的观点。

AI有一天不会发挥和助手完全一样的作用。我现在最担心的要数是如何解决问题的AI种族主义问题。

主持人:是的。黄学东:如果一切顺利发展,这个问题确实成为我们必须应对的最重要的问题。

我们要学会解决问题。现在我们还没有告诉我们如何解决这个问题,因为我们还在那个步骤。

主持人:因此,当你建立这些需要说话、听话和聊天的工具时,你将引进设计思维,因为最重要的事情之一是人类有能力将人类的质量转移到非人类的事物中...黄学东:我不能相信,现在研究人工智能大会的研究足够的责任感。好消息是,我们现在还在那个步骤,不是吗?因此,我们有时间共同应对这个挑战,相信AI不会向服务人类而是向吞噬人类的方向发展。

这是现在仅次于的担心…主持人:是的。黄学东…这也是现在让我保持精神状态的问题。但是,我的短期担心,AI还不错!至少现在太好了!主持人:理解。

黄学东:正如比尔盖茨经常提到的那样,人们总是低估我们在短期内能做的事情,高估这些事情对未来的影响。在这件事上,我们不能高估其未来的影响。主持人:是的。

黄学东:未来的里程碑。主持人:理解。接下来是故事的时间。

黄学东:嗯,不俗!主持人:你能分享你个人的故事吗?你对语音和语言技术领域的研究感兴趣吗?你能分享加入微软公司的历史吗?黄学东:太好了。我毕业于北京的清华大学,当时我的第一台电脑是苹果2。也许中文语言很难输出到电脑上,所以输出过程非常复杂。因此,我相信建立语音识别是合适的。

当时,作为清华的研究生,梦想只是在AI领域进行研究。同时,清华研究生院的AI主持人:是的。

黄学东…莫名其妙地聚集了很多教授和科学教师,他们有未来的看法,为我们构筑了开拓性的探索和实验环境。因此,我在这里完成了博士学位。自1982年入学清华以来,我再次加入了一个博士项目,研究语音识别。

人类确实和机器交流看起来更简单的梦想,在我的世界里没有消失。到目前为止,我在语音识别方面的研究生涯已经达到了30多个春秋。

即使在微软公司工作的短期内,我也停止了语音研究,但我专门从事的研究仍然与语音有关。所以,我心里指出这是我和语音研究之间非常感人的故事。我个人也在这个过程中有很多有趣的经验。正如我刚提到的那样,在清华大学上学的时候,用中文在电脑上点字是很无能为力的,所以在清华博士毕业后,去了苏格兰的爱丁堡大学进修。

主持人:理解。黄学东…在那里取得博士学位。第一次进入爱丁堡大学的时候,我个人非常痛苦的只是英语的不存在。

因为中国的英语大部分是美国的英语。但是,因为英语不是我的母语,所以对我来说好吃。然后听苏格兰教授的课…主持人:啊,天啊黄学东…我知道很有挑战性。

但是,感谢BBC开始了字幕。主持人:很有趣。

黄学东:所以我通过看BBC确实学习了苏格兰英语。而且,我需要提到的是,现在微软公司的PPT可以用于自动显示字幕的技术。那个个人的痛苦经验在微软公司的PPT团队开发这个产品时考虑到的各种功能都很有魅力,同时也是我个人的好报酬。

主持人:是的。黄学东:我很高兴看到我研究的技术成果,需要帮助去苏格兰大学的人。主持人:Arul以前也谈过关于PPT。

黄学东:是的。主持人…的服务同时,他也提到了听力障碍者。黄学东:嗯,嗯。

主持人:现在你表现出新的(意义)…黄学东:更普遍…主持人:几乎!黄学东…因为语言障碍还不存在,所以不是每个人都能流利地用语言表达。我曾经宴请过很多旅行者,基本上每年都会宴请清华大学的MBA学生,他们也自学英语,但他们听英语和用于英语交流的能力基本上不能和这里的当地人相比。因此,在PPT软件中获得字幕功能需要协助所有人。

亚博APP买球英超首选

主持人:是的。黄学东…更好的自学和解读英语。

因此,即使没有翻译,这个功能的应用也很普遍。这是一个非常简单的事实:如果我们有字幕,我们可以加强交流。主持人:显然。

我们以前谈过不同的语言和方言,但我们还没有确实探索过语言的口音问题。在美国,即使是美国的当地人,去美国的各个地方也有可能遇到很多无法解读的时候,这是因为各个地方的口音大不相同。

黄学东:所以我的苏格兰英语不会成为好故事!我期待着苏格兰的口音。主持人:我听到你苏格兰的口音!每次博客的最后,我都会对邀请客人说最后一句话。因为你在人类语音技术领域专门研究,所以这句话很适合你说。

现在,有机会向有可能让计算机构建立和人类交流的听众说想说的话。他们应该从哪里研究?黄学东:研究语音和语言!确实是嵌在AI皇冠上的明珠。在我看来,AI领域没有比语音和语言研究更具挑战性的任务。

特别是想让感官AI发展到理解AI的时候,更是如此。让机器获得推理小说、理解能力,通过读者、交流获得科学知识,是提高人类生活、提高人类生产效率、使世界具有语言、交流和解读障碍的最基本的研究领域。

主持人:谢谢你今天邀请我们的博客节目。你分享给我们的都知道很棒。

黄学东:我的荣幸。(公共编号:)记录:本文编译器允许从Microsoftresearchblog版权文章中发布禁令。

下一篇文章发表了注意事项。


本文关键词:亚博APP买球,亚博APP买球英超首选,亚博APP买球首选

本文来源:亚博APP买球-www.driverbests.com