宣威市化工机械网

当前的位置是:主页 >> 化工设备

深度学习网络更喜欢人类的声音就像我们一样

时间:2021-08-18 来源网站:宣威市化工机械网

深度学习网络更喜欢人类的声音,就像我们一样

数字革命建立在看不见的1和0(称为位)的基础上。随着几十年的过去,世界上越来越多的信息和知识演变成1和0的流,人们很少质疑计算机更喜欢以二进制数字“说话”的观点。根据Columbia Engineering的最新研究,这种情况可能会改变中国机械网okmao.com。

机械工程教授Hod Lipson和他的博士进行了一项新研究。学生Boyuan Chen证明,如果使用人类语言的声音文件(而不是数字数据标签)对人工智能系统进行编程,则人工智能系统实际上可能会达到更高的性能水平。研究人员发现,与另一个以传统方式进行编程的网络相比,通过并排比较,一个由“声音标签”组成的“训练标签”的神经网络在识别图像中的对象方面达到了更高的性能水平,使用简单的二进制输入。

利普森,詹姆斯和萨利·斯卡帕(Sally Scapa)的创新教授,哥伦比亚大学数据科学研究所的成员说:“要了解这一发现为什么很重要,了解神经网络通常是如何编程的,以及为什么要使用人的声音是很有用的。是一项彻底的实验。”

当用于传达信息时,二进制数字的语言紧凑而精确。相比之下,口语更具有音调和类比,并且在数字文件中捕获时,是非二进制的。由于数字是一种数字化数据的有效方式,因此程序员在开发神经网络时很少会偏离数字驱动的过程。

备受推崇的机器人家立普森(Lipson)和前音乐会钢琴演奏家陈(Chen)直觉,神经网络可能无法发挥其全部潜能。他们推测,例如,通过使用世界上发展最快的声音之一的力量-人类的声音说出特定的单词,对神经系统进行“训练”以识别动物,神经网络可能会学习得更快,更好。

AI研究人员用来测试一种新的机器学习技术的优点的一种较常见的练习是训练一个神经网络,以识别一系列不同照片中的特定物体和动物。为了检验他们的假设,Chen,Lipson和两个学生Yu Li和Sunand Raghupathi建立了一个对照实验。他们创建了两个新的神经网络,目的是训练它们以识别50,000张照片的集合中的10种不同类型的物体,这些照片被称为“训练图像”。

通过上载包含数千行的巨型数据表来对一个AI系统进行传统方式的训练,每行对应一张训练照片。第一列是一个图像文件,其中包含特定物体或动物的照片;接下来的10列对应于10种可能的对象类型:猫,狗,飞机等。任何一列中的“ 1”表示正确答案,而9个0表示错误答案。

该团队以一种全新的方式建立了实验神经网络。他们向其提供了一个数据表,该表的行包含动物或物体的照片,第二列包含已录制的人类语音的音频文件,实际上是大声为所描绘的动物或物体的单词发声。没有1和0。

一旦两个神经网络都准备就绪,Chen,Li和Raghupathi将这两个AI系统训练了总共15个小时,然后比较了它们各自的性能。当显示图像时,原始网络将答案按一系列的10个1和0分发出去-就像经过训练的那样。然而,实验神经网络产生了清晰可辨的声音,试图“说出”图像中的物体是什么。最初,声音只是乱码。有时,它是多个类别的混淆,例如猫和狗的“齿轮”。最终,声音虽然大部分都是正确的,尽管带有一种怪异的外来音调(请参见网站上的示例)。

起初,研究人员惊讶地发现他们的预感是正确的-1和0没有明显的优势。对照神经网络和实验神经网络均表现出色,大约92%的时间正确识别了照片中描绘的动物或物体。为了再次检查他们的结果,研究人员再次进行了实验并获得了相同的结果。

然而,他们接下来发现的结果更加令人惊讶。为了进一步探索使用声音作为训练工具的局限性,研究人员进行了另一项并排比较,这次是在训练过程中使用少得多的照片。虽然第一轮训练涉及馈送包含50,000张训练图像的两个神经网络数据表,但第二个实验中的两个系统仅馈送了少得多的训练照片,每张仅提供2500张。

在AI研究中众所周知,当训练数据稀疏时,大多数神经网络的性能都较差,在此实验中,传统的,经过数字训练的网络也不例外。它识别照片中出现的单个动物的能力下降了约35%。相比之下,尽管也用相同数量的照片训练了实验神经网络,但其性能却提高了一倍,准确率仅下降到70%。

对此,利普森(Lipson)和他的学生们很感兴趣,他们决定在另一个经典的AI图像识别挑战(图像歧义)上测试他们的语音驱动训练方法。这次他们又进行了一次并排比较,但通过使用更加困难的照片将游戏提升了一个档次,这些照片对于AI系统来说很难“理解”。例如,一张训练照片描绘的是狗或猫的颜色略有损坏的图像。当他们比较结果时,即使使用更具挑战性的照片,经过语音训练的神经网络在大约50%的时间内仍然是正确的,胜过陷入困境的经过数字训练的网络,仅达到20%的准确性。

具有讽刺意味的是,当研究人员首次尝试与计算机科学领域的同事分享他们的发现时,他们的结果直接与现状背道而驰的事实变得具有挑战性。“我们的发现与培训过多少专家来思考计算机和数字直接相反;这是一个普遍的假设,即二进制输入比具有类似信息”丰富度”的音频流更有效地将信息传递到机器。”该研究的首席研究员陈伯元。“实际上,当我们将这项研究提交给一个大型AI会议时,一位匿名审稿人拒绝了我们的论文,只是因为他们认为我们的结果只是'太令人惊讶和不直观'。”

但是,在更广泛的信息理论环境中考虑时,Lipson和Chen的假设实际上支持了一个古老得多的具有里程碑意义的假设,该假设最初是由信息理论之父克劳德·香农(Claude Shannon)提出的。根据Shannon的理论,最有效的通信“信号”的特征是具有最佳数量的位,与最佳数量的有用信息或“惊奇”配对。

“如果考虑到人类语言已经经历了数万年的优化过程这一事实,那么说我们的话语已经在噪声和信号之间找到了很好的平衡是很有意义的;” 利普森观察到。“因此,从香农熵的角度来看,用人类语言训练的神经网络要胜过简单的1和0训练的神经网络,这是有道理的。”

这项研究将在2021年5月3日举行的国际学习代表大会会议上进行,是Lipson哥伦比亚创新机器实验室所做的更广泛努力的一部分,目的是创造可以通过与其他机器和人类互动来理解周围世界的机器人,而不是直接使用经过仔细预处理的数据进行编程。

Chen说:“我们应该考虑使用新颖,更好的方法来训练AI系统,而不是收集更大的数据集。” “如果我们重新考虑如何将训练数据呈现给机器,那么我们可以做得更好。”

关于人工智能的计算机科学研究的令人耳目一新的结果之一是出乎意料的副作用:通过探究机器的学习方式,有时研究人员偶然发现了对其他完善领域的巨大挑战的全新见解。

利普森说:“人类进化的最大奥秘之一是我们的祖先如何获得语言,以及孩子们如何轻松地学习说话。” “如果人类幼儿通过反复的口语指导学习得最好,那么也许人工智能系统也可以。”