深度学习之父Hinton下一代神经网络

作者 | 青暮、陈大鑫

SIGIR是一个展示信息检索领域中各种新技术和新成果的重要国际论坛,若非疫情影响,今年本定于中国西安市举行。7月25日-7月30日,第43届SIGIR2020在线上举行。

比斯卡拉总统表示,现阶段,疫情尚未结束,在等待疫苗上市并普及的的同时,民众不应放松警惕,应佩戴口罩、勤洗手,以及保持一定的社交距离,承担起相应的社会责任。

在2006年,Salakhutdinov和我提出了一种训练深度自编码器的新方法,即堆叠多个浅层自编码器。

9月6日下午,北京交警发布“随手拍”首月运行情况,经筛查审核,市民举报线索中符合证据标准的5.3万起交通违法线索,已依法录入非现场执法系统。据交管部门统计,市民举报的交通违法线索中,涉及“违法占用应急车道、公交车道、非机动车道、导流带”“加塞并线”“违反禁限行规定”“遮挡机动车号牌”“主干道主路违法停车”“机动车道双排违法停车”“占用盲道、人行横道违法停车”等违法行为的举报线索最为集中。

但是,我认为大脑浪费容量的可能性很小。人类的学习模型非常庞大,却不需要大量的数据,这与常规的统计方法非常不同。对人类而言来说,经验是昂贵的,而突触是廉价的。

牡佳高铁建成通车后,将与已开通运营的哈牡高铁、哈佳铁路共同构成黑龙江省东部快速铁路环线,沿线城市将全部纳入到哈尔滨两小时、三小时经济圈,计划2022年2月正式通车运营。(完)

我们来展示一个使用上下文协议的例子。考虑一个句子,“she scromed him with the frying pan”,希望你以前从未听过scrom这个单词。我们怀疑它是动词,基于它在句子中的位置以及单词末尾的“ed”。

优化最大似然意味着调整生成模型的参数,以最大程度地提高模型生成观测数据的概率。例如,将数据分布拟合为高斯混合分布。

针对群众关注的“隐私保护”和“恶意举报”类问题,北京交管部门表示,对举报人信息予以严格保密,同时要求举报人应如实提供相关信息,交管部门将对每一件举报信息依法、认真核实,恶意举报的举报人,经查证属实的,交管部门将不再受理其举报。对故意捏造违法事实陷害他人、以举报为手段敲诈勒索,构成违法犯罪的,依法追究法律责任。

我们将尝试学习足够好的特征并重建前面的层,这是堆叠自编码器的目标函数,但也很容易对后面的层进行重建。也就是说,它们与后面层预测的内容相符。

BERT的机制实际上看起来像信息检索。每个单词都通过学习的权重矩阵生成查询向量、键向量和值向量。然后,对于L层的每个单词,我们将获取其查询向量,并将其与所有其它单词的键向量进行比较。如果查询向量和键向量之间可以很好地匹配时,也就是说,当查询向量和键向量的标量积很大时,附近位置的值向量影响下一层的单词表征。

第二种方法是Becker和Hinton在1992年提出的:当给定相同图像的两个不同片段作为输入时,训练深度神经网络的两个副本以产生具有高互信息的输出向量。设计此方法的目的是使表征形式不受输入无关细节的束缚。

首先解释我们需要无监督学习的原因。人类拥有10^14个突触,但只能活10^9秒。这意味着如果要学习大多数突触,显式标签或奖励可能无法提供足够的信息,因为我们必须每秒学习10^5个突触。

10月9日,记者从警方了解到,官方已介入调查。

在这次演讲中,我将讨论神经网络的未来发展方向。不过在这之前,我会先谈谈神经网络的发展历史,特别是无监督学习。

层来说有用的特征,为了解决这个问题,我们可以训练深度端到端自编码器。有了更快的计算机和更好的激活函数,深度自编码器的效果变得很好。

当前有两种主要的无监督学习方法:

在过去的几年中,我一直非常渴望找到一种新的实现监督学习和深层网络的方法,这种方法不需要多层反向传播,因为我不相信大脑的工作机制是这样的。

昨日上午,北京市公安局发布情况通报称:2020年10月8日晚,有网民发微博反映有私家车被张贴“违章停车提示单”,要求车主向支付宝某账户转账,否则便将违法停车信息向“北京交警”随手拍平台举报。

但近来,多地发生以牟利为目的的“随手拍”事件,甚至出现了借此敲诈车主的恶性事件,针对在运行过程中出现的问题,付光强建议首先应进一步规范举报行为,“随手拍”不是随意拍,如不少视频或图片系驾驶人员或乘客在车辆行驶过程中拍摄,如不加以规范,反而会分散驾驶人员的注意力,增加交通风险。同时,应合理设定举报奖励政策,并注重正确的舆论引导,尤其是对以牟利为目的的情形要明确排除在奖励之外,对涉及违法犯罪的情形要及时进行宣传或通报,引导群众正确行使监督权利。

对此,康达律师事务所行政法律师付光强认为,首先应当肯定“随手拍”交通违法行为举报平台的积极作用。北京市交管部门依据公安部新修订的《道路交通安全违法行为处理程序规定》以及《北京市文明行为促进条例》,创新社会管理方式,搭建北京交警“随手拍”平台,鼓励群众通过随手拍反映交通管理问题,对提升道路交通治理能力和管理水平具有积极意义。

Geoffrey Hinton现在是多伦多大学的计算机科学系荣誉退休教授,Google的副总裁兼工程研究员,以及Vector Institute的首席科学顾问。他最早使用反向传播学习单词嵌入,对神经网络研究的其他贡献包括玻尔兹曼机、分布式表示、时延神经网络、专家混合、变分学习和深度学习。2018年,Geoffrey Hinton因在深度学习方面的贡献与Yoshua Bengio、Yann LeCun一同被授予了图灵奖。

这里有一个非常令人有趣但饶舌的解释,即后面的层将进行自上而下的预测,自上而下的预测将监督自下而上的连接的学习,自下而上的连接将产生表征,该表征将作为自上而下的预测的目标,自上而下的预测实际上也是自下而上学习的目标,自下而上和自上而下的学习过程是相互监督的。

另外一个例子是自编码器。自编码器试图找到一种经济的表征形式,来重建数据。

在视觉识别上也相似,全局的背景帮助你自上而下地预测应该在图像的局部看到什么,例如在草地背景中猜测黑白斑块皮肤的四脚兽是奶牛。

第一种方法,以BERT和变分自编码器为例,使用了深度神经网络来重建其输入。这种方法对于图像来说是有问题的,因为网络的最深层需要对图像的精细细节进行编码。

自编码器是一种使用监督学习算法来实现无监督学习的方法。我们将数据输入网络,网络输出重建的数据,网络学习的目的是使重建数据与原始数据相同。网络将数据转换为编码向量,我们通常希望编码向量的维度很小,或能高效地表征数据。解码器以编码向量为输入尝试重建数据,因此解码器是条件生成模型。

每个新的自编码器都将已学习的特征检测器的激活值视为其数据,并且学习进一步的编码。该算法的有趣之处在于,它成功地应用了深度学习来学习自编码器。

不要尝试解释输入的每一个细节,只需关注于提取在空间或时间上一致的属性。和自动编码器不同,这里允许我们忽略噪声。

解码器获取编码并尝试准确地重建数据,使用的是变分近似方法。通过使用巧妙的数学,Welling和Kingma能够获得训练变分自动编码器所需的所有导数,从而既能最大化编码处于高斯先验分布的概率,又能利用变分后验最大化数据的近似概率。以下不会再谈论变分自编码器,但它目前是无监督学习的最佳方法之一。

报道称,比斯卡拉日前在外交部长马里奥·洛佩斯和卫生部长马塞蒂的陪同下,探访了国立圣马尔科大学的下属诊所,以确认新冠疫苗临床试验的进展。

编码器的目的有两个:第一,它希望找到一种编码,可以在先验分布下最大化该编码的概率。在实数值编码空间中,存在先验分布,通常为高斯分布,编码器尝试查找接近该高斯均值的编码。第二,它也在寻找可以重建数据的编码。

接下来看一个提取空间一致性属性的简单样例:

记者查询后发现,该支付宝账户的注册人名称为某宁,登记地区为北京市朝阳区,记者尝试向该账户转去了0.1元,支付宝系统显示交易成功,但对方账户却处于不能被添加为好友的状态。

3、提取空间一致性属性

10月8日,网络上有市民声称自己遭到了别人利用随手拍平台举报的敲诈,并上传了相关照片。

我们的目标是在自下而上和自上而下对某个特征的预测之间取得一致。这很容易通过缩小所有隐藏激活向量来实现。这被称为所谓的“塌缩问题”(collapse problem)。不过,我们可以通过使用更好的协议定义来避免这个问题:两个变量在每个训练样例中的值是否一致,以及它们在不同训练样例中是否遵循同样的变化。

涉事男子已被刑事拘留

北京交警“随手拍”举报受理平台自8月5日正式上线以来,已经有数十万市民进行了注册登记,每天系统都会收到市民关于交通违法行为的举报。北京交警也会通过官方微信、微博等渠道定期通报一些市民通过“随手拍平台”举报的典型案例。

图为铺轨机进行作业。哈铁提供

在机器学习中,有三种不同类型的学习模式:首先是监督学习,即给定输入向量学习预测输出。然后是强化学习,通过学习选择动作以获得最大奖励。最后是无监督学习,其目的是学习输入的内部表征,但是从数学上定义什么是好的表征形式很困难。

所以在一个特定的训练案例中,我们希望神经网络的一部分中的自下而上的预测与自上而下的预测相一致。

也就是说,好的特征可以局部地、自下而上地提取,同时也可以从更大的上下文中自上而下地预测。

2、堆叠浅层自编码器

我们在左图上散落了一些随机点。然后我们看了右图,这是左图的翻译版。你可以看到,如果你看两个相邻的图像块,那么它们的视差是一样的。左右条带之间的偏移相同。所以,如果你训练一个神经网络,看看左手边的patch块来提取一个属性, 训练一个神经网络的副本来观察右手边的patch块,吸引一个属性。可以看出仅有的一致性属性分离了,这就是我们想要提取的,它也确实起到了作用。

表征的对比学习(contrastive learning of representations)被证明非常有效,但是它存在一个主要缺陷:要学习具有N位互信息的成对的表征向量,我们需要将正确的对应向量和大约2^N个错误的替代方案进行对比。Hinton将描述解决这种局限性的新颖有效方法,并且表明这将导致在皮质中实现感知学习的简单方法。

1、自上而下与自下而上

我们不知道它最初的含义,但是在刚看到这句话时,大多数人对其含义已经有了一个很好的了解,认为这大致表示“她用平底锅打了他的头”。

报道称,秘鲁是目前少数几个进行疫苗临床测试的国家之一。40名志愿者于首日参加了疫苗的临床试验,该试验由来自国立圣马尔科大学的“传染和热带疾病临床研究小组”负责。

以下是演讲全文,AI科技评论进行了不改变愿意的整理。

因此,我们需要研究不使用大量经验和拥有很多参数的学习算法。用于无监督学习的目标函数,即最大似然,就是个很明显的例子。

为确保铺轨如期推进,施工单位根据作业面采取分期进场的方式,做好施工培训和铺轨设备的组装调试等准备。

Becker 和我在1992年引入了一种提取空间一致属性的方法:最大化两个输入非重叠图像块的表征的互信息。

专家:举报以牟利为目的不应奖励

在讲座中,Hinton指出:人工神经网络最重要的未解难题之一,是如何像大脑一样有效地进行无监督学习。

之前,我和我的学生想出了一个方法,用一个更好的定义来解释两者的一致性。与其说它们应该相等,不如说它们应该是相似的,即它们在不同的训练案例上有什么样的变化趋势。

接下来讨论BERT。BERT是一种深度自编码器,经过训练可以补充句子中遗漏的单词。BERT实际上与信息检索非常相关,因为它可以提取非常好的单词表征。这对于理解文档非常有用。BERT有很多个层,并且在每一层中,都有每个输入单词的嵌入向量。第一个隐藏层中有单词的向量表征,第二个隐藏层中有相同单词的更好的向量表征。

针对此情况,朝阳警方迅速开展调查,于10月9日12时许将犯罪嫌疑人徐某(男,56岁)抓获。经查,10月8日19时许,在朝阳区建国门外某地,徐某将自制的“违章停车提示单”张贴在路边停放的汽车车窗上,“提示单”上称向支付宝某账户“捐款”一百元,便终止举报。徐某利用车主担心被处罚的心理,要挟向其支付宝账户转账,意图非法牟利。目前,该人已被朝阳公安分局依法刑事拘留,案件正在进一步工作中。

在大约20年的时间里,人们一直认为训练深度自编码器非常困难。自编码器的想法从1980年代中期反向传播开始流行就有了,但是深度学习无法应用到自编码器中。原因是我们使用了错误的激活函数,当时使用的是Sigmoid或Tanh,而不是ReLU,而后者更容易在深度学习中训练。此外,我们的初始化方法也很糟糕。在初始化权重时需要缩放权重,从而反向传播的梯度不会爆炸或消失。最后,当时的计算机速度也很慢。

施工单位发挥铺轨机组人工投入少、效率高、一次成型的智能化优势,采用CPG500铺轨机及人工散枕拖拉铺设长钢轨两种方式,以日均2公里的铺轨速度快速推进。

例如,假设我的名字是June。我将生成一个查询向量,该查询向量可以很好地匹配月份,也可以很好地匹配女性名字。我们将在句子的其余部分中选择相关的词,并使用这些相关的词来修改June的表征。如果句子中还有其他几个女性的名字,则June的表征将变得更接近女性人名的表征,如果句子中出现了月份相关的单词,June的表征将变得更接近“六月”的表征。也就是说,它们将根据上下文进行优化,所以这很像信息检索,不过所有查询、值和键都是学习得到的。

人类不需要成千上万的例子也能从一句话中很好地理解一个词的意思。这就是自上而下预测的,魅力所在。

BERT需要用数十亿个文字数据来训练,然后我们使用其产生的嵌入,训练具有1,750亿个参数的语言模型,耗时超过一千petaflop天。一旦完成训练,我们就可以生成新闻文章,如上图所示。这是GPT-3的例子,有趣的是,大多数人无法确定这篇新闻文章是由BERT撰写的,它通过了图灵测试。

有人反对人类需要学习所有突触的观点。一种说法是,可能大多数突触都不会被学习,而且进化的效率很低,进化算法的效率就比反向传播算法低得多。突触可能是高度冗余的。

因此,单词表征会在输出之前得到完善,可以很好地利用上下文信息。然后,我们在另一个神经网络中使用这些单词片段的表征,神经网络可以从先前的单词片段中预测下一个单词片段,因此这是一个自动回归模型。但是,它考虑的不是那些单词片段,而是BERT生成的单词片段的表征。

比斯卡拉指出,政府正在密切关注世界各地实验室的疫苗临床试验进展。耐心等待的同时,相关部门将提供一切可能的支持,如确保物流供应(冷链)的稳定、采购大批量的注射器、安排疫苗接种人员等,从采购到接种环节大约需要25000人。

2、以新方法训练堆叠浅层的自编码器,会发生什么?

图为牡佳高铁桦南县施工现场。哈铁提供

如果用标准的一维卷积神经网络来表示单词字符串,我们将通过这些向量来表示句子中的单词。通过组合信息,激活单词的权重矩阵,我们可以获得下一层向量来表征单词。因此,和之前的方法类似,只需查看前一级中所有附近单词的表征,即可将这些表征组合成下一层中更好的单词表征,但这里使用了注意力机制。

这张“违章停车提示单”上还写着:如果您希望我们终止举报,并不再违章,则需要向一支付宝账户转账,并在转账用途备注中注明:“自愿捐款”与“违章车牌号”两项信息。

因此,我们可以使用这种神经网络进行语言建模。首先使用Transformers预训练单词片段嵌入。如果采用句子或更长的文本片段,则需要成千上万个片段,将它们输入Transformers的多个层,以学习所有的键、值和查询。

警方:恶意举报、勒索将追责

它的效果比规则模型更好。通过给它一个初始的单词序列,然后让它预测下一个片段的概率分布。这样一来,我们就可以生成长长的单词串,直到获得完整的故事为止,效果令人惊讶。

我将在本演讲的后半部分以空间或时间一致性的角度来谈论这个话题,其思想是提取在空间或时间上一致的属性,这和最大似然非常不同。

接下来,我们大部分时间都将探讨新的修复方法,它如何不起作用以及如何改进以使其起作用。解决方法是学习每个层的特征,从而可以重建前一层的内容。而且,它们对于后一层也能很容易进行重构。这意味着我们将必须同时学习所有的层。

Becker和Hinton使用的优化互信息的方法存在缺陷(出于一个微妙的原因,讲座中会解释),因此Pacannaro和Hinton将其替换为判别性目标函数,在该目标函数中,一个向量表征必须从许多替代方案中选择相应的向量表征。

图为秘鲁民众在进行核酸检测。

在2013年,Welling和Kingma提出了变分自编码器,其思想是,编码器采集数据并将其转换为实数值编码向量,解码器利用实数值编码向量重建数据。

如果a 和b是标量,则通过最小化 来最大化互信息。 如果a和b是向量,则通过最小化 来最大化互信息。

对出现的“恶意举报”问题,经查证属实的,交管部门应对其采取通报、举报资格限制等措施,对以举报为手段扰乱社会秩序的行为依法予以行政处罚,构成违法犯罪的,依法追究刑事责任。

根据网络上流传出的一张图片显示,有人自制了一张白色的“违章停车提示单”,其大小与一般的违停单据十分接近。该纸条上写着:此处24小时禁止停车(路口有标志,路肩有黄线)。我们已对您的违章车辆视频取证,并将举报到“北京交警随手拍”平台。北京交管部门收到举报并核实后将实施:扣3分并罚款二百元处罚。

自制“违章停车提示单”索要钱财

随着深入网络,给定单词的表征将变得越来越好。实际上,L + 1层中的某个单词的表征,是通过比较L层中该单词的嵌入与其它单词的嵌入生成的。这种比较是通过称为Transformer的注意力机制实现的。这种嵌入是很好的单词表征,可用于各种自然语言任务。

现在,我们回到有关如何进行监督学习的基础思想。变分自编码器BERT比堆叠自编码器的效果更好,这是因为端到端学习可以确保前面层中的隐藏单元学习提取后面层所需的特征,这是反向传播所擅长的事情。

首先训练一个浅层自编码器,其接受输入的数据。它的隐藏层有特征检测器,并且尝试学习可以重建数据的特征检测器。然后,将特征检测器的激活值视为数据,重复以上操作,你可以根据需要确定层数。因此,在不使用任何标签的情况下,我们可以预训练多个层的特征向量,称之为无监督预训练。

近年来,上海、深圳、青岛、长沙等多地开展了交通违法有奖举报行动,引入市民有奖举报交通违法的途径,约束驾驶员的违法行为。不过据媒体报道,深圳、青岛等地都出现过因拍摄机动车违法举报而产生的纠纷,一些存在交通违法的驾驶员质疑拍摄者是以赚钱为目的进行举报。9月下旬,长沙一名“职业拍客”在拍摄机动车违停时遭到车主言语威胁、锁喉,引发舆论关注。此次利用随手拍敲诈一事,也引起热议。

我们先讨论一种完全不同的无监督学习方法,之后我再回到这种方法。

线路全长371.6公里,设计时速250公里,是黑龙江省在建最长的高铁线路,目前牡丹江林口、佳木斯桦南2个铺轨点已全面开始铺轨,牡丹江段已完成铺轨82.4公里。

首先用随机点填充一张图片使它没有明显的结构。然后再取另一张图片,这张图片是第一张图片经过水平移动后的版本。所以图像对中唯一的结构就是它们之间的相对平移。很久以前我们用的是非常小的电脑。所以我们只从左边的图像中取了一个一维的条带,从右边的图像中取了一个一维的条带。

对于浅层自编码器(例如受限玻尔兹曼机),数学表明每当新的浅层自编码器添加到堆叠的网络中,模型生成数据的对数概率将获得新的变分界(variational bound),并且该变分界比先前的变分界更好。

新京报讯 近日有网友反映,疑似有人以随手拍举报为名,对一些车主进行敲诈勒索。昨日上午,北京市公安局发布情况通报,男子徐某借北京“随手拍”敲诈车主,目前已被刑拘。