9.collections
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
下载本文pdf:
Geoffrey Hinton 介绍了,即一种无监督版本的 Capsule 网络,这种神经编码器能查看所有的组成部分,并用于推断跟细节的特征; Yann LeCun 在《Self-Supervised Learning》中再次强调了自监督学习的重要性;(nlp那章里讲到了) Yoshua Bengio 在中回顾了深度学习,并讨论了当前的局限性以及前瞻性研究方向。
google research总结
XGBoost 是一项基于梯度提升可扩展集合技术,在解决机器学习难题方面是可靠和有效的。在本文中,研究者对这项新颖的技术如何在训练速度、泛化性能和参数设置方面发挥作用进行了实证分析。此外,通过精心调整模型和默认设置,研究者还对 XGBoost、随机森林和梯度提升展开了综合比较。结果表明,XGBoost 在所有情况下并不总是最佳选择。最后,他们还对 XGBoost 的参数调整过程进行了扩展分析。
推荐:通过对随机森林、梯度提升和 XGBoost 的综合比较,来自法国波尔多大学、匈牙利帕兹曼尼·彼得天主教大学以及马德里自治大学的三位研究者得出结论:从调查问题的数量看,梯度提升是最好的分类器,但默认参数设置下 XGBoost 和随机森林在平均排名(average rank)方面的差异不具备统计显著性。
MIT 教授 Tomaso Poggio 曾在他的系列研究中 [1] 表示深度学习理论研究可以分为三大类:
表征问题(Representation):为什么深层网络比浅层网络的表达能力更好?
最优化问题(Optimization):为什么梯度下降能找到很好的极小值解,好的极小值有什么特点?
泛化问题(Generalization):为什么过参数化仍然能拥有比较好的泛化性,不过拟合?
对于表征问题,我们想要知道深度神经网络这种「复合函数」,它的表达能力到底怎么确定,它的复合机制又是什么样的。我们不再满足于「能拟合任意函数」这样的定性描述,我们希望知道是不是有一种方法能描述 50 层 ResNet、12 层 Transformer 的拟合能力,能不能清楚地了解它们的理论性质与过程。
有了表征能力,那也只是具备了拟合潜力,深度学习还需要找到一组足够好的极值点,这就是模型的最优解。不同神经网络的「最优化 Landscape」是什么样的、怎样才能找到这种高维复杂函数的优秀极值点、极值点的各种属性都需要完善的理论支持。
最后就是泛化了,深度模型泛化到未知样本的能力直接决定了它的价值。那么深度模型的泛化边界该怎样确定、什么样的极值点又有更好的泛化性能,很多重要的特性都等我们确定一套理论基准。
neurips2019 杰出新方向论文奖颁给了Vaishnavh Nagarajan和J. Zico Kolter的《一致收敛理论可能无法解释深度学习中的泛化现象》(Uniform convergence may be unable to explain generalization in deep learning),其论点是一致收敛理论本身并不能解释深度学习泛化的能力。随着数据集大小的增加,泛化差距(模型对可见和不可见数据的性能差距)的理论界限也会增加,而经验泛化差距则会减小。
Shirin Jalali等人的论文《高斯混合模型的高效深度学习》(Efficient Deep Learning of Gaussian mix Models)从这个问题引入:“通用逼近定理指出,任何正则函数都可以使用单个隐藏层神经网络进行逼近。深度是否能让它更具效率?”他们指出,在高斯混合模型的最佳贝叶斯分类的情况下,这样的函数可以用具有一个隐藏层的神经网络中的O(exp(n))节点来近似,而在两层网络中只有O(n)节点。
神经正切核(neural tangent kernel, NTK)是近年来研究神经网络优化与泛化的一个新方向。它出现在数个spotlight报告和我在NeuIPS与许多人的对话中。Arthur Jacot等人基于完全连通神经网络在无限宽度限制下等同于高斯过程这一众所周知的概念,在函数空间而非参数空间中研究了其训练动力学。他们证明了“在神经网络参数的梯度下降过程中,网络函数(将输入向量映射到输出向量)遵循函数的核函数梯度成本,关于一个新的核:NTK。”他们还表明,当有限层版本的NTK经过梯度下降训练时,其性能会收敛到无限宽度限制NTK,然后在训练期间保持不变。
NeurIPS上关于NTK的论文有:
但是,许多人认为NTK不能完全解释深度学习。神经网络接近NTK状态所需要的超参数设置——低学习率、大的初始化、无权值衰减——在实践中通常不用于训练神经网络。NTK的观点还指出,神经网络只会像kernel方法一样泛化,但从经验上看,它们可以更好地泛化。
Colin Wei等人的论文“Regularization Matters: Generalization and Optimization of Neural Nets v.s. their Induced Kernel”从理论上证明了具有权值衰减的神经网络泛化效果要比NTK好得多,这表明研究 L2-regularized 神经网络可以更好的理解泛化。NeurIPS的以下论文也表明,传统的神经网络可以超越NTK:
nips2019快手,针对复合函数的最优化方法。这里复合指的是一个数学期望函数中复合了另一个数学期望,而常规的 ML 目标函数就只有最外面一个数学期望。这种最优化方法在风险管理或 RL 中非常有用,例如在 RL 中解贝尔曼方程,它本质上就是复合函数最优化问题。
AdaBound是一种优化程序,旨在提高不可见的数据的训练速度和性能,可用PyTorch实现。
AdaBound:一种基于PyTorch实现的优化器,训练速度堪比Adam,质量堪比SGD(ICLR 2019)
《控制批大小和学习率以很好地泛化:理论和实证证据》(Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence)中,Fengxiang He 的团队在CIFAR数据集上使用SGD训练了1600个ResNet-110和VGG-19模型,发现这些模型的泛化能力与 batch size负相关,与学习率正相关,与批大小/学习率之比负相关。
自动微分框架只在计算平均小批量(mini-batch)梯度时进行优化。但在理论上,小批量梯度方差或 Hessian 矩阵近似值等其他数量可以作为梯度实现高效的计算。研究人员对这些数量抱有极大的兴趣,但目前的深度学习软件不支持自动计算。此外,手动执行这些数量非常麻烦,效率低,生成代码的共享性也不高。这种情况阻碍了深度学习的进展,并且导致梯度下降及其变体的研究范围变窄。与此同时,这种情况还使得复现研究以及新提出需要这些数量的方法之间的比较更为复杂。因此,为了解决这个问题,来自图宾根大学的研究者在本文中提出一种基于 PyTorch 的高效框架 BackPACK,该框架可以扩展反向传播算法,进而从一阶和二阶导数中提取额外信息。研究者对深度神经网络上额外数量的计算进行了基准测试,并提供了一个测试最近几种曲率估算优化的示例应用,最终证实了 BackPACK 的性能。
摘要:目前,无论是从理论还是应用层面来说,机器学习中的优化都是以随机梯度下降等一阶梯度方法为主。囊括二阶梯度和/或二阶数据统计的二阶优化方法虽然理论基础更强,但受限于计算量、内存和通信花销等因素,二阶梯度优化方法的普及度不高。然而在谷歌大脑与普林斯顿大学等研究者的努力下,二阶梯度优化终于在实战大模型上展现出独特的优势。
研究者表示,为了缩短理论和实际优化效果之间的差距,该论文提出了一种二阶优化的概念性验证,并通过一系列重要的算法与数值计算提升,证明它在实际深度模型中能有非常大的提升。具体而言,在训练深度模型过程中,二阶梯度优化 Shampoo 能高效利用由多核 CPU 和多加速器单元组成的异构硬件架构。并且在大规模机器翻译、图像识别等领域实现了非常优越的性能,要比现有的顶尖一阶梯度下降方法还要好。
推荐:本文的亮点在于研究者提出了真正应用的二阶梯度最优化器,在实战大模型上展现出独特的优势。
Chulhee Yun等人发表“小型ReLU网络是强大的记忆器:对记忆能力的严格分析”,表明“具有Omega(sqrt(N))隐藏节点的3层ReLU网络可以完美地记忆具有N个点的大多数数据集。
NLP中彩票假设的应用:
Frankle 和 Carbin 在 2018 年提出的彩票假说表明,一个随机初始化的网络包含一个小的子网络,这个子网络在进行单独地训练时,其性能能够与原始网络匹敌。在本文中,研究者证明了一个更有力的假说(正如 Ramanujan 等人在 2019 年所猜想的那样),即对于每个有界分布和每个带有有界权重的目标网络来说,一个具有随机权重的充分过参数化神经网络包含一个具有与目标网络几乎相同准确率的子网络,并且无需任何进一步的训练。
===>从根本上来说,剪枝随机初始化的神经网络与优化权重值一样重要。
摘要:优化器选择是当前深度学习管道的重要步骤。在本文中,研究者展示了优化器比较对元参数调优协议的灵敏度。研究结果表明,在解释文献中由最近实证比较得出的排名时,元参数搜索空间可能是唯一最重要的因素。但是,当元参数搜索空间改变时,这些结果会相互矛盾。随着调优工作的不断增加,更一般的优化器性能表现不会比近似于它们的那些优化器差,但最近比较优化器的尝试要么假设这些包含关系没有实际相关性,要么通过破坏包含的方式限制元参数。研究者在实验中发现,优化器之间的包含关系实际上很重要,并且通常可以对优化器比较做出预测。具体来说,流行的自适应梯度方法的性能表现绝不会差于动量或梯度下降法。
推荐:如何选择优化器?本文从数学角度论证了不同优化器的特性,可作为模型构建中的参考资料。
摘要:神经算术逻辑单元(NALU)是一种神经网络层,可以学习精确的算术运算。NALU 的目标是能够进行完美的运算,这需要学习到精确的未知算术问题背后的底层逻辑。评价 NALU 性能是非常困难的,因为一个算术问题可能有许多种类的解法。因此,单实例的 MSE 被用于评价和比较模型之间的表现。然而,MSE 的大小并不能说明是否是一个正确的方法,也不能解释模型对初始化的敏感性。因此,研究者推出了一种「成功标准」,用来评价模型是否收敛。使用这种方法时,可以从很多初始化种子上总结成功率,并计算置信区间。通过使用这种方法总结 4800 个实验,研究者发现持续性的学习算术推导是具有挑战性的,特别是乘法。
推荐:尽管神经算术逻辑单元的出现说明了使用神经网络进行复杂运算推导是可行的,但是至今没有一种合适的评价神经网络是否能够成功收敛的标准。本文填补了这一遗憾,可供对本领域感兴趣的读者参考。
由 Judea Pearl 倡导的图形因果推理(graphical causal inference)源于 AI 研究,并且在很长一段时间内,它与机器学习领域几乎没有任何联系。在本文中,研究者探讨了图形因果推理与机器学习之间已建立以及应该建立哪些联系,并介绍了一些关键概念。本文认为,机器学习和 AI 领域的未解决难题在本质上与因果关系有关,并解释了因果关系领域如何理解这些难题。
正如Emtiyaz Khan在他的受邀演讲《基于贝叶斯原理的深度学习》中所强调的那样,贝叶斯学习和深度学习是非常不同的。根据Khan的说法,深度学习使用“试错”(trial and error)的方法——看实验会把我们带向何方——而贝叶斯原理迫使你事先思考假设(先验)。
与常规的深度学习相比,贝叶斯深度学习主要有两个吸引人的点:不确定性估计和对小数据集的更好的泛化。在实际应用中,仅凭系统做出预测是不够的。知道每个预测的确定性很重要。在贝叶斯学习中,不确定性估计是一个内置特性。
传统的神经网络给出单点估计——使用一组权值在数据点上输出预测。另一方面,贝叶斯神经网络使用网络权值上的概率分布,并输出该分布中所有权值集的平均预测,其效果与许多神经网络上的平均预测相同。因此,贝叶斯神经网络是自然的集合体,它的作用类似于正则化,可以防止过拟合。
拥有数百万个参数的贝叶斯神经网络的训练在计算上仍然很昂贵。收敛到一个后验值可能需要数周时间,因此诸如变分推理之类的近似方法已经变得流行起来。Probabilistic Methods – Variational Inference类发表了10篇关于这种变分贝叶斯方法的论文。
对于一个深度网络,网络通过多层神经层渐进的转换输入,这其中的几何解释应该是什么样的呢?本文的作者通过实验发现,以固有维度(ID:intrinsic dimensionality)为切入点,可以发现训练好的网络相比较未训练网络而言,其每层的固有维度数量级均小于每层单元数,而且 ID 的存在可以来衡量网络的泛化性能。
当人遇到图像判断的时候,总是会分解图片并解释分类的理由,而机器在判断的时候总是跟人的判断会有些差距。本文旨在缩小机器分类和人分类之间的差距,提出了一个 ProtoPNet,根据人判断的机理来分类图像。本文网络通过分解图像,得到不同的原型部分,通过组成这些信息最终得到正确的分类。
challenge sets,大部分是英文,中文比较少。构造方法:
从已有数据集泛化:改下位词、同义词、反义词
从已有数据集只抽出可用的部分
使用模板建模具体语言特征
对抗样本
子集选择问题旨在从 n 个元素中,选择满足约束 c 的一个子集,以最大化目标函数 f。它有很多应用,包括影响力最大化,传感器放置等等。针对这类问题,现有的代表性算法有广义贪心算法和 POMC。广义贪心算法耗时较短,但是受限于它的贪心行为,其找到的解质量往往一般;POMC 作为随机优化算法,可以使用更多的时间来找到质量更好的解,但是其缺乏多项式的运行时间保证。因此,我们提出一个高效的演化算法 EAMC。通过优化一个整合了 f 和 c 的代理函数,它可以在多项式时间内找到目前已知最好的近似解,并且其在多类问题上的试验也显示出比广义贪心算法更好的性能。
使用深度学习执行语义分割在图像像素分类方面取得了巨大进步。但是,深度学习提取高级特征时往往忽略了局部位置信息(local location information),而这对于图像语义分割而言非常重要。
为了避免上述问题,来自中科院自动化所、北京中医药大学的研究者们提出一个执行图像语义分割任务的图模型 Graph-FCN,该模型由全卷积网络(FCN)进行初始化。首先,通过卷积网络将图像网格数据扩展至图结构数据,这样就把语义分割问题转换成了图节点分类问题;然后,使用图卷积网络解决图节点分类问题。研究者称,这是首次将图卷积网络用于图像语义分割的尝试。该方法在 VOC 数据集上获得了有竞争力的 mIOU 性能,相比原始 FCN 模型有 1.34% 的性能提升。
计算机视觉领域,模型效率已经变得越来越重要。在本文中,研究者系统地研究了用于目标检测的各种神经网络架构设计选择,并提出了一些关键的优化措施来提升效率。首先,他们提出了一种加权双向特征金字塔网络(weighted bi-directional feature pyramid network,BiFPN),该网络可以轻松快速地进行多尺度特征融合;其次,他们提出了一种复合缩放方法,该方法可以同时对所有骨干、特征网络和框/类预测网络的分辨率、深度和宽度进行统一缩放。基于这些优化,研究者开发了一类新的目标检测器,他们称之为EfficientDet。在广泛的资源限制条件下,该检测器始终比现有技术获得更高数量级的效率。具体而言,在没有附属条件的情况下,EfficientDet-D7在52M参数和326B FLOPS1的COCO数据集上实现了51.0 mAP的SOTA水平,体积缩小了4倍,使用的FLOPS减少了9.3倍,但仍比先前最佳的检测器还要准确(+0.3% mAP)。
推荐:本文探讨了计算机视觉领域的模型效率问题,分别提出了加权双向特征金字塔网络和复合缩放方法,进而开发了一种新的EfficientDet目标检测器,实现了新的 SOTA 水平。
近年来,卷积神经网络(CNN)已经主宰了计算机视觉领域。自 AlexNet 诞生以来,计算机视觉社区已经找到了一些能够改进 CNN 的设计,让这种骨干网络变得更加强大和高效,其中比较出色的单个分支网络包括 Network in Network、VGGNet、ResNet、DenseNet、ResNext、MobileNet v1/v2/v3 和 ShuffleNet v1/v2。近年来同样吸引了研究社区关注的还有多分辨率骨干网络。作者认为目前实现高效卷积网络的工作流程可以分成两步:1)设计一种网络架构;2)对该网络中的连接进行剪枝。在第一步,作者研究了人类专家设计的架构与搜索得到的架构之间的共同模式:对于每种骨干网络,其架构都是由其普通模块和归约模块(reduction block)的设计所确定的。第二步会将某些连接剪枝去掉,这样就不能保证每个模块都有完整的信息交换了。Facebook AI 的研究者在这篇论文中通过在网络设计步骤中考虑剪枝,为图像识别任务设计了一种更高效的网络。他们创造了一种新的模块设计方法:Idle。
本论文要解决的问题是使用条件生成对抗网络(cGAN)生成合成图像。具体来说,本文要完成的具体任务是使用一个分割掩码控制所生成的图像的布局,该分割掩码的每个语义区域都具有标签,而网络可以根据这些标签为每个区域「添加」具有真实感的风格。尽管之前已经有一些针对该任务的框架了,但当前最佳的架构是 SPADE(也称为 GauGAN)。因此,本论文的研究也是以 SPADE 为起点的。具体来说,本文针对原始 SPADE 的两个缺陷提出了新的改进方案。本文在几个高难度的数据集(CelebAMaskHQ、CityScapes、ADE20K 和作者新建的 Facades 数据集)上对新提出的方法进行了广泛的实验评估。定量实验方面,作者基于 FID、PSNR、RMSE 和分割性能等多种指标对新方法进行了评估;定性实验方面,作者展示了可通过视觉观察进行评估的样本。
推荐:图像合成是近来非常热门的研究领域,世界各地的研究者为这一任务提出了许多不同的框架和算法,只为能合成出更具真实感的图像。阿卜杜拉国王科技大学和卡迪夫大学近日提出了一种新改进方案 SEAN,能够分区域对合成图像的内容进行控制和编辑(比如只更换眼睛或嘴),同时还能得到更灵活更具真实感的合成结果。有了这个技术,修图换眼睛时不用再担心风格不搭了。
摘要:在本文中,来自 DeepMind 的研究者提出了一种直接建模网格的方法 PolyGen,该方法利用 Transformer 架构来循序地预测网格的顶点和表面。文中提出的 3D 网格深度生成模型 PolyGen 以对象类、三维像素和图像等一系列输入为条件,同时由于该模型是概率性的,因此它可以生成捕获模糊场景中不确定性的样本。
实验表明,该模型能够生成高质量、可用的网格,并为网格建模任务创建对数似然基准。研究者表示,PolyGen 模型能够生成连贯的、多样化的 3D 网格,并且相信可以扩展该模型在计算机视觉、机器人学和 3D 内容创建中的应用。
推荐:本文的亮点在于,研究者将网格生成问题作为自回归序列建模来处理,同时结合了 Transformers 和指针网络的优势,从而能够灵活地建模长度可变的网格序列。
Facebook将该方法称为“半弱监督”(semi-weak supervision),是结合了半监督学习和弱监督学习者两种不同训练方法的有点的一种新方法。通过使用teacher-student模型训练范式和十亿规模的弱监督数据集,它为创建更准确、更有效的分类模型打开了一扇门。如果弱监督数据集(例如与公开可用的照片相关联的hashtags)不能用于目标分类任务,该方法还可以利用未标记的数据集来生成高度准确的半监督模型。
对抗样本经常被认为是卷积神经网络的一个威胁。而研究者在这篇论文中提出了相反的论点:对抗网络可以被用来提升图像识别模型的准确率,只要使用正确的方式。研究者在这里提出了 AdvProp,这是一个增强对抗训练方法,能够将对抗样本视为额外样本,以方式过拟合。这一方法的关键在于对对抗样本使用了分离的辅助批归一化,因为它们和正常样本的隐藏分布不同。
研究说明,AdvProp 在很多图像识别任务上提升了一系列模型的性能,而且当模型变得更大的时候,性能也会更好。例如,通过将 AdvProp 用在最新的 EfficientNet-B7 模型上,使用 ImageNet 进行训练,研究者可以取得性能点的提升,如 ImageNet (+0.7%)、ImageNet-C (+6.5%)、ImageNet-A (+7.0%)、Stylized- ImageNet (+4.8%)。而在 增强的 EfficientNet-B8 上,这一方法在没有额外数据的情况下达到了 SOTA——85.5% 的 ImageNet top-1 精确度。这一结果超越了使用 3.5B Instagram 数据和 9.4 倍参数量的最佳模型。
从历史发展的角度来看,对有效推理(efficient inference)的追求已经成为研究新的深度学习架构和构建块背后的驱动力之一。近来的一些示例包括:压缩和激发模块(squeeze-and-excitation module)、Xception 中的深度级可分离卷积(depthwise seperable convolution)和 MobileNet v2 中的倒置瓶颈(inverted bottleneck)。在所有这些示例中,生成的构建块不仅实现了更高的有效性和准确率,而且在领域内得到广泛采用。在本文中,来自 DeepMind 和 Google 的研究者们进一步扩展了神经网络架构的有效构建块,并且在没有结合标准基本体(standard primitive)的情况下,他们主张用稀疏对应(sparse counterpart)来替换这些密集基本体(dense primitive)。利用稀疏性来减少参数数量的想法并不新鲜,传统观点也认为理论浮点运算次数的减少不能转化为现实世界的效率增益。
研究者通过提出一类用于 ARM 和 WebAssembly 的有效稀疏核来纠正这种错误观点,并且进行开源作为 XNNPACK 库的组成部分。借助于稀疏标准体(sparse primitive)的有效实现,研究者表明,MobileNet v1、MobileNet v2 和 EfficientNet 架构的稀疏版本在有效性和准确率曲线(efficiency-accuracy curve)上显著优于强大的密集基线(dense baseline)。在骁龙 835 芯片上,他们提出的稀疏网络比同等的密集网络性能增强 1.3-2.4 倍,这几乎相当于 MobileNet-family 一整代的性能提升。研究者希望他们的研究成果可以促进稀疏性更广泛地用作创建有效和准确深度学习架构的工具。
在这篇论文中,研究者发现:
多个数据增强方法组合对于对比预测任务产生有效表示非常重要。此外,与有监督学习相比,数据增强对于无监督学习更加有用;
在表示和对比损失之间引入一个可学习的非线性变换可以大幅提高模型学到的表示的质量;
与监督学习相比,对比学习得益于更大的批量和更多的训练步骤。
基于这些发现,他们在 ImageNet ILSVRC-2012 数据集上实现了一种新的半监督、自监督学习 SOTA 方法——SimCLR。在线性评估方面,SimCLR 实现了 76.5% 的 top-1 准确率,比之前的 SOTA 提升了 7%。在仅使用 1% 的 ImageNet 标签进行微调时,SimCLR 实现了 85.8% 的 top-5 准确率,比之前的 SOTA 方法提升了 10%。在 12 个其他自然图像分类数据集上进行微调时,SimCLR 在 10 个数据集上表现出了与强监督学习基线相当或更好的性能。
自动语音识别(ASR)得到的文本中,往往含有大量的不流畅现象。这些不流畅现象会对后面的自然语言理解系统(如句法分析,机器翻译等)造成严重的干扰,因为这些系统往往是在比较流畅的文本上训练的。不流畅现象主要分为两部分,一部分是ASR系统本身识别错误造成的,另一部分是speaker话中自带的。NLP领域主要关注的是speaker话中自带的不流畅现象,ASR识别错误则属于语音识别研究的范畴。顺滑 (Disfluency Detection)任务的目的就是要识别出speaker话中自带的不流畅现象。
年来,得益于深度学习和大型数据集的可用性,唇读(lip reading)已经出现了前所未有的发展。尽管取得了鼓舞人心的结果,但唇读的性能表现依然弱于类似的语音识别,这是因为唇读刺激因素的不确定性导致很难从嘴唇运动视频中提取判别式特征(discriminant feature)。
在本文中,来自浙江大学、斯蒂文斯理工学院和阿里巴巴的研究者提出了一种名为 LIBS(Lip by Speech)的方法,其目的是通过学习语音识别器来增强唇读效果。方法背后的基本原理是:提取自语音识别器的特征可能提供辅助性和判别式线索,而这些线索从嘴唇的微妙运动中很难获得,并且这些线索会因此促进唇阅读器的训练。具体而言,这是通过将语音识别器中的多粒度知识蒸馏到唇阅读器实现的。为了进行这种跨模式的知识蒸馏,研究者不仅利用有效的对齐方案来处理音频和视频之间长度不一致的问题,而且采用一种创造性的过滤策略来重新定义语音识别器的预测结果。研究者提出的方法在 CMLR 和 LRS2 数据集上取得了新的 SOTA 结果,在字符误差率(Character Error Rate,CER)方面分别超出基准方法 7.66% 和 2.75%。
在录制某些歌曲时,每种乐器都分别录制到单独的音轨或stem中。之后在混音和母带阶段,这些词干被合并在一起,生成歌曲。本文的目的是找到这一过程的逆向过程的方法,也就是说要从完成的歌曲中提取每个单独的stem。这个问题的灵感源自所谓“鸡尾酒会效应”,是说人脑可以从一个嘈杂的聊天室的环境中将单独对话分离出来,并专注于这个特定的对话,自带降噪效果。
本文提出的体系架构是SING神经网络体系结构和Wave-U-Net的思想的结合。前者用于符号到乐器的音乐合成,而后者是从混音中提取stem的方法之一。本质上是LSTM、卷积层与U-Net架构的结合。其中卷积层负责体系结构的编码,LSTM层用于解码。为了提高模型性能,本文中的架构不使用批量归一化层。
spotify的paper:
歌单生成:
探索利用:
谷歌 AI 推出了「视觉任务适应性基准」(Visual Task Adaptation Benchmark,VTAB)。这是一个多样性的、真实的和具有挑战性的表征基准。这一基准基于以下原则:在所需领域内数据有限的情况下,更好的表征应当能够在未见任务上实现更佳的性能。受启发于推动其他机器学习领域进展的一些基准,如用于自然图像分类的 ImageNet、自然语言处理的 GLUE 和强化学习的 Atari,VTAB 遵循相似的准则:(i)对解决方案施加最小约束,以鼓励创造性;(ii)注重实际;(iii)借助挑战性任务进行评估。
视频帧合成是信号处理领域的一个有趣的分支。通常,这都是关于在现有视频中合成视频帧的。如果在视频帧之间完成操作,则称为内插(interpolation);而在视频帧之后进行此操作,则称为外推(extrapolation)。视频帧内插是一个长期存在的课题,并且已经在文献中进行了广泛的研究。这是一篇利用了深度学习技术的有趣论文。通常,由于较大的物体运动或遮挡,插值的质量会降低。在本文中,作者使用深度学习通过探索深度信息来检测遮挡。
他们创建了称为“深度感知视频帧内插”(Depth-Aware video frame INterpolation,DAIN)的架构。该模型利用深度图、局部插值核和上下文特征来生成视频帧。本质上,DAIN是基于光流和局部插值核,通过融合输入帧、深度图和上下文特征来构造输出帧。 在这些文章中,我们有机会看到一些有趣的论文和在深度学习领域取得的进步。这一领域在不断发展,我们预计2020年会更有趣。
这个方法的论文被 NeurIPS 2019 接收为 Spotlight 论文,该方法还在 ICCV AIM 2019 VideoTemporal Super-Resolution Challenge 比赛中获得了冠军。
试图为视频集合生成单个摘要的多视频摘要,是处理不断增长的视频数据的重要任务。在本文中,我们第一个提出用于多视频摘要的图卷积网络。这个新颖的网络衡量了每个视频在其自己的视频以及整个视频集中的重要性和相关性。提出了一种重要的节点采样方法,以强调有效的特征,这些特征更有可能被选择作为最终的视频摘要。为了解决视频摘要任务中固有的类不平衡问题,提出了两种策略集成到网络中。针对多样性的损失正则化用于鼓励生成多样化的摘要。通过大量的实验,与传统的和最新的图模型以及最新的视频摘要方法进行了比较,我们提出的模型可有效地生成具有良好多样性的多个视频的代表性摘要。它还在两个标准视频摘要数据集上达到了最先进的性能。
新出现的基于文本的行人搜索任务旨在通过对自然语言的查询以及对行人的详细描述来检索目标行人。与基于图像/视频的人搜索(即人重新识别)相比,它实际上更适用,而不需要对行人进行图像/视频查询。在这项工作中,我们提出了一种新颖的深度对抗图注意力卷积网络(A-GANet),用于基于文本的行人搜索。A-GANet利用文本和视觉场景图,包括对象属性和关系,从文本查询和行人画廊图像到学习信息丰富的文本和视觉表示。它以对抗性学习的方式学习有效的文本-视觉联合潜在特征空间,弥合模态差距并促进行人匹配。具体来说,A-GANet由图像图注意力网络,文本图注意力网络和对抗学习模块组成。图像和文本图形注意网络设计了一个新的图注意卷积层,可以在学习文本和视觉特征时有效利用图形结构,从而实现精确而有区别的表示。开发了具有特征转换器和模态鉴别器的对抗学习模块,以学习用于跨模态匹配的联合文本-视觉特征空间。在两个具有挑战性的基准(即CUHK-PEDES和Flickr30k数据集)上的大量实验结果证明了该方法的有效性。
我们从视觉内容中看到的不仅是对象的集合,还包括它们之间的相互作用。用三元组<subject,predicate,object>表示的视觉关系可以传达大量信息,以供视觉理解。与静态图像不同,由于附加的时间通道,视频中的动态关系通常在空间和时间维度上都相关,这使得视频中的关系检测变得更加复杂和具有挑战性。在本文中,我们将视频抽象为完全连接的时空图。我们使用图卷积网络使用新颖的VidVRD模型在这些3D图中传递消息并进行推理。我们的模型可以利用时空上下文提示来更好地预测对象及其动态关系。此外,提出了一种使用暹罗网络的在线关联方法来进行精确的关系实例关联。通过将我们的模型(VRD-GCN)与所提出的关联方法相结合,我们的视频关系检测框架在最新基准测试中获得了最佳性能。我们在基准ImageNet-VidVRD数据集上验证了我们的方法。实验结果表明,我们的框架在很大程度上领先于最新技术,一系列的消去研究证明了我们方法的有效性。
北京理工大学和阿里合作的一篇关于利用对象之间的关系进行图像和视频描述 (image caption/video caption) 的论文。大多数现有方法严重依赖于预训练的对象及其关系的检测器,因此在面临诸如遮挡,微小物体和长尾类别等检测挑战时可能效果不佳。
在本文中,研究者提出了一种联合常识和关系推理的方法 (C-R Reasoning),该方法利用先验知识进行图像和视频描述,而无需依赖任何目标检测器。先验知识提供对象之间的语义关系和约束,作为指导以建立概括对象关系的语义图,其中一些对象之间的关系是不能直接从图像或视频中获得。特别是,本文的方法是通过常识推理和关系推理的迭代学习算法交替实现的,常识推理将视觉区域嵌入语义空间以构建语义图,关系推理用于编码语义图以生成句子。作者在几个基准数据集上的实验验证了该方法的有效性。
这篇论文并不是聚焦于常识知识和常识推理本身,而是联合常识和关系推理使得图像和视频描述中那些「难以捉摸」,「并非直接可见」的物体或关系现形,使得描述更加精准。
个性化推荐在许多在线内容共享平台中起着核心作用。为了提供优质的微视频推荐服务,重要的是考虑用户与项目(即短视频)之间的交互以及来自各种模态(例如视觉,听觉和文本)的项目内容。现有的多媒体推荐作品在很大程度上利用多模态内容来丰富项目表示,而为利用用户和项目之间的信息交换来增强用户表示并进一步捕获用户对不同模式的细粒度偏好所做的工作却较少。在本文中,我们建议利用用户-项目交互来指导每种模式中的表示学习,并进一步个性化微视频推荐。我们基于图神经网络的消息传递思想设计了一个多模态图卷积网络(MMGCN)框架,该框架可以生成用户和微视频的特定模态表示,以更好地捕获用户的偏好。具体来说,我们在每个模态中构造一个user-item二部图,并用其邻居的拓扑结构和特征丰富每个节点的表示。通过在三个公开可用的数据集Tiktok,Kwai和MovieLens上进行的大量实验,我们证明了我们提出的模型能够明显优于目前最新的多模态推荐方法。
在过去的几年中,短视频已成为社交媒体时代的主流趋势。同时,随着短视频数量的增加,用户经常被他们不感兴趣的视频所淹没。尽管现有的针对各种社区的推荐系统已经取得了成功,但由于短视频平台中的用户具有其独特的特征:多样化的动态兴趣,多层次的兴趣以及负样本,因此它们无法应用于短视频的一种好的方式。为了解决这些问题,我们提出了一个时间图指导的推荐系统。特别是,我们首先设计了一个新颖的基于图的顺序网络,以同时对用户的动态兴趣和多样化兴趣进行建模。同样,可以从用户的真实负样本中捕获不感兴趣的信息。除此之外,我们通过用户矩阵将用户的多层次兴趣引入推荐模型,该矩阵能够学习用户兴趣的增强表示。最后,系统可以通过考虑上述特征做出准确的推荐。在两个公共数据集上的实验结果证明了我们提出的模型的有效性。
在使用过程中,只需要将一段视频和目标维度(如截取的长宽比类型)作为输入,AutoFlip 会分析视频内容并提出一个优化路径和裁剪策略,最后输出一段视频。
视频推荐、内容分发优化、视频码率优化这三方面探索提升快手视频体验的新方案。
研究者提出了一个名为 Image2StyleGAN++的网络,是一种多应用的图像编辑框架。这一框架从三个方面扩展了近来提出的 Image2StyleGAN。首先,研究者引入了噪声优化机制,用来弥补 W+隐空间嵌入。这一噪声优化机制可以重置图像中的高频特征,并显著提升重建图像的质量。其次,研究者扩展了全局 W+印控机嵌入,以便局部嵌入。第三,研究者将嵌入和激活张量(activation tensor)操纵结合,让局部编辑像全局情感编辑那样有着很高的图像质量。这种编辑方法能够推动很多高质量图像编辑应用,如图像重建、重着色、图像混合、局部风格迁移等。
特别是在图像创建和处理方面。这个领域中一个非常有趣的问题就是所谓的“图像到图像转换问题”,我们希望将特征从一个图像域转移到另一个图像域(这里的“图像域”代表可以归类为视觉上独特的类别的一组图像)。我们喜欢CycleGAN和StarGAN等旨在解决此问题的解决方案,因此您可以想象几天前看到StarGAN v2论文时我们有多么兴奋。
本文还讨论了另一个问题——域的可伸缩性。这意味着它可以同时解决多个图像域的问题。本质上,这个架构依赖于StarGAN早期版本的成功,并为其添加了样式层。它由四个模块组成:第一个模块是生成器,它负责将输入图像转换为反映域特定样式的输出图像;接下来是映射网络转换器(Mapping Network Transformer),它将潜在代码转换为多个域的样式代码;第三个是样式编码器,它提取图像的样式并将其提供给生成器;最后,判别器可以从多个域中区分真实图像和伪图像。
众所周知,CV 领域的 adversarial attack 被非常广泛的研究,但是在 NLP 领域的对抗攻击却因为文本的离散的特性而难以推进。对于 NLP 的模型来说,那些在人们眼里几乎没变的文本却会被模型非常不同地对待,甚至错判。这些是特别致命的、且急需研究的方向。这是一篇与 MIT 合作的 AAAI 2020 Oral 文章,自然语言对抗样本生成,我们将详细解读如何简单高效地生成自然语言对抗样本,并且高度 attack 文本分类和文本推测的 7 个数据集。
在本文中,来自普渡大学计算机科学系的两位研究者提供了首个用于节点(位置)嵌入和结构化图表征的统一的理论框架,该框架结合了矩阵分解和图神经网络等方法。通过利用不变量理论(invariant theory),研究者表明,结构化表征和节点嵌入之间的关系与分布和其样本之间的关系类似。他们还证明,可以通过节点嵌入执行的任务也同样能够利用结构化表征来执行,反之亦然。此外,研究者还表明,直推学习和归纳学习的概念与节点表征和图表征无关,从而澄清了文献中的另一个困惑点。最后,研究者介绍了用于生成和使用节点嵌入的新的实践指南,从而修复了现在所使用的的标准操作流程的缺陷。
推荐:实证研究结果表明,在本文提出的理论框架加持下,节点嵌入可以成功地作为归纳学习方法使用,并且 non-GNN 节点嵌入在大多数任务上的准确度显著优于简单的图神经网络(GNN)方法。
短文本分类在新闻及微博等领域得到了广泛的应用。但是,目前的文本分类算法主要集中于长文本分类并且无法直接应用于短文本分类。这是由于短文本分类的两个独有挑战:
数据的稀疏和歧义:短文本通常不超过 10 个词,提供的信息非常有限。经典的 Bi-LSTM+Attention 往往无法有效的捕获短文本中的语义信息。
标签数量较少:传统的监督学习无法有效工作,尤其是传统深度学习算法需要大量的监督数据。
针对上述两个挑战,本文创新地将短文本建模为异质图(见 Figure 1),通过图数据的复杂交互来解决数据稀疏和歧义带来的挑战。同时,本文提出了一种异质图注意力HGAT来学习短文本的表示并进行分类。HGAT 是一种半监督学习算法可以更好的适用于标签数量较少的场景,如短文本的分类
pg/ddpg相关
本文介绍了一个“事后诸葛亮”的经验池机制,简称为HER,它可以很好地应用于稀疏奖励和二分奖励的问题中,不需要复杂的奖励函数工程设计。强化学习问题中最棘手的问题之一就是稀疏奖励。本文提出了一个新颖的技术:Hindsight Experience Replay(HER),可以从稀疏、二分的奖励问题中高效采样并进行学习,而且可以应用于所有的Off-Policy算法中。
Hindsight意为"事后",结合强化学习中序贯决策问题的特性,我们很容易就可以猜想到,“事后”要不然指的是在状态s下执行动作a之后,要不然指的就是当一个episode结束之后。其实,文中对常规经验池的改进也正是运用了这样的含义。
nips2019快手跟腾讯 AI Lab 和 Robotics X 合作,它希望智能体能快速学会利用自己所观测的信息来相互配合。比如说在星际争霸中,我们发现确实会产生多智能体合作的现象,模型会让一些防高血厚的单位去抗对方的输出,己方输出高的单元会躲到后方攻击。
虽然把所有的 agents 看成是一个 agent,理论上也可以学到最终的配合效果,但是效率会非常低,不具有可扩展性。我们的方法通过一种 intrinsic reward 的机制兼顾了可扩展性和效率,通过鼓励每个 agent 按照单体利益最大化的原则去学习自己的 policy,然后这种 intrinsic reward 的影响会越来越小最后快速达到学到整体最后的方案。
RL算法要么使用价值函数预测奖励,要么使用策略搜索使其最大化。该研究提出一种替代方法:颠倒RL(Upside-Down RL),主要使用监督学习来解决RL问题。
标准RL预测奖励,而UDRL使用奖励作为任务定义的输入,以及时间范围的表示和历史数据以及可期的未来数据的其他可计算函数。
UDRL学会将这些输入观察结果解释为命令,并根据过去(可能是偶然的)经历通过SL将它们映射为行为(或行为概率)。UDRL一般通过输入命令来实现高奖励或其他目标,例如:在一定时间内获得大量奖励!另一篇关于UDRL的首个实验的论文(Training agents with upside-down reinforcement learning)表明,UDRL在某些具有挑战性的RL问题上可以胜过传统的baseline算法。
我们还提出了一种相关的简单而且通用的方法来教机器人模仿人类。首先,对人模仿机器人当前的行为进行录像,然后让机器人通过监督学习将视频(作为输入命令)映射到这些行为上,然后让其概括和模仿先前未知的人类行为。这种Imitate-Imitator的概念实际上可以解释为什么生物进化导致父母会模仿婴儿的咿呀学语。
reward:1胜,-1负,中间状态0
3个网络:
SL:学习棋谱的P
RL:自己和自己下,学习一个P
V:学习s的长期收益
fast roolout:用一个简单的线性模型学习棋谱的P
mcts:
选Q+u最大的a,
首先模拟n次,
N(s,a):对于第i次,如果经过当前的(s,a),那么+1
Q(s,a):对于第i次,如果走到叶子时经过了当前的(s,a),那么把V(叶子)加上,最后除以N(s,a)
V(叶子):(1-lambda) * value network的输出+lambda * fastrollout走到结束时的reward
u(s,a):与P(s,a)/(1+N(s,a))成正比
P(s,a):policy network的输出
最开始还没expand时,Q是0,那SL的P就是prior probabilities。P还能起到减少搜索宽度的作用,普通点得分很低。比较难被select到。有趣的结论是,比较得出这里用SL比RL的要好!!模仿人类走棋的SL结果更适合MCTS搜索,因为人类选择的是 a diverse beam of promising moves。而RL的学的是最优的下法(whereas RL optimizes for the single best move)。所以人类在这一点暂时获胜!不过另一方面,RL学出来的value networks在评估方面效果好。所以各有所长。搜索次数N一多会扣分, 鼓励exploration其他分支。
模型输出p和v,训练的时候通过mcts去选action。loss就是p的交叉熵+v的rmse
主要是特征改了一下,使得可以适用于各种棋,loss没变
模型加了个r,loss里加了个r,
planning需要考虑r V P,还有次数N