2020年还需要阅读的10篇人工智能论文(附链接)
作者:欧宝体育app 发布时间:2022-03-17 01:01
本文摘要:泉源:盘算机视觉同盟本文约6400字,建议阅读8分钟。本文先容了2020年揭晓的人工智能(AI)论文。 几周前,我揭晓了一篇文章,内里有要在2020年阅读的人工智能(AI)论文。如果你把所有分外的阅读建议都算进去,总共有27篇文章。 文章网址:https://towardsdatascience.com/ai-papers-to-read-in-2020-ac0e4e91d915然而,这份清单还远未完成。许多如宝石般的文章被遗漏或只是简朴地提到。

欧宝体育官网

泉源:盘算机视觉同盟本文约6400字,建议阅读8分钟。本文先容了2020年揭晓的人工智能(AI)论文。

几周前,我揭晓了一篇文章,内里有要在2020年阅读的人工智能(AI)论文。如果你把所有分外的阅读建议都算进去,总共有27篇文章。

文章网址:https://towardsdatascience.com/ai-papers-to-read-in-2020-ac0e4e91d915然而,这份清单还远未完成。许多如宝石般的文章被遗漏或只是简朴地提到。

在这篇文章中,为了你的阅读兴趣,我列出了今年阅读人工智能论文的十条建议(以及其他一些进一步的阅读建议)。在这个列表中,我主要关注那些在不提出新架构的情况下推动最新技术的文章,这些文章不包罗最新的YOLO或ResNet变体;相反,主要包罗了损失公式、理论突破、新优化器等方面的最新希望。对于文章的前半部门,我将重点先容盘算机视觉和NLP,因为这些是我最熟悉的主题,并从一两个经典技术开始。

对于每一篇论文,我都市总结其主要孝敬,并列出阅读理由。最后,我在每一篇文章的末端都给出了关于这个主题的详细阅读建议,并将其与其他最新希望或类似想法联系起来。1.GloVe (2014)Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. “Glove: Global vectors for word representation.” 2014年自然语言处置惩罚方法集会(EMNLP)论文集。

论文链接:https://www.aclweb.org/anthology/D14-1162.pdf虽然现在的社区主要关注神经网络,但许多早期的效果是通过更简朴的数学方法获得的。GloVe是从经典算法出发的,它是基于淘汰单词共现矩阵维数的单词嵌入模型。与以前的方法差别,GloVe使用隐式表现法,使其可以扩展为大规模文本语料库。

理由1:如果你从自然语言处置惩罚(NLP)入手,这是一本很好的读物,可以资助你相识单词嵌入的基本知识以及它们的重要性。理由2:以前并不是所有的工具都是基于Transformers的,阅读早期的作品是一个很好的方法去找到一个“被遗忘的想法”,该想法可以使现有技术进一步生长。

Transformers:http://papers.nips.cc/paper/7181-attention-is-all-you-need理由3:许多作者在厥后扩展了本文中提出的许多观点。如今,词嵌入已成为自然语言处置惩罚(NLP)中的主要内容。进一步阅读:在同一时期,Google公布了Word2Vec,另一个著名的语义向量生成模型。不久之后,这些想法被生物学界采取,作为表现大卵白和基因序列的方法。

而现在BERT是词汇表征和语义明白的主导方法。Word2Vec:https://arxiv.org/abs/1301.3781BERT:https://arxiv.org/abs/1810.048052.AdaBoost (1997)Freund, Yoav; Schapire, Robert E (1997). “A decision-theoretic generalization of on-line learning and an application to boosting”.论文链接:https://www.sciencedirect.com/science/article/pii/S002200009791504X经典的机械学习模式基础就不灵活,大多数公式都有显著的局限性,这使得它们无法扩展到越来越庞大的任务中。

首先解决这个问题的措施之一是将现有的最佳模式举行投票整合。1997年,Freund和Schapire提出了AdaBoost算法,这是一种元启发式学习算法,能够将许多“弱”模型运用到“强”分类器中。简而言之,该算法迭代地训练多个分类器,并将每个训练样本重新加权为“简朴”或“难题”,随着训练的举行,这套系统会通过更多地关注较难分类的样原来进化。

该算法很是有效,可是遇到庞大的问题也很容易过分拟合。理由1:可以说,神经网络是弱分类器(神经元/层)的荟萃,然而神经网络文献的生长是独立于整体的。读一篇关于这个主题的论文可能会对为什么神经网络事情得这么好发生一些看法。理由2:许多新手把传统的机械学习方法视为过时和“软弱”的,在险些所有事情上都偏爱神经网络。

AdaBoost是一个很好的例子,说明经典的机械学习并不是很弱,而且与神经网络差别的是,这些模型具有很强的可解释性。理由3:有几多报纸是从一个赌徒的故事开始的,他因为一次又一次输给朋侪的骑马赌钱而受挫?我也真希望我敢写这样的论文。进一步阅读:其他盛行的集成方法包罗随机森林分类器、梯度提升技术和广受好评的XGBoost软件包,它以赢得数次机械学习竞赛而闻名,同时相对容易使用和调整。

这个家族中最新加入的是微软的LightGBM,它适用于大规模漫衍的数据集。随机森林分类器:https://en.wikipedia.org/wiki/Random_forest梯度提升技术:https://en.wikipedia.org/wiki/Gradient_boostingXGBoost软件包:https://github.com/dmlc/xgboostLightGBM:https://github.com/microsoft/LightGBM3.Capsule Networks (2017)Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. “Dynamic routing between capsules.” 神经信息处置惩罚系统的研究希望。论文链接:https://arxiv.org/abs/1710.09829神经网络文献从感知器模型开始,到卷积神经网络(CNN)。

下一个飞跃是一个备受争议的话题,其中建议之一就是由Sara Sabour,Nicholas Frosst和图灵奖获得者Geoffrey Hinton提出的Capsule Network。明白胶囊网络的一个简朴方法是用“胶囊”取代“目的检测器”。

每层“目的检测器”都试图识别图像中的相关特征,以及它的姿态(偏向、比例、倾斜等),通过叠加探测器,可以导出物体的鲁棒表现。从本质上讲,胶囊并不像cnn那样将当地信息聚合到高级功效中,取而代之的是,它们检测目的部门并按条理组合它们以识别更大的结构和关系。

理由1:作为科学家,我们都应该寻找下一个重大事件。虽然我们不能说胶囊网络将是下一个摇滚明星,但我们可以说他们试图解决的问题是相关的,而且对于所有相关问题,最终会有人回覆。

理由2:本文提醒我们CNN并不完美,它们对旋转和缩放稳定。只管我们使用数据增强来缓解这种情况,但俗话说,没有一种创可贴能治愈一个男子。理由3:在深度学习成为主流之前,许多目的检测方法都依赖于识别易于发现的“目的部门”并针对数据库/本体执行模式匹配。Hinton和他的团队正在做的是使这种早期方法现代化,这就是为什么我们都应该不定期阅读经典。

进一步阅读:在已往的一年中,Attention机制引起了很大注意,只管它没有实验替代或增加卷积,但确实为全局推理提供了一条途径,这是现代网络中众多Aquiles脚跟之一。4.Relational Inductive Biases (2018)Battaglia, Peter W., et al. “Relational inductive biases, deep learning, and graph networks.” arXiv preprint arXiv:1806.01261 (2018).论文链接:https://arxiv.org/pdf/1806.01261.pdf这篇文章总结了深层思维团队相信的深度学习下一个重要技术:图神经网络(GNNs)。用作者自己的话说:(…)。

我们认为,组合泛化必须是人工智能实现类人能力的首要任务,结构化表现和盘算是实现这一目的的关键。正如生物学互助使用自然和造就一样,我们阻挡在“手工工程”和“端到端”学习之间的错误选择,而是提倡一种从两者互补优势中获益的方法。我们将探讨如何在深度学习架构中使用关系归纳偏差来促进对实体、关系和组合规则的学习。旁注:归纳偏差是学习算法对数据所做的所有假设。

例如,线性模型假设数据是线性的。如果一个模型假设数据有一个特定的关系,它就有一个关系归纳偏差。因此,图是一种有用的表现。

理由1:现在的CNN模型是“端到端”的,这意味着它们使用的是原始的,大部门是未经处置惩罚的数据。特征不是由人类“设计”的,而是由算法自动“学习”的。

我们大多数人都被教诲特征学习会更好。在本文中,作者提出了相反的看法。

理由2:早期的人工智能文献大多与盘算推理有关,然而盘算直觉占了上风。NN不会对输入举行仔细思量;它们会发生一种相当准确的数学“预感”。图形可能是一种将这种差距与直觉推理联系起来的方法。

理由3:组合问题可以说是盘算机科学中最关键的问题,大多数都处于我们认为可处置惩罚或可能的边缘。然而,我们人类可以自然地、绝不艰苦地推理。图神经网络是谜底吗?进一步阅读:GNNs是一个令人兴奋和不停生长的领域。从图论中,我们知道险些任何事物都可以被建模为一个图。

谢尔盖·伊万诺夫(Sergei Ivanov)在2020年ICLR集会上揭晓了大量参考文献,列出了GNN的新趋势。2020年图机学习的主要趋势:https://towardsdatascience.com/top-trends-of-graph-machine-learning-in-2020-1194175351a35.Training Batch Norm and Only BatchNorm (2020)Frankle, Jonathan, David J. Schwab, and Ari S. Morcos. “Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs.” arXiv preprint arXiv:2003.00152 (2020).论文链接:https://arxiv.org/abs/2003.00152你相信在CIFAR-10上,仅ResNet-151的批处置惩罚尺度化层就可以到达+60%的准确度吗?换句话说,如果你将所有其他层锁定在它们的随机初始权值,并训练网络50个左右的周期,它的性能将比随机的好。我不得不把这篇论文复制出来亲眼看看,“魔力”来自于经常被遗忘的批次范数的γ和β参数:批处置惩罚尺度化操作的完整界说。γ和β是两个可学习的参数,可在尺度化发生后允许图层缩放和移动每个激活图。

理由1:这是一个疯狂的想法,值得一读。开箱即用的想法总是受接待的。理由2:你可能会问自己批归一化层如何学习,而且你可能会想知道为什么有人会体贴这一点。对于数据科学中的许多事情,我们认为批归一化是天经地义的,我们相信这只会加速训练。

可是,它可以做得更多。理由3:这篇文章可能会激起你的兴趣,让你看看所有的公共层都有哪些参数和超参数。

进一步阅读:大多数课程教诲批归一化层是针对所谓的内部协方差转移问题。最近的证据讲明情况并非如此(https://arxiv.org/abs/1805.11604),相反,作者认为BN层使整体损失情况更为平滑。另一个巧妙的想法是彩票假说,它也是由弗兰克尔等人提出的。

彩票假说:https://arxiv.org/abs/1803.036356.Spectral Norm (2018)Miyato, Takeru, et al. “Spectral normalization for generative adversarial networks.” arXiv preprint arXiv:1802.05957 (2018).论文链接:https://arxiv.org/abs/1802.05957在GAN文献中,Wasserstein损失改善了训练GANs的几个关键挑战,然而它划定梯度必须有一个小于或即是1的范数(1-Lipschitz)。损失的最初作者建议将权重裁剪为[-0.01,0.01],以此来增强小梯度。作为响应,也有人提出了更洁净的解决方案,使用频谱范数作为约束权重矩阵以生成最多单元梯度的平滑替代方法。

Wasserstein损失:https://arxiv.org/abs/1701.07875理由1:尺度化是一个比力大的话题,许多特殊属性可以通过专门的尺度化和经心设计的激活函数来实现。理由2:除了作为一个尺度,它也是一个正则化,这是神经网络设计中经常被忽视的话题。除了dropout,读一篇关于该问题的乐成论文让人线人一新。

dropout:https://en.wikipedia.org/wiki/Dropout_(neural_networks)进一步阅读:尺度化技术的其他最新希望是组尺度化和自适应实例尺度化技术,前者以小批量解决了批量范数的一些缺点,尔后者则是任意气势派头转换的关键突破之一。7.Perceptual Losses (2016)Johnson, Justin, Alexandre Alahi, and Li Fei-Fei. “Perceptual losses for real-time style transfer and super-resolution.” 欧洲盘算机视觉集会. Springer, Cham, 2016.大多数神经网络背后的驱动力是损失函数。在形貌什么是好的和什么是坏的损失函数越是乐成,我们就越快收敛到有用的模型中。

在文献中,大多数损失相对简朴,只能丈量低水平的属性。除此之外,获取高级语义也是出了名的棘手。Perceptual Losses论文认为,可以使用预先训练的网络来怀抱语义相似度,而不是手工设计庞大的损失函数。在实践中,生成值和真实值的效果通过预先训练的VGG网络通报,并比力特定层的激活情况。

相似图像应该有相似的激活。早期图层捕捉广泛的特征,尔后期图层捕捉更多细微的细节。理由1:损失是生成优秀模型最重要的方面之一。没有一个合适的反馈信号,任何优化历程都不会收敛。

这就是一个好老师的角色:给予反馈。理由2:乐成的损失往往具有里程碑意义。在感知损失被发现之后,GANs所获得了品质的跃升。明白这部作品对于明白大部门后期技术是必不行少的。

理由3:这些神经损失既神秘又有用。虽然作者对这些模型的事情原理提供了合理的解释,但它们的许多方面仍然是开放的,就像神经网络中的大多数工具一样。

进一步阅读:神经网络的一个迷人的方面是它们的可组合性。本文使用神经网络来解决神经网络问题。拓扑损失理论将这种思想推广到图像支解问题中。神经结构搜索(NAS)文献使用神经网络来寻找新的神经网络。

至于盘算机视觉的其他损失,这里有一个全面的指南。谢谢Sowmya Yellapragada整理了这个强大的清单:https://medium.com/ml-cheat-sheet/winning-at-loss-functions-2-important-loss-functions-in-computer-vision-b2b9d293e15a8.Nadam (2016)Dozat, Timothy. “Incorporating nesterov momentum into adam.” (2016).我们大多数人都熟悉SGD、Adam和RMSprop等术语,有些人还知道一些不太熟悉的名字,如AdaGrad、AdaDelta和AdaMax,可是很少有人花一些时间来明白这些名称的寄义以及为什么Adam是当今的默认选择。Tensorflow捆绑了Nadam,它革新了Adam,可是大多数用户并不知道。理由1:本论文对大多数神经网络优化器举行了全面而直接的解释。

每一种方法都是对其他方法的直接革新。很少有论文能在两页半的篇幅里涵盖如此重数学的知识。理由2:我们都认为优化器是天经地义的,相识它们的基本原理对革新神经网络很是有用,这就是为什么我们在RMSprop不收敛时用Adam替换它,或者用SGD替换它。

进一步阅读:自2016年以来,已经提出了许多对优化器的其他革新,有些将在某个时候合并到主流库中。看看 Radam, Lookahead,和Ranger 的一些新想法。Radam:https://arxiv.org/abs/1908.03265v1Lookahead:https://arxiv.org/abs/1907.08610Ranger:https://github.com/lessw2020/Ranger-Deep-Learning-Optimizer9.The Double Descent Hypothesis (2019)Nakkiran, Preetum, et al. “Deep double descent: Where bigger models and more data hurt.” arXiv preprint arXiv:1912.02292 (2019).传统的看法认为小模型欠拟合,大模型过拟合,然而,在彩虹之上的某个地方,更大的模型仍然闪耀着光线。本文中,Nakkiran等人有证据讲明,随着尺寸的增长,一些模型体现出“双下降”现象,测试精度下降,然后上升,然后再次下降。

此外,他们认为拐点是在“插值阈值”:一个模型足够大来插值数据的点,换句话说,当一个模型的训练超出了该领域的建议,它就会开始革新。理由1:大多数课程都教授偏差/方差权衡,显然,该原则仅在一定水平上适用——需要时间来温习基础知识。理由2:如果增加的周期数也越过了插值点,我们都应该尽早放弃,看看会发生什么。总的来说,我们都可以做科学的分析。

理由3:这和5很好地提醒了我们另有许多我们不知道的地方。并非我们所学的一切都是正确的,而且并非所有直观的知识都是正确的。

进一步阅读:一个更轻松的阅读是图像分类的“技巧包”。在这本书中,你将找到几个简朴且可操作的建议,用于从模型中提取分外的性能下降元素。

图像分类的“技巧包”:https://arxiv.org/abs/1812.0118710.On The Measure of Intelligence (2019)François, Chollet. “On the Measure of Intelligence.” arXiv preprint arXiv:1911.01547 (2019).https://arxiv.org/abs/1911.01547大多数人都在努力多走一英里,弗朗索瓦·乔利特正在向月球射击。在这个列表中,所有提到的文章都进一步推动了实践和理论的生长。一些技术已经被广泛接纳,而另一些则为融合提供了良好的革新,然而,比肩人类智力,仍然是一个神秘而难以捉摸的话题,更不用说秘密或神秘了。时至今日,人工智能领域朝着通用智能偏向的进步还只是用“成就”来权衡。

每隔一段时间,一种算法在庞大的任务中击败了人类,好比国际象棋、dota2或围棋。每当这种情况发生时,我们都说我们又近了一步. 然而,这还不足以权衡智力的技术习得效率。在这篇(长篇)文章中,Chollet认为:“要想朝着更智能、更人性化的人工系统迈进,我们需要遵循适当的反馈信号。

”换句话说,我们需要一个合适的机械智能基准,一种智商测试。因此,作者提出了抽象推理语料库(ARC)。ARC可以被看作是一个通用的人工智能基准,一个法式综合基准,或者一个心理丈量智能测试。

它的目的是人类和人工智能系统,这些系统旨在模拟人类一般流体智能的形式。”理由1:虽然数据科学很酷很时髦,但人工智能才是真正的焦点。

如果没有人工智能,就不会有数据科学。它的最终目的不是寻找数据洞察力,而是构建可以拥有自己想法的机械。花些时间思考以下基本问题:什么是智力,我们如何权衡?本文是一个好的开始。理由2:在已往的几十年里,IA社区被来自数理逻辑和演绎推理的思想所支配,可是支持向量机和神经网络在没有任何形式的显式推理的情况下,比基于逻辑的方法更先进。

ARC是否会引发经典技术的再起?理由3:如果Chollet是正确的,我们离建立能够求解ARC数据集的算法另有几年的时间。如果你正在寻找一个可以在业余时间使用的数据集,这里有一个可以让你保持忙碌的数据集:进一步阅读:2018年,Geoffrey Hinton、Yosha Bengio和Yan LeCun因其在深度学习基础上的先驱事情而获得图灵奖。今年,在AAAI集会上,他们就人工智能的未来揭晓了自己的看法。你可以在Youtube上寓目:https://youtu.be/UX8OubxsY8w我想用杰弗里·辛顿的一句话来竣事这篇文章,我相信这句话归纳综合了这一切:“未来取决于某个研究生,他对我所说的一切都深表怀疑。

”GloVe通过隐式完成了共现矩阵。AdaBoost使数百个弱分类器成为最新技术。胶囊网络挑战了CNN,而图神经网络可能会取代它们。关键的进步可能来自归一化,损失和优化器,而我们仍然有空间质疑批处置惩罚规范和训练过分参数化的模型。

我想知道另有几多关于dropout和ReLU的事情需要去发现。参考链接:https://towardsdatascience.com/ten-more-ai-papers-to-read-in-2020-8c6fb4650a9b编辑:王菁校对:林亦霖—完—想要获得更多数据科学领域相关动态,诚邀关注清华-青岛数据科学研究院官方微信民众平台“ 数据派THU ”。


本文关键词:2020年,还,需要,阅读,的,10篇,人工智能,论文,附,欧宝体育app

本文来源:欧宝体育app-www.yw0752.com

电话
0758-60678957