所在位置:凯时娱乐网站 > 行业新闻 >

图像识别中的深度进修【香港中文大学王晓刚】
发布时间:2019-07-27 点击: 次   编辑:

图像识别中的深度深造【香港中文大学王晓刚】

  深度凯时娱乐网站首页进修是近十年来人工智能领域获得的重要冲破。它在语音识别、自然语言办理、计算机视觉、图像与视频剖析、多媒体等诸多领域的应用获得了宏大胜利。现有的深度进修模型属于神经网络。神经网络的起源可追溯到20世纪40年代,曾经在八九十年代风行。神经网络试图通过模拟大脑认知的机了处置惩罚惩罚各种机器进修问题。1986年,鲁梅尔哈特(Rumelhart)、欣顿(Hinton)和威廉姆斯(Williams)在《自然》杂志颁发了著名的反向流传算法用于训练神经网络[1],该算法直到本日仍被宽泛应用。

本文引用地址:

  神经网络有大量参数,经常发生过拟合问题,尽管其识别成果在训练集上精确率很高,但在测试集上效果却很差。这是因为其时的训练数据集规模都较小,加之计算资源有限,即即是训练一个较小的网络也必要很长的工夫。与其他模型比拟,神经网络并未在识别精确率上表现出鲜亮的劣势。

  因而更多的学者初步接纳撑持向量机、Boosting、最近邻等分类器。这些分类器可以用具有一个或两个隐含层的神经网络模拟,因而被称为浅层机器进修模型。在这种模型中,往往是针对差异的任务设想差异的系统,并接纳差异的手工设想的特征。例物体识别接纳尺度不乱特征转换(Scale Invariant Feature Transform, SIFT),人脸识别接纳部分二值形式(Local Binary Patterns, LBP),行人检测接纳标的目的梯度直方图(Histogram of Oriented Gradient, HOG)特征。

  2006年,欣顿提出了深度进修。之后深度进修在诸多领域获得了宏大胜利,遭到宽泛存眷。神经网络能够从头焕发青春的起因有几个方面:首先,大规模训练数据的出如今很洪流平上缓解了训练过拟合的问题。例如,ImageNet[2]训练集领有上百万个有标注的图像。其次,计算机硬件的飞速开展为其提供了强大的计算才华,一个GPU芯片可以集成上千个核。这使得训练大规模神经网络成为可能。第三,神经网络的模型设想和训练方法都获得了长足的提高。例如,为了改进神经网络的训练,学者提出了非监视和逐层的预训练,使得在操作反向流传算法对网络停止全局优化之前,网络参数能到达一个好的起始点,从而在训练完成时能到达一个较好的部分极小点。

  深度进修在计算机视觉领域最具影响力的冲破发生在2012年,欣顿的钻研小组接纳深度进修博得了ImageNet图像分类较量的冠军[3]。排名第2到第4位的小组接纳的都是传统的计算机视觉方法、手工设想的特征,他们之间精确率的不同不凌驾1%。欣顿钻研小组的精确率超过第二名10%以上,(见表1)。这个成果在计算机视觉领域孕育发生了极大的震动,引发了深度进修的热潮。

  计算机视觉领域另一个重要的挑战是人脸识别。有钻研表白[5],假如只把不包含头发在内的人脸的中心区域给人看,人眼在户外脸部检测数据库(Labeled Faces in the Wild, LFW)上的识别率是97.53%。假如把整张图像,包含背景和头发给人看,人眼的识别率是99.15%。典范的人脸识别算法Eigenface[6] 在LFW测试集上只要60%的识别率。在非深度进修算法中,最高的识别率是96.33%[7]。目前深度进修可以到达99.47%的识别率[8]。

  在欣顿的科研小组博得ImageNet较量冠军之后的6个月,谷歌和百度都发布了新的基于图像内容的搜寻引擎。他们接纳深度进修模型,应用在各自的数据上,发现图像搜寻精确率得到了大幅度进步。百度在2012年创立了深度进修钻研院,2014年5月又在美国硅谷创立了新的深度进修尝试室,聘请斯坦福大学著名教授吴恩达担当首席科学家。脸谱于2013年12月在纽约创立了新的人工智能尝试室,聘请深度进修领域的著名学者、卷积网络的创造人雅恩·乐昆(Yann LeCun)作为首席科学家。2014年1月,谷歌抛出四亿美金收购了深度进修的创业公司DeepMind。鉴于深度进修在学术界和工业界的宏大影响力,2013年,《麻省理工科技评论》(MIT Technology Review)将其列为世界十大技术冲破之首。

  深度进修有何与众差异?

  深度进修和其他机器进修方法比拟有哪些关键的差异点,它为何能在许多领域获得胜利?

  特征

  深度进修与传统形式识别方法的最大差异在于它所接纳的特征是从大数据中自动进修得到,而非接纳手工设想。好的特征可以进步形式识别系统的性能。过去几十年,在形式识另外各种应用中,手工设想的特征不停处于统治地位。手工设想主要依靠设想者的先验常识,很难操作大数据的劣势。由于依赖手工调参数,因而特征的设想中所允许呈现的参数数量非常有限。深度进修可以从大数据中自动进修特征的暗示,可以包孕成千上万的参数。

  接纳手工设想出有效的特征往往必要五到十年工夫,而深度进修可以针对新的应用从训练数据中很快进修到新的有效的特征暗示。

Copyright © 2013 凯时娱乐网站凯时娱乐网站首页_凯时娱手机版网址_凯时国际娱乐人生就是博 All Rights Reserved |网站地图|