《深入浅出深度学习:原理剖析与python实践》_sample


www. 』> roadlf 阳毗 com.en 深入混出深度学习 原理剖析与 Python 实践 黄安埠著 深入浅出深层学习 原理剖析与 Python 实践 弯子立 't. d江旅社· Publishing House of Electronics Industry 北 京 •BEIJING 黄安埠著 内容简介 本书介绍了深度学习相关的原理与应用,全书共分为 三 大部分,第 一 部分主要回顾了深度 学习的发展历史,以及 T hea no 的 使用;第 二 部分详细讲解了与深度学习相关的基础知识,包 括线性代数、概率论 、概 率图模型、机器学习和最优化算法;在第 三 部分中,针对若干核心的 深度学习模型 ,如 自编码器、受限玻尔兹曼机、递归神经网络和卷和、神经网络等进行详细的原 理分析与讲解,并针对不同的模型给出相应的具体应用。 本书适合有一定高等数学、机器学习和 Python 编程基础的在校学生、高校研究者或在企业 中从事深度学习的工程师使用 , 书中对模型的原理与难点进行了深入分析 , 在每一章的最后都 提供了详细的参考文献 , 读者可以对相关的细节进行更深入的研究 。 最后,理论与实践相结合, 本书针对常用的模型分别给出了相应的应用 , 读者也可以在 Github 中下载和查看本书的代码 C h 叩 s ://g ithub .c om/innovation-cat/DeepLearningBook ) 。 未经许可,不得以任何方式复制或抄袭本书之部分或全部内容 。 版权所有,侵权必究。 图书在版编目 CCIP )数据 深 入浅出深度学习:原理剖析与 Py 也 on 实践/黄安埠著.一北京 :电 子工业出版社 , 2017.6 ISBN 978-7-121-31270-0 I . ①深 … II. ①黄…皿. ①软件工具一程序设 计 IV . ①TP31 l.56 I 中国版本图书馆 CIP 数据核 字 ( 2017 )第 070055 号 责 任编辑:徐津平 印 刷: 三 河市华成印务有限公司 装 订: 三 河市华成印务有限公司 出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编 100036 开 本: 720 × 1000 1/ 16 印张: 22.25 字数 : 401 千 字 版 次: 2017 年 6 月第 1 版 印 次: 2017 年 6 月第 l 次印刷 印次: 3000 册定价: 79 . 00 元 凡所购 买 电子工业出版社图书有缺损问题,请向购 买书店调换。若书店售缺 ,请 与本社发 行部联系,联系及邮购电话:( 010) 88254888. 88258888 . 质量投诉请发邮件至 zlts@phei.com.cn ,盗版侵权举报请发邮件至 dbqq@phei.com.cn 。 本书咨询联系方式 : 010-51260888 -819, faq@phei . com.cn 。 推荐序 1 介绍深度学习的书籍不少,但是《深入浅出深度学习 : 原理剖析与 Python 实践》 与其他同 类书相比,视角明显不同 。 如果要给本书写个宣传语,或许可以是“深度学 习工程师速成培训教材” 。 本书对读者 的知识结构有两 点要求:一是学过高等数学 , 二是熟 悉 Python 编程 。 换而言之,各个专业 的理工科学生,尤其是学过 Python 编 程的,都是 此书的目 标读者 。 本书内容全面,但是取舍明确,有重点 地 深入,尤其对于技术的重点难点解释得 很详细,深入浅出 。 本书最大的特色就在于内容取舍的尺度非常明确 一一着重于原理的解释和动手 实践的路径,但是并不拘泥于细枝末节 。 胸中有经纬,就不会迷失在细节的汪洋大海 。 本书 刚好侧 重于对经纬的梳理 。 此 处的经纬,一类是数学基础知识,另 一类是深度学习技术 。 与深度学习相关的数学知 识包括线性代数、概率统计等 。 因为概率图与深度学习结合较多,本书把“概率图” 作为单独的 一 章重点讲述 。 深度学习技术包括机器学习的传统技术、用于训练神经网 络的梯度下降等算法 。 本书重点讲述了神经网络的基本算法以及 几种 常用的深度网络 架构 。 程师,重在实践 。 工欲善其事 必先利其器,实践深度学习,离不开深度学习 工 具 。 本书介绍了 T heano 工具集 的基本用法 。 其实深度学习工具,一通百通,各种工 具的区别,类似于北京口音与东北口音的区别 。 认真读完此书,读者应该拥有 三 项能力 : 一是读得懂深度学习 的论文; 二是读得 深入浅 出 深 度 学 习:原理 剖 析与 Pyth o n 实践 懂深度学习的代码 ; 三 是能够自行开发简单的深度学习应用 。 总结一下,在深度学习技术异常火爆,深度学习工程师奇缺的当下,如何快速培 养深度学习方向的工程师,是一个迫切的问题 。 此书是难得的好教材 。 邓侃博士 邓侃,美国卡内基梅隆大学( C MU )计算机学院博士,专攻人 工智 能和数据挖掘 。 历任美国甲骨文( Oracl e )主任系统架构师 , 美国泰为手机导航公司( Te l e n av )北京 分公司总经理,百度 网 页搜索高级总监 。 20 15 年至今创建北京大数医达科技有限公司, 专注于研发医疗大数据和人工智能医生,出任 C TO 。 IV 推荐序 2 在过去的这十年,深度学习已经席卷了整个科技界和工业界, 2016 年谷歌阿尔法 狗打败围棋世界冠军李世石,更是使其成为备受瞩目的技术焦点 。 记得 2010 年 7 月 我参与了 Facebook 人脸识别( Face Detection )工作,那时候深度学习还没有普及, 这个系统是当时世界上最大的实时人脸识别系统,每天都有几千万张脸被找出来 。 随 着硬件的成熟和数据的指数级增 加,深度 学习在很多 问题上成为人 工智能最火和最有 效的方法 。 这几年,我身边越来越多的计算机从业者,甚至在校大学生向我咨询,有效了解 和学习这个当前人工智能最热门的领域的方法 。 没错,一方面深度学习很热门,人人都 对此充满了好奇和向往,但是同时,它对于初学者往往挑战也不小,因为需要一定的数 学基础,同时各种专业术语,如果不用深入浅出的方式讲,很容易让人产生畏难情绪 。 所以我推荐黄安埠的这本 《 深入浅出深度学习:原理剖析与 Python 实践 》 给所有 对深度学习有兴趣的朋友们,本书涵盖了深度学习的理论以及各种常见的深度学习模 型,你们会在这本书中找到关于深度学习最实用的知识和信息 。 对于初学者来说,这 是 一 本非常通俗易懂的入门教材 。 同时我也推荐该书给深度学习领域的开发者和数据科学家,因为作者也分享和总 结了许多深度学习的最佳实践法,并辅以相当多的实际应用案例加以诠释,是 一 本值 得借鉴参考的好书 。 陈尔东 前 Twitter 总监,前 Face book 经理和早期工程 师 目。 司 What magical trick makes us intelligent? The trick is that there is no trick. The power of intelligence stems 企om our vast diversity, not 台om any single, perfect principle. 一一- Marvin Minsky 智能( Intelligence )这个词的出现最早可以追溯到古希腊时期,当时人们已经开 始梦想能创造出一种像人类一样,具有独立思考和推理能力的机器,但由于受到当时 生产力水平的制约,古人对“智能”的研究更多的是停留在理论探索阶段 。 到了近代, 尤其是具有划时代意义的达特茅斯会议的召开,标志着人工智能开始从理论探索进入 到理论与应用相结合的实践阶段 。 从 20 世纪 so 年代开始,人工智能的发展大致经历了 三个阶段,分别从最初的逻辑推理,到统计机器学习,再到近年来逐渐占据主流地位 的深度学习 。 虽然深度学习是 一 门以神经网络为核心的学科,但人们普遍认为深度学习始于 2006 年, 当时 Hinton 等人提出基于深度置信网络( DBN )逐层预训练的方法来训练深 层模型,并首次提出了深度学习的概念 。 此后,深度学习开始进入人们的视野,但那 时候深度学习更多的是少数顶尖科学家研究的领域,并没有得到大规模的应用和推广 。 直到 2012 年, Hinton 和他的两个 学生 Alex Krizhevs 均 、 Illya Sutskever , 将卷积神经 网络应用到 Image Net竞赛中,并取得了分类错误率 15% 的成绩,这个成绩比第 二 名低 了近 11 个 百分点 ,这 一 历史性的突破,使得人们开始意识到深度学习所拥有的 巨大潜 力,在这之后,深度学习开始在工业界,尤其是计算机视觉、语音识别和自然语言处 理等领域,大规模应用,并且取得了比以往更好的效果 。 到了 2016 年,随 着 Alpha Go 的 横空出世,它的惊人表现将深度学习的热度推向了顶峰,因此 2016 年也被很多 学者认 前言 为是人工智能元年,事实上,当前人工智能已经影响到人们生活的各个方面,如语音 助手、语音搜索 、 元人驾驶汽车、人脸识别等,为人们的生活带来了极大的方便,人 工智能也必将在今后相当长的一段时间内,继续推动着人类的技术发展 。 在本书编写的过程中,市面上有关深度学习方面的中文书籍较少,因此作者希望 能从理论和应用相结合的角度,对深度学习的相关知识进行较为全面的梳理,本书既 可以作为初级读者的入门书籍,也适合中级读者用来加深对理论知识的理解 。 本书覆 盖了线性代数、概率论、数值计算与最 优化 等基础知识,以及深度学习的两大核心: 概率图模型和深度神经网络 。 具体来说 , 本书由以下三大部分构成 : 第 l 部分是概要,共分为两章 。 第 1 章主要阐述了深度学习、人工智能相关的背 景,深度学习的原理,以及当前流行的深度学习框架对 比;第 2 章介绍了深度学习框 架 Theano 的使用 ,着重对 Theano 的 基础知识和编程范式进行了讲解 。 第 2 部分是与深度学习相关的数学和机器学习方面的基础知识,共分为 5 章 。 第 3 章介绍线’性代数基础知识;第 4 章介绍了概率论和数理统计相关的知识 ;第 5 章介 绍概率图模型,包括贝叶斯网络和马尔科夫网络的原理;第 6 章简要回顾机器学习的 基 础知识, 并介绍机器学习模型与深度学习模型之 间的联系;第 7 章 ,深入分析几种 常用的机器学习最优化方法,包括具有一阶收敛速度的梯度下降法和共辄梯度法,以 及具有 二 阶收敛速度的牛顿法和拟牛顿法 。 第 3 部分介绍了各种常见的深度学习模型,包括一系列的深度学习模型理论及其 应用,本部分共分为 6 章 。 第 8 章介绍全连接前馈神经网络,包括网络结构和激活函 数的相关知识;第 9 章将深入分析反向传播算法,以及梯度消失问题 。 梯度消失也是 深度神经网络训练的 一 大难点,我们将介绍当前有效解决深度网络训练中过拟合和欠 拟合的常见技巧,包括 Batch Normalization 、残差网络、 Dropout等;第 10 章介绍本 书的第一种无监督网络模型 : 自编码器及其变种模型;第 l l 章介绍一种深度概率图 模型一一受限玻尔兹曼机,与自编码器一样,受限玻尔兹曼机也是一种常见的无监督 网络模型,最后介绍如何将受限玻尔兹曼机应用于个性 化 推荐领域中 ; 第 12 章,将 介绍一种应用非常广泛的网络结构一一递归神经网络,深入分析递归网络的结构及其 变形网络,如 LSTM 、 GRU 等,并以语言模型为例,介绍递归神经网络在自然语言处理 中的应用;第 13 章介绍另一 种常见的模型结构 : 卷积神经网络,包括卷积网络的卷 积层和池化层结构设计,以及其在文本分类中的应用 。 关于本书的源代码,读者也可以从 Github 上( htψs ://gi thub . com/innovation- VII 深入浅出深度学习 :原理剖析与 Python 实践 cat/DeepLeam ingBook )下载查看 。 深度学习近年来处于高速发展的阶段,很多更先进 的理论和算法正被不断提出,因此本书无法覆盖所有的模型与算法,加之作者水平和 精力所限,书中难免有错漏之处,承蒙各位读者不吝告知,如对本书有任何疑问或建 议,读者可以通过邮箱 hu anganbu@gmail.com 给我反馈 。 在本书的撰写过程中,得到了很多行业专家和好友的支持,在此,特别感谢香港 科技大学计算机系主任杨强教授、原百度网页搜索高级总监邓侃博士 、 原 Tw itter工程 总监陈尔东先生,感谢他们在百忙之中抽时间审阅我的书稿,提出了很多宝贵的意见, 并为我写下推荐序 。 在本书的撰写过程中,还得到了电子工业出版社刘胶编辑和汪达文编辑的极大帮 助,在此表示衷心的感谢;感谢我在腾讯公司的上级李深远先生对我工作的支持,也 感谢其他各位关心我工作的朋友和同事 。 最后,非常感谢我的家人对我工作的理解和支持,他们在我写作的过程中给予了 很大的照顾和鼓励,也是促使我能完成本书写作的最大动力 。 VIII 黄安埠 2017 年 3 月于深圳 轻松注册成为博文视点社区用户( www.broadview.com.cn ),扫码直达本书页面 。 · 下载资源: 本书如提供示例代码及资源文件,均可在下载资源处下载 。 · 提交勘误: 您对书中内容的修改意见可在提交勘误处提交,若被采纳,将获赠博 文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额) 。 · 交流互动: 在页面下方读者评论处留下您的疑问或观点,与我们和其他读者 一 同 学习交流 。 页面人口 : http ://www. broad view.eom.cn/3 l 270 目录 第 1 部分概要................................…......……………........……… . ....... 1 1 绪论.. ... ... ... .. .. .…. . . . .. . .. . . .. . . ....... . . . ........ .. .......................... .. .... . . . ............ . ....... 2 1.1 人工智能、机器学习与深度学习的关系 ......................…..........….........… … ........ 3 1.1.1 人工智能一一 机 器推理 . ....... ... . .....……·······… …….... ... .. .................. . 4 1.1.2 机器学习一一数据驱动的科学... . .... .... ........……………… .... ............ 5 1.1.3 深度学习一一大脑 的仿 真 ... . ..... . .............… · …… ….. ........ .... .. ........... 8 1.2 深度学习的发展历程 ………·…....... “ …”………................ . ......................…...............…”.. 8 1 . 3 深度学习技术概述 “…............…”……........ . ... . … ........ . ... . . . . ........................................... 10 1.3 .1 从低层到高层的特征 抽 象…................ .. ….... ... .………... . .. ...…… .. . 11 1.3.2 让网络变得更深.... . ....…........ . ....... . .. ....... .. .. .. .. ............... . . .............. 13 1.3 .3 自动特征提取 · · · · ··· · ··· · ·· ························· · ···········……………… … … .. 14 1.4 深度学习框架 .....“……..........................…..........….......…”…”…”.. ... ... .. ..... ... ... . …........... 15 2 Theano 基础 . ... . . ... ... ········ · · · · ·…… ………………………………………………………” 2.1 符号变量 ............................…............. .. .……... . . .. . . . ... ......... . ..”…............. . .......................... 20 2.2 符号计算 的抽 象一一符号计算图模型 .... .. ...........…............................................. 23 2 . 3 函数 ... . .”…”… H …….....................................”........”…............…”...............................…...... 26 2.3 .1 函数 的 定义 . ... . ............ .. ........ . .. . .. .................. ...... ........ .. . . ..... .. ......... 26 2.3 .2 Logistic 回归... . ........….... .. . . ...... .. .... .. .. ..… ……………… .. .. ....... ...... . 27 2.3.3 函数 的 复制 . . .. .. . . . .. . . .. ........ .. ..... ... .. .. .. ... .. ... .. .... ........ ....................... 29 2.4 条件表达式 ….......….........…................ . ..............….......…................................................ 31 深入浅出深度学习:原理剖析与 Python 实践 2.5 循环…...............“..........”…·”…...............……..............……............….......…...........…............. 32 2.6 共 享变量 .....................“..........……......”…·….........……………………………………………··“....到 2.7 配置….....................................................................””…………………… …….”....”......... 3 9 2.7.1 通过 THEANO_FLAGS 配置.......……......................…....................... 40 2.7.2 通过. theanorc 文件配置 .. ... ....................... ... ..…........ ..... ...…....... 41 2.8 常用的 Debug 技巧.....”…·”...…··”…………………··”“……………………......…………··”.......... 42 2.9 小结….....................”…”…·…................…··….........”..........”…·”.............................…........... 43 第 2 部分数学与机器学习基础篇........................................ .. ......... 45 3 线性代数基础……………………………………… ……… …………………………………·“ 3.1 标量、向量、矩阵和张量...........................…...................................”…·”….............. 46 3.2 矩阵初等变换….....................”........................................”.............…............................. 47 3.3 线性相关与向量空间.........................….........”..........… H ……........................…“........... 48 3.4 范数……...........................…..........“................….........”..........….........…................…............ 49 3.4.1 向量范数......................................................................................... 49 3.4.2 矩阵范数...................................................…·······…....... .… …......... 53 3.5 特殊的矩阵与向量”...”...........”........”…........……”…..........................…........................ 56 3.6 特征值分解…................…...............…............................................................................. 57 3.7 奇异值分解 ... .... .........…… ··……...............………······ ··· ..........................................“ H ” m 8 3.8 迹运算 ........................“....”....”..........“…·….................................. ........... . ...”……·· ”......... 60 3.9 样例 : 主成分分析.... .........…·………………………………………………………...... .… ............. 61 4 概率统计基础..... ..... .. .. ............. ... ..…….... ...….....……...................... 64 4.1 样本空间与随机变量 ........................…...............…”.. ...... ”…”…”….............................. 65 4.2 概率分布与分布函数..........”…”...”…“........…............“…...........….........……“……........ 65 4.3 一 维随机变量 ......….................................”…·….........”. ........”..........”…..............…...... . .. 66 x_ 4.3.1 离散随机变量和分布律·· · ····· ··· ····………………...............….............. 66 4.3.2 连续随机变量和概率密度函数.......….........………·············…....... 67 4.4 多维随机变量 ............….......….....”…… …........……..............”..........…… .......…................. 68 4.4.1 离散型 二 维随机变量和联合分布律.........……….......…................ 69 4.4.2 连续型 二 维随机变量和联合密度函数·············……………............. 69 4.5 边缘分布. ............... .. ......................”…·… ...... ......... ...... ................... .. ..... ..…..... ..…............. 70 4.6 条件分布与链式法则..... .”… “… ”…”·· 目录 4 .6 .1 条件概率.... . ....................… .. . ......… ……......................................... 71 4.6.2 链式法 则 .............…............. .... ..... .. ....... ... . ... . .......... ... . . . ................. 73 4 . 7 多维随机变量的独立性分析 …..........…….........…….....................…”…“….......... 73 4.7.1 边缘独立..........….......….......….......…·······….......…··…….................. 74 4.7.2 条件独立······· ···· ··· ·… .... ..... .... ..... ... .…... ... .….......... . .. ....... . . . .. ... ..... .. . 74 4.8 数学期望、方差、协方差 “… H ….. . .. ....…..........................................................… ··”.. 75 4 且 1 数学期望...................... .... .. . ..................... .... ............. .... ... ... . ........... 75 4.8.2 方差··· ·· ·· ····· ···· ···· ··········· · ············ · ··· ·· · ·· ·········· ····· · ··· · · ···· ··· ········· · ······ 76 4.8.3 协方差.........…..................... ..... ..... ..... .. .. ... ........... ............ ............. 76 4 .8 .4 协方差矩阵.............…........…........…........….........………………....... 78 4.9 信息论基础 ….......….......”..........…..............................… . .............................. .. . .…” …” .. 81 4 旦 1 信息;脑.............….... . ... . ....................... ....... ...................................... 81 4 旦 2 条件躏 .. . .. .....….......….......….... ...…… · · · ·········· ·…............................ .. 83 4 旦 4 相对恼与交叉煽. ... . ... . ... . . ..… ……..... . ….. . . . ........ .. .…........................ 84 5 概率图模型 ................ . . . .......... .. . .... .... ... .. ....... . .. . .. .... .... . ................. . ...... .. ... . 87 5.1 生成模型与判别模型 ......... . ..….................. .. ............................................…................ 89 5.2 图论基础 ......................…..........…........ . ..........…............…..........….......….........…..........… 90 5.2.l 图的结构.........………........…····················· ·· ··············· · · ··· ················ 90 5.2.2 子图.. . .............. . ... ... .…. . ....... ... . . ....... ....…….. .... . . . ….................... . ..... 91 5.2.3 路径、迹、环与拓扑排序······ · ·· ·· ·· ···….. . ... . …. .... ... ……............ ..... 92 5.3 贝叶斯网络.. ........................................…......................…”…..................………...... .... ...... 95 5.3.l 因子分解.................…··…………………………………………………........ 96 5.3.2 局部马尔科夫独立性断 言 ........... . . . . ......... .. . . ... . ... . .. .. . .... .. . . . . ... . . ..... 99 5.3.3 I - Map 与因子分解................... . ............ ... ............. ... ............. . ... .. .. 100 5.3.4 有效迹.... .. .. ..… .. .... . .. . .... ..…·.....................二... ............. . . ................. 103 5.3.5 b 分离与全局马尔科夫独立性.................. . ........…................... 108 5 . 4 马尔科夫网络 ................................…............…......................…................................... 1 08 5.4.l 势函数因子与参数化表示... . ...... . .... ..…………… …………....... . ...... 109 5.4.2 马尔科夫独立性············· · ···…........................................................ 111 5.5 变 量 消除... .. . .. . .............. .... . ..… ..... .. ..........…..... .. .....…......................…............….......… 114 5.6 信念传播 ”…........ . …… H …. . ...... .. ..… . ..............”… “... ... . .“ ….. ..............................…“........ 116 5.6.1 聚类图......…...... .… ……..... . ...... ....... ............................................. 116 XI 深入浅出深度学习:原理剖析与 Python 实践 5.6.2 团树······························································································· 120 5.6.3 由变量消除构建团树········································…·….........…....... 123 5. 7 MCMC 采样原理 ”…”……..............…......................…............….................................... 126 5.7 .1 随机采样..............…........….......….......….......…............................ 127 5.7.2 随机过程与马尔科夫链.........…................................................... 128 5.7.3 MCMC 采样. . . ... ........... . . .... .. .. . .… ........….........…........….. . ........... .. . 132 5.7.4 Gibbs 采样 ... . . ... . ................ ..... ... ..…... . .. ...…· · ······ ·········· ·· · ·· …. ...... . . 134 5 . 8 参数学习 ............…”….........…..........…............…….......….......….......…........................... 137 5.8.1 最大似然估计 · ·········….......…................……...............…............... 137 5.8.2 期望最大化算法........….......….......….........…............................... 138 5.9 小 结 ”…...................…................……...........................… H …”…...................…........…....... 140 。 42J 句 30 o nutiq JM 气 d 瓦 unu 7 臼句 JP 、 d 瓦 U 勺 ’ 00 1A 叫4 444455555666666677 4l 咱i1A1 且’ 14i ,-- A ’14i4i ’ l ’ I 噜i ,』’』’ lt I …型…器 …七模 … 类……… … ……………类… HM 性 … 分……… ………… ……聚… … 归垣线 … 隔题… …… 择略…量类 m … 回 怕的… 间问数 … …选策…度聚 坦 类 …性- mr 义机优偶函斯…征枝…离次 m 聚 型线 M 广量最对核叶 … 特剪…距层 VK 谱 贝型 基性 123 持 123 素模 12 类 123 升 习 线 创 U 创 支 22 2 朴树 4 创 聚 ““““ ,E ro ro 川字 ttt 器 12345 机 66666 肉。 7 数值计算与最优化.................................……….................…....................... 177 7.1 无约束极小值的最优化条件 ”... .....…· ·”…............….................. .. .......................... 177 7.2 梯度下降 ...............................…..................... . ...................... . ..…… .... ... . ........’“ ........…... 179 XH E 录 7.2 .1 传统更新策略..... ....………………......... … …...... ...................... 181 7.2.2 动量更新策略............... . ......... ... ............... . ............... ...... .............. 183 7.2.3 改进的动量更新策略.. ................. . .... .... . ..... ..... . .... .... .... ...... .. . ... . .. 184 7.2.4 自适应梯度策略........................................................................... 187 7.3 共牺梯度......… ·……… . ...... ... ….......…... . ......”..........…….......................................... 188 7.4 牛顿法 ”........ . .......”…·………………………………………………………………·…...................... 192 7 . 5 拟牛顿法”..............................…..........”…...........................…….............…….................. 194 7.5.1 拟牛顿条件...............………......…………………........……….. 194 7.5.2 DFP 算法 ............. ............… .. ......... .... ...... ....................................... 195 7.5.3 BFGS 算法....................................... . ...... . .......... . ... ... .. . ........... . ...... . 196 7.5.4 L-BFGS 算法.........… . ........…... . ..... ... ..... .................. . ....... ............... 197 7.6 约束最优化条件 ..........…”............................….............................................…....... 200 第 3 部分理论与应用篇....................... ..... .... .... . ............. .... . ..... ... 205 8 前馈神经网络·············· ·· ·····……. ····································…........…........... 206 8.1 生物神经元结构 ............…............…......................…..............................…................. 207 8.2 人工神经元结构.........…........…................…..........”........“........….......….................... 208 8 . 3 单层感知机 ................ . …”…......................…”…“……......…..........…............…............... 209 8.4 多层感知 机.......…...............…”…...............................……...................……...…“........... 212 8 . 5 激活函数”............ ...... ........... ...................….........……..........................................…....... 217 8.5.1 激活函数的作用. ...... . ... ..…………… ………… ………… ... . .. ...…........... 217 8.5.2 常用的激活函数.... . . ..... .... ............................................................ 219 9 反向传播与梯度消失. . .. . ......... . ........... . ..............…….. . .......... ...... ......... . ... .. 225 9.1 经验风险最小化 ”…................... . .......….. . ... .. .. ............... . ...”… ..... .......…............ .... ..... 227 9.2 梯度计算 .......…”..........…”… …. ... .................... ... .… ...........…..... .. ….......…...................... 228 9.2.1 输出 层梯度..................... . .......... .. .. ....…... .....…......... .. .............. .. . 228 9.2.2 隐藏层梯度·········….......................... . .... .... ................. . ....... .. ......... 230 9.2.3 参数梯度. . ... . ....... . .......... . ... ........... ..... .. .............. .. .. ... . .. .. ......... ...... 234 9.3 反向传播 … …”. . ......……… .... . .... .. . .. . ..… .... . .....................................….................... 235 9.4 深度学习训练的难点 ....................”…............…............…“… H …............…............... 237 9.4 .1 欠拟合一一梯度消失.............. . ......….................…....................... 237 9.4.2 过拟合. ......……..... ...........……···· ····· · · ·····……...... . .............. .…...... . 240 XIII 深入浅出深度学习:原理剖析与 Python 实践 10 自编码器及其相关模型······ ··· · · · · ··············· ······ ····· ··· ·· · ……… ... ...…........... . 243 10. 1 自编码器………………………………………………………………….........…......….......…··… 243 10.2 降噪自编码器.........................…...............….................…·….........”…·”…................. 245 10.3 梳式自编码器….........…...............…...............….....................”................”………...... 247 10.4 稀疏编码器..................….........….........“….......…........…........... .... ......... .…... ..... … ..... 250 10.5 应用 : cifar10 图像分 类 ......…··”…..................…·…....... ... . . ...“........................... 11 玻尔兹曼机及其相关模型··· ·· ····· · ··· ·· ······················ ····· ············ ··· ·············· 258 11.1 玻尔兹曼机.................…........….......……...............“..................…·….........….........“... 258 11.2 能量模型........…..........….........“…·…................................................….....................… 261 11.2.1 能 量函数 .. . ... . ......…............. ..................... . ......……··· · ···……·· · ···· · 261 11.2.2 从能 量函数到势函数·· ·· ·· · ·············· · ······· ·· ············ · · ····· ···· ···· ···· ··· 262 11.2.3 从势函数到概率分布............……….......…·········…………......... 263 11. 3 推断…...........................…….......”..........”..........”..................…................…................. 264 11.3.1 边缘分布···················································· ............ .. ......…..... .. .. 265 11.3.2 条件分布.................................................. . ....... . ......................... . 267 11 . 4 学习.. ...... . .…......... .”........… ”...... ..…··川 .......”….......….............................................. 270 11.4.1 最大似然估计..... ... . ......……….......... . .... .………… . ..... .. ..... ... ...... . .. 271 11.4.2 对比散度..........….......……………·······………· ….. . ....…......... . ..... 274 11.5 应用 :个性化推 荐 .........…··…………………………...........…………………........…....... 276 11.5.1 个性化推荐概述·····································…......…….......…….... 276 11.5.2 个性化推荐架构与算法.................. ..... ............... ....... .. .... . . . .... . . . 279 11.5.3 RBM 与协同过滤.... .. .. .. ... .. .. . .......................... .. . .. ......... . .... .. .... ... 285 12 递归神经网络················ .... .. .. . . ... ..... .. .. . ........... .. ... . .. ... ... . . ..……. ....... . ..... 291 12.1 Elman 递归神经网络 “................…................…........….... . .......... . ........................... 292 12.2 时间反向传播”…·”…·”…...…·……“..........”…·….........…........”…...................”......... 295 12.3 长短时记忆网络 ”…”……… ··”…… H …. . ................…“..........…… .. .....”............. . ..... 299 12.4 结构递归神经网络 ............….............. . ... ..”…川.. .... ..…·”…........ .... …”…川 .. . .... . .. .... 302 12.5 应用 : 语言模型 ”.. ... .. .….......…· ·· ····… .. ... .... ......... . ...”........”…”....................…….... 308 12.5.1 N 元统计模型... . ... . .....….........….........…........ . ............................ 308 12.5.2 基于 LSTM 构建语言模型························································ 312 XIV 目录 13 卷积神经网络. .. . . ...... . . . .... . ............. . .... . ... . ..…………… … ……… . ... . ... . ...... 318 13.1 卷积运算 ”… · … . ......... . ... . “…·“…·“…......................…...........….........…......................... 319 13.2 网络结 构”… H … … …............ . ..” . .........…”…”… “ … . ....”....... . ...........................…........... 320 13.3 卷积层 ............ . ... .. . ........... ... ....... .. . ...... .. .. .. ... . .........................….........….........…........... 324 13.4 池 化 层 ”.......... ”…·” . ...... . ......... . . ........................”.............................................…......... 329 13.5 应用 : 文本分类 “…·“…........... . .. ” …”. . .. . . . …...... .. .....................……......................... 333 × V 第 1 部分 概要 绪论 远在古希 腊时期, 科学家就有一 个 梦想,梦想 创 建一 种 能像人类一样 , 具有独立 思考和推 理 能力的 机 器 。 从那时候开始,数理逻辑和认知逻辑等分支在数千年的积累 和 发展过程中,总结 出 大量有规律性的定理法 则 ,这些定理法 则 为科学研究提供了方 法论层面 的 指导 。 直到 20 世纪 中 期 , 第一台可编程计算 机 的 出 现,才使得人类实现人工智能 ( Artificial Intelligence ,简称 AI )的梦想成为可能 。 早期科学家们总结的逻辑推理规 则,通过 机器指令的形式输入到计算机,使得计算机具有了初级的推理能力 。 事实上, 从 20 世纪 50 年代到 70 年代 , 科学家 们 也普遍认为人工智能应该解决的是,那些对人类 来说非常困难,但对计算 机 来说相对简单直接的任务,比如数据量和运算量都非常巨 大的复杂的数学 问 题 , 对人类来说,这类 问 题不可能由人工手动来完成,但对计算机 来说却异常简单,只需要输入相应的指令和数学规则,凭借计算机强大的运算能力, 问题就能够轻松解决 。 但后来人们发现,人工智能真正的挑战,应该是那些对人类来 说非常直观,但对计算机来说却难以用指令规则来描述的任务,比如人类能很容易识 别出眼前的动物是一只猫还是 一只 狗,但对计算机来说,这个任务在当时却异常困难 。 以机器学习( Machine Le a rn i ng ,简称 M L )为代表的第 二 代智能算法的出现, 使得这些任务得到了有效的解决,从而带动了人工智能的新 一 轮发展,在这段时间里, 机 器学习技术在多个领域,包括自然语言处理、计算机视觉等,都取得了重大的突破 。 然而,到了 21 世纪初,机器学习的发展同样出现了瓶颈,这主要是由于机器学习的大 1 绪 i企 多数算法都是一种浅层学习,无法有效学习到数据的深层次特征,使得人工智能始终 没有办法取得进一步的突破 。 随着深度学习( Deep Learning ,简称 DL )的出现,这 种状况才得以打破,和以往不同的是,深度学习的出现,不仅可以让弱人工智能的任 务,在性能上较传统的机器学习算法有了进一步的提升,更让人 们 看到实现通用人工 智能的希望 。 本章将对深度学习的历史和技术进行简单的介绍,然后介绍当前常用的深度学习 开源框架,我们将比较这些框架在不同维度上的表现 。 1.1 人工智能、机器学习与深度学习的关系 人工智能、机器学习和深度学习是当前机器智能领域最热 门 的 三 个词汇,很多人 甚至将 三 者看成是一种等价的关系,例如在 2016 年 3 月,当 Google Deepm i nd 的 Alph a Go 击败了韩国围棋大师李世石九段后,媒体在报道 时 就混杂使用了人工智能、 机器学习和深度学习等多种术语 。 事实上,这三者之间既有一定的联系,但也有明显 的区别 。 要正确理解深度学习的概念,首先应该了解人工智能、机器学习与深度学习 这 三 者之间的关系 。 要理解 三 者之间的关系,可以通过同心圆来可视 化 表示 三 者的关系 。 最外面的圆 环代表人工智能,里面一层表示机器学习,人工神经网络和深度学习处于中心位置, 也可以简单理解为机器学习是人工智能的 一 个分支,而深度学习则是一种特殊的机器 学习实现方法,如图 1.1 所示 。 人 工智能 机器学习 图 1.1 人工智能 、 机器学习 、深 度学习三者的关系 3 深入浅出深度学习:原理剖析与 Python 实践 1.1.1 人王智能一一机器推理 1956 年夏天,包括约翰·麦卡锡 、马文 ·明斯 基、罗切斯特和香农在 内的 10 位顶 级科学家,在达特茅斯学院召开了“达特茅斯夏季人工智能研讨会”,这次会议被广 泛认为是现代人工智能研究的诞生之日 。 图 1.2 是 1956 年达特茅斯会议的参与者 。 / J 。laa llc<:ar由'1' llhnia lllmlly Claode 8baaaoa RaJ' 9olom 。”” Alu Kewell Her悦目副.moo Artbur SaAloel And 曲,响。由@呻 。Ii·帆町 S.lfrk屿e 阳........ ""皿归。响 ”鼠份咀ru.1 Roch 幅,., 四M , dooisnod 7。” ‘ -r,..,曲Md M.,. 阳·阳,时 Doducuo叫 图 1.2 1956 年达特茅斯会议的参与者 会议的议题覆盖了人工智能的各个领域,包括:神经网络 、 自然语育处理、机器 智能等 。 从这次 会议之后 ,科 学家 们 一直梦 想实现由新兴计算机构建的具有人类智力 特征的复杂机器,这就是所谓的通用人工智能( General Artificial Intelligence )或 强 人工智能,即让机器拥有人类 的所有感 觉、所有理智,像人类一样思考 。 虽然这种 机 器到目前为止仍然没有成为现实,但这并没有阻止人们对通用人 工智能 的探索和想象, 事实上,我 们已 经在很多好莱坞电影中看到过这种机器,比如《星球大战》中的 C-3PO, 或者“终结者”系列中成为人类敌人的机器一一人型机械人 T-800 。 4 哲学 社会学 r 计算机 科学 人工 智能 心理学 神经科 学 数学 生物学 图 u 与人工智能相关的学科领域,人工智能是 一个跨学科的领域 , 覆盖了计算机科学、哲学、心理学、神经科学 、 数学等领域知识 1 绪诠 要实现真正意义上的通用人工智能,或许还有很漫长的路要走,但在 一 些特定的 领域,或者 一 些特殊的任务,我们希望能让机器处理得同人类一样好,甚至比人类更 加出色,比如图像识别、人脸识别、计算机视觉等领域 。 这些领域或任务也被称为 狭 义的人 工智能 ( Na r row Artificial Intelligence )或 弱人工智能 。 当前在狭义的人工智能领域,人类已经取得了很大的突破,某些工作机器甚至比 人类做得要好 。 例如,在 20 1 6 年 10 月 28 日,微软的雷蒙德研究院开发出 一 种新算法, 使计算机对指定主题对话的语音识别率提升至 94 . 1% , 与人类水平相当 ; 对亲戚朋友 日常对话的识别率高达 88 . 9 % ,甚至比人类略胜一筹 。 而取得这些突破性进展的背后, 依靠的是机器强大的学习能力,这就是接下来将要讨论的第二个圆环一一机器学习 。 1.1.2 机器 学 习 一一 数据驱动的科 学 机器学习,也被称为统计机器学习,是人工智能领域的 一 个分支,其基本思想是 基于数据构建统计模型,并利用模型对数据进行分析和预测 的 一 门 学科 。 传统上,如果想让计算机工作,我们会编写一段指令,然后让计算机遵照这个指 令 一 步 一 步执行下去 。 而机器学习则是采用另一种解决问题的思路,机器学习解决问 题的方式不是通过输入指令逻辑,而是通过输人的数据,也就是说,机器学习是 一 种 让计算机利用数据而不是指 令 来进行各种工作的方法 。 机器学习最基本的做法是使用算法来解析数据,从数据中学习到规律,并掌握这 种规律,然后对真实世界中的事件做出决策或预测 。 与传统的为解决特定任务、硬编 码的软件程序不同,机器学习的核心是使用大量 的 数据来 训 练,通过各 种 算法从 数据 中学习如何完成任务 。 机器学习直接来源于早期的人工智能领域,在模式识别和计算 机学习理论的研究中逐渐发展,并最终形成一 门 新的学科 。 与人工智能类似,机器学 习也是 一 个跨学科的领域,涉及多个基础学科 , 包括统计 学、线性 代 数和数值计算等 。 前面提到,机器学习是基于训练数据构建统计模型 ,从 而使 计 算机具有对新数据 进行预测和分析的能力,机器学习方法按其实 现的 目标不 同 ,可 以 分为:监督学习、 无监督学习和|强化学习 。 监督学习 ( Supervised Learning ): 监督学习使用带有标签的训练数据集进行 训练,输入的训练数据由物体的特征向量(输入)和物体的标签(输出)两部分构成, 其中,若输出的标签是 一 个连续的值,则称为回归监督学习;若输出标签是 一 个离散 的值, 则 称为分类监督学习 。 5 深入浅出深度学习:原理剖析与 Python 实践 监督学习涉及两个方面的工作:首先,根据提供的训练数据,选择 一 种合适的模 型进行训 练,直至模型的训练收敛 。 常见的监督学习模型包括: Logistic 回归、决策树、 SVM ( Support Vector Machines ,支持向量机)、 KNN 、 朴 素贝 叶斯 等 。 图 1.4 展示的 是 一 个水果分类的例子,每 一 个样本数据的输入是由物体的特征构成的特征向 量 ,如 物体的颜色、大小、形状等,输出的是物体的类别,如 苹果、葡萄、香蕉等 。 辅 仁? D 、 嗣 口v 训练数据 模型 图 1.4 监督学习模型训练,算法利用训练数据提供的特征信息,如颜色 、大 小 、形状等 , 构建概率模型 p(ylx ) 或非概率模型y = f(x) 其次,当模型训练完毕 , 就可以把新的输入数据代人模型,模型将根据新数据的 特征信息,找出最符合这种特征的输出结果,其过程如图 1.5 所示 。 仁之> c> ? 甜1 “ 输入 模型 输出 图 1.5 模型预测 无监督学习( Unsupervised learning ):无 监督学习的训练样本数据没有任何 的标签和输出,其目的是对原始数据结构进行深入分析 , 找出数据间存在的规律 与关 系 。 典型的无监督学习任务包括:聚类 、 降维 、特征提取 等 。 6 1 绪论 悦’ 嗣 .G ti‘ :I ,-- r飞 (a) (b) 图 1.6 两种常见的无监督学习 , ( a )数据聚类 ,( b )数 据降维 虽然监督学习的准确率更高,但在现实生活中,我们获取的大量数据 一 般是没有 标签数据的,因此,我们不得不诉诸于无监督学习,但传统的无监督学习方法在特征 提取上并不令人满意,而深度学习则被证明具有强大的无监督学习能力,特别是在计 算机视觉领域,运用深度学习技术所达到的效果更是要远优于传统的机器学习 。 强化学习( reinforcement learning ) : 强化学习也称为增强学习,强调如何基 于环境而行动,以取得最大化的预期利益 。 其灵感来源于心理学中的行为主义理论, 即有机体如何在环境给予的奖励或惩罚的剌激下,逐步形成对剌激的预期,产生能获 得最大利益的习惯性行为[ t,2 ] 。 强化 学 习与前面的监督学习、无监督学习之间的区别在于,它并不需要出现正确 的输入输出对,也不需要精确校正次优化的行为 。 强化学习更加专注于在线规划,需 要在探索未知的领域和遵从现有知识之间找到平衡,它的学习过程是 一 个从实际环境 中不断学习积累,不断进化的过程 。 因此,强化学习更接近生物学习的本质,也是有 望让机器获得通用智能的 一 项技术 。 图 1 . 7 Deep Mind 利用强化学习技术在迷宫游戏 中 执行搜索 任务 ( 图片摘自网络 ) 7 深入浅出深度学习:原理剖析与 Python 实践 1.1.3 深度学习一一大脑的仿真 过去,深度学习是作为 机器学习的一个算法而存在,被称为人工神经网络,由于 受到算法理论、数据和硬件的制约,多年以来,神经网络都是单层或浅层的网络结构, 并且随着其 他更有效率的浅层算法,如 SVM 、 Logistic 回归的提出,神经网络在效果和 性能上都没有任何优势,因此,神经网络也逐渐淡出了人们的视野 。 但随着大数据的 发展,以及大规模硬件加速设备的出现,特别是 GPU 运算性能的不断提升,使得神经 网络重新受到人们的重视 。 除了大数据和高性能计算平台的推动,真正让人们感受到深度学习强大威力的, 是深度学习在技术上的 一 系列创新和突破,包括从低层到高层的特征抽象 、特征自动 提取、 layer-wise 解决梯度消失、深度残差技术、生成对抗网络等,我们将在本书的 其他章节中详细介绍其中的一部分技术 。 正是由于深度学习近 十 年来在理论上的不断创新,以及在商业应用中取得的突破 性进展,使得人工智能迅速转入到当前的深度学习时代,深度学习也因此被 MIT 技术 评论列为 2013 年十大突破性技术之首[ 3 ] 。 1.2 深度学习的发展历程 深度学习,或其前身人工神经网络,其实已经有超过 60 年的历史,在这段时期里, 神经网络的发展也经历了多次的起伏 。 神 经 网络的第一次高潮出现在 20 世纪 so 年代 。 1957 年,计算科学家 Rosenblatt 提 出了感知器的概念,即由输入层和输出层构成的无隐藏层神经网络,这也是神经网络 第 一 次出现在大众的视野, Rosenblatt 还现场演示了如何利用感知器来 学习识 别简单 图像的过程,这在当 时的社会上 引起了极大的 轰动,人们 第一次看到机器是如何通过 学习来获得智 能,至此,许多学者和科研机构纷纷投入到神经网络的研究中 。 美国军 方也大力资助了 神 经网络的 研究,这持 续到 1969 年才结束 。 造成 神 经网络从 高潮走 向低潮的原 因在于,单层的感知机无法解决非线性数据的 分类,它甚至无法解决简单 的 “异或 ”问题,虽 然后来有学者提出多层的神经网络能 够解决这类非线性 问题但是 却没有提出 多层 神 经网络的有效训练方法 。 神经网络的第二次高潮出现在 20 世纪 80 年代,以反向传播算法的提出为标志 。 1986 年, Rumelhar 和 Hinton 等人提出了反向传播( Backpropagation ,简称 BP )算法[匀, 8 1 绪论 解决了两层乃至多层的神经网络训练问题,过去 三 十年 一 直无法解决的非线性分类问 题被彻底攻克,从而带动了业界对神经网络研究的第二次浪潮 。 第 二 次高潮一直持续到 20 世纪 90 年代中,人们开始发现利用 BP 算法求解多层神 经网络存在很多的制约 :首先,随着神经元节点的增多,训练的时间也变得越来越长 。 第 二 个制约是神经网络的优化函数是一个非凸优化问题,往往容易造成局部最优解 。 而更严重的是第 三个问题,从理论上来说,网络层数越多,神经网络的学习能力越强 大,但人们发现,随着网络层数的增多,网络的学习能力并没有随之提高,这在后来 被证明了主要是由于 BP 算法导致的梯度消失 。 另一方面,在这段时期,由 Vapnik等人 发明的 SVM 算法诞生,很快就在若干个方面体现出了对比神经网络的优势,如无须调 参、高效、全局最 优解等 。 基于以上种种理由, SVM 迅速打败了神经网络算法,成为 了机器学习的主流 。 而神经网络也因此进入了第二次的低潮时期 。 2006 年, Geoffe 叩 Hinton 在 Science 杂志上发表了论文,首次提出了“深度信念 网络”的概念[ 6 ] 。 传统的训练方式采用随机初始化的方式来初始化权重参数,与传统 的训练方式不同,深度信念网络有一个预训练( pre-training )的过程,这样可以方便 神经网络中的权值找到 一 个接近最优解的初始值,再使用“微调( fine-tuning )”技术 来对整个网络进行优化训练 。 这两个技术的运用大幅度减少了训练多层神经网络的时 间,并且有效地缓解 BP 算法导致的梯度消失问题,它给多层神经网络相关的学习方法 赋予了 一 个新名词一一探度学习,这也标志着神经网络第 三 次高潮时期的到来 。 而真正使深度学习开始受到世人瞩目的,是在 2012 年的 Image Net竞赛上, Hinton 与他的学生在用多层的卷积神经网络成功 地对包含一千类别的 一百万张图片进行了 训练,取得了分类错误率 15% 的好成绩,这个成绩比第二名低了近 11 个百分点,此后, 深度学习方法开始在工业上和学术上进入了爆发式发展时期 。 9 深入浅出深度学习 : 原理剖析与 Python 实践 图 1.8 在 2016 年的前 6 个月时间里,人工智能己获得 9.74 亿美元的投资 。 2026 年的总投资额必定会 超过 2015 年的总投资额,并且 CB!nsights 指出' 200 家人 工智能公司已获得了近 15 亿美元的融资(图 片与数据来源于 Venture Scanner 2016 ) 当然 ,深度学习的兴起离不开大数据和高性能计 算平台的推动,它 们分别被称为 深度学习的“燃料”和“引擎” 。 众所周知,深度学习的成功需要依靠大量的训练数 据来进行学习,大数据是深度学习的基础 。 例如, AlphaG 。在与李世石对战时,就已 经学习了人类的 1 5 万盘棋谱,并且在此基础上,还学习了 3 00 0 万盘自我对弈的棋谱才 达到当前的水平 。 另 一方 面,要对大量的数据进行学习和训练,效率问题就成为制约 深度学习进一步发展的一大难题,但随着高性能计算平台的不断发展,使得当前数据 的处理速度相比十年前有了很大的提升,尤其是 GPU 技术的发展, GPU 拥有出色的浮 点数计算性能、超高的并行度,和优化的矩阵运算能力,特别适合于深度学习两大关 键步骤:分类和卷积,并且在相同的精度下,相对传统 CPU 处理数据的方式,拥有更 快的处理速度 、更 少的服务器投入和更低的功耗 。 1 . 3 深度学习技术概述 计算机技术在过去几十年取得了长足的进步,但长期以来,人 工智能一直 处于弱 人 工智 能阶段,直到深度学习的出现,才让人们看到实现强人 工智能 的曙光 。 下面我 们来简要概括深度学习在 三个技术层面上带来的变化 。 10 1 绪论 1.3.1 从低层到高层的特征抽象 1.2 节提到了深度学习的发展经历的三个阶段,而这三个阶段都以神经网络为核心, 它是模拟大脑工作的一种智能算法 ,让我们首先来了解大脑是如何工作的 。 诺贝尔医学奖获得者 David Hubel发现了人的视觉系统是以一种分级的方式来对 外部信息进行处理的 。 如图 1.9所示,从视网膜出发,经过Vl 区提取物体的边缘特征, 到V2 区的基本形状或目标的局部,再到高层的整个目标( 如判定为一张人脸),以及 到更高层的 PFC (前额叶皮层)进行分类判断等 。 我们可以发现,大脑对物体输入信 号的处理是一种分层的机制,也就是说高层的特征是低层特征的组合,从低层到高层 的特征表达越来越具体化和概念化,同时也越来越能表现语义或者意图 。 图 1.9 人脑的视觉处理系统(图片来源于网络) 视觉系统分层处理机制的发现促进了人们对于神经系统的进一步思考 。 大脑的工 作过程是一个不断迭代、不断抽象概念化的过程,如图 1.10所示 。 首先从原始信号(像 素)摄入开始(第一步),接着做初步处理,识别出物体的边缘(第二步),将边缘抽 象(大脑判定眼前物体的形状,比如矩形、椭圆形等),然后进一步抽象(大脑进一 步形成更复杂的轮廓),最后识别出眼前的物体属于什么类别 。 这个过程其实和我们 的常识是相吻合的,因为复杂的图形,往往就是由 一些基本结构组合而成的 。 同时我 们还可以看出 : 大脑是一个深度架构,认知过程也是深度的 。 11 1 绪论 1.3.2 让网络变得更深 深度学习是机器学习研究中的一个分支学科,深度学习的目的在于建立可以模拟 人脑进行分析学习的模型,它模仿人脑的机制来解释数据,例如 , 图像、声音和文本 。 深度学习之所以被称为“深度”,是因为之前的机器学习方法大都是浅层学习 。 深度 学习可以简单理解为传统神经网络的发展。大约二三十年前神经网络曾经是机器学 习领域特别热门的一个方向,这种基于统计的机器学习方法比起过去基于人工规则的 专家系统,在很多方面显示出优越性 。 如图 1.12 所示,深度学习与传统的神经网络之 间有相同的地方,采用了与神经网络相似的分层结构 :系统 是一个包括输入层、隐藏 层(可单层 、 可多层)、输出层的多层网络,只有相邻层节点(单元)之间有连接, 而同一层以及不相邻的层节点之间相互不连接 。 这种分层结构,比较接近人类大脑的 结构 。 浅层网络 输入 fl: 隐且民 fl: 输出 fl: ;,,归 •I l&)«•r hi ck’ <” l ay<>r I hlrld
还剩35页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

mozai

贡献于2018-06-25

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf