• 1. 神经网络 Neural Network 开课院系:机电工程学院 授课人:赵瑞杰10/25/20181
  • 2. 教材书名:《人工神经网络导论》 出版社:高等教育出版社 出版日期:2001年8月 作者:蒋宗礼10/25/20182
  • 3. 主要参考书目1、Philip D. Wasserman, Neural Computing: Theory and Practice,Van Nostrand Reinhold,1989 2、胡守仁、余少波、戴葵,神经网络导论,国防科技大学出版社,1993年10月 3、杨行峻、郑君里,人工神经网络,高等教育出版社,1992年9月 4、闻新、周露、王丹力、熊晓英,MATLAB神经网络应用设计,科学出版社,2001.5. 10/25/20183
  • 4. 10/25/20184
  • 5. 神经网络模型的基本组成 之神经元 生物神经元的基本组成 细胞体 突起 树突 轴突 人工神经元的基本结构 处理单元 连接 输入 输出 10/25/20185
  • 6. 课程目的和基本要求 作为人工神经网络的入门课程,用于将学生引入人工神经网络及其应用的研究领域。 介绍人工神经网络及其基本网络模型,使学生 了解智能系统描述的基本模型 掌握人工神经网络的基本概念、单层网、多层网、循环网等各种基本网络模型的结构、特点、典型训练算法、运行方式、典型问题 掌握软件实现方法。10/25/20186
  • 7. 课程目的和基本要求了解人工神经网络的有关研究思想,从中学习开拓者们的部分问题求解方法。 通过实验进一步体会有关模型的用法和性能,获取一些初步的经验。 查阅适当的参考文献,将所学的知识与自己未来研究课题相结合起来,达到既丰富学习内容,又有一定的研究和应用的目的。10/25/20187
  • 8. 主要内容 智能及其实现 ANN基础(Artifical Neural Network) Perceptron(感知器) BP(Back Propagation--向后传播)网络 CPN(Counterpropagation Networks)对传网 统计方法 Hopfield网与BAM(Bidirectional Associative Memory)双联存储器 ART(Adaptive Resonance Theory)自适应共振理论10/25/20188
  • 9. MATLAB神经网络工具箱 \matlab\toolbox\nnet\10/25/20189
  • 10. 主要内容第一章:引论 智能的概念、智能系统的特点及其描述基本模型,物理符号系统与连接主义的观点及其比较;人工神经网络的特点、发展历史。 10/25/201810
  • 11. 主要内容第二章 人工神经网络基础 本章在介绍了基本神经元后,将概要介绍人工神经网络的一般特性。主要包括,生物神经网络模型,人工神经元模型与典型的激励函数;人工神经网络的基本拓扑特性,存储类型(CAM──LTM,AM──STM)及映象,Supervised训练与Unsupervised训练。10/25/201811
  • 12. 主要内容第三章 感知器 感知器与人工神经网络的早期发展;单层网能解决线性可分问题,而无法解决线形不可分问题,要想解决这一问题,必须引入多层网;Hebb学习律,Delta规则,感知器的训练算法。 10/25/201812
  • 13. 主要内容第四章 向后传播 BP(Backpropagation)网络的构成及其训练过程;隐藏层权调整方法的直观分析,BP训练算法中使用的Delta规则(最速下降法)的理论推导;算法的收敛速度及其改进讨论;BP网络中的几个重要问题。 10/25/201813
  • 14. 主要内容第五章 对传网 生物神经系统与异构网的引入;对传网的网络结构,Kohonen层与Grossberg层的正常运行,对传网的输入向量的预处理,Kohonen层的训练算法及其权矩阵的初始化方法;Grossberg层的训练;完整的对传网。 10/25/201814
  • 15. 主要内容第六章 统计方法 统计方法是为了解决局部极小点问题而引入的,统计网络的基本训练算法,模拟退火算法与收敛分析,Cauchy训练,人工热处理与临界温度在训练中的使用,BP算法与Cauchy训练相结合。10/25/201815
  • 16. 主要内容第七章 循环网络 循环网络的组织,稳定性分析;相联存储;统计Hopfield网与Boltzmann机;Hopfield网用于解决TSP问题。 BAM(Bidirectional Associative Memory)用于实现双联存储;基本双联存储网络的结构及训练;其他的几种相联存储网络。 10/25/201816
  • 17. 主要内容第八章 自适应共振理论 人脑的稳定性与可塑性问题;ART模型的总体结构与分块描述;比较层与识别层之间的两个联接矩阵的初始化,识别过程与比较过程,查找的实现;训练讨论。 10/25/201817
  • 18. 第1章    引言主要内容: 智能与人工智能; ANN的特点; 历史回顾与展望 重点: 智能的本质; ANN是一个非线性大规模并行处理系统 难点:对智能的刻画 10/25/201818
  • 19. 第1章    引言1.1 人工神经网络的提出 1.2 人工神经网络的特点 1.3 历史回顾10/25/201819
  • 20. 第1章    引言人类对人工智能的研究可以分成两种方式对应着两种不同的技术: 传统的人工智能技术——心理的角度模拟 基于人工神经网络的技术——生理的角度模拟10/25/201820
  • 21. 1.1 人工神经网络的提出 人工神经网络(Artificial Neural Networks,简记作ANN),是对人类大脑系统的一阶特性的一种描述。简单地讲,它是一个数学模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智能研究的一种方法。 10/25/201821
  • 22. 1.1 人工神经网络的提出1.1.1 智能与人工智能 一、 智能的含义 智能是个体有目的的行为,合理的思维,以及有效的、适应环境的综合能力。 智能是个体认识客观事物和运用知识解决问题的能力。 人类个体的智能是一种综合能力。10/25/201822
  • 23. 1.1 人工神经网络的提出智能可以包含8个方面 感知与认识客观事物、客观世界和自我的能力 感知是智能的基础——最基本的能力 通过学习取得经验与积累知识的能力 这是人类在世界中能够不断发展的最基本能力。 理解知识,运用知识和经验分析、解决问题的能力 这一能力可以算作是智能的高级形式。是人类对世界进行适当的改造,推动社会不断发展的基本能力。10/25/201823
  • 24. 1.1 人工神经网络的提出联想、推理、判断、决策语言的能力 这是智能的高级形式的又一方面。 预测和认识 “主动”和“被动”之分。联想、推理、判断、决策的能力是“主动”的基础。 运用语言进行抽象、概括的能力 上述这5种能力,被认为是人类智能最为基本的能力 10/25/201824
  • 25. 1.1 人工神经网络的提出作为5种能力综合表现形式的3种能力 发现、发明、创造、创新的能力 实时、迅速、合理地应付复杂环境的能力 预测、洞察事物发展、变化的能力 10/25/201825
  • 26. 1.1 人工神经网络的提出二、人工智能 人工智能:研究如何使类似计算机这样的设备去模拟人类的这些能力。 研究人工智能的目的 增加人类探索世界,推动社会前进的能力 进一步认识自己 三大学术流派 符号主义(或叫做符号/逻辑主义)学派 联接主义(或者叫做PDP)学派 进化主义(或者叫做行动/响应)学派10/25/201826
  • 27. 1.1 人工神经网络的提出1.1.2 物理符号系统  人脑的反映 形式化    现实 信息 数据       物理系统 物理符号系统   表现智能10/25/201827
  • 28. 1.1 人工神经网络的提出Newell和Simon假说 :一个物理系统表现智能行为的充要条件是它有一个物理符号系统 概念:物理符号系统需要有一组称为符号的实体组成,它们都是物理模型,可以在另一类称为符号结构的实体中作为成分出现,以构成更高级别的系统 10/25/201828
  • 29. 1.1 人工神经网络的提出困难: 抽象——舍弃一些特性,同时保留一些特性 形式化处理——用物理符号及相应规则表达物理系统的存在和运行。 局限: 对全局性判断、模糊信息处理、多粒度的视觉信息处理等是非常困难的。10/25/201829
  • 30. 1.1 人工神经网络的提出1.1.3 联接主义观点 核心:智能的本质是联接机制。 神经网络是一个由大量简单的处理单元组成的高度复杂的大规模非线性自适应系统 ANN力求从四个方面去模拟人脑的智能行为 物理结构 计算模拟 存储与操作 训练 10/25/201830
  • 31. 1.1 人工神经网络的提出1.1.4 两种模型的比较 心理过程 逻辑思维 高级形式(思维的表象)    生理过程 形象思维 低级形式(思维的根本)   仿生 人工神经网络 联结主义观点物理符号系统10/25/201831
  • 32. 1.1 人工神经网络的提出物理符号系统和人工神经网络系统的差别 项目物理符号系统人工神经网络处理方式逻辑运算模拟运算执行方式串行并行动作离散连续存储局部集中全局分布10/25/201832
  • 33. 1.1 人工神经网络的提出两种人工智能技术的比较项目传统的AI技术 ANN技术 基本实现方式 串行处理;由程序实现控制 并行处理;对样本数据进行多目标学习;通过人工神经元之间的相互作用实现控制 基本开发方法 设计规则、框架、程序;用样本数据进行调试(由人根据已知的环境去构造一个模型) 定义人工神经网络的结构原型,通过样本数据,依据基本的学习算法完成学习——自动从样本数据中抽取内涵(自动适应应用环境) 适应领域 精确计算:符号处理,数值计算非精确计算:模拟处理,感觉,大规模数据并行处理模拟对象 左脑(逻辑思维)右脑(形象思维)10/25/201833
  • 34. 1.2 人工神经网络的特点信息的分布表示 运算的全局并行和局部操作 处理的非线性 10/25/201834
  • 35. 1.2.1 人工神经网络的概念1、定义 1)Hecht—Nielsen(1988年) 人工神经网络是一个并行、分布处理结构,它由处理单元及其称为联接的无向讯号通道互连而成。这些处理单元(PE—Processing Element)具有局部内存,并可以完成局部操作。每个处理单元有一个单一的输出联接,这个输出可以根据需要被分枝成希望个数的许多并行联接,且这些并行联接都输出相同的信号,即相应处理单元的信号,信号的大小不因分支的多少而变化。10/25/201835
  • 36. 1.2.1 人工神经网络的概念(1)Hecht—Nielsen(1988年)(续) 处理单元的输出信号可以是任何需要的数学模型,每个处理单元中进行的操作必须是完全局部的。也就是说,它必须仅仅依赖于经过输入联接到达处理单元的所有输入信号的当前值和存储在处理单元局部内存中的值。10/25/201836
  • 37. 1.2.1 人工神经网络的概念强调: ① 并行、分布处理结构; ② 一个处理单元的输出可以被任意分枝,且大小不变; ③ 输出信号可以是任意的数学模型; ④ 处理单元完全的局部操作 10/25/201837
  • 38. 1.2.1 人工神经网络的概念(2) Rumellhart,McClelland,Hinton的PDP(并行分布处理模型) 1)  一组处理单元(PE或AN); 2)  处理单元的激活状态(ai); 3)  每个处理单元的输出函数(fi); 4)  处理单元之间的联接模式; 5)  传递规则(∑wijoi); 6)  把处理单元的输入及当前状态结合起来产生激活值的激活规则(Fi); 7)  通过经验修改联接强度的学习规则; 8)  系统运行的环境(样本集合)。 10/25/201838
  • 39. 1.2.1 人工神经网络的概念(3) Simpson(1987年) 人工神经网络是一个非线性的有向图,图中含有可以通过改变权大小来存放模式的加权边,并且可以从不完整的或未知的输入找到模式。 10/25/201839
  • 40. 1.2.1 人工神经网络的概念2、关键点 (1)       信息的分布表示 (2)       运算的全局并行与局部操作 (3)       处理的非线性特征 3、对大脑基本特征的模拟 1)  形式上:神经元及其联接;BN对AN 2)  表现特征:信息的存储与处理10/25/201840
  • 41. 1.2.1 人工神经网络的概念4、别名 人工神经系统(ANS) 神经网络(NN) 自适应系统(Adaptive Systems)、自适应网(Adaptive Networks) 联接模型(Connectionism) 神经计算机(Neurocomputer)10/25/201841
  • 42. 1.2.2 学习(Learning)能力 人工神经网络可以根据所在的环境去改变它的行为 它在接受样本集合A时,可以抽取集合A中输入数据与输出数据之间的映射关系。——“抽象”功能。 不同的人工神经网络模型,有不同的学习/训练算法10/25/201842
  • 43. 1.2.3 基本特征的自动提取 由于其运算的不精确性,表现成“去噪音、容残缺”的能力,利用这种不精确性,比较自然地实现模式的自动分类。 普化(Generalization)能力与抽象能力 10/25/201843
  • 44. 1.2.4 信息的分布存放信息的分布存放提供容错功能 由于信息被分布存放在几乎整个网络中,所以,当其中的某一个点或者某几个点被破坏时,信息仍然可以被存取。 系统在受到局部损伤时还可以正常工作。 并不是说可以任意地对完成学习的网络进行修改。也正是由于信息的分布存放,对一类网来说,当它完成学习后,如果再让它学习新的东西,这时就会破坏原来已学会的东西。 10/25/201844
  • 45. 1.2.5适应性(Applicability)问题 擅长两个方面: 对大量的数据进行分类,并且只有较少的几种情况; 必须学习一个复杂的非线性映射。 目前应用: 人们主要将其用于语音、视觉、知识处理、辅助决策等方面。 在数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解(不是最佳近似解)等方面也有较好的应用。 10/25/201845
  • 46. 1.3 历史回顾 1.3.1 萌芽期(20世纪40年代) 人工神经网络的研究最早可以追溯到人类开始研究自己的智能的时期,到1949年止。 1943年,心理学家McCulloch和数学家Pitts建立起了著名的阈值加权和模型,简称为M-P模型。发表于数学生物物理学会刊《Bulletin of Methematical Biophysics》 1949年,心理学家D. O. Hebb提出神经元之间突触联系是可变的假说——Hebb学习律。 10/25/201846
  • 47. 1.3.2 第一高潮期(1950~1968) 以Marvin Minsky,Frank Rosenblatt,Bernard Widrow等为代表人物,代表作是单级感知器(Perceptron)。 可用电子线路模拟。 人们乐观地认为几乎已经找到了智能的关键。许多部门都开始大批地投入此项研究,希望尽快占领制高点。 10/25/201847
  • 48. 1.3.3 反思期(1969~1982) M. L. Minsky和S. Papert,《Perceptron》,MIT Press,1969年 异或”运算不可表示 二十世纪70年代和80年代早期的研究结果 认识规律:认识——实践——再认识 10/25/201848
  • 49. 1.3.4 第二高潮期(1983~1990) 1982年,J. Hopfield提出循环网络 用Lyapunov函数作为网络性能判定的能量函数,建立ANN稳定性的判别依据 阐明了ANN与动力学的关系 用非线性动力学的方法来研究ANN的特性 指出信息被存放在网络中神经元的联接上 10/25/201849
  • 50. 1.3.4 第二高潮期(1983~1990)2)1984年, J. Hopfield设计研制了后来被人们称为Hopfield网的电路。较好地解决了著名的TSP问题,找到了最佳解的近似解,引起了较大的轰动。 3)1985年,UCSD的Hinton、Sejnowsky、Rumelhart等人所在的并行分布处理(PDP)小组的研究者在Hopfield网络中引入了随机机制,提出所谓的Boltzmann机。 10/25/201850
  • 51. 1.3.4 第二高潮期(1983~1990)4)1986年,并行分布处理小组的Rumelhart等研究者重新独立地提出多层网络的学习算法——BP算法,较好地解决了多层网络的学习问题。(Paker1982和Werbos1974年) 国内首届神经网络大会是1990年12月在北京举行的。 10/25/201851
  • 52. 1.3.5 再认识与应用研究期(1991~) 问题: 1)应用面还不够宽 2)结果不够精确 3)存在可信度的问题 10/25/201852
  • 53. 1.3.5 再认识与应用研究期(1991~) 研究: 1)开发现有模型的应用,并在应用中根据实际运行情况对模型、算法加以改造,以提高网络的训练速度和运行的准确度。 2)充分发挥两种技术各自的优势是一个有效方法 3)希望在理论上寻找新的突破,建立新的专用/通用模型和算法。 4)进一步对生物神经系统进行研究,不断地丰富对人脑的认识。 10/25/201853
  • 54. 第一章内容回顾擅长两个方面 目前应用 语音、视觉、知识处理 数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解(不是最佳近似解) 辅助决策——预报与智能管理 通信——自适应均衡、回波抵消、路由选择 空间科学——对接、导航、制导、飞行程序优化10/25/201854
  • 55. 第一章内容回顾发展过程 萌芽期(20世纪40年代) M-P模型 Hebb学习律 第一高潮期(1950~1968) Perceptron的兴衰 反思期(1969~1982) 第二高潮期(1983~1990) 4个标志性成果 再认识与应用研究期(1991~)10/25/201855
  • 56. 第2章 人工神经网络基础主要内容: BN与AN; 拓扑结构; 存储; 训练 重点:AN;拓扑结构;训练 难点:训练10/25/201856
  • 57. 第2章 人工神经网络基础2.1 生物神经网 2.2 人工神经元 2.3 人工神经网络的拓扑特性 2.4 存储与映射 2.5 人工神经网络的训练10/25/201857
  • 58. 2.1 生物神经网1、构成胞体(Soma)枝蔓(Dendrite)胞体(Soma)  轴突(Axon)突触(Synapse)2、工作过程10/25/201858
  • 59. 2.1 生物神经网3、六个基本特征: 1)神经元及其联接; 2)神经元之间的联接强度决定信号传递的强弱; 3)神经元之间的联接强度是可以随训练改变的; 4)信号可以是起刺激作用的,也可以是起抑制作用的; 5)一个神经元接受的信号的累积效果决定该神经元的状态; 6) 每个神经元可以有一个“阈值”。10/25/201859
  • 60. 2.2 人工神经元 神经元是构成神经网络的最基本单元(构件)。 人工神经元模型应该具有生物神经元的六个基本特性。 10/25/201860
  • 61. 2.2.1 人工神经元的基本构成 人工神经元模拟生物神经元的一阶特性。 输入:X=(x1,x2,…,xn) 联接权:W=(w1,w2,…,wn)T 网络输入: net=∑xiwi 向量形式: net=XWxn wn∑x1 w1x2 w2net=XW…10/25/201861
  • 62. 2.2.2 激活函数(Activation Function) 激活函数——执行对该神经元所获得的网络输入的变换,也可以称为激励函数、活化函数: o=f(net) 1、线性函数(Liner Function) f(net)=k*net+c netooc10/25/201862
  • 63. 2、非线性斜面函数(Ramp Function) γ if net≥θ f(net)= k*net if |net|<θ -γ if net≤-θ   γ>0为一常数,被称为饱和值,为该神经元的最大输出。 10/25/201863
  • 64. 2、非线性斜面函数(Ramp Function)γ -γ θ -θ net o 10/25/201864
  • 65. 3、阈值函数(Threshold Function)阶跃函数 β if net>θ f(net)= -γ if net≤ θ β、γ、θ均为非负实数,θ为阈值 二值形式: 1 if net>θ f(net)= 0 if net≤ θ 双极形式: 1 if net>θ f(net)= -1 if net≤ θ 10/25/201865
  • 66. 3、阈值函数(Threshold Function)阶跃函数β -γθonet010/25/201866
  • 67. 4、S形函数 压缩函数(Squashing Function)和逻辑斯特函数(Logistic Function)。 f(net)=a+b/(1+exp(-d*net)) a,b,d为常数。它的饱和值为a和a+b。 最简单形式为: f(net)= 1/(1+exp(-d*net)) 函数的饱和值为0和1。 S形函数有较好的增益控制 10/25/201867
  • 68. 4、S形函数 a+b o(0,c)netac=a+b/210/25/201868
  • 69. 2.2.3 M-P模型 x2 w2  ∑f o=f(net)xn wn…net=XWx1 w1McCulloch—Pitts(M—P)模型,也称为处理单元(PE) 10/25/201869
  • 70. 2.3 人工神经网络的拓扑特性 连接的拓扑表示 ANi wij ANj 10/25/201870
  • 71. 2.3.1 联接模式 用正号(“+”,可省略)表示传送来的信号起刺激作用,它用于增加神经元的活跃度; 用负号(“-”)表示传送来的信号起抑制作用,它用于降低神经元的活跃度。 层次(又称为“级”)的划分,导致了神经元之间的三种不同的互连模式: 10/25/201871
  • 72. 2.3.1 联接模式 1、 层(级)内联接 层内联接又叫做区域内(Intra-field)联接或侧联接(Lateral)。 用来加强和完成层内神经元之间的竞争 2、 循环联接 反馈信号。 10/25/201872
  • 73. 2.3.1 联接模式3、层(级)间联接 层间(Inter-field)联接指不同层中的神经元之间的联接。这种联接用来实现层间的信号传递 前馈信号 反馈信号 10/25/201873
  • 74. 2.3.2 网络的分层结构 单级网 简单单级网 10/25/201874
  • 75. 简单单级网……x1x2…xno1o2omwnmw11w1mw2mwn1输出层输入层 10/25/201875
  • 76. 简单单级网W=(wij) 输出层的第j个神经元的网络输入记为netj: netj=x1w1j+x2w2j+…+xnwnj 其中, 1≤ j ≤ m。取 NET=(net1,net2,…,netm) NET=XW, 其中 X=(x1,x2,…,xn) O=F(NET)=(f1(net1),f2(net2),…,fn(netn))10/25/201876
  • 77. 单级横向反馈网输出层x1o1w11w1mx2o2w2m………xnomwn1输入层 V10/25/201877
  • 78. 单级横向反馈网 V=(vij) NET=XW+OV O=F(NET) 时间参数——神经元的状态在主时钟的控制下同步变化 考虑X总加在网上的情况 NET(t+1)=X(t)W+O(t)V O(t+1)=F(NET(t+1)) O(0)=0 考虑仅在t=0时加X的情况。 稳定性判定10/25/201878
  • 79. 多级网输出层隐藏层输入层o1o2om…x1x2xn………………10/25/201879
  • 80. 层次划分 信号只被允许从较低层流向较高层。 层号确定层的高低:层号较小者,层次较低,层号较大者,层次较高。 输入层:被记作第0层。该层负责接收来自网络外部的信息输出层隐藏层输入层o1o2om…x1x2xn………………10/25/201880
  • 81. 第j层:第j-1层的直接后继层(j>0),它直接接受第j-1层的输出。 输出层:它是网络的最后一层,具有该网络的最大层号,负责输出网络的计算结果。 隐藏层:除输入层和输出层以外的其它各层叫隐藏层。隐藏层不直接接受外界的信号,也不直接向外界发送信号输出层隐藏层输入层o1o2om…x1x2xn………………10/25/201881
  • 82. 约定 : 输出层的层号为该网络的层数:n层网络,或n级网络。 第j-1层到第j层的联接矩阵为第j层联接矩阵,输出层对应的矩阵叫输出层联接矩阵。今后,在需要的时候,一般我们用W(j)表示第j层矩阵。输出层隐藏层输入层o1o2om…x1x2xn………………W(1)W(2)W(3)W(h)10/25/201882
  • 83. 多级网——h层网络输出层隐藏层输入层o1o2om…x1x2xn………………W(1)W(2)W(3)W(h)10/25/201883
  • 84. 多级网非线性激活函数 使用线性激活函数则多级网的功能不会超过单级网的功能输入向量:各级联接矩阵:各级输入向量:各级激活函数:10/25/201884
  • 85. 多级网则有:设激活函数是线性函数:10/25/201885
  • 86. 多级网其中:激活函数还可以写成:10/25/201886
  • 87. 多级网此时Ki为对角矩阵:10/25/201887
  • 88. 多级网网络输出为:10/25/201888
  • 89. 多级网网络输出为:单级网络输出为:10/25/201889
  • 90. 循环网x1o1输出层隐藏层输入层x2o2omxn…………………10/25/201890
  • 91. 循环网 如果将输出信号反馈到输入端,就可构成一个多层的循环网络。 输入的原始信号被逐步地“加强”、被“修复”。 大脑的短期记忆特征——看到的东西不是一下子就从脑海里消失的。 稳定:反馈信号会引起网络输出的不断变化。我们希望这种变化逐渐减小,并且最后能消失。当变化最后消失时,网络达到了平衡状态。如果这种变化不能消失,则称该网络是不稳定的。 10/25/201891
  • 92. 2.4 存储与映射 空间模式(Spatial Model) 时空模式(Spatialtemporal Model) 空间模式三种存储类型 1、  RAM方式(Random Access Memory) 随机访问方式是将地址映射到数据。 2、  CAM方式(Content Addressable Memory) 内容寻址方式是将数据映射到地址。 3、  AM方式(Associative Memory) 相联存储方式是将数据映射到数据。 10/25/201892
  • 93. 2.4 存储与映射后续的两种方式是人工神经网络的工作方式。 在学习/训练期间,人工神经网络以CAM方式工作;权矩阵又被称为网络的长期存储(Long Term Memory,简记为LTM)。 网络在正常工作阶段是以AM方式工作的;神经元的状态表示的模式为短期存储(Short Term Memory,简记为STM)。 10/25/201893
  • 94. 2.4 存储与映射自相联(Auto-associative)映射:训练网络的样本集为向量集合为 {A1,A2,…,An} 在理想情况下,该网络在完成训练后,其权矩阵存放的将是上面所给的向量集合。 10/25/201894
  • 95. 2.4 存储与映射异相联(Hetero-associative)映射 {(A1,B1),(A2,B2),…,(An,Bn)} 该网络在完成训练后,其权矩阵存放的将是上面所给的向量集合所蕴含的对应关系。 当输入向量A不是样本的第一的分量时,样本中不存在这样的元素(Ak,Bk),使得 Ai≤Ak≤A或者A≤Ak≤Aj 且此时有 Ai≤A≤Aj 则向量B是Bi与Bj的插值。 10/25/201895
  • 96. 2.5 人工神经网络的训练 人工神经网络最具有吸引力的特点是它的学习能力。 1962年,Rosenblatt给出了人工神经网络著名的学习定理:人工神经网络可以学会它可以表达的任何东西。 人工神经网络的表达能力大大地限制了它的学习能力。 人工神经网络的学习过程就是对它的训练过程10/25/201896
  • 97. 2.5.1无导师学习 无导师学习(Unsupervised Learning)与无导师训练(Unsupervised Training)相对应 抽取样本集合中蕴含的统计特性,并以神经元之间的联接权的形式存于网络中。10/25/201897
  • 98. 2.5.1无导师学习Hebb学习律、竞争与协同(Competitive and Cooperative)学习、随机联接系统(Randomly Connected Learning)等。 Hebb算法[D. O. Hebb在1961年]的核心: 当两个神经元同时处于激发状态时被加强,否则被减弱。 数学表达式表示: Wij(t+1)=Wij(t)+αoi(t)oj(t)10/25/201898
  • 99. 2.5.2 有导师学习 有导师学习(Supervised Learning)与有导师训练(Supervised Training)相对应。 输入向量与其对应的输出向量构成一个“训练对”。 有导师学习的训练算法的主要步骤包括: 1)  从样本集合中取一个样本(Ai,Bi); 2)  计算出网络的实际输出O; 3)  求D=Bi-O; 4)  根据D调整权矩阵W; 5) 对每个样本重复上述过程,直到对整个样本集来说,误差不超过规定范围。 10/25/201899
  • 100. Delta规则 Widrow和Hoff的写法: Wij(t+1)=Wij(t)+α(yj- aj(t))oi(t) 也可以写成: Wij(t+1)=Wij(t)+∆ Wij(t) ∆ Wij(t)=αδjoi(t) δj=yj- aj(t) Grossberg的写法为: ∆ Wij(t)=αai(t)(oj(t)-Wij(t)) 更一般的Delta规则为: ∆ Wij(t)=g(ai(t),yj,oj(t),Wij(t))10/25/2018100
  • 101. 练习题 P29 1、4、6、10、15 10/25/2018101
  • 102. 上次课内容回顾:网络的分层结构联接模式 刺激联接与抑制联接 前馈信号与反馈信号 层(级)内联接 循环联接 层(级)间联接 简单单级网: NET=XW; O=F(NET) 单级横向反馈网: NET=XW+O(t)V;O (t) =F(NET)10/25/2018102
  • 103. 上次课内容回顾:网络的分层结构非循环多级网 层次划分 非线性激活函数: F3(F2(F1(XW1)W2)W3) 循环网 短期记忆特征及其对输入信号的修复作用 时间参数与主时钟 稳定性10/25/2018103
  • 104. 上次课内容回顾:存储与映射模式 空间模式 时空模式 模式三种存储类型 RAM 、CAM、AM 模式的存储与运行 CAM——LTM——训练 AM——STM——运行 相联:自相联映射、异相联映射10/25/2018104
  • 105. 上次课内容回顾:训练Rosenblatt的学习定理 无导师学习 抽取样本集合中蕴含的统计特性 样本集:{A1,A2,…,An} Hebb算法:Wij(t+1)=Wij(t)+αoi(t)oj(t) 有导师学习 抽取样本蕴含的映射关系 样本集: {(A1,B1),(A2,B2),…,(An,Bn)} 训练算法 Delta规则10/25/2018105
  • 106. 第3章 感知器 主要内容: 感知器与人工神经网络的早期发展; 线性可分问题与线性不可分问题; Hebb学习律; Delta规则; 感知器的训练算法。 重点:感知器的结构、表达能力、学习算法 难点:感知器的表达能力 10/25/2018106
  • 107. 第3章 感知器3.1 感知器与人工神经网络的早期发展 3.2 感知器的学习算法 3.2.1 离散单输出感知器训练算法 3.2.2 离散多输出感知器训练算法 3.2.3 连续多输出感知器训练算法 3.3 线性不可分问题 3.3.1 异或(Exclusive –OR)问题 3.3.2 线性不可分问题的克服 实现!问题的发现与解决!10/25/2018107
  • 108. 3.1 感知器与ANN的早期发展McCulloch 和Pitts 1943年,发表第一个系统的ANN研究——阈值加权和(M-P)数学模型。 1947年,开发出感知器。 1949年,提出Hebb学习律。单输出的感知器(M-P模型)x2 x1o xn…10/25/2018108
  • 109. 3.1 感知器与ANN的早期发展1962年,Rosenblatt宣布:人工神经网络可以学会它能表示的任何东西 o1多输出感知器x1x2o2omxn… ………输入层输出层10/25/2018109
  • 110. 3.2 感知器的学习算法 感知器的学习是有导师学习 感知器的训练算法的基本原理来源于著名的Hebb学习律 基本思想:逐步地将样本集中的样本输入到网络中,根据输出结果和理想输出之间的差别来调整网络中的权矩阵 10/25/2018110
  • 111. 3.2.1离散单输出感知器训练算法 二值网络:自变量及其函数的值、向量分量的值只取0和1函数、向量。 权向量:W=(w1,w2,…,wn) 输入向量:X=(x1,x2,…,xn) 训练样本集: {(X,Y)|Y为输入向量X对应的输出} 10/25/2018111
  • 112. 算法3-1离散单输出感知器训练算法 1. 初始化权向量W; 2. 重复下列过程,直到训练完成: 2.1 对每个样本(X,Y),重复如下过程: 2.1.1 输入X; 2.1.2 计算o=F(XW); 2.1.3 如果输出不正确,则 当o=0时,取 W=W+X, 当o=1时,取 W=W-X 10/25/2018112
  • 113. 3.2.2离散多输出感知器训练算法 样本集:{(X,Y)|Y为输入向量X对应的输出} 输入向量:X=(x1,x2,…,xn) 理想输出向量:Y=(y1,y2,…,ym) 激活函数:F 权矩阵W=(wij) 实际输出向量:O=(o1,o2,…,om)o1多输出感知器x1x2o2omxn… ………输入层输出层10/25/2018113
  • 114. 算法3-2离散多输出感知器训练算法 1.初始化权矩阵W; 2.重复下列过程,直到训练完成: 2.1 对每个样本(X,Y),重复如下过程: 2.1.1 输入X; 2.1.2 计算O=F(XW); 2.1.3 for j=1 to m do 执行如下操作: if oj ≠ yj then if oi = 0 then for i = 1 to n wij=wij+xi else for i= 1 to n do wij=wij-xi10/25/2018114
  • 115. 算法3-2离散多输出感知器训练算法算法思想:将单输出感知器的处理逐个地用于多输出感知器输出层的每一个神经元的处理。 第1步,权矩阵的初始化:一系列小伪随机数。 10/25/2018115
  • 116. 算法3-2离散多输出感知器训练算法第2步,循环控制。 方法1:循环次数控制法:对样本集执行规定次数的迭代 改进——分阶段迭代控制:设定一个基本的迭代次数N,每当训练完成N次迭代后,就给出一个中间结果10/25/2018116
  • 117. 算法3-2离散多输出感知器训练算法方法2:精度控制法:给定一个精度控制参数 精度度量:实际输出向量与理想输出向量的对应分量的差的绝对值之和; 实际输出向量与理想输出向量的欧氏距离的和 “死循环”:网络无法表示样本所代表的问题10/25/2018117
  • 118. 算法3-2离散多输出感知器训练算法方法3:综合控制法:将这两种方法结合起来使用 注意:精度参数的设置。根据实际问题选定;初始测试阶段,精度要求低,测试完成后,再给出实际的精度要求。10/25/2018118
  • 119. 3.2.3 连续多输出感知器训练算法 用公式wij=wij+α(yj-oj)xi取代了算法3-2 第2.1.3步中的多个判断 yj与oj之间的差别对wij的影响由α(yj-oj)xi表现出来 好处:不仅使得算法的控制在结构上更容易理解,而且还使得它的适应面更宽 10/25/2018119
  • 120. 算法3-3 连续多输出感知器训练算法 1.用适当的小伪随机数初始化权矩阵W; 2. 初置精度控制参数ε,学习率α,精度控制变量d=ε+1; 3.While d ≥ ε do 3.1 d=0; 3.2 for 每个样本(X,Y)do 3.2.1 输入X(=(x1,x2,…,xn)); 3.2.2 求O=F(XW); 3.2.3 修改权矩阵W: for i=1 to n,j=1 to m do wij=wij+α(yj-oj)xi; 3.2.4 累积误差 for j = 1 to m do d=d+(yj-oj)210/25/2018120
  • 121. 算法3-3 连续多输出感知器训练算法 1、程序实现:ε、α、d、i、j、n、m为简单变量来表示,W为n行m列的二维数组。样本集二维数组 2、系统的调试 3、Minsky在1969年证明,有许多基本问题是感知器无法解决 4、问题线性可分性可能与时间有关 5、很难从样本数据集直接看出问题是否线性可分 6、未能证明,一个感知器究竟需要经过多少步才能完成训练。10/25/2018121
  • 122. 3.3 线性不可分问题 3.3.1 异或(Exclusive –OR)问题 g(x,y) y 0 1 x 0 0 1 1 1 0 10/25/2018122
  • 123. 用于求解XOR的单神经元感知器 xyo单神经元感知器的图像ax+by=θ1yx1(0,0)(1,1)10/25/2018123
  • 124. 线性不可分函数变量函数及其值xyf1f2 f3f4f5f6f7f8f9f10f11 f12f13f14f15f16 00000000001111111101000011110000111110001100110011001111010101010101010110/25/2018124
  • 125. 线性不可分函数R. O. Windner 1960年 自变量个数函数的个数线性可分函数的个数144216143256104465,536188254.3*10994,57261.8*10195,028,13410/25/2018125
  • 126. 3.3.2 线性不可分问题的克服 用多个单级网组合在一起,并用其中的一个去综合其它单级网的结果,我们就可以构成一个两级网络,该网络可以被用来在平面上划分出一个封闭或者开放的凸域来 一个非凸域可以拆分成多个凸域。按照这一思路,三级网将会更一般一些,我们可以用它去识别出一些非凸域来。 解决好隐藏层的联接权的调整问题是非常关键的 10/25/2018126
  • 127. 两级单输出网在n维空间中划分出m边凸域 …x1ANmAN1ANoxn…o10/25/2018127
  • 128. 第1次课堂测试(5分*4)Newell和Simon的物理符号系统所基于的假说是什么?它在什么层面上如何实现对人类智能的模拟? 联接主义观点所基于的假说是什么?它在什么层面上如何实现对人类智能的模拟? 画出有导师算法的流程图。 证明:一个激活函数为线性函数的3级非循环网等价于一个单级网。10/25/2018128
  • 129. 习题P38 1、610/25/2018129
  • 130. 第1次课堂测试解答要点Newell和Simon的物理符号系统所基于的假说是什么?它在什么层面上如何实现对人类智能的模拟? 要点:物理符号系统;心理;符号对事务及变换的描述 联接主义观点所基于的假说是什么?它在什么层面上如何实现对人类智能的模拟? 要点:联接机制;生理;模式、联接权的调整与对变换的表示10/25/2018130
  • 131. 第1次课堂测试解答要点画出有导师学习算法的流程图。 要点:如何处理精度与样本集两层循环 证明:一个激活函数为线性函数的3级非循环网等价于一个单级网。 要点:一级网与多级网的的数学模型10/25/2018131
  • 132. 上次课内容回顾:学习算法离散单输出感知器训练算法 W=W+X;W=W-X W=W+(Y-O)X 离散多输出感知器训练算法 Wj=Wj+(yj-oj)X 连续多输出感知器训练算法 wij=wij+α(yj-oj)xi10/25/2018132
  • 133. 上次课内容回顾:线性不可分问题ax+by=θ1yx1(0,0)(1,1)线性不可分问题的克服 两级网络可以划分出封闭或开放的凸域 多级网将可以识别出非凸域 隐藏层的联接权的调整问题是非常关键10/25/2018133
  • 134. 第4章 BP网络 主要内容: BP网络的构成 隐藏层权的调整分析 Delta规则理论推导 算法的收敛速度及其改进讨论 BP网络中的几个重要问题 重点:BP算法 难点:Delta规则的理论推导 10/25/2018134
  • 135. 第4章 BP网络4.1 概述 4.2 基本BP算法 4.3 算法的改进 4.4 算法的实现 4.5 算法的理论基础 4.6 几个问题的讨论 10/25/2018135
  • 136. 4.1 概述 1、BP算法的出现 非循环多级网络的训练算法 UCSD PDP小组的Rumelhart、Hinton和Williams1986年独立地给出了BP算法清楚而简单的描述 1982年,Paker就完成了相似的工作 1974年,Werbos已提出了该方法 2、弱点:训练速度非常慢、局部极小点的逃离问题、算法不一定收敛。 3、优点:广泛的适应性和有效性。10/25/2018136
  • 137. 4.2 基本BP算法 4.2.1 网络的构成 神经元的网络输入: neti=x1w1i+x2w2i+…+xnwni 神经元的输出:10/25/2018137
  • 138. 输出函数分析  0.5f ′(net)0.25o0 1  1(0,0.5) net(0,0)o应该将net的值尽量控制在收敛比较快的范围内 可以用其它的函数作为激活函数,只要该函数是处处可导的10/25/2018138
  • 139. 网络的拓扑结构x1o1输出层隐藏层输入层x2o2omxn…………………W(1)W(2)W(3)W(L)10/25/2018139
  • 140. 网络的拓扑结构 BP网的结构 输入向量、输出向量的维数、网络隐藏层的层数和各个隐藏层神经元的个数的决定 实验:增加隐藏层的层数和隐藏层神经元个数不一定总能够提高网络精度和表达能力。 BP网一般都选用二级网络。10/25/2018140
  • 141. 网络的拓扑结构x1o1输出层隐藏层输入层x2o2omxn…………WV10/25/2018141
  • 142. 4.2.2 训练过程概述 样本:(输入向量,理想输出向量) 权初始化:“小随机数”与饱和状态;“不同”保证网络可以学。 1、向前传播阶段: (1)从样本集中取一个样本(Xp,Yp),将Xp输入网络; (2)计算相应的实际输出Op: Op=Fl(…(F2(F1(XpW(1))W(2))…)W(L))10/25/2018142
  • 143. 4.2.2 训练过程概述 2、向后传播阶段——误差传播阶段: (1)计算实际输出Op与相应的理想输出Yp的差; (2)按极小化误差的方式调整权矩阵。 (3)网络关于第p个样本的误差测度:(4) 网络关于整个样本集的误差测度:10/25/2018143
  • 144. 4.2.3 误差传播分析 1、输出层权的调整wpq= wpq+∆wpq ∆wpq=αδqop =αfn′ (netq)(yq-oq)op =αoq(1-oq) (yq-oq)op wpqANpANq第L-1层第L层∆wpq10/25/2018144
  • 145. 2、隐藏层权的调整   ANpANqANhvhp δpk-1δ1kwp1wpqδqkwpmδmk第k-2层第k层第k-1层……10/25/2018145
  • 146. 2、隐藏层权的调整δpk-1的值和δ1k,δ2k,…,δmk 有关 不妨认为δpk-1 通过权wp1对δ1k做出贡献, 通过权wp2对δ2k做出贡献, …… 通过权wpm对δmk做出贡献。 δpk-1= fk-1′(netp) (wp1δ1k+ wp2δ2k+…+ wpmδm k)10/25/2018146
  • 147. 2、隐藏层权的调整vhp=vhp+∆vhp ∆vhp=αδpk-1ohk-2 =αfk-1 ′(netp)( wp1δ1k+ wp2δ2k+…+ wpmδmk)ohk-2 =αopk-1(1-opk-1)( wp1δ1k+ wp2δ2k+…+ wpmδmk)ohk-2ANpANqANhvhp δpk-1δ1kwp1wpmδqkwpqδmk第k-2层第k层第k-1层……10/25/2018147
  • 148. 上次课内容回顾基本BP算法 neti=x1w1i+x2w2i+…+xnwni 10/25/2018148
  • 149. 上次课内容回顾x1o1输出层隐藏层输入层x2o2omxn…………WV10/25/2018149
  • 150. 上次课内容回顾样本 权初始化 向前传播阶段 Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n)) 误差测度10/25/2018150
  • 151. 上次课内容回顾向后传播阶段——误差传播阶段 输出层权的调整 ∆wpq= αδqop =αfn′ (netq)(yq-oq)op =αoq(1-oq) (yq-oq)op 隐藏层权的调整ANpANqANhvhp δpk-1δ1kwp1wpqδqkwpmδmk……∆vhp =αopk-1(1-opk-1)( wp1δ1k+ wp2δ2k+…+ wpmδmk)ohk-210/25/2018151
  • 152. 4.2.4 基本的BP算法 样本集:S={(X1,Y1),(X2,Y2),…,(Xs,Ys)} 基本思想 : 逐一地根据样本集中的样本(Xk,Yk)计算出实际输出Ok和误差测度E1,对W(1) ,W(2) ,…,W(L)各做一次调整,重复这个循环,直到∑Ep<ε。 用输出层的误差调整输出层权矩阵,并用此误差估计输出层的直接前导层的误差,再用输出层前导层误差估计更前一层的误差。如此获得所有其它各层的误差估计,并用这些估计实现对权矩阵的修改。形成将输出端表现出的误差沿着与输入信号相反的方向逐级向输入端传递的过程 10/25/2018152
  • 153. 算法4-1 基本BP算法 1 for k=1 to L do 1.1 初始化W(k); 2 初始化精度控制参数ε; 3 E=ε+1; 4 while E>ε do 4.1 E=0; 10/25/2018153
  • 154. 算法4-1 基本BP算法 4.2 对S中的每一个样本(Xp,Yp): 4.2.1 计算出Xp对应的实际输出Op; 4.2.2 计算出Ep; 4.2.3 E=E+Ep; 4.2.4 根据相应式子调整W(L); 4.2.5 k=L-1; 4.2.6 while k≠0 do 4.2.6.1 根据相应式子调整W(k); 4.2.6.2 k=k-1 4.3 E=E/2.0 10/25/2018154
  • 155. 4.3 算法的改进 1、BP网络接受样本的顺序对训练结果有较大影响。它更“偏爱”较后出现的样本 2、给集中的样本安排一个适当的顺序,是非常困难的。 3、样本顺序影响结果的原因:“分别”、“依次” 4、用(X1,Y1),(X2,Y2),…,(Xs,Ys)的“总效果”修改W(1) ,W(2) ,…,W(L)。 ∆w(k)ij=∑∆p w(k)ij 10/25/2018155
  • 156. 算法4-2 消除样本顺序影响的BP算法 1 for k=1 to L do 1.1 初始化W(k); 2 初始化精度控制参数ε; 3 E=ε+1; 4 while E>ε do 4.1 E=0; 4.2 对所有的i,j,k:∆ w (k)ij=0; 10/25/2018156
  • 157. 4.3 对S中的每一个样本(Xp,Yp): 4.3.1 计算出Xp对应的实际输出Op; 4.3.2 计算出Ep; 4.3.3 E=E+Ep; 4.3.4 对所有i,j根据相应式子计算∆p w (L)ij; 4.3.5 对所有i,j:∆ w (L)ij=∆ w (L)ij+∆p w (L)ij; 4.3.6 k=L-1; 4.3.7 while k≠0 do 4.3.7.1 对所有i,j根据相应式子计算∆p w (k)ij; 4.3.7.2 对所有i,j:∆ w (k)ij=∆ w (k)ij+∆p w (k)ij; 4.3.7.3 k=k-1 4.4 对所有i,j,k:w (k)ij= w (k)ij+ ∆w (k)ij; 4.5 E=E/2.0 10/25/2018157
  • 158. 算法4-2 分析 较好地解决了因样本的顺序引起的精度问题和训练的抖动问题 收敛速度:比较慢 偏移量:给每一个神经元增加一个偏移量来加快收敛速度 冲量:联接权的本次修改要考虑上次修改的影响,以减少抖动问题 10/25/2018158
  • 159. 算法4-2 分析——冲量设置Rumelhart等人1986年 ∆wij=αδjoi+β∆wij′ ∆wij′为上一次的修改量,β为冲量系数,一般可取到0.9 Sejnowski与Rosenberg ,1987年 ∆wij=α((1-β)δjoi+β∆wij′) ∆wij′也是上一次的修改量,β在0和1之间取值 10/25/2018159
  • 160. 4.4 算法的实现 主要数据结构 W[H,m]——输出层的权矩阵; V[n,H]——输入(隐藏)层的权矩阵; ∆o[m]——输出层各联接权的修改量组成的向量; ∆h[H]——隐藏层各联接权的修改量组成的向量; O1——隐藏层的输出向量; O2——输出层的输出向量; (X,Y)——一个样本。 10/25/2018160
  • 161. 算法的主要实现步骤 用不同的小伪随机数初始化W,V; 初始化精度控制参数ε;学习率α ; 循环控制参数E=ε+1;循环最大次数M;循环次数控制参数N=0; while E>ε & N
  • 162. 4.2 对每一个样本(X,Y),执行的操作 4.2.1 计算:O1=F1(XV);O2=F2(O1W); 4.2.2 计算输出层的权修改量 for i=1 to m 4.2.2.1 ∆o[i]= O2 [i]*(1- O2 [i])*(Y[i]-O2 [i]); 4.2.3 计算输出误差:for i=1 to m 4.2.3.1 E=E+(Y[i]-O2 [i])2;10/25/2018162
  • 163. 4.2 对每一个样本(X,Y),执行的操作4.2.4 计算隐藏层的权修改量:for i=1 to H 4.2.4.1 Z=0; 4.2.4.2 for j=1 to m do Z=Z+W[i,j]* ∆o[j]; 4.2.4.3 Δh[i]=Z* O1 [i](1- O1 [i]) ; 4.2.5 修改输出层权矩阵:for k=1 to H & i=1 to m 4.2.5.1 W[k,i]= W[k,i]+ α*O1[k]*∆o[i]; 4.2.5 修改隐藏层权矩阵:for k=1 to n & i=1 to H 4.2.5.1 V[k,i]= V[k,i]+ α*X[k]* ∆h[i];10/25/2018163
  • 164. 建议 隐藏层的神经元的个数H作为一个输入参数 同时将ε、循环最大次数M等,作为算法的输入参数 在调试阶段,最外层循环内,加一层控制,以探测网络是否陷入了局部极小点 10/25/2018164
  • 165. 4.5 算法的理论基础基本假设 网络含有L层 联接矩阵: W(1) ,W(2) ,…,W(L) 第k层的神经元:Hk个 自变量数: n*H1+H1*H2+H2*H3+…+HL*m 样本集: S={ (X1,Y1),(X2,Y2),…,(Xs,Ys)} 误差测度: 10/25/2018165
  • 166. 用E代表EP,用(X,Y)代表(XP,YP) X=(x1,x2,…,xn) Y=(y1,y2,…,ym) 该样本对应的实际输出为 O=(o1,o2,…,om)误差测度10/25/2018166
  • 167. 误差测度用理想输出与实际输出的方差作为相应的误差测度10/25/2018167
  • 168. 最速下降法,要求E的极小点 wijE>0,此时Δwij<0取E<0, 此时Δwij>0wij10/25/2018168
  • 169. 而其中的 所以, 最速下降法,要求E的极小点10/25/2018169
  • 170. 令所以Δwij=αδjoi α为学习率最速下降法,要求E的极小点10/25/2018170
  • 171. ANj为输出层神经元 oj=f(netj) 容易得到 从而 10/25/2018171
  • 172. ANj为输出层神经元10/25/2018172
  • 173. 所以,故,当ANj为输出层的神经元时,它对应的联接权wij应该按照下列公式进行调整:ANj为输出层神经元10/25/2018173
  • 174. ANj为隐藏层神经元 函数10/25/2018174
  • 175. ANj为隐藏层神经元netk= oj…o2o1oHhnetk是 oj下一级的神经元的网络输入10/25/2018175
  • 176. ANj为隐藏层神经元10/25/2018176
  • 177. ANj为隐藏层神经元10/25/2018177
  • 178. ANj为隐藏层神经元10/25/2018178
  • 179. 4.6 几个问题的讨论 收敛速度问题 局部极小点问题 逃离/避开局部极小点:修改W、V的初值——并不是总有效。 逃离——统计方法;[Wasserman,1986]将Cauchy训练与BP算法结合起来,可以在保证训练速度不被降低的情况下,找到全局极小点。 10/25/2018179
  • 180. 4.6 几个问题的讨论 网络瘫痪问题 在训练中,权可能变得很大,这会使神经元的网络输入变得很大,从而又使得其激活函数的导函数在此点上的取值很小。根据相应式子,此时的训练步长会变得非常小,进而将导致训练速度降得非常低,最终导致网络停止收敛 稳定性问题 用修改量的综合实施权的修改 连续变化的环境,它将变成无效的 10/25/2018180
  • 181. 4.6 几个问题的讨论 步长问题 BP网络的收敛是基于无穷小的权修改量 步长太小,收敛就非常慢 步长太大,可能会导致网络的瘫痪和不稳定 自适应步长,使得权修改量能随着网络的训练而不断变化。[1988年,Wasserman] 10/25/2018181
  • 182. 练习P54 1、5、1010/25/2018182
  • 183. 上次课内容回顾基本BP算法 算法的改进 用(X1,Y1),(X2,Y2),…,(Xs,Ys)的“总效果”修改W(1) ,W(2) ,…,W(L) ∆w(k)ij=∑∆p w(k)ij10/25/2018183
  • 184. 上次课内容回顾改进算法有关问题 抖动、收敛速度、偏移量、冲量 算法的实现 循环控制、算法的调试 算法的理论基础10/25/2018184
  • 185. 上次课内容回顾问题的讨论 收敛速度 局部极小点 网络瘫痪 稳定性 步长10/25/2018185
  • 186. 第5章 对传网 主要内容:CPN的网络结构,正常运行,输入向量的预处理,Kohonen层的训练算法及其权矩阵的初始化方法;Grossberg层的训练;完整的对传网 重点:Kohonen层与Grossberg层的正常运行与训练 难点:Kohonen层的训练算法及其权矩阵的初始化方法 10/25/2018186
  • 187. 第5章 对传网 5.1 网络结构 5.2 网络的正常运行 5.3 Kohonen层的训练 5.4 Kohonen层联接权的初始化方法 5.5 Grossberg层的训练 5.6 补充说明 10/25/2018187
  • 188. 第5章 对传网Robert Hecht-Nielson 在1987年提出了对传网(Counterpropagation Networks,CPN)。 CPN为异构网: Kohonen1981年提出的Self-organization map SOM——Kohonen层 Grossberg1969年提出的Outstar——Grossberg层 训练时间短:BP的1%。应用面:比较窄 让网络的隐藏层执行无导师学习,是解决多级网络训练的另一个思路10/25/2018188
  • 189. 5.1 网络结构 单向CPN,完整CPN(双向网) 除拓扑结构外,网络的运行机制也是确定网络结构(同构、异构)和性能的重要因素 网络的层数计算 10/25/2018189
  • 190. 5.1 网络结构x1y1WV自组织映射 (无导师学习) Kohonen层散射星 (有导师学习) Grossberg层输入层 K1G1K2G2x2y2………KhGmxnym10/25/2018190
  • 191. 5.1 网络结构以Kohonen层的神经元为“中心”讨论问题 K1 W1=(w11,w21,…,wn1)T V1=(v11,v12,…,v1m) K2 W2=(w12,w22,…,wn2)T V2=(v21,v22,…,v2m) …… Kh Wh=(w1h,w2h,…,wnh)T Vh=(vh1,vh2,…,vhm)10/25/2018191
  • 192. 5.2 网络的正常运行 5.2.1 Kohonen层 “强者占先、弱者退出” (the winner takes all ) knetj=XWj = (x1,x2,…,xn)(w1j,w2j,…,wnj) T = w1j x1+w2j x2+…+wnj xn 向量形式 KNET=(knet1,knet2,…,kneth) 10/25/2018192
  • 193. 5.2.1 Kohonen层K1,K2,…,Kh的输出k1,k2,…,kh构成向量 K=(k1,k2,…,kh) 1≦j≦h 1 knetj=Max{ knet1,knet2,…,kneth } kj= 0 其它 几何意义10/25/2018193
  • 194. 5.2.2 Grossberg层 Grossberg层的每个神经元Gj (1≦j≦m) gnetj= K (v1j,v2j,…,vhj)T = (k1,k2,…,kh) (v1j,v2j,…,vhj)T =k1v1j+ k2v2j+…+ kh vhj 唯一输出1的神经元为Ko gnetj= k1v1j+ k2v2j+…+ kh vhj = voj 10/25/2018194
  • 195. 5.2.2 Grossberg层 GNET=( gnet1 ,gnet2 ,…,gnetm) =(vo1,vo2,…,vom) =Vo 散射星:Vo的各个分量是从Ko到Grossberg层各神经元的联接权 10/25/2018195
  • 196. 5.2.2 Grossberg层 CPN用于模式的完善,此时n=m:接受含有噪音的输入模式(x1,x2,…,xn),而输出去掉噪音后的模式(vo1,vo2,…,vom) 对训练启示 W1,W2,…,Wh,各类X的共同特征 V1,V2,…,Vh,X对应的理想输出Y的共同特征 10/25/2018196
  • 197. 5.3 Kohonen层的训练 5.3.1 输入向量的预处理 单位化处理 X= (x1,x2,…,xn) X′= (x1′,x2′,…,xn′) = (x1/‖X‖,x2/‖X‖,…,xn/‖X‖) 10/25/2018197
  • 198. 5.3.2 训练 算法 5-1 Kohonen层训练算法 对所有的输入向量,进行单位化处理; 对每个样本(X,Y)执行下列过程 2.1 for j=1 to h do 根据相应式子计算knetj; 2.2 求出最大的kneto: 2.2.1 max=knet1;o=1 2.2.2 for j=1 to h do if knetj>max then {max=knetj;o=j}; 10/25/2018198
  • 199. 算法 5-1 Kohonen层训练算法2.3 计算K 2.3.1 for j=1 to h do kj=0; 2.3.2 ko=1; 2.4 使Wo更接近X:Wo(new)=Wo(old)+α(X- Wo(old)); 2.5 对Wo(new)进行单位化处理 10/25/2018199
  • 200. Wo(new)=Wo(old)+α(X- Wo(old))α∈(0,1) Wo(new)=Wo(old)+α(X- Wo(old)) = Wo(old)+αX-αWo(old) X-Wo(new)=X-[Wo(old)+α(X- Wo(old))] =X-Wo(old)-αX+αWo(old) = X(1-α) -Wo(old)(1-α) =(1-α)(X-Wo(old)) 由0<(1-α)<1,Wo(new)比Wo(old)更接近X 10/25/2018200
  • 201. o单位圆Wo(new)=Wo(old)+α(X- Wo(old))Wo(old)(1-α) (X- Wo(old))Wo(new)(X- Wo(old))X(X- Wo(old))- Wo(old)10/25/2018201
  • 202. 学习率α 训练初期,α一般取0.7左右,它将随着训练进展不断变小 α过大可能导致有的X被放入错误的类中;使训练陷入抖动 根据X的分布决定W的初值:防止类过小和过大10/25/2018202
  • 203. 启发一般来说,一个类含有许多向量。这个类对应的Wj应该是样本集中这一类向量(输入向量部分)的平均值。 事先给问题一个粗略分类,并从这个分类中提取一个较有代表性的向量构成样本集 启发我们采用训练和直接设定权向量的方式来完成该层的训练。10/25/2018203
  • 204. 上次课内容回顾CPN为异构网 Kohonen层—— SOM Grossberg层—— Outstar 训练时间短:BP的1%。应用面:比较窄 除拓扑结构外,网络的运行机制也是确定网络结构(同构、异构)和性能的重要因素10/25/2018204
  • 205. 拓扑结构x1y1WV自组织映射 (无导师学习) Kohonen层散射星 (有导师学习) Grossberg层输入层 K1G1K2G2x2y2………KhGmxnym10/25/2018205
  • 206. 上次课内容回顾以Kohonen层的神经元为“中心”讨论问题 Kohonen层:“强者占先、弱者退出” K=(0,…,0,1,0,…,0) Grossberg层:散射星 gnetj= k1v1j+ k2v2j+…+ kh vhj= voj GNET=( gnet1 ,gnet2 ,…,gnetm) =(vo1,vo2,…,vom) =Vo CPN用于模式的完善10/25/2018206
  • 207. 上次课内容回顾强调X和W的单位化处理 对训练启示 W1,W2,…,Wh,各类X的共同特征 V1,V2,…,Vh,X对应的Y的共同特征 Kohonen层的训练 Wo(new)=Wo(old)+α(X- Wo(old))10/25/2018207
  • 208. 5.4 Kohonen层联接权初始化 理想情况下,W1,W2,…,Wh的初值应该依照样本集中的输入向量的分布来确定 样本集中的输入向量的分布并不是均匀的 10/25/2018208
  • 209. o单位圆Xi的非均匀分布要求Wi非均匀分布X2X1X310/25/2018209
  • 210. 凸状组合法 取wij= 将输入向量 X= (x1,x2,…,xn) 变换为 X′= (x1′,x2′,…,xn′) 其中 10/25/2018210
  • 211. 凸状组合法随着训练的进行,λ趋近于1,从而使X′趋近于X,进而Wj趋近于一组X的平均值。在训练的初期阶段,λ的值非常小,使得W需要追踪一个变化的目标10/25/2018211
  • 212. 添加噪音法 在输入向量中加进适当的随机噪音,使输入向量的分布均匀。训练中逐渐去掉噪音 Wj不断地调整自己的“运动方向”,去追踪其不断变化的目标。试验表明,这种方法的收敛速度比凸状组合法更慢。 W也需要追踪一个变化的目标10/25/2018212
  • 213. X在加噪音后变成均匀分布的o单位圆10/25/2018213
  • 214. 初期全调法 Kohonen层训练的初期,对应一个输入向量,允许多个神经元同时处于激发状态。逐渐减少被激发的神经元的最大个数或者逐渐提高阈值,最后达到对一个输入向量,只有一个神经元激发 要解决的问题 问题调整的范围的度量。10/25/2018214
  • 215. 初期全调法另一种实现 在训练的初期,算法不仅调整“获胜”的神经元对应的权向量,而且对其它的权向量也作适当的调整。随着训练的推进,被调整的范围逐渐缩小,直到最终只有“获胜”的神经元对应的权向量才被调整 要解决的问题 问题调整的范围的度量。 其它的权向量的“适当调整” 10/25/2018215
  • 216. DeSieno法 当某一个权向量所获得的匹配向量超过给定的数(1/h)后,它的阈值就被临时提高 问题:当最应该被某个神经元对应的权向量匹配的输入向量在较后的时候被输入时,它可能被拒绝,从而造成网络精度的损失 Kohonen [1988]:在一个被完全训练过的网中,随机选取的输入向量与任何给定权向量是最接近的概率是1/h 按均匀分布初始化的权向量具有相同被匹配概率 10/25/2018216
  • 217. 5.5 Grossberg层的训练 训练 标量形式 voj= voj+α(yj- voj) 向量形式 Vo(new)= Vo(old)+α(Y- Vo(old)) 比较 Wo(new)=Wo(old)+α(X- Wo(old)) Kohonen层10/25/2018217
  • 218. 算法5-2 CPN训练算法一 0 对W、V进行初始化; 1 对所有的输入向量,进行单位化处理; 2 对每个样本(X,Y)执行下列过程 2.1 for j=1 to h do 根据knetj=XWj计算knetj; 2.2 求出最大的kneto: 2.2.1 max=knet1;o=1; 2.2.2 for j=1 to h do 2.2.2.1 if knetj>max then {max=knetj;o=j};10/25/2018218
  • 219. 算法5-2 CPN训练算法一2.3 计算K: 2.3.1 for j=1 to h do kj=0; 2.3.2 ko=1; 2.4 使Wo更接近X: Wo(new)=Wo(old)+α(X- Wo(old)); 2.5 对Wo(new)进行单位化处理; 2.6 使Vo更接近Y: Vo(new)= Vo(old)+α(Y- Vo(old))。 10/25/2018219
  • 220. 算法5-3 CPN训练算法二对应Kohonen的每一个Ki,它将代表一组输入向量,所以希望这个Ki对应的Vi能代表这组输入向量对应的输出向量的平均值。 0    对W、V进行初始化; 0′清空Kohonen层各神经元对应的纪录表: for j=1 to h do SKj=Φ; 1 对所有的输入向量,进行单位化处理;10/25/2018220
  • 221. 算法5-3 CPN训练算法二 2 对每个样本(Xs,Ys)执行下列过程 2.1 for j=1 to h do 2.1.1 根据相应式子计算knetj; 2.2 求出最大的kneto: 2.2.1 max=knet1;o=1; 2.2.2 for j=1 to h do 2.2.2.1 if knetj>max then {max=knetj;o=j}; 10/25/2018221
  • 222. 算法5-3 CPN训练算法二 2.3 计算K: 2.3.1 for j=1 to h do kj=0; 2.3.2 ko=1; 2.4 使Wo更接近Xs: Wo(new)=Wo(old)+α(Xs- Wo(old)); 2.5 对Wo(new)进行单位化处理; 2.6 将Ys放入SKo: SKo=SKo∪{Ys}; 3 for j=1 to h do Vj= SKj中各向量的平均值 10/25/2018222
  • 223. 算法的进一步优化集合变量SK1, SK2 ,…,SKh改为其它存储量更小,而且更容易实现的变量 在Xs激发Ko时,Ys被放入到SKo中 会不会出现一个向量被放入多个SK中的问题 如何解决10/25/2018223
  • 224. 5.6 补充说明 1、全对传网WVXY′………Y…X′输入层Kohonen层Grossberg层10/25/2018224
  • 225. 2、非简单工作方式对给定的输入向量,Kohonen层各神经元可以给出不同的输出 输出作为修改因子 对应神经元Kohonen层、Grossberg层的权向量 输出值较大的,表明该输入向量与该神经元对应的类较接近,它对应的权向量的修改量就大 输出值较小的,表明该输入向量与该神经元对应的类较远,它对应的权向量的修改量就小。10/25/2018225
  • 226. 练习P69 1、5、810/25/2018226
  • 227. 上次课内容回顾Kohonen层联接权初始化 凸状组合法 添加噪音法 初期全调法 DeSieno法 Kohonen层的训练 Wo(new)=Wo(old)+α(X- Wo(old)) Grossberg层的训练 Vo(new)= Vo(old)+α(Y- Vo(old))10/25/2018227
  • 228. 上次课内容回顾CPN训练算法讨论 关于反复使用样本集进行训练的问题 CPN训练算法改造 两层一起训练,分开训练 SK的处理问题 全对传网10/25/2018228
  • 229. 第6章 非确定方法 主要内容: 统计网络的基本训练算法 模拟退火算法与收敛分析 Cauchy训练 人工热与临界温度在训练中的使用 BP算法与Cauchy训练的结合。 重点:统计网络的基本训练算法,BP算法与Cauchy训练的结合 难点:模拟退火算法与收敛分析 10/25/2018229
  • 230. 第6章 非确定方法 6.1 基本的非确定训练算法 6.2 模拟退火算法 6.3 Cauchy训练 6.4 相关的几个问题 10/25/2018230
  • 231. 第6章 非确定方法确定的方法 前几章所给方法的共同特征 非确定的方法 生物神经网络按照概率运行 别称 统计方法(Statistical Method)。 既可以用于训练,又可以用于运行 10/25/2018231
  • 232. 6.1 基本的非确定训练算法 基本思想 从所给的网络中“随机地选取一个联接权”,对该联接权提出一个“伪随机调整量”,当用此调整量对所选的联接权进行修改后,如果“被认为”修改改进了网络的性能,则保留此调整;否则放弃本次调整。 10/25/2018232
  • 233. 6.1 基本的非确定训练算法基本数据结构 样本集:S={ (X1,Y1),(X2,Y2),…,(Xs,Ys)} 输入向量:X=(x1,x2,…,xn) 理想输出向量:Y=(y1,y2,…,ym) L层: W(1) ,W(2) ,…,W(L) 10/25/2018233
  • 234. 6.1 基本的非确定训练算法拓扑结构 x1o1输出层隐藏层输入层x2o2omxn…………………W(1) W(L)W(2)10/25/2018234
  • 235. 算法6-1 基本统计训练算法 1 从样本集S中取一样本(X,Y); 2 将X输入到网络中,计算出实际输出O; 3 求出网络关于Y,O的误差测度E; 4 随机地从W(1) ,W(2) ,…,W(L)中选择一个联接权wij(p); 5 生成一个小随机数Δwij(p); 6 用Δwij(p)修改wij(p);10/25/2018235
  • 236. 算法6-1 基本统计训练算法7 用修改后的W(1) ,W(2) ,…,W(L)重新计算X对应的实际输出O′; 8 求出网络关于Y,O′的误差测度E′; 9 如果E′
  • 237. 算法6-1 基本统计训练算法目标函数(Objective Function) 误差测度函数:实际输出与理想输出方差和 计算量 从W(1) ,W(2) ,…,W(L)中随机地选择wij 共有n×H1+H1×H2+H2×H3+…+HM-1×m个“变量”可供选择 伪随机数 伪随机数发生器来产生Δwij(p); 按照所谓的“能量”函数的分布去计算它10/25/2018237
  • 238. 算法6-1 基本统计训练算法局部极小点 当E′
  • 239. 逃离局部极小点 联接权修改量 太小:落到A点后很难逃离 太大:导致在A、B两点来回抖动 解决办法 控制联接权修改量的大小:权修改量由大变小 允许暂时变坏 修改量的大小和网络的“能量”相关 模拟退火 ABD10/25/2018239
  • 240. 逃离局部极小点DBA10/25/2018240
  • 241. 6.2 模拟退火算法 金属中原子的能量与温度有关 原子能量高的时候,有能力摆脱其原来的能量状态而最后达到一个更加稳定的状态——全局极小能量状态 在金属的退火过程中,能量的状态分布P(E)——系统处于具有能量E的状态的概率; k——Boltzmann常数; T——系统的绝对温度(Kelvin) P(E)∝10/25/2018241
  • 242. 步长和能量、温度的关系 降温过程高温低温原子运动平稳原子激烈随机运动能量与温度相关步长与能量和温度相关步长与能量相关大步长小步长可逃离难逃离金属热加工大小高低高能量低能量目标函数的值网络的能量训练10/25/2018242
  • 243. 能量与温度高温情况下: T足够大,对系统所能处的任意能量状态E,有 将趋近于1 10/25/2018243
  • 244. 能量与温度中温情况下: T比较小,E的大小对P(E)有较大的影响 ,设E1>E2 P(E2)>P(E1)。即,系统处于高能量状态的可能性小于处于低能量状态的可能性 10/25/2018244
  • 245. 能量与温度10/25/2018245
  • 246. 能量与温度低温情况下: T非常小,E的大小对P(E) 的影响非常大 ,设E1>E2 P(E2) >> P(E1)。即,当温度趋近于0时,系统几乎不可能处于高能量状态 10/25/2018246
  • 247. 模拟退火组合优化法 目标函数——能量函数 人工温度T——一个初值较大的数 依据网络的能量和温度来决定联接权的调整量(称为步长)。 与金属的退火过程(Annealing)非常相似10/25/2018247
  • 248. 模拟退火组合优化法基本思想 随机地为系统选择一个初始状态{wij(p)},在此初始状态下,给系统一个小的随机扰动Δwij(p),计算系统的能量变化 ΔE=E({wij(p)+Δwij(p)})-E({wij(p)}) 若 ΔE<0 则接受 若ΔE≥0 则依据概率 判断是否被接受 若接受,则系统从状态{wij(p)}变换到状态{wij(p)+Δwij(p)};否则,系统保持不变 10/25/2018248
  • 249. 模拟退火组合优化法在这个过程中,逐渐地降低温度T。所得的系统状态序列{wij(p) }将满足下列分布 10/25/2018249
  • 250. 算法6-2 模拟退火算法 1初始化个层的联接权矩阵W;定义人工温度T的初值; 2 对每一个温度T重复如下过程: 2.1 取一样本,计算其输出与目标函数E({wij(p) }); 2.2   随机地从{wij(p) }中选取一个wij(p); 2.3   按一定的算法产生wij(p) 的一个调整量Δwij(p) ; 2.4   按照{ wij(p) +Δwij(p) }重新计算相应输出和目标函数E({ wij(p) +Δwij(p) }); 2.5   ΔE= E({ wij(p) +Δwij(p) })- E({ wij(p) });10/25/2018250
  • 251. 算法6-2 模拟退火算法 2.6   if ΔE>0 then 2.6.1 按均匀分布在[0,1]区间取一随机数r; 2.6.2 按Boltzmann分布计算接受本次调整的概率: P(E({ wij(p) +Δwij(p) })) = 2.6.3 if P(E({ wij(p) +Δwij(p) }))
  • 252. 算法6-2 模拟退火算法 2.7 用{ wij(p) +Δwij(p) }代替{ wij(p) }; 2.8 if 样本集中还有未被选用的样本 then 转 2.1; 3 判断在此温度下,检验Metropolis抽样是否稳定。如不稳定,则直接转2; 4 降低温度T; 5 如果T足够小,则结束,否则,转2。 10/25/2018252
  • 253. 算法6-2 模拟退火算法算法的第2步原则上应该对每一个样本调整每一个权,调整的顺序是随机的; 温度T的降低 T=λT λ叫做冷却率,一般情况下可以在[0.8,0.9]之间取值 Geman(1984年):温度下降必须与时间的对数成反比,网络最终才能收敛到全局极小点 10/25/2018253
  • 254. 算法6-2 模拟退火算法T的初值T0 T0= E({w (h) });即:取初始系统目标函数(能量)的值 T0=z E({w (h) })。即:取初始系统目标函数(能量)值的若干倍 按照经验给出 10/25/2018254
  • 255. 算法6-2 模拟退火算法调整量Δwij(p)的计算 可以根据Boltzmann分布或者Gaussian分布来计算。也可以用其它的方法。下面讨论按Gaussian分布进行计算的方法。我们取如下形式的Gaussian分布函数。简洁起见,用符号w代替符号wij(p): p(Δw)= 10/25/2018255
  • 256. Monte Carlo法 数值积分法 根据网络的精度要求,设一个积分步长δ,然后通过数值积分构造出如下形式的表格 Δwδ2δ3δ4δ…NδC1C2C3C4…CN10/25/2018256
  • 257. Monte Carlo法首先按照均匀分布在[C1,CN]中随机地取一个值C,然后,从 { C1,C2,C3,…,CN} 中选取Ck满足: |Ck-C|=min{|C-C1 |,|C-C2|,|C-C3|,…,|C-CN|} Ck对应的kδ就是所需要的联接权调整量Δw 10/25/2018257
  • 258. 6.3 Cauchy训练 Boltzmann分布 Boltzmann训练 1987年,S. Szu和R. Hartley提出用Cauchy分布去取代Gaussian分布Cauchy分布 p(x)= 10/25/2018258
  • 259. 6.3 Cauchy训练——优点对于[C1,CN]中的任意一个C,它按照Cauchy分布所能取到的联接权的调整量要大于按照Boltzmann分布所能取到的联接权的调整量 用Cauchy分布取代Boltzmann分布后,温度可以下降得更快。这时,温度的下降变得与时间成反比 :T0/(1+t) Cauchy分布函数可以用常规的方法进行积分运算 10/25/2018259
  • 260. Cauchy分布函数积分运算 10/25/2018260
  • 261. Cauchy分布函数积分运算Monte Carlo法:在(0,1)中按照均匀分布随机取一数为P(Δw),再取当前的温度,就可以直接地计算出Δw Cauchy训练算法: 将算法6-2中的Boltzmann分布换成Cauchy分布 Δw=αTtg(P(Δw)) 10/25/2018261
  • 262. 6.4 相关的几个问题 Boltzmann机 每个神经元可以有一个特殊的阈值,用来限制神经元所获得的激活值 神经元的状态概率发生变化。oj=1的概率为 10/25/2018262
  • 263. Boltzmann机Boltzmann机的目标函数(能量函数) “一致性函数” 10/25/2018263
  • 264. 人工热问题 特殊热——温度关于能量的变化率 系统在能量跃变边界处的温度叫做临界温度 人工特殊热/“伪特殊热” 系统的人工温度关于系统的能量函数(目标函数)的平均变化率 临界温度 临界温度时的小量下降,会引起能量函数值的较大变化 系统正处于一个局部极小点附近 临界温度点可以通过考察所定义的人工特殊热的变化情况得到 10/25/2018264
  • 265. BP算法与Cauchy训练的结合 Cauchy训练的速度比Boltzmann训练快 Cauchy训练的速度比BP算法慢 Cauchy训练有可能使网络逃离局部极小点 由BP算法提供直接计算部分,Cauchy算法提供随机部分 wij=wij+∆wij ∆wij=α((1-β)δjoi+β∆wij′)+(1-α )∆wij(c) α∈(0,1)为学习率,β∈(0,1)为冲量系数 10/25/2018265
  • 266. 网络陷入瘫痪 执行对网络联接权的压缩 如,如果将联接权压缩在(-a,a)以内,P. D. Wasserman曾给出如下建议公式 10/25/2018266
  • 267. 第2次课堂测试(5分*4)什么叫线性不可分问题?我们是如何克服它的? BP算法是如何解决隐藏层的联接权的调整的,试进行适当的分析。 叙述对传网中Kohonen层联接权的初始化方法。 为什么需要花费如此大的力气进行Kohonen层联接权的初始化工作?10/25/2018267
  • 268. 练习P 1、510/25/2018268
  • 269. 上次课内容回顾非确定算法的基本思想 训练 工作 基本统计训练算法 算法 伪随机数:初值与调整量 循环控制10/25/2018269
  • 270. 上次课内容回顾模拟退火算法 基本思想 能量和温度相关 高温 中温 低温 步长与能量相关 自适应步长 根据能量计算步长 Monte Carlo方法10/25/2018270
  • 271. 上次课内容回顾Cauchy训练 人工热问题 BP算法与Cauchy训练的结合 网络陷入瘫痪10/25/2018271
  • 272. 第7章 循环网络主要内容 Hopfield网络实现的自相联存储 稳定性分析 统计Hopfield网与Boltzmann机 基本双联存储器(BAM)的结构与训练 几种相联存储网络 用Hopfield网解决TSP问题。10/25/2018272
  • 273. 第7章 循环网络重点 Hopfield网络实现的自相联存储 基本双联存储器的结构与训练。 难点 稳定性分析 用Hopfield网解决TSP问题 10/25/2018273
  • 274. 第7章 循环网络7.1 循环网络的组织 7.2 稳定性分析 7.3 统计Hopfield网与Boltzmann机 7.4 双联存储器的结构 7.5 异相联存储 7.6 其它的双联存储器 7.7 Hopfield网用于解决TSP问题 10/25/2018274
  • 275. 第7章 循环网络 循环网络称为Hopfield网 循环网络对输入信号的处理是一个逐渐“修复”、“加强”的过程。强烈变化较弱的变化不变化10/25/2018275
  • 276. 7.1 循环网络的组织 网络结构 X1Xno1om………………10/25/2018276
  • 277. 7.1 循环网络的组织 联接:神经元之间都是互联的wij,每个神经元都没有到自身的联接wii=0。 神经元个数h,输入向量维数n,输出向量维数m。h≥n,h≥m,n≥1,m≥1。 神经元:输入、输出、隐藏 状态变化:非同步、同步 输入向量:X=(x1,x2,…,xn) 输出向量:O=(o1,o2,…,om) 10/25/2018277
  • 278. 7.1 循环网络的组织神经元的网络输入: 阈值函数:oj=1 if netj>θj0 if netj<θj oj if netj=θj10/25/2018278
  • 279. 最基本的Hopfield网 o1ono2x2x1xnW……n=m=h 10/25/2018279
  • 280. 最基本的Hopfield网希望网络的联接矩阵存放的是一组这样的样本,在联想过程中实现对信息的“修复”和“加强”,要求:它的输入向量和输出向量是相同的向量,即,X=Y 样本集:S={ X1,X2,…,Xs} 10/25/2018280
  • 281. 最基本的Hopfield网 wii=0 1≤i≤n W是一个对角线元素为0的对称矩阵: W= X1T ╳X1+X2T╳X2+…+XsT╳Xs - W0 W是各个样本向量自身的外积的和——网络实现的是自相联映射。 权矩阵:wij=i≠j10/25/2018281
  • 282. 最基本的Hopfield网激活函数: 改为S形函数后,系统就成为一个连续系统 多级循环网络 除输出向量被反馈到输入层外,其它各层之间的信号传送均执行如下规定:第i-1层神经元的输出经过第i个连接矩阵被送入第i层。 一般不考虑越层的信号传送、中间的信号反馈和同层的神经元之间进行信号的直接传送 10/25/2018282
  • 283. 7.2 稳定性分析 网络的稳定性是与收敛性不同的问题 Cohen和Grossberg[1983年]:Hopfield网络的稳定性定理 如果Hopfield网络的联接权矩阵是对角线为0的对称矩阵,则它是稳定的 用著名的Lyapunov函数作为Hopfield网络的能量函数 10/25/2018283
  • 284. Lyapunov函数——能量函数 作为网络的稳定性度量 wijoioj:网络的一致性测度。 xjoj:神经元的输入和输出的一致性测度。 θjoj:神经元自身的稳定性的测度。 10/25/2018284
  • 285. 当ANk的状态从ok变成ok′ 1、ANk是输入神经元 10/25/2018285
  • 286. 当ANk的状态从ok变成ok′wkk=010/25/2018286
  • 287. ΔΕ=-(netk-θk)ΔokANk状态的变化:Δok=(ok′-ok) Δok=0,ΔΕ =0Δok>0,ok′=1& ok=0,ok由0变到1, netk>θk,netk-θk>0 所以,-(netk-θk)Δok<0故ΔΕ<0结论:网络的目标函数总是下降Δok<0, ok′=0& ok=1,ok由1变到0 netk<θk,netk-θk<0 -(netk-θk)Δok<0故ΔΕ<010/25/2018287
  • 288. 当ANk的状态从ok变成ok′2、ANk不是输入神经元 10/25/2018288
  • 289. 当ANk的状态从ok变成ok′无论ANk的状态是如何变化的,总有ΔΕ≤ 0 10/25/2018289
  • 290. 7.3 统计Hopfield网与Boltzmann机 统计Hopfield网 在网络运行中,神经元状态与 “人工温度”确定的概率相关 网络运行模拟金属退火过程pi:ANi的状态取1的概率 neti:ANi所获网络输入; θi:ANi的阈值; T:系统的人工温度。 10/25/2018290
  • 291. 算法 7-1 统计Hopfield网运行算法 1  取一个很大的值作为人工温度T的初值; 2  对网络中每一个神经元ANi, 2.1   按照相应式子计算相应的概率pi; 2.2   按照均匀分布,在[0,1]中取一个随机数r; 2.3   如果 pi>r 则使ANi的状态为1, 否则使ANi的状态为0; 3 逐渐降低温度T,如果温度足够低,则算法结束。否则,重复2 10/25/2018291
  • 292. Boltzmann机的训练 Boltzmann机是多级循环网络,是Hopfield网的一种扩展。 神经元ANi实际输出状态oi=1的概率为: T趋近于0时,神经元的状态不再具有随机性,Boltzmann机退化成一般Hopfield网。 10/25/2018292
  • 293. Boltzmann机的训练神经元ANi在运行中状态发生了变化 Boltzmann机的能量函数(一致性函数 )10/25/2018293
  • 294. Boltzmann机的训练如果ΔΕi>0,则应该选ANi输出为1,否则,应该选ANi输出为0。 ΔΕi的值越大,神经元ANi应该处于状态1的概率就应该越大。反之,ΔΕi的值越小,神经元ANi应该处于状态1的概率就应该越小。从而,oi=1的概率为: 10/25/2018294
  • 295. Boltzmann机的训练处于状态a,b的概率Pa和Pb,对应于oi=1和oi=0,其它的神经元在a,b状态下不变 Pa=γpi Pb =γ(1-pi) 10/25/2018295
  • 296. Boltzmann机的训练网络进行足够多次迭代后,处于某状态的概率与此状态下的能量和此时系统的温度有关。 由于高温时网络的各个状态出现的概率基本相同,这就给它逃离局部极小点提供了机会。 当系统的温度较低时,如果EaPb:网络处于较低能量状态的概率较大 10/25/2018296
  • 297. Boltzmann机的训练1986年,Hinton和Sejnowski训练方法 自由概率Pij-:没有输入时ANi和ANj同时处于激发状态的概率。 约束概率Pij+:加上输入后ANi和ANj同时处于激发状态的概率。 联接权修改量:Δwij=α( Pij+ - Pij-) 10/25/2018297
  • 298. 算法7-2 Boltzmann机训练算法 1   计算约束概率 1.1 对样本集中每个样本,执行如下操作: 1.1.1 将样本加在网络上(输入向量及其对应的输出向量); 1.1.2 让网络寻找平衡; 1.1.3 记录下所有神经元的状态; 1.2 计算对所有的样本,ANi和ANj的状态同时为1的概率Pij+;10/25/2018298
  • 299. 算法7-2 Boltzmann机训练算法 2  计算自由概率 2.1 从一个随机状态开始,不加输入、输出,让网络自由运行,并且在运行过程中多次纪录网络的状态; 2.2 对所有的ANi和ANj,计算它们的状态同时为1的概率Pij-; 3  对权矩阵进行调整 Δwij=α(Pij+-Pij-)10/25/2018299
  • 300. 7.4 双联存储器的结构 智力链 从一件事想到另一件事,“唤回失去的记忆”。 自相联 异相联 双联存储器(Bidirectional Associative Memory—BAM)。 双联存储器具有一定的推广能力 它对含有一定缺陷的输入向量,通过对信号的不断变换、修补,最后给出一个正确的输出。 10/25/2018300
  • 301. 基本的双联存储器结构   W第1层输入向量第2层输出向量WTx1xnymy1……………10/25/2018301
  • 302. 网络运行 Y=F(XW) X=F(YWT) X=(x1,x2,…,xn) Y=(y1,y2,…,ym) F为神经元的激活函数,一般可采用S形函数 10/25/2018302
  • 303. 激活函数——阈值函数随着λ的增加,该函数趋近于阈值为0的阈值函数。 1 if neti>0 yi= 0 if neti<0 yi if neti=0 λ2>λ1λ1λ21/210/25/2018303
  • 304. 基本BAM的稳定Kosko(1987): 基本的双联存储器无条件稳定——联接权矩阵是互为转置矩阵。 当输入向量的维数与输出向量的维数相同时,W为方阵,此时如果联接矩阵W是对称的,则基本的双联存储器退化成一个Hopfield网 10/25/2018304
  • 305. 7.5 异相联存储 样本集:S={(X1,Y1),(X2,Y2)…,(Xs,Ys)} 权矩阵网络需要对输入向量进行循环处理的情况 当输入向量中含有“噪音” 样本集所含的信息超出网络的容量 10/25/2018305
  • 306. 容量 Kosko(1987),一般情况下,相联存储器的容量不会超过网络最小层神经元的个数min Haines和Hecht-Nielson(1988),“非均匀”网络的容量最多可以达到2min R. J. McEliece、E. C. Posner、E. R. Rodemich 用户随机地选择L个状态 每个向量中有4+log2min个分量为1,其它为-1 98%的向量成为稳定状态 10/25/2018306
  • 307. 7.6 其它的双联存储器 具有竞争的双联存储器 可通过附加侧联接实现竞争。这些权构成另一个主对角线元素为正值,其它元素为负值的权矩阵。 Cohen-Grossberg定理指出,如果权矩阵是对称的,则网络是稳定。 即使权矩阵不对称,网络通常也是稳定的。但是目前还不知道哪一类权矩阵会引起不稳定 10/25/2018307
  • 308. 7.6 其它的双联存储器 连续的双联存储器 Kosko(1987)证明,神经元的状态非同步变换,而且这些神经元使用其他激励函数,仍然是稳定的,且有更强的表达能力 自适应双联存储器 最简单的方法是使用Hebb学习律进行训练。 Δwij=αoioj 10/25/2018308
  • 309. 7.7 Hopfield网解决TSP问题1985年,J. J. Hopfield和D. W. Tank用循环网求解TSP。试验表明,当城市的个数不超过30时,多可以给出最优解的近似解。而当城市的个数超过30时,最终的结果就不太理想了 n个城市间存在n!/(2n)条可能路径 设问题中含有n个城市,用n*n个神经元构成网络 10/25/2018309
  • 310. 7.7 Hopfield网解决TSP问题dxy——城市X与城市Y之间的距离; yxi——城市X的第i个神经元的状态: 1 城市X在第i个被访问 yxi= 0 城市X不在第i个被访问 wxi,yj——城市X的第i个神经元到城市Y的第j个神经元的连接权。 10/25/2018310
  • 311. 7.7 Hopfield网用于解决TSP问题例如:四个城市X、Y、Z、W 城市名访问顺序标示1 2 3 4 X 0 1 0 0 Y 0 0 0 1 Z 1 0 0 0 W 0 0 1 0 10/25/2018311
  • 312. 7.7 Hopfield网用于解决TSP问题 联接矩阵 wxi,yj= -Aδxy(1-δij) –Bδij(1-δxy) –C –ζdxy(δji+1+δji-1) 1 如果i=j δij= 0 如果i≠j 10/25/2018312
  • 313. 网络的能量函数10/25/2018313
  • 314. 网络的能量函数 仅当所有的城市最多只被访问一次时取得极小值0。A、B、C、D为惩罚因子第1项10/25/2018314
  • 315. 网络的能量函数仅当每次最多只访问一个城市时取得极小值0。第2项10/25/2018315
  • 316. 网络的能量函数当且仅当所有的n个城市一共被访问n次时才取得最小值0。第3项10/25/2018316
  • 317. 网络的能量函数表示按照当前的访问路线的安排,所需要走的路径的总长度 第4项10/25/2018317
  • 318. 习题P100 1、4、710/25/2018318
  • 319. 第8章 自适应共振理论 主要内容 ART模型的总体结构 各模块功能 比较层 与识别层联接矩阵的初始化 识别过程与比较过程 查找的实现 ART的训练10/25/2018319
  • 320. 第8章 自适应共振理论重点 ART模型的总体结构 各模块功能 识别过程与比较过程 查找的实现。 难点 比较层与识别层联接矩阵的初始化10/25/2018320
  • 321. 第8章 自适应共振理论8.1 ART的结构 8.2 ART的初始化 8.2.1 T的初始化 8.2.2 B的初始化 8.2.3 ρ的初始化 8.3 ART的实现 识别、比较 、查找 、训练10/25/2018321
  • 322. 第8章 自适应共振理论环境变化网络的可塑性分析新添样本训练合并重新训练应用新环境下的应用样本集10/25/2018322
  • 323. 第8章 自适应共振理论Carpenter和Grossberg在1986年:4个样本组成样本集。这4个样本被周期性地提交给网络。网络是难以收敛 网络的可塑性需要的4项功能 样本的分类功能 分类的识别功能 比较功能 类的建立功能 Grossberg等:自适应共振理论(Adaptive Resonance Theory,简记为ART) ART1、ART2。 10/25/2018323
  • 324. 8.1 ART的结构 稳定性与可塑性是不同的 保证可塑性的操作要求分析不匹配的现存 模式不被修改新输入向量 与现存模式 相似:修改相匹配的模式不相似:建立一个新模式10/25/2018324
  • 325. ART总体结构图 X识别层C(B)P(T)RC复位G2G1识别控制比较控制比较层复位控制精度控制参数ρ10/25/2018325
  • 326. 8.1 ART的结构X=(x1,x2,…,xn) R=(r1,r2,…,rm) C=(c1,c2,…,cn) P=(p1,p2,…,pn) Ti=(ti1,ti 2,…,ti n) Bi=(b1i,b2i,…,bni)10/25/2018326
  • 327. 8.1 ART的结构tij表示识别层的第i个神经元到比较层的第j个神经元的联接权 bij表示比较层的第i个神经元到识别层的第j个神经元的联接权 pi为比较层的第i个神经元的网络输入10/25/2018327
  • 328. 以比较层和识别层为中心讨论5个功能模块rmr2r1T1p1c1TBB1x1G1p2c2cnpn复位 G2复位 G2T2TmBmB2XnG1x2 G1复位 G2………识别层比较层10/25/2018328
  • 329. 比较层输出信号控制 G1= ┐(r1∨r2∨…∨rm) ∧ (x1∨x2∨…∨xn) 识别层输出信号控制 G2= x1∨x2∨…∨xn 10/25/2018329
  • 330. 比较层 执行二-三规则 ci= 1 xi+pi+G1≥2 ci= 0 xi+pi+G1>2C=X P=Tk ci=xi∧pi 待命期 工作周期 10/25/2018330
  • 331. 识别层 识别层实现竞争机制 Bk与C有最大的点积 X的“暂定”代表RNk所获得的网络输入为 与RN1,RN2,…,RNm相对应 向量B1,B2,…,Bm代表不同分类 10/25/2018331
  • 332. 系统复位控制 X与C的相似度 s≥ρ,当前处于激发态的RNk所对应的Bk、Tk为X的类表示; s<ρ,此RNk所对应的Bk、Tk不能很好地代表X,需要重新寻找 10/25/2018332
  • 333. 8.2 ART的初始化 T的初始化 矩阵T的所有元素全为1 B的初始化 bij
  • 334. 8.3 ART的实现 四个阶段:识别、比较、查找、训练 一、识别 X (非0向量)未被加在网上时 G2=0 R=(r1,r2,…,rm)=(0,0,…,0) X(非0向量)被加在网络上时 G1=G2=1 R=0导致P=(p1,p2,…,pm)= (0,0,…,0) 10/25/2018334
  • 335. 8.3 ART的实现在识别层,每个RNk完成的操作 计算∑bikci 接收来自其它RN的抑制信号,并向其它的RN发出抑制信号 确定自己的输出状态 完成输出 RN之间的抑制连接与抑制信号 如果RNk输出1,则表明,在本轮识别中,X暂时被认为是属于该RNk所对应的类 10/25/2018335
  • 336. 二、 比较 X归于RNk,RNk的输出值1被分别以权重tkj传送到比较层 向量P就是向量Tk T的初始化及训练保证了T的每个元素取值为0或者1 Bk与T k根据RNk进行对应,互为变换形式 如果对于所有的j,1≤j≤n,pj=xj,则表示X获得良好的匹配。如果存在j,使得pj≠xj,则表明X与相应的“类”的代表向量并不完全一致 10/25/2018336
  • 337. 二、 比较当系统复位控制模块计算X和C的相似度s 如果s≥ρ,表明本轮所给出的类满足精度要求。查找成功,系统进入训练周期 如果s<ρ,表明本轮所给类不满足精度要求。 复位模块要求识别层复位,使所有RN输出0 系统回到开始处理X的初态,重新进行搜索 复位信号屏蔽本次被激发的RN,在下一轮匹配中,该RN被排除在外,以便系统能够找到其它更恰当的RN 10/25/2018337
  • 338. 三、 查找 如果s≥ρ,认为网络查找成功,此时分类完成,无需再查找 如果s<ρ,表明本轮实现的匹配不能满足要求,此时需要寻找新的匹配向量 查找过程10/25/2018338
  • 339. 三、 查找 1 复位模块向识别层发出复位信号 2 所有RN被抑制:R=(r1,r2,…,rm) =(0,0,…,0),上轮被激发的RN被屏蔽 3 G1的值恢复为1 4 X的值再次被从比较层送到识别层:C=X 5 不同的RN被激发,使得不同的P(Tk)被反馈到比较层 6 比较层进行相应的比较,并判定本次匹配是否满足要求10/25/2018339
  • 340. 三、 查找 如果本次匹配不成功,则重复1∽6直到如下情况之一发生 7.1 本轮匹配成功。表明已找到一个与X匹配较好的模式,此时,网络进入训练期,对这个匹配的模式进行适当的修改,使它能更好地表示X 7.2 网络中现存的模式均不匹配。因此,网络需要重新构造一个新模式表达此类 10/25/2018340
  • 341. 三、 查找网络用一个还未与任何类关联的RN来对应X所在的类 根据X修改与此RN对应的Tk、Bk 被网络选中的RNk对应的Tk=(1,1,…,1) P=(1,1,…,1)被送入比较层。 C=X∧P=X,被送入系统复位控制模块,s=1。而ρ≤1,所以,s≥ρ。匹配获得成功 网络进入训练期 10/25/2018341
  • 342. 三、 查找首先被选中的RN不一定对应X属于的类 受B取法的影响,有时候,获得最大激励值的RN对应的类不一定是X所属的类 例如:设n=5,三个输入向量为: X1=(1,0,0,0,0) X2=(1,0,0,1,1) X3=(1,0,0,1,0) 10/25/2018342
  • 343. 三、 查找假定用初始化B,当X1、X2被输入时,RN1、RN2分别被激发 T1、T2、B1、B2分别取如下值 T1=(1,0,0,0,0),B1=(1,0,0,0,0) T2=(1,0,0,1,1),B2=(0.5,0,0,0.5,0.5) 当X3被输入系统时,RN1、RN2获得的激励值都是1 RN2被选中 ,则成功10/25/2018343
  • 344. 三、 查找RN1被选中,则出现问题 比较层输出向量C=(1,0,0,0,0),使得s=0.5,当ρ>0.5时,选择RN1就不能满足精度要求,此时网络就需要进入查找工作阶段 1、 RN1获胜 2、C取值(1,0,0,0,0) 3、 10/25/2018344
  • 345. 三、 查找4、s<ρ 5、RN1被屏蔽 6、网络进入第二个查找周期,RN2获胜 7、C取值(1,0,0,1,0) 8、10/25/2018345
  • 346. 三、 查找9、满足精度要求,停止查找,进入训练期 当L取其它的值时,将会有不同的结果 当RN被系统认为是不能满足精度要求后,在继续查找过程中,一直被屏蔽 “查找周期”:网络的五个功能模块之间互相影响,加上信号的反馈,使得网络中的信号较为复杂10/25/2018346
  • 347. 四、 训练 Tk、Bk的修改tki = ci 10/25/2018347
  • 348. 四、 训练 L是常数 T的元素只可能从1变成0,不可能从0变成1:用1初始化T的所有元素 如果RNk对应的模式代表类{X1,X2,…,Xd},则有Tk= X1∧X2∧…∧Xd 网络将向量共有的东西作为它的类表示,这也符合一般意义下的“共同特征”的要求10/25/2018348
  • 349. 四、 训练 中含有重要因子10/25/2018349
  • 350. 四、 训练 设X1、X2分别使RN1、RN2激发 设T1= X1、T2 =X2 如果相应式子中没有该因子,则此时B1=T1、B2 =T2 当X1再一次被输入时,RN1、RN2因为获得的网络输入相同而都有被选中的可能 如果RN2被选中,则会导致网络运行错误,使得原有的分类被严重破坏10/25/2018350
  • 351. 四、 训练 ∑Cj可以看成向量C的一个度量 越大,产生的权值就越小; 越小,产生的权值就越大。 当一个向量是另一个向量的子集时,能够获得较好的操作 例如 X1=(1,0,0,0,0) X2=(1,0,0,1,1) X3=(1,0,0,1,0) 10/25/2018351
  • 352. 四、 训练 ①    X1被再次输入,导致RN2被选中; ②    识别层将T2送入比较层:P= T2; ③    此时,C=P∧X1=X1; ④   复位控制模块根据C与X1计算出s=1; ⑤   因为s>ρ,所以对网络进行训练:T2=C。 显然,其原值被破坏了。而当我们选择一个适当的L,同时在调整B时保留,这个问题就可以避免了。10/25/2018352
  • 353. 四、 训练 网络的分类并不是一成不变的 继续使用上面例子中的输入向量,取L=6,初始化使B的所有元素均取值0.6 1、 X1的输入导致RN1被激发;B1被训练后取值为(1,0,0,0,0) 2、输入X2时,RN1 、RN2所获得的网络输入分别为1和1.8,这导致RN2被激发;B2被训练后取值为(0.6,0,0,0.6,0.6)10/25/2018353
  • 354. 四、 训练3、如果X1再次被输入,RN1 、RN2所获得的网络输入分别为1和0.6,从而正确的神经元被激发;如果X2再次被输入,RN1 、RN2所获得的网络输入分别为1和1.8,从而也仍然有正确的神经元被激发 4、当X3被输入时,RN1 、RN2所获网络输入分别为1和1.2,从而RN2被激发,此时,T2=(1,0,0,1,1)被送入比较层,使得C=T2∧X3=X3。从而导致s=1>ρ10/25/2018354
  • 355. 四、 训练5、网络进入训练:T2、B2被修改 T2=(1,0,0,1,0) B2=(6/7,0,0,6/7,0) 6、当再次输入X2时,RN1 、RN2所获得的网络输入分别为:1和12/7,这再次导致RN2被激发。但是,此时识别层送给比较层的T2=(1,0,0,1,0)。从而有s=2/3,如果系统的复位控制参数ρ>2/3,此时系统会重新为X3选择一个新的神经元10/25/2018355
  • 356. 四、 训练可以让ART在训练完成后,再投入运行 10/25/2018356
  • 357. 习题P112 1、510/25/2018357