整体网分析讲义——UCINET软件应用


“第二届社会网与关系管理研讨会暨 中国社会学会社会网专业委员会(筹)成立大会” 资料(一) 整体网分析讲义——UCINET 软件应用 刘 军 博士 教授 哈尔滨工程大学社会学系主任 Email: liujunry@163.com 本讲义引用方式: 刘军编著,《整体网分析讲义——UCINET 软件应用》,第二界社会网与关系 管理研讨会资料,哈尔滨:哈尔滨工程大学社会学系,2007 年 1 月 18 日。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 2 目 录 第一章 社会网络分析简介.............................................................................................................5 第一节 研究社会关系的学问:社会网络分析...................................................................5 一、什么是网络...............................................................................................................5 二、什么是社会网络.......................................................................................................5 三、模态和分析的层次...................................................................................................6 第二节 社会网络分析的独特之处.......................................................................................7 一、社会网络分析在本体论、认识论以及方法论上的独特之处 ...............................8 二、社会网络分析在数据上的独特之处.....................................................................10 三、社会网络分析在具体研究方法上的独特之处.....................................................12 第三节 社会网络研究的内容和方法.................................................................................13 一、研究内容.................................................................................................................13 二、研究方法.................................................................................................................15 三、社会网络分析的理论贡献:关系社会学论纲.....................................................15 第二章 整体网研究概要.............................................................................................................17 第一节 “整体网”研究的内容.........................................................................................17 一、整体网的分类.........................................................................................................18 二、整体网络的构成和规模.........................................................................................19 三、整体网的密度.........................................................................................................19 四、整体网成员之间的距离.........................................................................................22 五、整体网的结构研究.................................................................................................24 第二节 “整体网”的研究方法及相关问题.....................................................................28 一、资料收集方法.........................................................................................................28 二、问卷设计应注意的问题.........................................................................................35 三、整体网资料的整理和分析.....................................................................................36 四、整体网资料的相关问题.........................................................................................36 第三节 “整体网”研究的优缺点和意义.........................................................................37 一、整体网研究的优点.................................................................................................37 二、整体网研究具有的局限性.....................................................................................38 第四节 “整体网”数据的整理——UCINET 简介..............................................................39 第三章 社会网络的形式化表达.................................................................................................40 第一节 关系网络的图形表达法.........................................................................................40 一、社群图的定义.........................................................................................................40 二、社群图的分类.........................................................................................................41 第二节 关系网络的矩阵表达法.........................................................................................43 一、什么是矩阵?.........................................................................................................43 二、社会网络分析中涉及到的几类矩阵.....................................................................43 三、矩阵的基本运算.....................................................................................................46 四、UCINET 中矩阵运算的几类句法 .........................................................................50 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 3 五、利用 UCINET 中矩阵算法进行实际操作例示 ....................................................52 第四章 中心性——权力的量化研究 ...........................................................................................54 第一节 度数中心性.............................................................................................................55 一、点的度数中心度.....................................................................................................55 二、图的度数中心势.....................................................................................................57 第二节 中间中心性...............................................................................................................58 一、点的中间中心度.....................................................................................................58 二、图的中间中心势.....................................................................................................60 第三节 接近中心性.............................................................................................................60 一、点的接近中心度.....................................................................................................61 二、图的接近中心势.....................................................................................................62 第四节 特征向量中心性.....................................................................................................64 一、特征根、特征向量的含义.....................................................................................64 二、对特征向量中心度的推广.....................................................................................65 三、多种中心度指数的同时计算.................................................................................66 第五节 中心度和中心势分析举例.....................................................................................67 一、国外的例子:公司网络中的银行中心性.............................................................67 二、国内的例子:法村社会支持网络的中心性分析.................................................69 第五章 QAP——测量“关系”之间关系的方法.....................................................................73 第一节 QAP 的含义............................................................................................................73 第二节 QAP 分析实例展示................................................................................................76 一、QAP 相关分析........................................................................................................76 二、QAP 回归分析........................................................................................................82 第三节 小结及讨论.............................................................................................................86 第六章 凝聚子群研究 ...................................................................................................................87 第一节 凝聚子群概说.........................................................................................................87 一、社会结构研究的两种视角:质的研究和量的研究.............................................87 二、凝聚子群的类型.....................................................................................................89 第二节 建立在互惠性基础上的凝聚子群.........................................................................91 一、派系的定义.............................................................................................................91 二、对派系概念的评价.................................................................................................94 第三节 建立在可达性和直径基础上的凝聚子群.............................................................95 一、n-派系 .....................................................................................................................95 二、n-宗派 .....................................................................................................................98 第四节 建立在点度数基础上的凝聚子群.........................................................................99 一、k-丛 .........................................................................................................................99 二、k-核 .......................................................................................................................101 第五节 建立在“子群内外关系”基础上的凝聚子群.....................................................101 一、成分.......................................................................................................................101 二、块...........................................................................................................................103 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 4 三、LS 集合.................................................................................................................103 四、lambda 集合..........................................................................................................107 五、社会圈...................................................................................................................109 第六节 凝聚子群中的分裂指数.......................................................................................110 一、单类网络中的分派指数.......................................................................................110 二、多类网络中的分派指数.......................................................................................113 第七节 凝聚子群分析的步骤例示...................................................................................119 一、进行凝聚子群分析的几个指导性步骤...............................................................119 二、凝聚子群分析的实例展示——Borgatti 的例子.................................................123 三、凝聚子群分析举例——国内的例子...................................................................131 第七章 关联性研究...................................................................................................................134 第一节 关联性的含义.......................................................................................................134 第二节 关联性的测量.......................................................................................................136 第八章 块模型——构建及解释...............................................................................................141 第一节 块模型的含义.......................................................................................................141 一、块模型...................................................................................................................142 二、CONCOR 方法.....................................................................................................148 第二节 块模型的应用举例...............................................................................................152 第九章 结构洞...........................................................................................................................154 第一节 结构洞界定...........................................................................................................154 一、结构洞的含义.......................................................................................................154 二、结构洞的测量.......................................................................................................154 第二节 结构洞测量例示...................................................................................................158 第十章 2-模网研究 ...................................................................................................................162 第一节 2-模数据的矩阵分析和图形分析........................................................................162 一、2-模网络向 1-模矩阵的转化 ...............................................................................163 二、二部“2-模图”分析 ...........................................................................................168 第二节 2-模数据的定量分析 ...........................................................................................174 一、2-模数据的中心性分析 .......................................................................................174 二、2-模数据的奇异值分解 .......................................................................................177 三、2-模数据的因子分析 ...........................................................................................181 四、2-模网络的对应分析 ...........................................................................................187 第三节 2-模数据的分派分析 ...........................................................................................190 一、2-模数据的核心-边缘分析 ..................................................................................190 二、2-模数据的分派分析 ...........................................................................................192 第十一章 中间人分析...............................................................................................................194 第一节 中间人的分类.......................................................................................................194 第二节 中间人的计算(略)...........................................................................................195 事物与事物之间的某种关系构成一个网络。宽泛的说,大多数研究关注事物的结构,这看成是一种网络视角。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 5 第一章 社会网络分析简介 第一节 研究社会关系的学问:社会网络分析 一、什么是网络 二、什么是社会网络 “社会网络”指的是社会行动者(social actor)及其间的关系的集合。也可以说,一 个社会网络是由多个点(社会行动者)和各点之间的连线(行动者之间的关系)组成的集合。 用点和线来表达网络,这是社会网络的形式化界定。 (一)点:社会行动者 社会网络分析中所说的“行动者”(actors)可以是任何一个社会单位或者社会实体。行 动者可以是个体、公司或者社会单位,也可以是一个教研室、学院、学校,更可以是一个村 落、组织、城市、国家等。点可以是任何社会行动者,关于点的信息都必须是实际的信息, 可用常规方法进行收集。信息可以是动态的,也可以是静态的。 (二)关系:行动者之间的联系 1.对关系的研究有很多种 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 6 一般来说,当我们说行动者之间存在关系(ties)的时候,“关系”常常代表的是关系的 具体内容(relational content)或者实质性的现实发生的关系。关系有多种表现。 首先,行动者之间的关系类型多样,可以是朋友关系、上下级关系、国家之间的贸易关 系,也可以是城市之间的距离关系,邻里关系等,这完全根据研究者的关注点。 其次,学者还可能关注行动者之间的“多元关系”。通常的网络数据只关注一种关系,有 时候也研究多种关系。例如,两个学生之间可能同时存在同学关系、友谊关系、恋爱关系等。两 个国家之间可能存在贸易关系、外交关系、文化往来关系等。 对多元关系网络的研究,特别是整体网模型研究是当今社会网络分析中最具潜力的前沿领 域。社会网络研究者利用多维量表(MDS)、矩阵代数(Matrix Algebra)、聚类分析(Cluster Analysis) 等多种方法来研究多元关系网络数据。也有很多学者利用概率论、数理统计技术以及计算机技术 研究网络变量的统计性质,构建多种网络模型。 再次,研究的重点不同,关注的“关系”也不同。如果研究整体网络(whole network), 即研究所有行动者之间的关系,那么研究者需要分析具有整体意义的关系的各种特征,如互 惠性,关系的传递性等。如果研究个体网络(ego-network),即关注个体行动者,则需要分 析个体网的一些关系特征,例如,关系的密度、同质性等。这种研究可以利用随机抽样方法。 2.测量“关系”的层次 在传统的社会统计学中,数据(变量)一般分为:定类(两类和多类)、定序、定距、 定比数据。仅仅从“测量层次”上说,网络数据与之类似。网络数据的层次可以包括: ①二分类(binary)网络数据(把关系分为“有”和“无”两类)。这种数据最普遍。 ②多分类定类网络数据(multiple category nominal data)。可以把“多分类”的数据进行 “二分化”处理(Dichotomization),达到简化数据的目的。 ③定序关系强度数据。例如,关系分为“很好,较好,一般,不好”四类。这种数据就 是定序关系强度数据。 ④定距网络数据。这种数据类似于经常见到的“定距变量”,是对“关系”进行定距层 次上的测量值后得到的数据(参见 Hanneman,2001:10-12)。 另外有一类网络数据不能归为这种分类体系之中,这就是符号图(signed graph)数据。 这种数据把行动者之间的关系赋予一定的符号,例如,“+”代表“喜欢”;“-”表示“不 喜欢”。当然,也可以把它归结为“二分类”数据。但是,这种归类有些不恰当。 三、模态和分析的层次 社会网络有多种类型,划分的根据可以有多个,例如可以根据行动者集合的性质,也可 以根据关系的属性。这就涉及到“模态”(modality)这个概念,可以简称为“模”。 模(mode)指的是行动者的集合。模的数目指的是网络中社会行动者集合的类型的数 目。如果研究对象仅仅是一个集合的行动者,研究行动者集合内部各个行动者之间的关系, 这种网络叫做 1-模网络(one-mode network)。依此类推,2-模网络研究两类行动者群体之 间的关系,或者一类行动者和一类事件之间的关系。人们甚至可以研究 3-模网络,但是, 这种网络太复杂,到目前为止还没有很好的方法对它进行设计和研究。现在我们讨论 1-模 网、2-模网络、隶属网络等。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 7 1.1-模网 如上所述,由一个行动者集合内部各个行动者之间的关系构成的网络叫做 1-模网络。 例如,一个班级 45 名同学之间的朋友关系网络就是一个 1-模网络。 2.2-模网络 有些类型的网络是在两个(或者多个)实体(行动者)集合的基础上测量的。例如,我 们可能在两种集合基础上研究行动者,其中的一个集合是多个公司,另一个集合是非营利性 组织。这样,我们就可以测量资金从公司向非营利性组织的流动。所以,把来自一类行动者 集合与另一类行动者集合之间关系的网络称为 2-模网络(two-mode network)。 3.隶属网络 有一类特殊的 2-模网络称为“隶属网络”。具体地说,如果一个行动者集合(模态) 为“行动者”,另外一个模态为行动者所在的“部门”,称这样的 2-模网络为“隶属网络” (affiliation network)。虽然它是一类 2-模网络,但是,它仅有一个集合的行动者,另外一 个集合是一系列为行动者所隶属的事件(events)(例如,俱乐部、私人组织等)。这样, 在隶属网络中,这两种模态是行动者和事件。 隶属于一定事件的个体可以根据各种方法得到,这要由问题的性质来确定。一个经典例 子是大卫和加纳(David and Gardner)等人于 1941 年对一些妇女的社会活动中存在的子群 的研究,他们利用报纸、访谈记录了参加 14 个事件的 18 位妇女(参见 Scott,2000:24)。 第二节 社会网络分析的独特之处 社会网络分析是社会科学中的一种独特视角,之所以说其独特,是因为社会网络分析建 立在如下假设基础之上:在互动的单位之间存在的关系非常重要,关系是网络分析理论的基 础。随着社会网络研究的深入,学者们渐渐对网络分析的一些原则达成共识。正是这些原则 使得社会网络分析不同于其他研究范式(参见 Wellman,1988a)。只有认识到社会网络分析 的独特之处,我们才能更清楚地认识到社会网络分析的实质。 网络学者坚持如下前提性论题: (1) 行动者以及行动是相互依赖的,而不是独立的、自主性的单位; (2) 关注行动者之间的关系(而不是属性),行动者之间的关系是资源(物质的或者 非物质的)传递或者流动的“渠道”; (3) 个体网络模型认为,网络结构环境可以为个体的行动提供机会,也可能限制其 行动,多元行动者之间的关系会影响到人们的行为; (4) 网络模型把结构(社会结构、经济结构等)概念化为各个行动者之间的关系模 型,“结构是网络之网”。 除此之外,社会网络分析有如下独特之处。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 8 一、社会网络分析在本体论、认识论以及方法论上的独特之处 艾莫白等(Emirbayer and Goodwin,1994:1415~1417)学者指出,如果说 1940 年代是 美国社会学研究的分水岭(定量和定性),那么网络分析就是另外一个分水岭。社会网络分 析学者认为,一个社会系统的有机团结并不依赖于对人的认知,而依赖于在客观上可以确定 的社会关系的相互关联和互动。在笔者看来,社会网络分析不是一种“正式”的、具有统一 性的理论,而只是一种“范式”或者“视角”,但是,它拥有自己独特的本体论、认识论以 及方法论观念(Tindall and Wellman,2001;Wellman,1988;Scott,2000;Emirbayer and Goodwin,1994)。 1.社会网络分析在本体论上的独特之处 社会网络分析原则上接受客观论的可能性,坚持一种实在论的本体论,认为社会结构是 真实的存在。在各个行动者之间真实存在的关系可以作为“外在物”对行动者产生作用;社 会网络学者利用量化语言对网络数据的结构进行描述。 2.社会网络分析在认识论上的独特之处 社会网络分析者与后现代主义者有类似之处,都不希冀建立宏大理论。社会网络分析也 不是一个“演绎系统”,因此,其中不存在什么“公理体系”,也不会从中得出什么“逻辑 推论”。社会网络分析坚持如下认识论原则: (1)世界是由网络而不是由群体组成的。从网络而不是群体出发,可以把世界看成是 网络的结构,把行动者之间的关系看成是资源流动的渠道,从而可以通过分析发现复杂的资 源流动网络,而不是简单的分层结构。 这样,我们就应该根据行动者之间的关系模式来理解观察到的社会行动者的属性特征 (如种族、生产总量等)。行动者之间的关系居于首要地位,而行动者的属性居于次要地位 (Wasserman and Faust,1994:8)。社会网络分析坚持这种认识论原则的目的是为了对社会 学理论的一些二元论问题(如个人和社会、宏观和微观、能动与结构的关系)给出自己的回 应,即认为这种二元论问题是可以消解的(参见拙作,2006)。因为,既然世界是由网络而 不是由群体组成的,我们就不能从“群体”或者“个体”等行动者的角度出发看待问题。这 可以看成是对“二元论”思维方式的反叛。社会网络学者反对任何试图完全根据行动者的属 性特征来解释人的行为或者社会过程;或者说,我们决不能简单地利用诸如阶级成员、阶级 意识、政党归属、性别、年龄、社会地位、收入、宗教信仰、种族、心理倾向等属性特征来 解释人们为什么如其所是的那样行动。 (2)社会结构决定二人关系(dyadic relationship)的运作。网络分析者认为,只有在 由各种联系构成的结构脉络中才能理解二人互动关系,因为社会的结构特征决定了二人关系 发生的环境。因此,网络模型把社会结构环境看成是为个体行动提供机会和限制的因素,对 行为的解释根据的是结构上的限制性,而不是诸如“社会化”、“心理”等内在因素。在我看 来,这个原则过于严厉。 (3)三方关系是社会团结的基础。二个行动者不足以构成群体,构成群体至少需要三 个行动者。“道生一,一生二,二生三,三生万物”。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 9 (4)行动者所遵循的规范产生于社会关系结构中的各个位置。主流社会学家把人看成 是根据内在化的规范做出行动的个体。当具有类似属性的个人也以类似的方式行事的时候, 他们就认为发现了社会学规律。与之相反,结构分析者认为,社会学者首先在行动者如何行 动而非他们应该如何行动的规律中寻求解释,用结构对活动的强制来解释行为,而不是用假 设的内驱力来解释行为。因此,他们把规范看成是结构位置的结果而不是原因。 3.社会网络分析在方法论上的独特之处。 “社会网络分析”是一种新的社会科学研究范式。网络分析者遵循如下独具特色的方法 论原则。 (1)从社会关系视角进行的社会学解释要优越于从个人属性的视角进行的解释。 “网络理论把解释建立在关系模式之上”(Emirbayer,1994:1415),并且认为,从关 系视角进行的解释优越于从个人属性视角做出的解释。 许多主流社会学研究把社会结构和过程看成是个体行动者的个人属性的总和。不管这些 属性是先赋的(性别、智力等)还是自致的(社会经济地位、政治态度等),都被看成是个 体的属性因素。每种属性都看成是独立的分析单位,对这些因素进行分析的各种统计方法(各 种多变量分析技术)都把拥有相同属性的个体归为同一类,从而作为分析的单位。 这种分类分析把个体归为具有相同属性的类,因此没有考虑到个体所处的关系结构。此 类研究认为,社会行为之所以出现,是因为个体拥有与其他个体相似的属性,而不是因为个 体处于一定的社会关系网络之中。尽管很多社会学家声称要通过结构研究考察社会关系,但 是,他们所使用的结构技巧以及研究方法论关注的仍然是变量之间的结构,而这种结构很可 能只是研究者自己建构出来的,不是行动者之间的真实结构。这种分析有如下问题: ①这种分析的重点是行动者的属性特征。 ②属性分析把每个社会系统成员看成是非结构性的相互独立的单位。 ③把社会结构解释为受规范引导的现象,这种分析破坏了结构关联的信息。 ④当考察类别的时候,他们一般认为同类人的行为方式也相同。 网络结构分析可以为分析社会结构提供精致的工具。网络分析者认为,行动者既属于一 定的类别,又处于一定的网络之中,因而不能仅仅考察其属性,还应该关注其所处的关系网 络。例如,不能仅仅把社会阶级看成是一个地位集合,还应该看成是权力的经济关系和依赖 性的综合,所以,从社会行动者所处的社会关系的角度进行的解释和研究是比较优越的。当 然,网络研究者并不排斥“属性”研究的正当性。 社会网络分析的解释不同于非网络解释之处在于:在研究中把关于“关系”的概念和过 程纳入解释之中。社会网络研究涉及到的理论概念是关系性的,相关数据是关系性的,对数 据的假设检验也使用关系属性的分布。无论利用的模型是为了理解关系背景下的个体行动, 还是直接研究结构,网络分析都根据“关系”对结构进行操作化。互动的模式就是结构,而 “标准”的社会科学量化视角常常忽视关系性的互动结构。 请看如下实例。假设研究一个大都市中的企业行为,如研究企业给予慈善组织的资金支 持的力度和支持的类型。标准的社会学量化研究将首先界定一个研究总体(企业),然后从 中选择一个随机样本(如果总体非常大),进而对样本的一系列特征(例如规模、工业、利 润、支持力度、其他非盈利组织等)进行测量。这种研究的一个关键的前提性假定是,某类 企业的行为不影响其他企业。然而,网络分析者恰恰关注这个前提假设。可想而知,一个企 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 10 业的行为往往受到其他企业的影响。例如,一些企业可能模仿其他企业的行为,也就是说, 多个企业之间是相互影响的。为了理解企业行为,我们必须研究各个企业之间的关系。例如, 各个企业董事会成员之间是否认识,各个企业之间是否有商业往来等。 (2)网络结构方法将补充个体主义方法。 大多数社会统计方法把个体看作独立的单位。关于统计依赖性的假定本身使得这些方法 非常适用于对属性数据的分析,它将个体和社会环境分离,迫使分析者将个体看成一群互不 联系的大众的组成部分。 网络分析认为,行动者之间相互依赖,而不相互独立。因而应该把“关系”(ties)看成 是分析单位,把结构看成是行动者之间的关系模式,分析行动者之间的关系(而不是根据内 在属性对各个单位进行分类),这样就可以深入地分析社会现象的关系本质。因此,社会网 络分析研究的一个重要问题是,各个行动者之间的关系模式怎样影响以及在多大程度上影响 网络成员的行为。这种研究方法可以有效地补充各个学科中普遍存在的个体主义的分析方 法。因为,个体主义视角很少关注社会结构。正是诺克所说: “经济学和心理学领域中的个体主义视角一般来讲忽视了社会行动者所嵌入的社会环 境,仅仅认为行动者的行为和决策是行动者个人的事情,不受到外在环境的影响。相比之下, 社会网络研究的独特之处在于,它认为,任何行动者都参与到由多个行动者构成的社会环境 之中,而这将对行动者的决策产生重大影响,其他行动者的行为、态度信念等都会影响此行 动者的决策。网络分析的另一个洞见在于,它揭示出社会系统中的各种不同层次的结构,这 些结构是由存在于具体实体之间的关系模式规则构成的。”(Knoke,1990:9~10) 从社会网络分析的观点来看,上述引文中所说的“社会环境”可以表示为在互动的单位 之间存在的关系模式或者规则(regularities)。 (3)网络分析方法直接针对社会结构的模式化的关系本质,从而可以补充甚至超越主 流的统计方法(Wellman,1988:19-61;Wasserman and Faust,1994:6)。 网络分析者认为,对社会各个方面的研究最好要通过考察社会行动者之间的关系来进 行。网络分析者用图论工具、代数模型技术描述关系模式,并且探究这些模式对结构中成员 的行为有哪些影响。这种研究方法不同于传统的社会学方法。很多传统的统计方法不能分析 关系数据,不能分析整体网络数据的特征和网络变量(network variable)的统计推断。 当代社会网络分析技术、特别是网络模型分析技术又取得重大进展,它不但可以揭示关 系的结构,分析网络结构对行动者的影响,还可以分析行动者的“个人因素变量”对行动产 生的影响。这些研究内容非常复杂,需要专论。 二、社会网络分析在数据上的独特之处 社会网络的概念和分析的过程不同于传统的统计分析和数据分析。为了说明这一点,有 必要首先分析社会科学数据的三种类型。 斯科特(Scott, 2000: 2~3)认为,社会科学的数据主要分为“属性数据”(attribute)、“关 系数据”和“观念数据”三类。 1.属性数据 属性数据是关于行动者的自然情况、态度、观点以及行为等方面的数据,它们一般被视 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 11 为个人或者群体所具有的财产、性质、特点等属性。“是人们、对象或者事件的内在特点” (Knoke and Kuklinski, 1982: 10)。适用于分析属性数据的方法主要是“变量分析”(variable analysis),如相关分析、回归分析、列联表分析等。各种属性被看成是特定变量(收入、职 业、教育程度等)的取值。 2.关系数据 关系数据(relational data)则是关于联系、接触、联络或者聚会等方面的数据。这类数 据把一个行动者与另一个行动者连接在一起,因此不能还原为单个行动者的属性。关系不是 行动者的属性,而是行动者系统的属性。这些关系把多对行动者联系成一个更大的关系系统。 针对这些关系数据的分析方法就是网络分析。尽管对这些关系也可以进行常规的定量统计分 析,但是,社会网络分析方法更适用于分析此类数据。社会网络分析者认为,应该利用关系 数据来解释社会现象。关系是网络分析的基石。“关系数据”有如下类型: (1)行动者-行动者数据(方阵数据)。这种数据的收集方法可以是询问类似于如下问 题:“谁是你的朋友?”,得到的是类似于如下表格的数据。例如,假设“张三”认为“李四” 是他的朋友,就在“张三”这一行和“李四”这一列的交叉处填上“1”,否则为“0”。这就 是前述的 1-模网络数据(见表 1-1)。 表 1-1 张三 李四 王五 赵六 张三 李四 王五 赵六 — 1 0 1 0 — 1 0 1 0 — 0 1 1 1 — (2)行动者-事件(长方阵数据)。问题:你是哪个班级的?得到的数据就是前述的隶 属关系数据(见表 1-2)。 表 1-2 一班 二班 三班 张三 李四 王五 赵六 0 1 0 1 0 0 1 0 1 0 0 0 “1-模网络”数据(就其纯形式而言)是方阵数据。矩阵中的各行代表个案,矩阵中的 各列也代表个案。矩阵中的各个值描述的是行动者之间的一种关系。由于“关系”存在于各 个行动者之间,因而不能还原为各个行动者的属性。在网络数据中,行动者不独立。因而, 大多数常规的统计分析方法都不能分析此类数据。这就是网络数据与传统数据的重要区别。 进一步说,传统数据关注的是行动者和属性,网络数据关注的是行动者和关系。网络学 者所运用的研究工具在很大程度上不同于其他社会科学家所使用的工具。3.观念数据 观念数据(ideational data)描述意义、动机、定义等。分析这类数据的技巧不如分析前 两种数据的技巧那么强,尽管它们居于社会科学的核心。总的来说,韦伯提出的类型分析 (typological analysis)是最出色的研究,但是此类方法需要进一步发展。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 12 收集各种数据的方法并没有什么独特之处。例如,收集属性数据的方法和收集关系数据 的方法不能截然分开。问卷法、访谈法、参与观察或者文献分析法等都可用于收集数据。下 表比较了三种数据的关系: 表 1-3 社会研究资料和分析的各种类型(Scott, 2000: 3) 三、社会网络分析在具体研究方法上的独特之处 首先值得指出的是,从方法论角度说,社会网络分析的重要之处在于:分析单位主要不 是行动者(如个体、群体、组织等),而是行动者之间的关系。 研究者如果仅仅对个体社会网络的一些特征进行描述,那么可以利用一些常见的统计分 析方法,特别是“统计描述”法。如果对一些网络特征进行统计推断,那么,一般的统计推 断方法就不适用了,需要利用专门的社会网络推断模型、程序和技术。 例如,如果研究者试图构建二方关系模型、三方关系或者整体网模型,则需要独特的方 法。又如,研究者可以通过对各种网络统计量的研究,揭示网络的整体结构,这更需要专有 的程序。此类研究的文献在此不详细说明(参见拙作,2006,Robin,Elliot & Pattison,2001; Wasserman and Faust,1994)。 总之,社会网络分析的独特之处是多方面的,其核心在于,从“关系”的角度出发研究 社会现象和社会结构。由于社会结构既可以是行为结构、政治结构,也可以是社会结构、经 济结构,所以,社会网络分析的概念和方法已经在多学科中得到了广泛应用。近 30 年来, 有关社会网络方面的文章急速增加。在《社会学文摘》(Sociological Abstracts)中,题目或 者摘要中带有“社会网络”(social network)字样的文章数目如下图所示(Borgatti & Foster, 2003:992)。 1960 1970 1980 1990 2000 2010 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 13 第三节 社会网络研究的内容和方法 社会网络分析要研究的内容有哪些?我们要研究关系的什么性质?这涉及到社会学、政 治学、经济学和管理学等多个学科的方方面面。尽管对这个问题的回答可能有多种答案,但 是我们仍然可以总结如下。 一、研究内容 社会网络分析学者的关注点是行动者及其关系联合在一起的集合,回答的主要是有关社 会互动的问题。根据的标准不同,社会网络的研究内容也不同。 (一)根据“关系的性质”进行分类,社会网络研究的内容包括: 1.研究作为“系统”的关系。也就是说,行动者之间的关系“模式”或“结构”是如 何影响个体行为或者系统的性质的,行动者又是如何反过来影响结构的。简单地说,这种研 究把“网络”看成是变量,无论是自变量还是因变量。此类研究很多,如: (1)社会凝聚力的含义及测量 (2)关系性(而不是产权性)的阶级概念 (3)等级和控制,是什么样的因素导致了社会关系中的等级秩序? (4)群体内部的关系 (5)社会影响 (6)社会选择 (7)角色丛(role sets)是如何从一致性的关系活动中演化出来的? 2.作为社会情境的关系。此类研究关注的是网络“环境”如何影响一个行动者的行为? 此类研究的例子包括如: (1)朋辈情景对犯罪有何影响?拥有一些抽烟的朋辈的孩子是否本人也容易抽烟? (2)连锁董事和政治参与 (3)拥有许多弱关系的的人是否更容易找到工作? (4)不受欢迎的孩子是否比受欢迎的孩子更遭遇困境? 3.信息、资源传播的渠道 (1)风险、资金、资源、疾病等是怎样通过关系传递的?什么样的网络模式导致疾病 的迅速传播? (2)创新的扩散,如谣言、名声、粉丝(fans); (3)社会支持; (4)权力的分布,核心的行动者能控制资源吗? (二)根据“网络的类型”进行分类,社会网络研究的内容包括: 社会网络可以分为三类:个体网(ego-networks),局域网(partial networks)和整体网 (whole networks)。我们可以在如下三个层次上研究社会网络。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 14 个体网 整体网 二方组 初级群体 2-步局域网 1.个体网(Ego – Networks)(如图 1 所示):一个个体及与之有关的多个个体构成的网 络。此类研究的例子包括 1985 年的美国综合调查(GSS)、2003 年中国的综合调查)GSS、 贺寨平(2004)等。需要研究的测度包括:相似性(Similarity)、规模(Size)、关系的类型(Types of relations)、密度(Density)、关系的模式(Pattern of ties)、同质性(homogeneity)、异质 性(heterogeneity)等。 图 1-1 2.局域网(Partial network):个体网再加上某些数量的与个体网络的成员有关联的其 它点。这种网络的界定比较松散,它要比一个整体内部的全部关系少,但比个体网络中的关 系要多。 问题是:局域网的边界是多少?这没有定论,要看研究的目的。因此,可以分为 2-步 局域网,3-步局域网等。2-步局域网指的是由与自我的距离不超过 2 的点构成的网络。 3.整体网(Whole Network)(如图 2 所示):一个群体内部所有成员之间的关系构成的 网络。需要研究的测度包括:各种图论性质(Graph properties);密度(Density);子图 (Sub-groups);位置(Positions)。除此之外还有很多需要研究的内容,参见本讲义“整体 网”一章。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 15 图 1-2 (三)根据“形式和内容”二分法进行分类,社会网络研究的内容包括: 1.社会网络的模型研究。具体参见整体网一章 2.社会网络的应用研究。应用研究的成果很多,成千上万。这里不一一述评。 二、研究方法 如何分析网络?分析的方法是什么?实际上,社会网络分析学者主要利用图和矩阵来研 究网络。当然,有时候也离不开计算机技术和统计学理论。关于图和矩阵,有专门一章进行 比较详尽的说明,此处不再赘述。 三、社会网络分析的理论贡献:关系社会学论纲 网络分析坚持一些原则,例如(刘小枫、苏国勋,2005:458~488): 1.关系具有不同的性质和内容; 2.网络成员被关系直接或间接相连。因此,必须在更大的网络情境中界定网络成员。 3.网络关系具有一定结构,因此,网络一般不是随机的,而是聚类性的,有边界的, 相互交织的。 4.稀缺资源在不对称的关系和复杂网络中得到不同程度的分布和传递。 在此原则的基础上,我们或许能够构建一定的中层网络理论(参见 Barry Wellman, Emirbayer 等学者的论述) 关系社会学论纲(Emirbayer: “A manifesto for Relational Sociology”) 实体论与关系论(Substantialism vs Relationalism) 理论领域:权力、平等、自由、能动 实质性研究领域:从网络的角度来研究社会结构,与此同时,在对分析结果的解释过程 中,在解释网络动力的时候,往往也离不开文化要素的作用,例如,对分析结果的解释可能 离不开社会心理学,社会学,经济学,地方性知识和规范意含等。 另外,在笔者看来,网络分析是一种不同于“因果性”分析的另类研究理路,它提供了 “交互”的视角(刘军,2007),不是单方向的“因果分析”,而是一种交互分析。这是一种 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 16 重要的研究方法论。 如 H.White 所说,“对社会结构的现存的属性描述并没有坚实的理论根基;然而网络概 念可能提供唯一一种构建社会结构理论的方式”(p.25)。 本章小结 社会网络是社会行动者及其间关系的集合。行动者可以是个人、群体、组织、乃至国家。 关系是多方面的,有多种类型。由来自一个群体内的行动者之间的关系构成的网络叫做 1- 模网络;两个群体的行动者之间的关系网叫做 2-模网络;一个群体内的行动者参与多个社 会团体构成的网络叫做隶属关系网。 由于关系数据不满足常规统计学意义上的“变量的独立性假设”,因此,通常意义上的 各种多元统计方法多数不能用来分析关系数据。社会网络分析恰恰研究的是关系数据。社会 网络分析在本体论、认识论方法论、以及具体的研究方法上都有其独到之处。这也是网络分 析得到学界广泛关注的重要原因之一。 上一章已经指出,社会网络分析主要有 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 第二章 整体网研究概要 本章摘要:本章首先探讨了整体网研究的一些基本内容,包括整体网的分类、规模、构 成、成员之间的距离等,特别介绍了各种整体网络的结构研究。然后介绍整体网络资料的收 集方法,包括线人法、提名法、职位生成法、档案、观察和实验法等。整体网资料的整理和 分析需要利用专门的软件,其研究结果往往不具有统计推断价值,但是这不妨碍整体网研究 的意义所在,即这种研究可以揭示整个网络的结构特征,可以为现实生活中的各种关系研究 提供学理支持和实证参考,这是其优势所在。整体网研究的发展离不开电脑编程、统计分析 技术的突破,这种研究也因而越来越复杂。整体网研究的局限性是不关注网络内含的文化规 范和每个行动者的个体网。因此,整体网研究的结果要结合个体数据和文化要素进行解释。 两大研究领域:个体网研究和整体网研究, 当代 社会网络统计技术的突破主要是在整体网领域出现的。通过研究个体网,我们可以对涉及到 “自我”的个体网的各方面有比较全面的认识,例如可以了解到个体网的类型、规模、同质 性、异质性和构成等,在这个意义上说个体网研究是非常重要的。但是,有时候我们也不能 不考虑到如下事实,即就一个相对封闭、有明确边界的行动者集合(如一个村落、一个组织、 一个拥有强烈集体意识的犯罪团伙)来说,如果把该集合看成是一个整体的话,那么该整体 本身会表现出一定的结构来,这些结构或多或少对其中行动者的行为产生影响。用社会学的 术语来说,“社会结构”影响“能动作用”,这一点是很多社会学家,特别是坚持“结构主义” 视角的社会学家所大力倡导的观点。这些问题需要利用“整体网”研究来回答①。人生的幸 福和精神健康与个体网有密切关系,与整体网络的关系更不可忽视。可惜的是,“个体网” 研究一般不考察这一点。鉴于国内的个体网研究已经有比较多的文献,因此,本文主要探讨 整体网研究的有关方面。本文主要探讨整体网研究的内容,整个网络的结构,整体网络的密 度计算,研究方法(资料如何收集,问卷怎样设计,资料如何分析等)?整体网研究的意义 ②。 第一节 “整体网”研究的内容 “初级群体”指的是围绕一个人的某些关系网络成员构成的。“二方组”指的是由两个行动者构成的小群体。 网络”可以分为多种类型。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 18 一、整体网的分类 个体网关注的是“自我”,整体网关注的是整体网络的结构,在二者之间还存在一种中 间网络,可界定为局域网。如果把这些网络结合在一起,并且根据不同的标准,那么“关系 个体网 整体网 二方组 初级群体 2-步局域网 图 2-1 几类关系网络 “2-步局域网”的含义指的是围绕着“核 心点”,并且达到核心点的距离不超过 2 的点构成的网络。该概念的含义是比较宽泛的,它 可以包含全体到达核心点的距离为 2 的点,也可以包含部分距离核心者为 2 的点。3-步局域 网或 n-步局域网的含义依此类推。 上述这些网络是根据“规模”来划分的。如果根据社会网络中的“行动者”类别进行分 类,整体网也有很多类型。例如,如果行动者是个人,对应的整体网就相当于很多个“个人” 之间的“人际关系网”;如果行动者是组织或者法人行动者,对应的整体网就是“组织关系 网”;如果行动者是城市、村落、国家等,对应的整体网就是“城市网”、“村落网”和“国 际关系网”等。正是在此意义上,我们说整体网有多种类型。我们这里主要探讨 1-模关系 整体网研究的内容。 就行动者之间的关系的具体内涵来说,整体网又可分为各种类型。如就“国际关系”的 具体内容来说,可以把国际关系网分为“国际贸易网”、“国际科技往来网”、“国际政治关系 网”等;就“企业关系网”来说,可以细分为企业之间的“营销同盟网”、“财务同盟网”、 “战略联盟网”等,一个企业内部的各个员工之间还存在“情感关系网”、“咨询关系网”、 “情报关系网”和“信任关系网”等(罗家德,2005:64);一个村落内部各个家庭之间存 在“情感支持网”、“资金支持网”、“劳力支持网”和“亲属关系网”等(刘军,2006a);多 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 19 个学术期刊之间存在“相互引用关系网”。另外,由多个行动者参与多个团体构成的网络, 即“隶属关系网”也可以看成是整体网。 目前,整体网研究特别是 1-模网络研究取得很大进展,近二十多年在统计方法上有重 要突破(参见本节第五部分)。这些研究加深了对整体网络结构的认识。 二、整体网络的构成和规模 1.整体网的构成 在整体网中,也要研究网络成员的构成,研究方法类似于对个体网络构成的研究。例如, 我们可以分析在整体网络中的每个行动者的个体网络成员由哪些行动者构成,研究方法完全 等同于个体网络成员构成的研究。此处不再赘述。 除此之外,我们还可以按照某种关系来分析另外一类整体网络的构成。例如,在研究“公 司内部成员之间的建议关系网”的时候,研究者可以根据自己感兴趣的项目对网络的“构成” 进行分析,如果根据“上下级关系”来分类,可以分析在“建议关系网”中,存在多少“同 级别职员之间的建议关系”,“不同级别职员之间的建议关系”等。实际上,这种分析类似于 在“二方组”研究中所分析的那样,研究整个网络是由多少个“互惠对”、“不对称对”和“虚 无对”构成的。我们也可以研究三方组的 16 个同构类在整个网络中有哪些表现,这也是对 整体网络构成的研究。实际上,关于整体网的各种结构的研究都属于“网络构成研究”的范 畴,我们将在本节第五部分,即关于整体网的结构研究部分加以介绍。显然,这种研究就完 全不同于个体网的构成研究。 2.整体网的规模 整体网的规模指的是网络中包含的全部行动者的数目。某个行动者的个体网的规模往往 需要调查才能有所了解。与此不同的是,整体网络的规模往往是研究者事先有所了解的。例 如,如果研究一个企业内部各个员工之间的“建议关系网”,那么该企业内部的全体员工总 数就是该整体网的规模。如果研究 50 个国家之间的“贸易关系”,该网络的规模就是 50。 显然,整体网规模的含义不同于个体网规模的概念,因为在计算个体网规模的时候,一般不 包括“自我”,而整体网的规模要包含其中的所有行动者。 通常情况下,整体网的规模越大,其结构越复杂,分派现象越普遍,派系、n-派系、k- 丛等也往往越多,这种结构对社会行动者的影响可能越大。当然,对于大网络的研究往往比 较困难。 在当代的整体网络研究中,一般情况下分析的网络规模不会超过一千。实际上,有时候 研究大量(如超过一千)行动者之间的整体网络也没有什么实际意义,例如,研究一个城市 社区内部分散的几千人之间的关系网络,这种研究可能没有太大的学术意义,也没有什么实 践价值。研究者往往对具有较大社会学意义的相对封闭的整体进行研究,而这种整体的规模 一般不大。 三、整体网的密度 关于整体网密度的计算,笔者已经有所论述(参见拙作,2004:第 4 章),这里将有所 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 20 补充,并且结合 UCINET 软件,具体展示如何计算整体网络的密度。 如果研究的网络是整体网,其密度的计算与个体网密度的计算稍有不同。如果该整体网 是无向关系网,其中有 n 个行动者,那么其中包含的关系总数在理论上的最大可能值是 n(n -1)/2。如果该网络中包含的实际关系数目为 m 的话,那么该网络的密度就是“实际关系数” 除以“理论上的最大关系数”,即等于 m/( n(n-1)/2)=2m/ (n(n-1))。如果该整体网是有向关 系网,并且其中有 n 个行动者,那么其中包含的关系总数在理论上的最大可能值是 n(n-1)。 该网络的密度因而等于 m/ (n(n-1))。 总的来说,整体网的密度越大,该网络对其中行动者的态度、行为等产生的影响也越大。 联系紧密的整体网络不仅为其中的个体提供各种社会资源,同时也成为限制其发展的重要力 量。关于这一点,当代整体网研究技术已经能够从统计学的意义上检验此类命题的统计显著 性(参见 Wasserman and Faust, 1994; 刘军,2006a)。 在利用 UCINET 软件计算网络密度的时候,可以分别计算“个体网”的密度①和“整体 网”的密度,二者是不同的,下面分别加以简要论述。以下是 UCINET 软件的主界面图, 第二行项目中的“Network”一项还包括很多很多子项目,可以计算很多网络性质。 1.整体网络中的“个体网络密度”的计算 如果计算整体网中每个个体的个体网络的密度,需要在 UCINET 中沿着 Network>Ego-networks>Density 这条路径(参见如下图示),然后选择出所要分析的网络数 据,即可计算出一系列个体网络的测度来,包括网络密度。 例如,如果计算名为“紧密关系表”的整体网络数据中各个行动者(这里指的是村民) 的“个体网络密度”,得到的对话框如下: 计算的结果为: ① 这里所说的“个体网密度”不同于“个体网”中的密度,因为这里所说的个体网是处在整个整体网络之 中的个体网,而不是通过随机抽样方法得到的个体网络。但是,这两种个体网密度的计算公式是类似的。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 21 在这个结果中,已经对各个个体网测度作了说明。例如,“Size”是个体网的“规模”(不包 括“自我”)。显然,第一个村民的个体网规模为“11”,说明与他有“紧密关系”的村民有 11 家。需要解释的其他测度有:“Ties”一项是“关系总数”,指的是“个体网络成员之间的 关系总数,不包括各个成员与‘自我’之间的关系”;“Pairs”是个体网络中各个成员之间在 理论上“所有可能存在的关系总和”,该值也等于(网络规模数)×(网络规模数-1)。例 如第一个村民的个体网规模为“11”,那么该行动者的个体网络在理论上可能存在的各种关 系总数“Pairs”等于 11×10=110 个。因此,个体网络的“密度”,即“Densit”一项(即第 四个输出的个体网测度)就是“实际存在的关系总数”除以“理论上可能存在的最多关系总 数”,即相当于“Ties”一项的值除以“Pairs”一项的值得到的百分比。对于第一个行动者 来说,该个体网络的密度值为 86/110=78.18%。其它密度值的计算与此类似。“Avgdist”是 “平均距离”,是图论意义上的各个个体网成员之间的平均捷径距离,这个值只针对每个点 都可达的网络来计算。“Diameter”是“直径”,指的是个体网络中的最长捷径距离(geodesic distance),无限长的距离不作标记。“NweakComp”是“个体网络中的弱成分总数”。 “PweakComp”是“弱成分数目占网络规模的比例”。“2StepReach”是“自我”点在 2 步内 可达的成员总数。“ReachEffic”是“可达效率”,具体指的是“2 步内可达的点数”除以整 体网络成员的总数加上每个成员的个体网规模的总数的百分比。 2.整体网络密度的计算 一个二值关系网络密度的计算公式比较简单,它等于网络中“实际存在的关系总数”除 以“理论上最多可能存在的关系总数”。在 UCINET 中,除了按照这个公式计算二值关系网 络的密度值外,还可以计算多值关系网络的密度,其计算方法为:“实际存在的关系总数” 除以“理论上最多可能存在的关系总数”,实际上等于所有可能存在的线的平均值。另外, 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 22 该软件也可以计算出不对称矩阵的密度。 在利用 UCINET 软件具体计算整体网密度的时候,需要沿着 Network>Network properties>Density 这条路径,然后选定所要分析的网络数据(如“紧密关系表”数据)所在 的磁盘位置,即可计算出该整体网络的密度。对话框为: 如果计算“紧密关系表”数据的整体网络密度,结果如下: 可见,该整体网络密度的计算结果极为简单,只是给出密度的值,显然该网络的整体密度为 0.2258。 四、整体网成员之间的距离 在整体网络中,两点之间的距离是二者之间在图论或者矩阵意义上的最短途径(即捷径) 的长度,与个体网研究中的“距离”和当代社会中人与人之间的越来越大的心理“距离”概 念不同。实际上,在利用 UCINET 软件计算一个整体网的各个成员之间距离的时候,需要 计算出整体网所对应的矩阵中所有点之间的“距离矩阵”或者一般化的距离矩阵(a distance or generalized distance matrix between all nodes of a graph),同时也允许把“距离矩阵”转变 为“接近矩阵”。所谓两个点之间的“一般化的距离”(generalized distance)指的是这两个 点之间的一个最优途径的长度(the length of an optimum path)。两个点之间可能存在多条途 径。问题是,什么样的途径是最优的途径?这里存在三种标准。或者说,一个最优途径可以 有如下“费用”、“强度”和“概率”三种类型(参见 UCINET 中的“help”)。 1.一个最优途径是费用最小的途径;而一个途径的“费用”(cost)是该途径上的所有 边值(赋值)之和。也就是说,在两个点之间的多条途径中,费用最小者为最优途径。 2.一条途径的“强度”(strength)指的是该途径中的最弱一条线的强度。最优的方法 是采用强度最强的途径(The optimum is the strongest path)。 3.一条途径的概率是其各条边的概率(probability)之积,最优途径是“最可能出现的 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 23 途径”(the most probable path)。 如果在两个点之间存在的最优途径多于一个,那么 UCINET 算法会利用最短的最优途 径(the shortest optimum path)。对于二值邻接矩阵来说,“距离”和“一般化的距离”是等 同的。 另外,“距离矩阵”也可以被转换为“接近矩阵”(nearness matrix),方法是通过一种“接 近度转换”步骤(a nearness transformation)。这种转换可以通过取倒数、线性转换、指数化 等方法达到。 因此,在实际分析的时候,UCINET 程序要求研究者自己给出“距离”的类型,默认的 类型是“邻接距离”,即对应于图论距离意义上的标准化二值数据。除此之外,可供选择的 类型有“Strengths”、“Costs”、“Probabilities”等,其含义已经在上一段有所说明。 至于“接近性转换”(Nearness transformation)步骤,系统本身的默认值是“不分析”。 我们可以利用上述介绍的多种方法进行这种转换。因此,软件中可供选择的项目有“None”, 即不进行接近性分析,输出的数据是原始数据;其他可供选择的项目有:“Multiplicative”, 即用最大可能的距离(N-1)除以两个点之间的距离,得到的新值为 Yij = (N-1)/Dij; “Additive”,即“加减运算”,用点总数 N 减去两个点之间的距离,得到的新值为 Yij = N- Dij。“Linear”,即两个点之间的距离线性地转换为[0,1]之间的数字,得到的新值为 Yij = 1- (Dij-1)/(N-1)。“Exponential”,即两个点之间的距离根据指数递减性(exponential decay) 进行转换,到的新值为 Yij = bDij. 衰减因素 b(the attenuating factor b)需要由研究者自己选 定,并且需要满足 0 < b < 1 这个条件。“Freq Decay”是利用社会学家伯特(Burt,1976)于 1976 年提出来的频次衰减函数(frequency decay function)进行转换。如果选择了“指数衰 减”方式,那么“Attenuation Factor”的默认值是 0.5。该值越大,衰减速度越慢。 需要注意的是,距离对应的是关联数(即边数)而不是优化值。优化值的计算可按照 NETWORK>COHESION>REACHABILITY 这条路径进行。具体的计算细节和对各种测度的 解释,参见(Doreian, 1974; Burt, 1976)。 可见,在整体网络中,要计算的距离实际上是计算出所有行动者之间的距离,并且利用 “距离矩阵”(distance matrix)表示。例如,假设有一个网络是由五个行动者组成的。如果 计算这五个点两两之间的“邻接”距离,需要经过 Network→Cohesion→Distance 这条路径, 出现的对话框为: 点击“OK”之后,计算出来的结果为: 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 24 可见,该程序计算出任何两个点之间的距离,并且得到平均距离为 1.65,建立在“距离” 基础上的凝聚力指数为 0.725。该指数越大,表明该整体网络越具有凝聚力。 五、整体网的结构研究 “结构”一词的含义是非常广泛的。广义地说,本节第二部分已经探讨了整体网的构成, 这可以说是从“纵向”对网络的结构分析。对三方关系、凝聚子群的研究等也都是一种整体 网的结构研究。本节的内容则有所限定。我们认为,如果深入到整体网络的每一种“构成”, 从“横向”进行分析,探讨关系网络的内部构成,得到的将是对整体网络的“深层次结构” 的认识。这种研究是个体网研究所做不到的。 整体网的结构是“深层次”的,可以分为多种结构类型。我们可以结合“关系变量”来 探讨这个问题,因为与不同结构对应的关系变量也是不同层次的。在进一步讨论之前,首先 区分“属性数据”和“关系数据”两种数据类型。关于行动者自身拥有的性质(如身高、体 重、年产值、GNP 等)的数据可以叫做“属性数据”,与之对应的变量叫做“属性变量”; 与之类似,与关系有关的变量可以称为“关系变量”或者“网络变量”(network variables)。 常规的统计学、社会统计学可用来分析属性数据和变量,而社会网络分析(social network analysis)则尤其适用于分析关系数据及网络变量(参见拙作,2004;2006a)。 1.属性变量和网络变量 在常规的社会学量化研究之中,我们遇到的变量如“性别”、“年龄”、“收入”、“GDP”、 “师生比”等都可以看成是该行动者(该行动者可以是个人、企业、国家、大学等)本身独 有的变量,我们可称之为“属性变量”(参见拙作,2004;2006a),相应的分析单位是相对 独立的“点”。与之对应,网络变量指的是与整体网络的结构性质对应的变量。它至少可以 包括如下 5 类:(1)个体层次网络变量 ;(2)二方关系网络变量( dyadic network variables); (3)三方关系网络变量; (4)子群层次的块网络变量; (5)整体网络变量。 通过研究“网络变量”,我们可以更深入地分析社会行动者之间的社会结构。这是利用 其他统计分析方法所做不到的,也是仅仅分析各种“属性资料”所不能得到的。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 25 对“关系数据”进行整体结构分析很重要,这一方面是因为,“关系”既影响网络成员 的行为,也影响行动者系统的行为;另一方面,“关系数据”不能还原到属性数据。例如, 关系处得好的人之间可以多提供帮助;在正式群体中的“高度凝聚力”状态也会影响群体成 员的各方面行为。这是仅仅利用属性资料所不能解释的。既然存在关系,则至少涉及到两个 行动者,因此,“关系”不是任何一个行动者自己拥有的属性,而是至少两个行动者共同拥 有的属性。正是在这个意义上,我们说关系数据是不能还原到属性数据的,“关系”是一类 独特的分析单位。作为分析单位的“点”和“关系”是不同的。对属性变量和网络变量、“点” 和“关系”的这种分析如表 2-1 所示。 表 2-1 两类分析单位及其研究内容对照表 单位 举 例 研究内容① 使用的变量举例 量化方法 点 个体、群体、 组织等。 “点”的各种属性特征, 如年龄、GDP 等。 各种“属性”变量,如收 入、人口数、GDP 等。 各种常规多 元统计技术 关系 个体之间、社 区之间⋯的 关系(1-模关 系); 或者两组行 动者之间的 关系等(2-模 关系或者“隶 属关系”)。 网络特征,包括: 1.个体层次:接触频次、 异质性、扩张性等; 2.双边层次:互惠性等; 3.三边层次:关系的传 递性等; 4.块(子群)层次:块 内的互惠性等; 5.整体层次:关系总量 等; 6.“关系”的演化。 网络变量,可以包括: 1.个体属性变量; 2.个体网络变量:聚敛性、 扩张性等; 3.二方变量:互惠性等; 4.三方变量:传递性等; 5.“块”网络变量:如块 内互惠性等; 6.整体变量:总选择量等; 7.时间变量。 社会网分析 技术,包括: 1.中心性分 析; 2.核心-边缘 分析; 3.块模型; 4.p1 模型; 5.p*模型等; 6.动态网。 2.整体网络结构研究的内容 除了上述介绍的整体结构研究的内容之外,还有很多研究内容。这些研究或多或少与各 种层次的网络变量相对应,整体网络结构研究因而可以具体分为至少如下几种类型: (1)“中心性”分析——权力的量化研究 在什么意义上说一个“行动者”有权力?在什么意义上说一个“子群体”拥有权力?在 社会网络中我们是通过研究“点”或者“群体”的“中心度”(centrality)和网络的“中心 势”(centralization)指数探讨这个问题。这种研究的内容包括:如何研究行动者个体的“中 心度”和整体网络的“中心势指数”(Freeman, Borgatti and White, 1991)。这种研究具体包 括:度数中心度和度数中心势;中间中心度和中间中心势;接近中心度和接近中心势;特征 向量中心性研究和权力指数;另外,“中心性”研究又出现新进展(Bonacich and Lloyd, 2001; Costenbader and Valente, 2003)包括群体中心度的研究(Everett and Borgatti, 1999; Bonacich et al., 2004)、个体中心度和群体中心度的比较(Mardsen, 2002)等也值得关注。另外,利用实 ① 此处所说的社会网络的研究内容主要指的是“整体网络”的研究内容。“个体网络”研究主要关注的是 个体的各种网络属性特征,如个体网络的规模、个体网络的构成等。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 26 际网络数据展示各种中心性方法的应用,这也是中心性研究的实证研究内容,这种研究也具 有一定的现实意义。 对“中心性”的研究可以加深对“权力”的“量化”认识。 (2)二方关系研究 社会网络意义上的“二方关系研究”主要是“定量”研究。但是笔者认为,对二方关系 也可以进行定性研究(参见拙作,2006b)。就“量化研究”来说,“二方关系”要研究的问 题有,在一个社会网络中,“互惠关系”出现的频次多大,在统计上是否显著?“虚无关系”、 “不对称关系”等出现的频次是多少?在统计上是否显著?所有这种研究都与“二方谱”有 关系。这种研究需要进行统计分析。就“质的研究”来讲,“二方关系”需要研究的问题可 能有,二方关系的表现(竞争、合作,还是互不干扰?)、二方关系的演变过程及机制是什 么?结合具体的二方关系(如夫妻关系、朋友关系、上下级关系、两个国家之间的关系等) 来说,二方关系表现出怎样的特点?这些问题既可以进行定量分析,也可以进行定性探讨。 (3)三方关系研究 与“二方关系”研究类似,对“三方关系研究”也可以进行“定量”研究和“定性”分 析。就定量研究来说,需要探讨的问题主要有,在一个社会网络中,“三方关系”有哪些的 表现?“三方关系”的 16 个同构类(即三方谱)分别发生多少次?在统计上是否显著?另 外,对某种三方关系命题进行统计检验也属于定量的研究。 就定性研究来说,三方关系要研究的问题有,“三方关系”中的行动者如何拉关系,如 何形成“二打一”(two against one)的局面?根据社会行动者权力分布的不同,三方关系有 哪些表现,三方关系未来的走向是什么(参见网络交换论有关研究成果 Willer, 1999)。三方 关系中的冲突和合作,“二对一”理论研究等也是三方关系研究的内容。 (4)小群体的量化研究——块模型分析 块模型(blockmodel)最早由怀特等人(White, Boorman & Breiger, 1976)引入到社会 网络分析之中。该模型关注总体的网络结构,在理论和实践上都具有重要意义。 在块模型研究中涉及到的内容有:“块模型”的几种定义,构建块模型的两种方法: CONCOR 以及层次聚类方法,如何解释块模型分析的结果(Wasserman & Faust, 1994: 397~401)等。另外,块模型出现最新进展,即随机块模型(Wasserman and Anderson, 1987) 和推广的块模型(Doreian and Batagelj, 2000; Doreian, Batagelj and Ferligoj, 2004; Doreian, Batagelj and Ferligoj, 2005),块模型有广泛的应用性,如应用该模型来分析一些现实数据, 或者分析一个村落的社会支持数据,国际贸易关系数据等。 块模型研究的目的是为了找到在总体网络中存在的“子群体”。由于网络数据类型不同, 结构多样,因此,这种研究也分为多类。 (5)凝聚力的量化研究——凝聚子群分析 “社会团结”、“社会凝聚力”乃是社会学经典研究的核心之一。如何定量研究“社会团 结”?一个社会的“团结”依靠什么维持?我们可以通过研究各种凝聚子群探讨这个问题, 这就需要分析凝聚子群。该领域有一些最新进展(Hummon and Doreian, 2003),我们可以结 合具体实例进行应用研究。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 27 凝聚子群研究的内容包括:凝聚子群研究的渊源,凝聚子群的几种类型:派系、n-派系、 n-宗派、k-丛、k-核等,这些子群之间的关系;探讨凝聚子群研究的最新进展,探讨复杂网 络中的各种凝聚子群研究;利用 UCINET 中的凝聚子群算法,分析现实网络数据(如一个 国有企业中层领导之间的咨询网络)中存在的凝聚子群;这种研究有助于揭示现实生活中存 在的“人浮于事”、“效率低下”的原因,并提出对策。 (6)多个行动者之间的对等性分析 “位置”和“角色”是“关系性”的概念。通过对关系数据的分析来探讨行动者的位置 和角色,这或许是社会网络分析对社会学理论最重要的贡献之一。通过对社会网中的社会行 动者所处的“位置”和“角色”进行结构性的考察,可以分析到个体在社会网中的重要性程 度。这种研究包括:“结构对等性”(structural equivalence)分析;“自同构对等性”(automorphic equivalence)分析和“规则对等性”(regular equivalence)分析(Burt, 1987; Wasserman and Faust, 1994)。其他“对等性”研究的新进展也值得关注(Boyd and Jonas, 2001)。 结构对等性研究的目的是为了找到在结构上对等的点集合,从而对整体网有更细的认 识,也有助于对日常生活中常见的“角色”这个概念进行深入的量化认识。 (7)“中心-半边缘-边缘”结构分析 关于“核心-边缘”的思想散见于多种文献之中,一般没有得到量化处理。现代世界体 系理论提出的“中心-半边缘-边缘”结构是对西方经济发展理论和依附理论的“中心-边缘” 结构的继承,但是该理论也没有给出分析这种结构的具体方法,这恰好是社会网络分析中“核 心-边缘(core-periphery)结构研究”的贡献。该模型可以揭示在一个社会网络中哪些行动 者分别处于“核心”、“半边缘”和“边缘”地位,并找到这些结构之间的关系。 “中心-半边缘-边缘”结构分析的研究内容包括,“核心-边缘”模型的构建,Everett 等学者在此基础上引入“核心-半边缘-边缘”模型(Everett, 2002; Borgatti and Everett 1999)。 我们可以利用这种模型进行实证研究。例如,可以结合一定的现实例子(如中国与世界其他 国家之间在 21 世纪初的科技交往、文化往来、贸易往来资料),利用 UCINET 软件分析国际 贸易的“核心-边缘”结构,分析新世纪的中国在国际关系中的具体位置,这或许是一个重 要的实证研究内容(参见拙作,2004b)。当然,这需要收集大量的资料。又如,我们可以分 析一个学院、组织内部的核心-边缘结构,从而为有关政策的制定和实施提供参考。 (8)网络数据的统计推断——指数随机图模型( p*)研究 指数随机图模型(exponential random graph models)(简称 p*模型)是社会网络模型研 究的前沿之一。该模型包括 p1 模型和 p*模型及各种推广形式。这种模型研究的目的是把各 种网络变量甚至属性变量都加入到模型之中,分析哪些网络变量或者属性变量对于“关系” 的发生有显著性影响。 p 模型目前的研究内容包括:基础模型,即 p1 模型及其推广形式的含义;如何从 p1 模 型推广到 p*模型,并且比较二者的关系;其次,分析 p*模型的最新进展,包括隶属网络的 logit 模型研究(Skvoretz and Faust, 1999);多值网络的 p*模型分析(Robin, Pattison and Wasserman, 1999; Robin, Pattison, & Woolcock, 2004);社会影响模型(Robin, Elliot and Pattison, 2001)研究哪些网络变量影响到关系的发生;社会选择模型(Robin, Pattison and Elliot, 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 28 2001)研究哪些变量影响到人们做出的选择。可以利用推广的 p*模型分析现实数据,如利 用该模型分析市民或者村民的社会支持网络数据,建构社会支持网络模型。 (9)偏好网络论研究 有关偏好网络理论(biased net theory)的研究已经有几十年的历史,近几年又有新进展。 这种研究的目的是:分析网络结构的变化在多大程度上是行动者的“偏好”带来的,又在多 大程度上是“随机因素”造成的。所谓偏好(biase)在这里指的是行动者的行为倾向。例如, 如果人们坚持认为“人不犯我,我不犯人;人若犯我,我必犯人”、“己所不予,勿施与人” 或者“来而不往非礼也”等行为规范,那么这些相当于行动者之间的“互惠”“偏好”。因此, 可以研究一个行动者的行为在多大程度上受到某些偏好如“互惠性”、“传递性”、“同质性” 等的影响,行为的随机性又有多大?利用这种研究可以对有关命题进行检验和统计分析。 偏好网络理论最先是由瑞帕泡特(A Rapoport)于 1950 年代提出来的,最近由法拉罗 以及斯克佛雷兹等学者重新提出来(Fararo, 1981, 1983; Fararo and Skvoretz, 1984; Skvoretz, 1985, 1990)。偏好网络模型的构建需要考虑到两类参数(结构参数和属性参数),需要对这 两类参数进行估计,其最新进展参见(Skvoretz, Fararo and Agneessens, 2004)。这种研究也 需要结合实际数据加以分析。这也是整体网研究的内容之一。 (10)网络演化研究 上述研究都是“静态”的研究,这种研究虽然可以揭示关系网络的结构,但是不能揭示 现实关系数据的动态演变。因此,从“动态”的角度出发,考察至少两个时段之间的行动者 网络结构的变化(参见 Snijders, 2003),这种研究可以分析出有哪些网络因素或属性因素带 来社会关系的变化。 整体网络研究还有相当多的内容,如社会影响研究、社会选择研究、复杂网络研究、社 会均衡研究、交换网络研究、整体网中的互惠性研究(刘军,2007)等),限于篇幅,这里 不能一一作介绍。 第二节 “整体网”的研究方法及相关问题 与“个体网”研究类似,在进行整体网研究之初,也要考虑很多问题,这些问题涉及到 方法论和一些具体的研究方法问题。例如,样本怎样选取?问卷怎样设计?数据怎样整理和 分析等,下面探讨这些问题。首先需要指出的是,1-模网络数据是最常见的,易于收集。而 1-模局域网络数据则很少见,因为调查的成本太高。下面的分析主要针对的是 1-模网络数据。 一、资料收集方法 1.利用“线人”收集资料 整体网资料的收集很少利用严格的概率抽样的方法。可以利用线人(informants)方法 收集资料。即研究者通过与多个线人之间的长时间访谈,记录下被研究对象两两之间的各种 关系,构建关系矩阵并进行分析(具体参见拙作,2006a,2006b)。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 29 实际上,在田野研究中,如果研究的目的是为了理解当地的社会情景(例如为了了解某 个帮派或者团伙),那么研究者就需要与当地人进行长时间的接触和深入的谈话。线人就是 那些可为研究者直接提供有关他所在群体的信息的人,这些人首先应该是该群体的成员。在 人类学研究中,利用线人收集资料这种方法尤其重要。如果研究者希望研究一个地方社区内 部的非政治关系网,那么利用线人方法无疑是可采用的重要方法之一(Babble, 2001: 196~197)。因为,线人对他所在的社区有深入的了解,能够提供比较深入的信息,如哪些家 庭之间的关系比较好或不好,哪些家庭发生了重大事件等。这些信息往往是通过问卷调查所 得不到的。 2.根据提名法收集资料 整体网资料的收集可以主要根据访谈方法,也可以利用结构式的问卷进行问卷调查。与 个体网问卷的设计类似,在设计整体网问卷的时候,也可以包含两个部分:提名生成法(name generator)和提名诠释法(name interpreter)(参见罗家德,2005:46~47)。 笔者认为,提名生成法不仅适用于收集个体网资料,也可用来收集整体网资料。因为如 罗家德(罗家德,2005:46)所说,提名生成法是请被调查者说出与自己有某种关系的一些 人,再说出这些人之间是什么关系。但是,在整体网资料的收集过程中,可采用两种策略: 回忆法和名册法。所谓回忆法(recall survey)指的是要请被调查者回忆与自己有关系的人 有哪些。但是,考虑到被调查者可能遗忘一些人,因此,在调查之前可以实现准备好该整体 内部的所有成员,造成名册(check-list format),然后邀请被调查者根据名册指出与自己有 关系的人有哪些。但是,需要指出,不管研究者如何努力,一般很难收集到完整的、完备的 资料。 可以看出,利用这种方法得到的数据是整体网数据。由于并非所有的行动者都对自己关 系网络成员之间的关系一清二楚;又由于多个行动者对 A、B 两个人之间关系好坏的判断不 一定一致,在这种情况下如何分析数据的好坏呢?我们固然可以采用多种方法进行加权。但 是在笔者看来,“线人”方法可用来补充收集更详尽的信息,因为线人是消息灵通人士,对 人际关系了解得比较清楚。 当然,“整体网”研究中的“提名生成法”与“个体网”研究中的“提名生成法”还是 有所不同的。就前者来说,被调查者往往在其所在的整体内部选择与自己有关系的行动者, 而不像在个体网研究中那样,可以随意选取;就后者来讲,被调查者首先选择其个体网成员, 再根据自己的经验“判断”这些人之间是什么关系。显然,就后者来说,每个“自我”是不 同的,每个“自我”选择出来的“个体网成员”可能属于完全不同的群体之中,因而可能根 本不认识,也就无法构成一个整体网研究的对象。所以,这两类提名法是不同的。 需要补充的是,有学者注意到,在利用提名法收集网络资料的时候,被调查者往往倾向 于说出曾给与自己以支持的其他人,至于比较困难的、打扰性的,或者冲突性的关系,被调 查者往往不愿意回答,或者忽视这种关系(Marsedn, 1990: 442)。这一点对于社会支持网络 研究来说至关重要。 3.利用职位生成法收集整体网资料 在介绍个体网数据收集的方法的时候谈到了“职位生成法”。实际上,尽管这种方法也 可以用来收集整体网资料,但是学者们利用得比较少。可以想象,如果研究者希望研究整体 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 30 网络中的社会资本的分布情况,研究整体网络中的社会资本与网络特征之间的关系的话,那 么职位生成法是可以应用的,但是要作相应的调整。如果说在个体网研究中需要询问被调查 者在每个职位中都有哪些接触者的话,那么在整体网研究中,可以询问的问题是:在整个网 络中,与被调查者接触的人都是什么职位的人。当然在研究之前要首先对各个职位的具体含 义进行界定。 利用职位生成法可以研究的问题有:行动者与不同职位之人的接触与该行动者本身的职 位有什么关系?或者说,行动者的权力与接触者的权力是什么关系?我们可以这样研究问 题:首先利用个体网方法,找到与行动者接触之人的职位分别是什么,然后对各种职位的等 级进行“排序”。例如“科学家”的职业声望最高,“教授”职位次之,“律师”相对较低一 些。因此,可以按照职业声望的高低,对行动者所接触的人进行排序。其方法可如下所示。 假设有一个由 6 个行动者 A、B、C、D、E、F 构成的整体网,他们的职业都已知(假设 A 是科学家,职业声望值是 95;B 是教授,声望值是 90;C 是企业家,声望值是 85;D 也是 科学家,声望 96;E 是律师,声望 78;F 是工程师,声望值为 80),因此排序也已知。因此, 由这六个行动者构成的整体网的格值 xij 可按照如下方法得到:xij=(i 的声望值)/(j 的声望 值)。当然,从这种分析中可以看到,xij·xji =1。即关于主对角线对称的矩阵格值之积等于 1,这是由我们关于该矩阵的定义所决定的。 构建这种矩阵数据之后,我们可以分析其中的各种结构特征,如可以分析上文介绍整体 网研究中的各种特征;也可以分析“声望矩阵”和“接触频次”矩阵之间的相关关系,这就 需要利用 QAP 方法(参见拙作,2004)。 需要指出,利用这种收集资料的方法进行的整体网研究成果并不多。因为,一般来说, 整体网络往往针对一种关系(如只针对出口关系、资金支持关系等)进行分析。 4.利用档案资料收集整体网数据 在进行社会学量化研究的时候,资料收集的方法是多种多样的,可以利用抽样调查方法, 典型调查、方便抽样调查方法等,也可以利用文本、历史资料、互联网资料等。这些方法也 可用来收集网络资料。但是,利用调查法或者问卷法收集的网络资料往往不完善,并且费用 大,而利用档案资料收集整体网数据的做法则比较省钱,并且具有自己的优点,因而在国外 已经得到一些应用(Padgett & Ansell, 1993; Gil-Mendieta and Schmidt, 1996; Gould, 1991),但 是在国内比较少。利用档案可以收集到过去发生的、利用其他方法收集不到的关系资料。 例如,有学者研究了 19 世纪美国女权运动中各个组织之间的关系(Rosenthal et al., 1985)。在科学社会学研究中,有学者通过研究引用关系来确定科学共同体的具体情况。如 果两个科学家的文献被同样的作者所引用的话,我们就说他们之间存在了关系。同样,也可 用档案资料来研究国际贸易关系,组织之间关系等。利用档案资料收集整体网数据的例子还 有很多,如: (1)校际交流,备忘录,Email; (2)国际贸易关系;制造业交易;原材料; (3)国际政治关系;敌视关系等; (4)移民记录; (5)合资企业,高校之间的合并; (6)连锁董事会。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 31 5.观察法、实验法 除了上述方法之外,我们还可以利用观察(Mitchell, 1969)、实验等方法收集整体网络 资料,尽管这些方法使用得较少。观察法的优点固然是可以观察到自然发生的情形,因而可 以达到数据的精确。但是,其缺点是耗费时间长,并且往往仅适用于观察小规模的社会互动 的场景。 (1)直接观察法又有两种:一种是在屋内安排一个观察者,让他记录下来眼前发生的 所有互动。另外一类是时间分配方法(time allocation method),这种方法主要应用于“个体 生态学(ethology)中,观察者随机地出现在各种场合之中,记录下来在一个很短时间内哪 个人与哪个人之间存在交往,交往的内容是什么等。 (2)实验法也类似,可用来收集整体网资料。人工实验法仅仅适用于小规模的社会互 动研究,而计算机模拟实验法则可以分析很大规模的整体网数据。 总的来说,实验法在有关二方组、三方组的研究中利用的较多。在过去的几十年时间里, 很多学者研究了学校之间信息的传播问题。很多学者利用人工实验法的一个著名研究是小世 界研究(Travers and Milgram, 1969)。其中 Stanley Milgram 在一系列研究中探讨了在美国任 意选择出来的两个人之间需要经过多少步骤就可以建立联系,该研究发现了六度分割(six degree of separation)的理论,认为整个世界的人只需要通过六个中间人就可以建立联系。 该发现对当代主要利用计算机模拟实验法进行的复杂网络研究有重要的启发作用(Watts, 2003)。也成为“六度分割”(Six Degrees of Separation)这个剧本和凯文培根赛(Kevin Bacon Game)的来源(后来成为由 Will Smith 主演的电影)。 另外,也可以用实验方法检验网络结构对行为的影响。例如,贝弗拉斯(A.Bavelas) 于 1950 年代进行了一次实验,分别检验了由 5 个人在有关解决问题的信息交往方面构成的 “星形结构”、“链形结构”、“环形结构”和“Y 形结构”对问题的成功解决有什么影响。这 些结构如图-2 所示,四种图形分别代表所研究的四种交往模式。贝弗拉斯小组针对主要自 变量——中心度提出一种正式的模型。在研究的时候不让参与者知道自己所在的实验组具有 怎样的结构(参见 Everett, 2002: 56~59;Freeman, 2004: 70~71)。 结果显示,这四种结构对行动效果,即解题效率的影响各不相同。例如,“环形结构” 和“Y 形结构”比“星形结构”和“链形结构”在解题时间方面更快。需要补充的是,尽管 这种研究展示了“结构”对“行动”的影响,是一种社会心理学的实验研究,与我们所说的 严格意义上的整体网研究稍有不同。 不管怎样,贝弗拉斯的研究激发了广泛的兴趣。来自许多领域的学者继续利用实验法开 展研究,扩展贝弗拉斯的工作。但是,这种兴趣迅速消退,因为贝弗拉斯于 1950 年从政。 “随后的探索者或者试图关注中心度的概念问题,或者关注交往结构对问题解决的影响,而 A E B C D E D A C B D A C E B A E B C D 环形 链形 Y形 星形 图 2-2 贝弗拉斯小组研究的一些实验交往形式 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 32 不是二者兼而有之。”(Freeman, 2004: 71)每个新研究者都关注整个社会网络图景的局部, 失去了其全景性。尽管如此,实验法却一直到今天仍然被网络学者使用。 6、问卷法 收集问卷资料的方法有多种。第一种是所谓的“以行为为基础的”方法,即每个问卷都 在整体网络的邻接矩阵中形成一行。也就是说,在下面的邻接矩阵中,交给 Andy 的问卷产 生了第一行数据,交给 Bill 的问卷产生第二行的数据,依次类推。这意味着,尽管我们把 一个整体网看成是一个整体,但是其中的每行都有不同的来源,可能拥有自己的偏差。 第二种方法是所谓的“以行 和列为基础”的方法,要求每个 人既说出自己给谁提供建议,也 指出自己得到谁的建议。也就是 说,对于任何一对人如 Andy 和 Bill 来说,我们拥有两个数据 点:来自于 Andy 的一个和来自 于 Bill 的一个数据点。然后, 我们需要某种用来判断数据中 数字的规则。例如,如果二者之一说是 1,那么矩阵相应的值就是 1 吗?还是二者都说是 1, 才用 1 来表示?这个标准需要研究者自己来决定。 第三种方法是 David Krackhardt 提出来的“一致性方法”(consensus method)。这 需要问群体中的每个成员,让他们说出群体中任何两个人之间的关系。其结果是,对于每一 对人,如 Andy 和 Bill 来说,我们有 N 个数据点,此时我们也需要某种标准,用来确定“正 确”的答案。 7. 导出法 假设已知行动者-事件或者行动者-群体数据,我们总能够据此构造一个行动者-行动者 (actor-by-actor)矩阵,这需要计算每一对行动者共享的实践/群体的数量。例如,戴维斯等 学者(Davis, Gardner and Gardner,1941)通过分析报纸上的社交信息,记录下来哪些女性 参加了哪些社交事件,数据如下所示(假定该矩阵名为 18women): 1 2 3 4 5 6 7 8 9 10 11 12 13 14 EVELYN 1 1 1 1 1 1 0 1 1 0 0 0 0 0 LAURA 1 1 1 0 1 1 1 1 0 0 0 0 0 0 THERESA 0 1 1 1 1 1 1 1 1 0 0 0 0 0 BRENDA 1 0 1 1 1 1 1 1 0 0 0 0 0 0 CHARLOTTE 0 0 1 1 1 0 1 0 0 0 0 0 0 0 FRANCES 0 0 1 0 1 1 0 1 0 0 0 0 0 0 ELEANOR 0 0 0 0 1 1 1 1 0 0 0 0 0 0 And Bil Car Dan Ele Fra Gar Andy 1 0 1 0 0 1 Bill 1 1 0 1 0 0 Carol 1 1 1 1 0 0 Dan 1 1 1 0 0 0 Elena 0 0 0 0 1 0 Frank 0 0 0 0 1 0 Garth 1 1 0 0 0 0 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 33 PEARL 0 0 0 0 0 1 0 1 1 0 0 0 0 0 RUTH 0 0 0 0 1 0 1 1 1 0 0 0 0 0 VERNE 0 0 0 0 0 0 1 1 1 0 0 1 0 0 MYRNA 0 0 0 0 0 0 0 1 1 1 0 1 0 0 KATHERINE 0 0 0 0 0 0 0 1 1 1 0 1 1 1 SYLVIA 0 0 0 0 0 0 1 1 1 1 0 1 1 1 NORA 0 0 0 0 0 1 1 0 1 1 1 1 1 1 HELEN 0 0 0 0 0 0 1 1 0 1 1 1 1 1 DOROTHY 0 0 0 0 0 0 0 1 1 1 0 1 0 0 OLIVIA 0 0 0 0 0 0 0 0 1 0 1 0 0 0 FLORA 0 0 0 0 0 0 0 0 1 0 1 0 0 0 在矩阵中,行代表女性,列代表她们参与的事件。我们可以据此构建一个女性-女性矩 阵,构造的方法是计算该矩阵与其转置矩阵之积(Y = XX')。计算的结果是一个矩阵,其 第 ij 项值记录的恰恰是女性 i 和女性 j 共同参加的事件数目(在 UCINET 中计算步骤有:首 先对 18women 矩阵进行转置处理,然后计算 Y=18women*18women')。图示如下: 然后,在“矩阵代数”(Matrix Algebra)算法中计算 18women 和 18women'的乘积。图示 如下: 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 34 点击“Matrix Algebra”之后,会出现“键入命令”(Enter command)对话框,在该对话框中 键入 Y=prod(18women,18women’),回车之后,就可以计算出“女性-女性矩阵”如下所示。 EVE LAU THE BRE CHA FRA ELE PEA RUT VER MYR KAT SYL NOR HEL DOR OLA FLO EVELYN 8 6 7 6 3 4 3 3 3 2 2 2 2 2 1 2 1 1 LAURA 6 7 6 6 3 4 4 2 3 2 1 1 2 2 2 1 0 0 THERESA 7 6 8 6 4 4 4 3 4 3 2 2 3 3 2 2 1 1 BRENDA 6 6 6 7 4 4 4 2 3 2 1 1 2 2 2 1 0 0 CHARLOTTE 3 3 4 4 4 2 2 0 2 1 0 0 1 1 1 0 0 0 FRANCES 4 4 4 4 2 4 3 2 2 1 1 1 1 1 1 1 0 0 ELEANOR 3 4 4 4 2 3 4 2 3 2 1 1 2 2 2 1 0 0 PEARL 3 2 3 2 0 2 2 3 2 2 2 2 2 2 1 2 1 1 RUTH 3 3 4 3 2 2 3 2 4 3 2 2 3 2 2 2 1 1 VERNE 2 2 3 2 1 1 2 2 3 4 3 3 4 3 3 3 1 1 MYRNA 2 1 2 1 0 1 1 2 2 3 4 4 4 3 3 4 1 1 KATHERINE 2 1 2 1 0 1 1 2 2 3 4 6 6 5 5 4 1 1 SYLVIA 2 2 3 2 1 1 2 2 3 4 4 6 7 6 6 4 1 1 NORA 2 2 3 2 1 1 2 2 2 3 3 5 6 8 6 3 2 2 HELEN 1 2 2 2 1 1 2 1 2 3 3 5 6 6 7 3 1 1 DOROTHY 2 1 2 1 0 1 1 2 2 3 4 4 4 3 3 4 1 1 OLIVIA 1 0 1 0 0 0 0 1 1 1 1 1 1 2 1 1 2 2 FLORA 1 0 1 0 0 0 0 1 1 1 1 1 1 2 1 1 2 2 利用同样的方法,可以把一系列坐标点转变为各个点对之间的距离矩阵,可以把诸如性别这 样的二值数据转变为“二人组性质的数据”(dyadic attribute data),如“与之属于同一性 别”。例如,下面 5 个人的性别之间的关系即可列表为: 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 35 MFFMF Male 1 0 0 1 0 Female 0 1 1 0 1 Female 0 1 1 0 1 Male 1 0 0 1 0 Female 0 1 1 0 1 关于整体网研究,特别是整体网资料的收集方法,请读者进一步参见罗家德(2005: 63~89)。本章有少许内容参考了该书,当然也有所补充。 二、问卷设计应注意的问题 整体网络问卷的设计也遵循在设计一般问卷的过程中所坚持的原则,但稍有不同。整体 网问卷的设计已经在有关文献中得到了详细的阐述(罗家德,2005),请读者参考该书第 4 章。这里择其要述之,并力图有所补充。 整体网研究往往是先具有较明确的边界,一般不能通过随机抽样的方法得到样本,分析 单位的选取也往往是比较明确的。整体网研究一般利用方便抽样方法得到样本。研究者一般 不使用随机抽样方法得到样本,即使运用随机抽样方法,得到的样本往往只应该进行个体网 研究,不能进行整体网研究,进行整体网研究也没有什么意义。 另外,由于在同一对行动者之间可能存在多类关系,因此,在整体网调查的时候应该进 行多维度的关系调查,即同时了解行动者之间的多种关系。这里涉及到一些调查技巧,如问 卷尽量不署名,但可以事后由研究者自己加上被调查者,即问卷填写者的姓名;保证不泄密; 强调本研究纯属于学术研究(罗家德,2005:70)。得到资料之后,需要输入计算机,其过 程参见罗家德(2005:71-77)。该书同时也给出了一个比较完整的整体网问卷,值得参考。 在调查整体网络中各个行动者之间的某种具体关系的时候,要求每个被调查者说出自己 与所有其他行动者之间的关系,说明关系是否存在,如果存在,紧密程度如何。例如,在考 察 5 个“国家”之间的“出口贸易关系”的时候,我们则需要收集这方面的数据,由研究者 自己决定两个国家之间的关系是否存在,如果存在关系,强度如何等问题。如果国家 1 向国 家 2 出口,则令第一行第二列的元素值为 1。当然,这种数据也可以是多值关系数据,可以 把出口贸易额放在各个相应元素值上。 行动者姓名 12345 1 2 3 4 5 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 36 三、整体网资料的整理和分析 用来分析、整理整体网数据的方法和软件很多。例如,在“国际社会网络分析网”(INSNA) 网站(www.insna.org)上可以链接到的网络软件达到几十种。其中,UCINET 是最常用的一 种。另外需要指出,很多学者结合自己编写的软件进行独具特色的网络研究(如网络变量的 统计推断研究,p 模型研究等),这种研究的要求较高。一般情况下,我们可用 EXCEL 软件 首先输入矩阵数据,然后用 UCINET 软件转换成自己的数据,再结合 UCINET 软件进行分 析。数据转换的具体方法不再赘述。 总之,整体网资料的整理和分析方法,可以利用很多网络分析软件,其中 UCINET 是最 常用的。用来分析整体网数据的统计方法则不是通常意义上的线性相关分析、偏相关分析、 方差分析、回归分析等。常规统计方法一般不能用来分析整体网络资料。那么,整体网研究 运用那些统计分析方法呢?回答是:看研究者分析的是什么层次的整体网,不同层次的整体 网研究对应着不同的分析方法。如果研究“二方关系”层次的网络整体结构,可以根据特定 的计算程序,计算出二方谱系,并对有关二方关系的命题进行检验。如果研究“子群”层次 的整体网络结构,可以利用 UCINET 软件,计算出“派系”、“n-派系”、“k-丛”等。如果研 究动态网络,往往需要利用计算机模拟方法(常见的软件包括 Repast,Swarm 等);三方关 系研究往往需要研究者自己编写独特的相关程序。这些内容比较复杂。有关具体的分析步骤 从略。 四、整体网资料的相关问题 1.信息的精确性 人们能真正地告诉你他们的社会网络是什么吗?很多营销学者发现,消费者很少会告诉 你昨天午餐吃得是什么。Bernard, Killworth and Sailer 系统地探讨了信息的精确度,发现他 们所说的信息 52%是错误的。在 Freeman, Freeman and Romney 的研究基础上,人们对自己 与他人之间的互动的回忆具有一种系统的偏向,偏向于正态的情形。当然,这种偏差至少要 比随机偏差好一些。 人们还有一种倾向,即倾向于记住与重要的他人之间的互动,倾向于忘记与不重要的他 人之间的互动。某些回答着会撒谎,好让别人认为自己是较好的。 在问卷中也存在如何解释问卷中的问题。“朋友”对于不同人来说的含义是不同的。 Krackhardt 的解决办法是,让被调查者自己判断自己与他人之间的朋友关系。因此,如果一 个人声称与每个人都是友谊关系的话,而每个人都声称他们没有朋友的话,那么我们就得到 一个启示,即他们可能在撒谎,或者误解了问题。 2.抽样中的问题 能利用抽样方法来研究整体网吗?一般来讲是不能的。然而,可以利用抽样资料对某些 假设进行检验。例如,可以根据抽样得到的点之间的关系资料来估计一个网络的密度。但是 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 37 这里是有问题的。如果从总体为 10000 的社区中随机抽取出 200 人进行调查,那么这 200 人之间的关系密度在多大程度上代表整体网络的密度?这很难计算。 个体网资料可以进行推断,整体网的则很难进行推断。 本文有部分内容是利用 UCINET 分析的,这可以看成是对整体网数据的具体处理过程。 还有很多具体的处理过程,因内容较多,方法复杂,这里不再赘述。 第三节 “整体网”研究的优缺点和意义 任何研究范式都不是万能的,都有其适用范围优点和缺点,整体网研究也不例外。 如果说个体网研究得到的结论具有推断的意义的话(因为个体网数据往往是根据随机抽 样方式得到的),那么就整体网的研究结论来说,由于多数整体网的资料都是通过“方面抽 样”(convenient sampling)得到的,因此,整体网研究得到的结论往往不具有统计推断的意 义,其结论只适用于所研究的群体(罗家德,2005:40~41)。这是必须强调的。 但是,整体网研究的结论往往具有很大的参考价值。这里有两点需要强调。首先,有的 研究的目的本身就是为了描述现象、揭示整体网的结构,而不是为了“推断”。例如,研究 一个组织内部人际关系网络的目的可能仅仅是为了找到“地下司令”是谁,找到哪些人构成 小派系,而不是为了找到具有推广价值的什么结论。在这种情况下,整体网研究就派上了用 场,学者也不关注“统计推断”问题。其次,如果研究的目的是为了推广的话,那么研究的 结论到底在多大程度上可以推广?我们往往不能给出量化的指标来,因为整体网数据不是利 用随机抽样方法得到的。尽管如此,由于一定地区的行动者之间的关系模式往往具有不同程 度的“共性”,遵循一定的“模式”(pattern),因此,我们可以说,也只能说整体网研究的 结论具有“一定的代表性”,而不能指明在多大程度上具有代表性。例如,就“亲属关系” 结构来说,“东北地区”的亲属称谓、亲属结构具有很大的相似性。考虑到这一点,可以认 为由一个村落的亲属关系结构可以“在一定程度上”推论到其他村落的结构,尽管这种推论 不是统计意义上的。 一、整体网研究的优点 整体网研究可以对整个网络有比较全面的研究。可以揭示整体网络的各种结构特征,例 如可以计算出网络的互惠指数、揭示网络中的三方关系结构以及整体网络结构,找到整体网 络中的分帮分派情况,计算出网络的密度等。显然,这种研究是个体网研究所不能达到的。 另外,在一个群体中,通过整体网络研究,找到非正式小群体,可以为高校、企业、政府、 或者非政府组织等搞好人际关系,提高效率提供参考。 另外,整体网络探讨的一个基本优势在于,它允许同时把社会系统视为一个整体和构成 整体的各个部分。这种研究可以揭示整体系统的整合性,发现整体网络的层次性、等级性和 阶层性等,可以解释联系的紧密性与整体网成员的行为之间的关系,可以找到整体中的联络 和分解的模式,找到结构对等的行动者等。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 38 二、整体网研究具有的局限性 1.关注整体,看不到个体网络的各种特征。这恰恰是个体网研究的优点所在。当然, 在对整体网络的结构进行描述和解释的时候,可以结合个体行动者的属性数据,就像可以根 据个体行动者的特点来解释块模型那样。尽管如此,抽象的整体网结构研究确实有仅仅关注 “形式”,忽视“内容”的危险。 2.整体网络的结构隐含着怎样的行为规范?人们为什么要互惠?这些问题是进行量化 的整体网研究所回答不了的。正是在这个意义上,我们认为个体网研究、整体网研究应该结 合在一起;规范研究和形式研究结合在一起。这样可能更好地描述、解释社会行为。 3.整体网络研究在方法论上不总是可行的,在分析上也不总是令人满意。这一方面是 因为进行整体网络研究必须首先规定整体的边界,列举出整体中的全部成员名单,调查他们 之间的各种关系。这些显然是存在问题的。例如,边界是明确的吗,不正确的边界会导致分 析的混乱。另外,整体全部成员之间的所有关系是很难调查到的。 总之,整体网研究的目的往往不是为了推广,毋宁说是为了揭示其结构。鉴于不同类型 的结构对行为有重要影响,因此这种整体网络结构研究具有重要意义。 最后需要补充的是,在当代社会网络研究领域中,一些取得重要突破性进展的领域往往 是在整体网研究中出现的,一些新的研究方向也多数是关于整体网络方面的研究。例如,布 雷格(Breiger, 2003)指出,40 年以来,社会网络研究集中如下几个方向上。 1. 对点、线、整体网络的研究,例如研究中心度、中心趋势等,对各种限制性因素进 行测量(Burt,1992)。这既是关于个体网方面的研究,也是整体网研究的内容。 2. 研究多元关系网络,对角色关联进行模型分析。有两位学者(Lazega and Pattison) 对一家美国公司的三个办公室之间的工作关系、提供建议关系和朋友关系进行了富 有创造意义的统计模型研究。 3. 对“对等性”(equivalence)的研究也是重点之一。此类研究把个人层次数据和整个 网络的宏观结构连在一起。此类研究主要有三类:“结构对等性”、“自同构对等性” 和“规则对等性”。除此之外,学者们又提出了具有一般形式的对等性研究(Borgatti and Everett, 1992a; 1992b; 1992c)。对网络的宏观结构模型研究更得到长足的进展 (Nowicki and Snijders,2001)。 弗里曼(Freeman, 2004)进一步指出,当代社会网络研究有如下四个特点: 1. 对社会行动者之间的某种特定关系的结构研究; 2. 建立在系统的数据基础上; 3. 大大依赖于图论语言和技术; 4. 应用数学模型、统计技术和计算机模拟。 整体网研究的进展要比个体网研究快得多,并且在国外已经取得很多重要成果。有关研 究已经非常深入,模型很复杂。实际上,整体网量化研究的学者往往专攻于一种十分具体的 网络模型(如块模型、核心-边缘模型等),在该网络模型领域不断推进下去。在这个意义上 可以说,我们很难对各个网络模型都有非常透彻的理解和掌握。因此,该领域的前沿性工作 需要我们不断地学习和研究下去。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 39 第四节 “整体网”数据的整理——UCINET 简介 UCINET(University of California at Irvine NETwork)是一种功能强大的社会网络分析软 件,它最初由加州大学尔湾分校(University of California at Irvine)的 Linton Freeman 编写, 后来主要由美国波士顿大学的 Steve Borgatti 和英国威斯敏斯特大学(Westminister University)的 Martin Everett 维护更新。它包括大量的网络分析指标(如中心度,二方关系 凝聚力测度,位置分析算法,派系的探查等),随机二方关系模型(stochastic dyad models) p1,对网络假设进行检验的程序(包括 QAP 矩阵相关和回归,定类数据和连续数据的自相 关检验等),还包括一般的统计和多元统计分析工具,如多维量表(multidimensional scaling), 对应分析(correspondence analysis)、因子分析(factor analysis)、聚类分析(cluster analysis)、 多元回归(multiple regression)等。除此之外,UCINET 还提供大量数据管理和转换的工具, 可以从图论程序转换为矩阵代数语言。UCINET 光盘(CD-ROM)(或者下载下来的安装版 UCINET)中还包含一个用户手册(User's Guide),UCINET for Windows 在 Windows 95/98/NT/2000/XP 平台上运行,至少需要 8 兆的内存(RAM),这对于任何一台当代电脑来 说都不是问题。 UCINET 6 发布了一百多个版本。最新版本的 UCINET 6 发布于 2006 年 12 月 21 日,它 是 UCINET 6.143(即进行了 143 次修订的 UCINET 6 版本),下载该软件的地址为(感谢该 软件的编写者提供免费的下载):http://www.analytictech.com/downloaduc6.htm,这 一 版 本增加了诸多功能: 1. 增加了对结构洞(structural holes)的测量以及其他个体网络的属性测度(Burt, 1992)。我们知道,测量结构洞的程序此前存在于 Burt 自己编写的 BURT 程序之中,并 且是一个 DOS 下的程序。UCINET 6 加入该程序,这是比较大的贡献。 2. 能够对 2-模数据(2-mode data)进行因子分析(Factor analysis),可以建构二部图 (bipartite graphs)。 3. 对核心-边缘模型进行了修正。 4. 给出了以重排为基础的统计步骤,用来检验涉及到网络数据的一整套研究假设。 5. 能够输入和输出 Excel 文件。 6. 散点图和树形图得到了改进。 7. 能够处理大型的数据(当然计算机的速度要跟上)。 8. 作出了大量的小修正,输入数据的格式增加了,增加了多种输出窗口,数据表 (spreadsheet)的功能更加强大。 9. 运算速度更快,是前一版本运算速度的 2 倍还多,这要感谢 32 位计算(32-bit processing)。 10. 附带的 NetDraw 画图程序的功能更强大,加入很多新的指标。 本章参考文献(略) 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 40 第三章 社会网络的形式化表达 本章摘要:本章主要介绍描述网络分数的两种方法:图和矩阵。介绍矩阵的几种算法, 特别是矩阵的乘法。 从数学角度上讲,有两种方法可以描述社会网络:社群图法和矩阵代数方法。 图论记法是一种比较基本的标记行动者及其间关系的计法。社群图(sociogram)是由 莫雷诺最早使用的,现在已经在社会网络中得到广泛使用。用一个二维矩阵表达每一种关系, 称之为社群矩阵(sociomatrix)。社群图矩阵是一些关于图(graph)的连接矩阵(adjacency matrices)。 第二种记法为矩阵代数(matrix algebra)记法,它用来研究多元关系,研究两种关系或 者多种关系的结合。总之,社会网络分析者主要利用数学领域中的两种工具:社群图和矩阵 代数。当然,社会网络方法论上的突破离不开统计技术的进展。 在表达网络数据的时候,为什么利用“正式的”图和矩阵方法?Hanneman 提出三点原 因(http://faculty.ucr.edu/~hanneman/第二章): 首先,矩阵和图都比较简洁,有系统性(compact and systematic)。它们都可以迅速地、 轻松地汇总并展示信息。它们迫使我们在描述社会关系的模式方面要具有系统性和全面性 (systematic and complete)。其次,矩阵和图允许我们利用计算机来分析数据。这一点十分 有用,因为如果行动者数量很多或者网络维度较多的话,对社会网络数据的系统的分析可能 极为费力。大多数分析的工作都使重复性的、耗费时间的、但是却需要有精确性,这些工作 都适用于计算机来做,人工来做往往不可行。最后,矩阵和图拥有自己的规则和约定。有时 候,这些约定可帮助我们进行明确的交流。但是有时候这些约定图论语言和数学语言本身引 导我们看到一些仅仅根据语言所看不到的东西来。 鉴于图和矩阵拥有的这些好处,本章即介绍如何利用它们来表达关系网络资料。拥有了 这两种工具,我们就能够理解网络分析者是怎样计算一些网络测度的(例如密度、点入度等)。 第一节 关系网络的图形表达法 一、社群图的定义 图可以有多种类型,如各种“变量图”。网络图主要由点( nodes, vertices, actors, points) (代表行动者)和线( edges, arcs, lines, ties)(代表行动者之间的关系)构成 。 线记载的是各个点之间是否存在关系,可以是多值的,也可以二值;可以有方向,也可 以无方向;可以是 1-模的,或者 2-模的。网络分析者把根据这种思想得到的图叫做社群图 (sociogram)。社群图中的点集可以表示为:N={n1,n2,⋯,ng}。这样,一个群体成员之 间的关系就可以用一个由点和线连成的图表示。“网络图”与 “变量图”(如直方图、圆瓣 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 41 图等)之间有显著的差别,这一点很重要。 图论研究的第一步是根据现有的资料或者社会网络进行“画图”。需要指出的是,即使 对同一个网络来说,用来表达它的图可以有多种形式,例如,以下是表示同样关系的两个图。 如果分析该网络的结构,可以看出二者是完全等同的。画图表对于图论来说极其重要。下面 介绍在画图过程中涉及到的一些问题。 假设我们分析张三、李四、王五以及赵六这四个人之间的“朋友”关系,研究他们之间 相互“选择谁作为自己的朋友”。我们定义:“选择谁作为自己的朋友,就把箭头指向谁”。 假设通过调查,“张三”选择“王五”为朋友,那么,就存在一个从张三指向王五的箭头, 如下图所示。假设“李四”和“赵六”相互选择对方为朋友,则在二者之间存在一个“双向 箭头”,其他关系依此类推。这样,我们就可以利用图形直观地把他们之间的友谊关系表征 如下: 第二步就是对画出的图进行分析,可以分析图的诸多特点。如图中每个点的度数、互惠 关系的数目、整个图的密度、分析子图、派系等。 二、社群图的分类 根据不同的标准,社群图的种类也不同。 张三 李四 王五 赵六 【图 3-1】四人之间的朋友关系网: 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 42 1.如果根据关系(线)的方向,可以分为“有向图”(directed graph, digraph)(如下面 的(2)和(4)所示)和“无向图”(undirected graph)(如下面的(1)和(3)所示)。 2.如果根据关系紧密的“程度”,可以把关系图分为“二值图”(binary graph)(如下 面的(1)和(2)所示)、符号图(signed graph)以及多值图(valued graph)(如下面的(3) 和(4)所示)。据此画出来的图分为三类。 3.有的图中的线可以既有向又多值。 如果关系既是有方向的,关系的“程度”也很重要,那么,可以赋予线以一定的数值和 方向,研究者可以据此建构一个有向多值图(directional valued graph)(如下面的(4)所示), 把一定的数值赋予每条线上。关于多值图的矩阵一般是不对称的。测量关系密度的最常用的 方法是用线的“多维度”(multiplicity)。例如,如果两个社团共享的成员有 2 个,那么二个 社团之间关系的多维度就是 2 ,如果两个社团共享 3 个成员,那么二个社团关系的多维度 就是 3。 4.如果根据网络中各个成员之间联系的紧密度,可以把图分为“完备图 ”(complete graph)和“非完备图”(non-complete graph)。具体地说,如果一个图中的任何两个点之间 都相连,称这样的图为完备图,否则为非完备图。也就是说,一个“完备图”指的是那种其 所有点都连接在一起的图。当然,这种情况即使小网络中也很少见。也就是说,一般图都是 非完备图。 图 3-3:各种图 根据图就可以构造矩阵(刘军,2004:59)。因此,与上述四类图对应,矩阵的分类也 主要有四类:二值无向,二值有向,多值无向,多值有向。 AA BB CC 行行总总和和 AA -- 11 11 22 BB 11 -- 00 11 CC 00 11 -- 11 列列总总和和 11 22 11 B A C 【图 3-2】:一个有向图及其邻接矩阵 (3)多值无向图 (4)多值有向图 (1)二值无向图 (2)二值有向图 1 3 4 21 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 43 第二节 关系网络的矩阵表达法 如果社群图涉及到的点很多(例如 100 人),那么图形就相当复杂,很难分析出关系的 结构,这是社群图的一个缺点。在这种情况下,我们最好利用矩阵方法表达关系网络。 一、什么是矩阵? 简单地说,矩阵就是一个长方形的因素的排列。矩阵常常用大写英文字母(例如 A)表 示,矩阵中的因素用小写字母(如 a)表示。矩阵的规模由行和列的个数来表示。例如,一 个有 3 行 5 列的矩阵 A 记作 A3×5。如果矩阵的行数和列数不同,称这样的矩阵为长方阵; 如果矩阵的行数和列数相同,称这样的矩阵为正方阵,简称方阵。 矩阵中的要素由其所在的位置来表示。例如,矩阵 X 中的第 2 行第 4 列的要素记作 x24。 矩阵中的每个格值都有自己的“标签”或者位置。我们可以清楚地看到作为社会行动者的各 个行和列之间的关系。 如果行和列都代表来自于一个行动者集合的“社会行动者”,那么矩阵中的要素代表的 就是各个行动者之间的“关系”。这种网络是前面介绍的 1-模网络。如果行和列代表来自两 个行动者集合的“社会行动者”,那么矩阵中的要素代表的就是两个行动者集合中的各个行 动者之间的“关系”,这种网络是 2-模网络。如果“行”代表来自一个行动者集合的“社会 行动者”,“列”代表行动者所属的“事件”,那么矩阵中的要素指的是行动者隶属于“事件” 的情况,这种网络也是 2-模网络,具体地说是“隶属关系网络”。 二、社会网络分析中涉及到的几类矩阵 (一)邻接矩阵(Adjacency Matrix) 在社会网络分析中,最常使用的矩阵是一类正方阵,在此方阵中,行和列都代表完全相 同的社会行动者,并且行和列排列的顺序相同,矩阵中的要素往往是二值的,代表的动者之 间的关系。图论专家常常称这样的矩阵为邻接矩阵,并且记作 X。在此类矩阵中,矩阵各个 要素是“1”或者“0”,分别代表关系的存在与否。根据邻接矩阵可以构建邻接关系表,如 下所示: A B C D E A 1 B 1 1 C 1 1 1 D 1 1 E 1 1 从中可以计算图论的一些基本测度。例如: 1.关系的总量(volume):在个体网络的意义上,一个点的关系总量指的是该点发出或 a b b a c c b d e d c e e c d 邻接关系表 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 44 者接收到的关系总数。对于有向关系来说,可以有点入度和点出度两种。对于上述矩阵来说, 各个点的总量(点入度和点出度)如下所示: 2.可达性(reachability):如果在一个图的两点之间存在一条途径(path),则称这两个 点是可达的(reachable)。 两个点之间的捷径距离(geodesic distance):它们之间的最短途径。如果在图中任何点对之 间都至少存在一条途径的话,则称这样的图为关联也叫做成分(component)。对于两条途径 来说,如果只有两个端点是一样的,其余点不重叠的话,则称这样的途径相互独立 (independent)如果一个图在任何两点之间都存在两条独立途径的话,则称这样的图为二部 关联图(biconnected),即二成分(bicomponent)。同理存在三条途径、四条途径等情况。 一个社群矩阵是一个拥有 n 行 n 列的 1-模网络。矩阵中的各行和各列分别用 1、2、⋯、 点 点入度 点出度 a 1 1 b 2 1 c 1 3 d 2 0 e 1 2 均值 7/5 7/5 A B C D E 行总和 A - 1 0 0 1 2 B 1 - 1 1 1 4 C 0 1 - 1 0 2 D 0 1 1 - 0 2 E 1 1 0 0 - 2 列总和 2 4 2 2 2 12(总和) 图 3-4:社群矩阵 X E B D C A E D C A A B E B D C 5 点图的三种表示方法 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 45 n 作为标签,代表图中的各个点或者网络中的各个行动者,行和列的排列顺序一般相同。如 果点 ni 和 nj 之间是邻接的,则 xij=1,否则为 0。 如果一个矩阵中的所有项都满足 xij = xji 这个条件,我们就说该矩阵是对称矩阵。 如果一个矩阵是用来刻画一个完备图的,那么,该矩阵中的所有非对角线上的值都是 1, 因为,完备图中的任何两点都直接相连。 在图 3-4 中,由于点 A(即第一个点)和 B(即第二个点)相连,所以 x12 = 1;点 D 和 E 之间没有关系,所以,x45 = 0。又由于我们常常不研究行动者与自身的关系,因此,在矩 阵中,对主对角线上的值常常不加定义,记作“-”。 在有向关系网络中,人们常常约定矩阵行.位置的行动者是某种特定关系的发送者,约定 矩阵列.位置的行动者是这种特定关系的接受者。这样一个矩阵 A 表达的就是一系列行动者 之间的某一特定类型的关系。而在社群图中,关系可以用点与点之间的线来表示。例如,在 图 3-2 中,5 个公司之间的 5×5 对称邻接矩阵可以用一个包含 6 条线的 5 个点的图形表示, 这些线对应的是矩阵中的非 0 关系的存在。 在一个图中,关联的模式很重要,点的实际位置并不重要。图论专家并不关注线的长短、 点的大小、位置等。图 3-3 中的 3 个图表达的都是同一个图的形式。 (二)发生阵( incidence matrix) 另一类用来刻划图的信息的矩阵是发生阵,常常记作 I,或者 I(g)。它表达的是哪个 点连接在哪条线上。因此,矩阵中的各行代表各个点,各列代表各条线。如果第 i 个点处于 第 j 条线上,记该矩阵中第 i 行第 j 列的值为“1”,否则为 0。如果一个图含有 g 个点 l 条 线,则与该图对应的发生阵是 g 行 l 列的,即该矩阵的规模为 g×l。或者说,图中有多少点 就在其相应的发生矩阵中有多少“行”,有多少“线”就在其发生阵中有多少“列”。 发生阵一定是二值的。发生阵一般不是正方阵,因为网络中的点数和线数不一定相等。 由于一条线只连接 2 个点,因此,在发生矩阵中的任何一列中有并且只有 2 个“1”。 不管是邻接矩阵还是发生阵,他们都表达了图的全部信息。 (三)隶属关系矩阵(affiliation matrix) 在社会网络分析中,学者们常常研究社会行动者的隶属关系。例如,可以研究一个学术 共同体成员分别隶属于哪些学术团体,参与了什么事件等。此时,可以利用 N 行代表 N 个 行动者,M 列代表 M 个事件等。从而可以构造一个隶属关系矩阵。如下矩阵就是此类矩阵: l1 l 2 l 3 l 4 l 5 l 6 A 1 0 0 0 0 1 B 1 1 0 1 1 0 C 0 1 1 0 0 0 D 0 0 1 1 0 0 E 0 0 0 0 1 1 l4 l2l6 l3 l1 l3 A E B D C 【图 3-5】:图 3-2 的发生阵 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 46 社团 1 社团 2 社团 3 社团 4 A B C D E F 1 1 1 0 0 1 0 1 0 1 1 0 1 0 0 1 0 1 0 0 1 0 1 1 6 个学生参与 4 个社团关系矩阵 (四)有向关系矩阵和多值关系矩阵 有向关系矩阵一般不对称。如果研究的关系是多值的,那么在其对应的矩阵中,就不仅 仅有“1”和“0”了,还将有研究者所赋予的“值”。例如,研究两个群体(A 群体和 B 群 体)的成员之间“相互了解”的情况。如果定义:3 =“很了解”,2 =“比较了解”,1 = “不 太了解”,0 =“不了解”。假设得到如图 3-7 所示的矩阵: B1 B2 B3 B4 A1 A2 A3 A4 A5 A6 1 3 0 2 0 2 2 1 0 3 1 0 1 3 0 1 0 1 2 0 1 0 0 0 【图 3-6】:A 群体的 6 个成员与 B 群体的 4 个成员之间相互了解情况表 由图可见,A6 除了“不太了解”B1 之外,对 B 群体的其他成员一概“不了解”。显然, 这是一个多值关系矩阵。 三、矩阵的基本运算 在社会网络分析中,为了研究行动者之间的关系,很多情况下涉及到矩阵的运算。尽管 这个过程可以通过电脑来计算,但是,如果不了解矩阵运算的原理,我们也不能很好地执行 矩阵的运算。因此,以下简单介绍矩阵的运算法则。 (一)矩阵的重排(matrix permutation) 在图 3-3 中可以发现两个派系。但是,这种发现没有明确地表现在图 3-4 中,因为此矩 阵中的行和列的排列是随机的。如果相应地调换一下图 3-4 中的行和列,例如把点 C 和 E 所在的行和列同时调换一下,我们就可以发现这种派系的存在。在矩阵中,这种调换就叫做 “重排”(permutation)。重排的含义是:对一系列对象进行任何的重新排列。 如果一个集合 包含 g 个要素,就可能存在 (1)(2)21gg g×−×−⋅⋅⋅××种可能的排列。例如,图 3-4 中有 5 个要素,可能存在 5×4×3×2×1 = 120 种重新排列的方法。要注意的是,在重新排列矩 阵的时候,一定要把相应的行和列同时进行重排 。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 47 同时调换矩阵的行和列并不给矩阵的信息带来任何改变,并且有时候这种重排的好处是 可以发现矩阵的结构特征或者结构模式。例如,如果研究一个村落的每户居民之间的“亲属 关系”,就可能通过矩阵重排的方法找到该村落中共有多少“家族”。 例如,对图 3-4 进行重排(同时调换 C 和 E 所在的行和列)的结果如下: 总之,矩阵重排的好处表现在如下几个相互关联的方面:(1)用来寻找一个网络中有多 少个凝聚子群(cohesive subgroup)或者多少各派系(cliques);(2)用来构造并且寻找矩阵 中有多少“块模型”(block-models);(3)与之相关的是,如果网络可以分为 2-团体,可以 利用矩阵重排的方法找到这两个团体的成员到底有哪些。总之,矩阵重排的目的是为了找到 矩阵中隐含的有规律的关系模式。 (二)矩阵的转置(transpose) 如果把一个矩阵 X 的所有的行和列进行调换,就得到该矩阵的转置矩阵,记作 'X ,其 中的要素记作 'ijx 。对于矩阵 X 来说,其转置矩阵中的项记作 'ij ijx x= 。 如果矩阵 X 是对称的,那么 X 与其转置矩阵 'X 是相同的,即 'X X= 。对于一个代表 有向关系图的矩阵来说,它与其转置矩阵就不一定相同。 在一个社群矩阵 X 中,其取值 ijx =1 表示存在一个由行动者 i 指向行动者 j 的关系。但 是,在社群矩阵 X 的转置矩阵 'X 中,其取值 'ijx 表达行动者 i 接收到行动者 j 的一种关系。 总之,一个矩阵的转置代表有向图的逆关系,并且满足如下条件: 如果 1jix = ,那么, '1ijx = 。 图 3-1 的矩阵及其转置矩阵如下: A B E D C A - 1 1 0 0 B 1 - 1 1 1 E 1 1 - 0 0 D 0 1 0 - 1 C 0 1 0 1 - 【图 3-7】:图 3-4 的重排矩阵 张三 李四 王五 赵六 张三 - 1 1 0 李四 1 - 0 1 王五 0 1 - 1 赵六 0 1 1 - 张三 李四 王五 赵六 张三 - 1 0 0 李四 1 - 1 1 王五 1 0 - 1 赵六 0 1 1 - 把矩阵转置: 图 3-8:图 3-1 对应的矩阵及其转置矩阵 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 48 (三)矩阵的加法和减法(Add and Subtraction) 两个具有相同规模(矩阵的行数和列数都相同)的矩阵的加法定义为:两个矩阵的对应 要素相加。例如,如果两个矩阵 X 和 Y 都是 g 行 c 列的,那么,我们定义二者之和为 Z, 即 Z = X+Y,其中,zij = xij+yij。 同理,两个具有相同规模(矩阵的行数和列数都相同)的矩阵的减法定义为:两个矩阵 的对应要素相减。例如,如果两个矩阵 X 和 Y 都是 g 行 c 列的,那么,我们定义二者之差 为 Z,即 Z = X-Y,其中,zij = xij-yij。 (四)矩阵之幂次(Powers of a Matrix) 已知一个 g×g 的社群矩阵 X。我们把 X 与 X 的乘积,即 XX 记作 X2,叫做 X 的二次 幂。X2 也是 g 行 g 列的矩阵。把 XXX 记作 X3,叫做 X 的三次幂。n 个 X 相乘得到 X 的 n 次幂,即 Xn。 (五)矩阵之积(Matrix Multiplication)和布尔代数积 在社会网络分析中,矩阵的乘法是非常重要的一种运算。它可以用来研究图中“途径” (walks)的个数,研究图的可达性(reachability)。 在计算矩阵之积的时候,要求第一个矩阵的列数和第二个矩阵的行数必须相同。在计算 过程中,需要从第一个矩阵的左上角开始。用第一个矩阵的第一行的每个元素分别乘以第二 个矩阵的第一列的每个元素,然后计算汇总量。这个值就是结果矩阵(积矩阵)中的第一行 第一列元素的值。计算第一个矩阵的第一行的各个元素分别与第二个矩阵的第二列对应的元 素之积,然后再计算汇总量,得到的就是结果矩阵的第二行第二列的元素值。持续这样的计 算,就可以得到结果矩阵中所有元素之值。下面给出矩阵之积的形式化定义。 1.矩阵之积。首先看两个矩阵:g 行 h 列的矩阵 X 和 h 行 k 列的矩阵 W。要求矩阵 X 的列数一定要等于矩阵 W 的行数。我们定义这两个矩阵之积( product)为 Z = XW,Z 中 的元素为: 1 h ij il lj l zxw = = ∑ 。矩阵之积 Z 有 g 行 k 列,Z 中的(i,j)格值等于 X 的第 i 行与 W 的第 j 列的对应元素之积。 再举一例。假设有四个行动者 A、B、C、D,他们之间的有向关系图及其邻接矩阵如下: 1 2 3 4 3 2 1 3 2 4 3 2 14 17 16 28 X × W = Z × = ζ11 = (1×1)+(2×2)+(3×3)= 14 ζ12 = (1×3)+(2×4)+(3×2)= 17 ζ21 = (4×1)+(3×2)+(2×3)= 16 ζ22 = (4×3)+(3×4)+(2×2)= 28 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 49 假设我们计算该矩阵与自身的乘积(即计算矩阵的二次幂),得到如下结果: 这个矩阵就是邻接矩阵的平方矩阵,其中的元素计算的是两个行动者之间存在的长度为 2 的途径的数目。例如,A 与每个其他行动者都通过一条距离为 2 的途径联系在一起,并且 距离为 2 的途径有且只有一条。行动者 C 与可以通过三条距离为 2 的途径与自身联系在一 起。这是因为 C 与所有其他三个行动者都有互惠的关系。尽管 C 到 A 有一条距离为 1 的途 径,但是,从 C 到 A 却不存在一条距离为 2 的途径。这些分析都可以从图中看到。 综上所述,邻接矩阵告诉我们的是在一个行动者到另外一个行动者之间存在多少条距离 为 1 的途径;邻接矩阵的平方矩阵告诉我们的是在一个行动者到另外一个行动者之间存在多 少条距离为 2 的途径;邻接矩阵的三次方矩阵告诉我们的是在一个行动者到另外一个行动者 之间存在多少条距离为 3 的途径,依此类推。 21 30 52 A − = − , 16 12 03 B =− − − , 44 3 012C = − − 问:这三个矩阵中的那两个可以相乘? 解: 4×2 + 4×3 +(-3)×(-5)=35; 4×(-1) + 4×0 +(-3)×2 = -10; 0×2 + (-1)×3 +(-2)×5 = 7; 0×(-1) + (-1)×0 +(-2)×2 = -4。 因此, 2144 3 351030012 7 452 CA −−− ×= × = −− − − 。 2.矩阵的布尔代数积 。布尔代数积的定义与矩阵积类似。二者之间的唯一差异在于, 在积矩阵中,如果计算得到的元素不等于 0,则赋予积矩阵中相应的元素值为“1”;计算得 到的元素为 0,则取值为 0。下面给出其定义。 同样是上述两个矩阵:g 行 h 列的矩阵 X 和 h 行 k 列的矩阵 W。矩阵 X 的列数也一定 A B C D A 0 1 1 0 B 0 0 1 0 C 1 1 0 1 D 0 0 1 0 A B C D A 1 1 1 1 B 1 1 0 1 C 0 1 3 0 D 1 1 0 1 A B C D 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 50 要等同矩阵 W 的行数。我们定义这两个矩阵之布尔代数积(Boolean product)为 Z = XW, Z 中的元素为: 1 11 0 h il lj lij xwz =  ≠=   ∑ 如果 其他 矩阵之积 Z 有 g 行 k 列。具体计算的实例略。 由上述说明可以推而得知,如果计算的是布尔代数积,而不是简单的矩阵之积,那么邻 接矩阵的平方告诉我们的是两个行动者之间存在一条距离为 2 的途径(而不是存在多少条途 径);进而言之,如果根据布尔代数算法进行计算,那么邻接矩阵的三次方矩阵告诉我们的 是在两个行动者之间是否存在(而不是存在多少)一条距离为 3 的途径,依此类推。 可想而知,计算布尔代数积的好处在于,可以让我们了解图中行动者之间存在不同距离 途径的情况。 (六)布尔代数运算(Boolean Arithmetic) 布尔代数指针对 1-0 矩阵进行计算。0-1 矩阵的特点允许进行布尔代数运算。例如,“并” (And / meet)和“或”(OR / join)的运算等。令 A 和 B 都是 m x n 矩阵。A 和 B 的“或” 运算等于 (, ) (, )A ij Bij∨ ,A 和 B 的“并”运算等于 (, ) (, )A ij Bij∧ 。需要注意的是,布 尔代数算法(Boolean arithmetic)只有在两个矩阵拥有相同行数和列数的时候才能计算出 来。举例:计算如下两个矩阵的“并集”和“合集”。 01 11 10 00 11 01 AB    ==    并集: 01 11 0111 01 10 00 1000 00 11 01 1011 01 AB ∩∩   ∩= ∩ = ∩ ∩ =  ∩∩  合集: 01 11 0111 11 10 00 1000 10 11 01 1011 11 AB ∪∪   ∪= ∪ = ∪ ∪ =  ∪∪  四、UCINET 中矩阵运算的几类句法 在 UCINET 中,矩阵的各种运算都可利用一定的算法进行。总的来说,这些算法都具 有如下形式:output matrix = function(arguments) 具体计算的路径:在 UCINET 中,选择 Tools > Matrix Algebra 这条路径,键入相应的命 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 51 令,回车即可得到计算的结果。针对矩阵的计算主要有如下四类: (一)一元操作(UNIARY OPERATIONS) 它只针对矩阵本身进行的操作。例如, i = id(100)(生成一个单位矩阵) mat([,][,],[(把一个数字转变为一个矩阵,或者产生一个常数矩阵)。 如果 , , and 没有被指定,那么该程序将生成一个 1 行 1 列的常数矩阵, 它只包含一个数字 。参数 指定矩阵的层次(或者数目)。如果指定了 , 那么必须也指定 and 。例如, junk = mat(3.92)(生成一个 1 行 1 列的矩阵) junk = mat(4,10,10) (生成一个 10 行 10 列的矩阵,其中的值都是 4) junk = mat(4,10,10,2) (生成 2 个 10 行 10 列的矩阵,其中的值都是 4) (二)二元操作(BINARY OPERATIONS) 该类计算至少针对两个矩阵进行操作。输出矩阵=运算法则(两个或多个矩阵)。例如, 转置运算: a:tdavis = transpose(c:\ucinet\data\davis) 加法运算: = add(,,...) y = inverse(transpose(inf))(计算矩阵 inf 的转置矩阵的逆矩阵,并保存为矩阵 y。可以用 一个复杂的语句计算所需的矩阵,如:b = prod(inv(prod(transp(x),x)),prod(transp(x),y))。但 是 这样容易出现错误,最好可以改变为: xt = transp(x) xtx = prod(xt,x)(计算矩阵之积) xty = prod(xt,y) b = prod(inv(xtx),xty) 其它句法举例如下。 1.布尔代数积(BOOLEAN PRODUCT),其句法为: bprod(,)(它将计算出两个二值矩阵的布尔代数积)。例如, junk= bprod(business,marriage) 2.乘积(MULTIPLY),句法为 mul(,,...)(计算两个或者多个矩阵对应值 的均值。例如,c = mul(a,b)将计算出矩阵 a 和 b 的积,结果矩阵命名为 c。 3.乘积 PRODUCT - Syntax: prod(,,...)。它是矩阵之积,而不是矩阵的对 应元素之际,因而与 MULTIPLY 算法不同。例如, buskin = prod(business,marriage)。在该例子中,计算的是商业关系矩阵和婚姻关系矩阵的乘 积,结果为 buskin 矩阵。 需要补充的是,计算两个矩阵之积的含义是什么?可以简单地将,由于我们往往约定矩 阵的含义代表的是“发送-接收”关系,因此,两个矩阵之积代表“发送-接收关系”再乘以 “发送-接收关系”,它等于新的“发送-接收关系”。实际上给出的是 2-步途径距离的情况(即 发送者的接受者的接受者的情况) 如果计算矩阵的幂次,道理类似。总的来说,矩阵 Ap 中各项给出的是从点 i 到 j 的长度 为 p 的线路(walk)总数(Wasserman and Faust, 1994: 159)。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 52 4.矩阵相减(SUBTRACT)。句法为 sub(,,...)(其含义为前一个矩阵和后 一个矩阵的对应元素相减。例如,c = sub(a,b)。 (三)矩阵内运算(INNER PRODUCTS) nties = tot(davis)(该算法将计算出 davis 这个矩阵中的总关系数,并命名为 nties) tdavis = transp(davis)(该算法将计算出 davis 这个矩阵中的转置矩阵,并命名为 tdavis) (四)程序(PROCEDURES) 1.展示(DISPLAY)。对应的句法为 disp or dsp (它将在屏幕上展示出 的全部格值。此类例子又如: dsp c:\ucinet\data\padgett(展示 c 盘 ucinet 文件夹中 data 中的 padgett 这个矩阵) 2.inv(camp92)。该命令将针对方阵 camp92 进行逆矩阵分析(inverse),该命令展示出 camp92 这个矩阵的逆矩阵。 3.ginv()将计算出一个矩阵的一般化的逆矩阵。什么是一般化的逆矩阵?对于一 个矩阵 X 来说,如果有一个矩阵 X-1,使得 XX-1 = I 的话,那么 X-1 就叫做 X 这个矩阵的逆 矩阵。其中,I 叫做单位矩阵(identity matrix)。 把 dsp 和 ginv 或者 inv 结合,可能输入如下语句: dsp ginv(davis))(展示 davis 这个矩阵的一般化的逆矩阵)。 dsp inv(camp92)(展示 camp92 这个矩阵的逆矩阵)。 五、利用 UCINET 中矩阵算法进行实际操作例示 假设我们研究 6 个城市人和农村人之间的关系,通过调查,得到如下图所示的关系。假 设 A,B,F 来自于“城市”(用红色标出),C,D,E 来自于“农村”(用黄色标出)(如下 图所示)。现在的问题是,如何计算出市民之间的联系数,村民之间的联络数以及市民和村 民之间联系的数目?我们可以通过矩阵的操作来计算这些指标(参见 p.162 of W & F)。 A E D CF B X 0 1 0 0 0 1 1 0 1 0 0 0 0 1 0 1 1 1 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 0 X2 2 0 2 0 0 0 0 2 0 1 1 2 2 0 4 1 1 0 0 1 1 2 1 1 0 1 1 1 2 1 0 2 0 1 1 2 X3 0 4 0 2 2 4 4 0 6 1 1 0 0 6 2 5 5 6 2 1 5 2 3 1 2 1 5 3 2 1 4 0 6 1 1 0 Distance . 1 2 3 3 1 1 . 1 2 2 2 2 1 . 1 1 1 3 2 1 . 1 2 3 2 1 1 . 2 1 2 1 2 2 . 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 53 多个矩阵的运算也可以使得我们注意到混合的模式(mixing patterns):多类关系之间的 关联。仅仅把邻接矩阵乘以一个类别指标即可。例如,对于上图来说,如果 A,B,F 来自 于“城市”,C,D,E 来自于“农村”,那么 从计算结果可以看出,对于市民 a 来说,他与两个城里人有联系,与乡下人没有任何联 系;而对于 b 来说,他与一个城里人有联系,与一个乡下人有联系;对于村民 c 来说,他与 两个城里人,两个乡下人都有联系;对于 d 来说,他与城里人没有任何联系,但是与两个乡 下人有联系。至于对 e 和 f 的解释与之类似,读者可很容易地从图中看出来。 如果我们希望了解在由这 6 个点构成的网络中,城里人之间的联系,城乡的联系以及乡 里人之间的联系的话,则可以进行如下的计算:即用“来源矩阵的转置矩阵”乘以“邻接矩 阵 X 与来源矩阵之积”的乘积,如下所示: 计算结果表明,城里人之间的联系有 4 个,城乡之间的联系有 4 个(从城到乡的 2 个加 上从乡到城的 2 个),乡里人之间的联系则有 6 个。考虑到这是无向关系矩阵,因此,每个 值都要除以 2。也就是说,城里人之间的联系有 2 个,城乡之间的联系有 2 个,乡里人之间 的联系则有 3 个。 上述计算仅仅针对的是本例。实际上,读者完全可以根据自己收集到的案例数据,进行 有意义的计算。例如,通过进行类似的计算,我们可能计算出来“社会资本高”的人之间的 联系有多少,“社会资本低”的人之间的联系有多少,以及“社会资本高”的人和“社会资 本低”的人之间的联系有多少。这种计算有时候是很有意义的。 a b c d e f 0 1 0 0 0 1 1 0 1 0 0 0 0 1 0 1 1 1 0 0 1 0 1 0 0 0 1 1 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 0 1 1 0 城 乡 a b c d e f 2 0 1 1 2 2 0 2 0 2 1 1 × = 来源矩阵 点 X X•来源矩阵 来源矩阵T•(X•来源矩阵)= 城 乡 城 4 2 乡 2 6 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 54 第四章 中心性——权力的量化研究① 本章内容摘要:度数中心性;中间中心性(点的中间中心度和线的中间中心度);接近 中心性;特征向量中心性; Bonacich 权力指数;影响指数(influence)(针对多值图);信 息中心度;可达中心性(Reach Centrality)和群体中心度分析,最后用实例展示中心性研究 的应用。 “权力”(power)是社会学中的一个重要概念。我们经常凭直觉去理解、使用这个词, 但是,它却很少有严格的定义。什么是“权力”,如何描述和分析权力,不同的社会学家给 出不同的回答。我们认为,抽象的一个人是没有任何权力的。一个人之所以拥有权力,是因 为他与他者存在关系,可以控制、影响他人。或者说,一个人的权力就是他者的依赖性,反 之亦然。 从社会网络的角度对权力的这种界定可以进一步体现在网络研究者对权力的各种定量 表述上。也就是说,网络分析者是从“关系”的角度出发定量地界定权力的 ,并且给出多种 关于社会权力的具体的形式化定义,即各种中心度和中心势指数。中心度是对个体行动者权 力的量化分析,中心势指数是对群体权力的量化分析。这可以看成是网络分析者的独特贡献, 因为网络研究者更倾向于用“中心性”表达权力概念。 “中心性”是社会网络分析中的重点之一。个人或者组织在其社会网络中具有怎样的权 力,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。 与点的中心度相关的另一个概念就是一个图的“中心势” (centralization of a graph),这 两个词的含义常常令人混淆不清。例如,在弗里曼(Freeman,1979)的研究工作中,他既 谈到了“点的中心度”(point centrality),又谈到了“图的中心度”(graph centrality)。如果 把“中心度”这一术语严格地限制为点的中心度,而“中心势”特指一个作为整体的图的中 心度,那么,所有的混淆都将消失(Scott, 2000)。因此,“中心势”指的并不是点的相对重 要性,而是图的总体整合度或者一致性。例如,图可以或多或少地围绕某些特殊点达到一定 的中心势。学者们已经编写出许多用来测量中心势的电脑程序。 需要补充的是,在研究中心度和中心势的时候,一般坚持这样的思路:首先给出一个点 的各种“绝对中心度”的表达式;然后,出于“比较”的考虑,即为了对来自不同图的点的 中心度进行比较,需要给出“相对中心度”指数,即“标准化”的绝对中心度指数。计算一 个点的“相对中心度”指数的原则是,该点的“绝对中心度”除以该点所在图的所有其他点 最多可能存在的中心度指数之和(一般情况下,在星形网络中,各个点的中心度指数之和达 到最大)。最后,给出一个图在整体上的中心势指数。 ① 本章是在拙作(2004:第五章)的基础上增补而成的,同时也参考了 Moody 个人主 页上的讲义 Class-14.ppt。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 55 第一节 度数中心性 前面已指出,如果根据的标准不同,用以刻画中心度的指标也不同,“权力”的指标也 就不同。社会网络研究中所说的中心度类似于在社会分层研究中的不平等性,二者都有多种 研究的视角。以下我们主要结合美国加州大学尔湾分校弗里曼教授的经典文章(Freeman, 1979)以及有关文献,介绍比较常用的几类中心度以及中心势指数,包括:度数中心度、中 间中心度、接近中心度、特征值中心度和伯纳西茨权力指数(Bonacich Power Index)以及 与之相应的多种中心势指数。 一、点的度数中心度 我们有理由相信,如果一个行动者与很多他者有直接的关联,该行动者就居于中心地位, 从而拥有较大的权力。居于中心地位的行动者往往与他者有多种关联,居于边缘地位的行动 者则并非如此。在这种思路的指导下测量一个点的度数中心度,可以仅仅根据与该点有直接 关系的点的数目(在无向图中是点的度数,在有向图中是点入度和点出度),这就是度数中 心度。可以认为,度数中心度是一个最简单的、最具有直观性的指数。行动者 x 的度数中心 度(point centrality)可以分为两类:绝对中心度和相对中心度。前者仅仅指的是一个点的 度数,后者为前者的标准化形式。简单地说,如果一个点与其它许多点直接相连,我们就说 该点具有较高的度数中心度。这一说法又可以分为如下两种具体表达方式。 1.绝对度数中心度 度数中心度的概念来自于社会计量学的“明星”(star)这个概念。一个核心点是那种处 在一系列关系的“核心”位置的点,该点与其它点有多个直接联系。因此,对点 A 的度数中 心度的最简单的测量就是运用图中点 A 的各种度数,即与点 A 直接相连的其他点的个数。如 果用 CAD 代表绝对度数中心度,那么,一个点 x 的绝对度数中心度的表达式为 CAD(x)。 如果某点具有最高的度数,则称该点居于中心。在与他人“关联紧密”的意义上,我们 说该点所对应的行动者也是中心人物,因而最拥有权力。 实际上,以度数为基础的这种对中心度的测量考虑的问题是:一个点在其局部环境内与 其它点之间具有怎样的关联。由于这种测量根据的是与该点直接相连的点数,忽略间接相连 的点,因此,所测量出来的中心度可以称为“局部中心度”(local centrality)。 这种测量方法也可用来对有向图中的度数中心度进行测量。在这种情况下,每个点都有 两种局部中心度测度,一种对应的是点入度,另一种对应的是点出度。因此,在有向图中也 可以测量点的局部中心度,只不过此时有两种测量:内中心度(in-centrality)和外中心度 (out-centrality),分别对应“点入度”和“点出度”。 2.相对度数中心度 用绝对中心度测量一个点的中心度存在着一个主要局限。即中心度数的比较仅仅在同一 个图的成员之间或者在同等规模的图之间进行才有意义。除此之外,一个点的度数还依赖于 图的规模。因为,当图的规模不同的时候,不同图中点的局部中心度不可比较。换句话说, 这种测度反映的仅仅是局部的中心度,没有考虑到图的结构特点。例如,在一个有 100 个点 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 56 的图中,度数为 25 的核心点就不如在一个有 30 个点的图中的度数为 25 的点那样居于核心 地位。而这两点都不能轻易地与 10 点图中度数为 6 的中心点作比较。 为了弥补这个缺陷,弗里曼(Freeman, 1979)提出了对局部中心度的相对测度,它指的 是点的绝对中心度(实际度数)与图中点的最大可能的度数之比 。在一个 n 点图中,任何一 点的最大可能的度数一定是 n-1。因此,在一个有 10 个点的图中,度数为 6 就意味着相对 中心度为 6/(10-1)= 0.66。如上一段所谈其他 2 个网中 2 个点的相对中心度(relative centrality)分别为 0.25(=25/99)和 0.86(=25/29)。这就是根据相对度数中心度的公式计 算出来的结果。相对中心度可用于比较同一网络中的点的中心度。 这种观念也能用于测量有向图中点的中心度。这样,相对中心度是一个对绝对局部中心 度测量的标准化的量度。它可用来对同一类型网络中点的中心度进行比较。 如果网络是有方向的,其中一点 x 的相对度数中心度(记作 RD)的表达式为: C′RD(x)= (x 的点入度 + x 的点出度)/(2n-2),其中,n 是网络的规模。 当然,如果网络是无方向的,上述公式可以进一步简化为: C′RD(x)= (x 的度数)/(n-1),其中,n 是网络的规模。 如果 C′RD(x)= 0,点 x 就是一个孤立点;反之,如果 C′RD(x)= 1,点 x 就是图的核 心点之一,例如,可能是“星型网络”的核心点。 对度数中心度的测量也可以超越直接联系,进而考虑间接关系。这样,对一个点的局部 中心度的估计既可以根据直接关系,也可以根据间接关系(距离为 2 或者大于 2)来测量。 但是应该注意的是,距离为 1 和 2 的关联提供的信息最多。距离为多少为佳?这是研究者的 非正式判断。但是,对于多数研究来说,就“中心度”而言,根据距离为 1 和 2 进行测量提 供的信息最大。 在测量局部中心度的时候,并不涉及到整个网络有没有什么“核心点”这样的问题,认 识到这一点很重要。例如,在图 4-1 中,点 A、B、C 都可以看成是局部中心点,因为它们 的度都是 5,其它点的度数仅仅为 1 或者 2。即 使 点 A 比点 B 和 C 具有更多的直接关系,它 也不是整个网络的中心,因为它在位置上处于点链的“一侧”,它的中心度完全是“局部的” 现象。因此,点的度数就是对局部中心度的测量。 E F J K O A B N G M C D H L Q P A,C B M,G J,K,L 其它点 绝对局部中心度 相对局部中心度 5 0.33 5 0.33 2 0.13 1 0.07 1 .07 接近(整体)中心度 43 33 37 48 7 图 4-1 局部中心度和整体中心度 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 57 比较不同点的度数中心度的问题与前文讨论的比较不同图形的密度问题是相关的。二者 都受到图形规模的限制。除此之外,网络密度水平还依赖于所要分析的关系类型。例如,“亲 属关系”网络的密度要比“熟人关系”网络的密度大。因为密度和点中心度都根据度数来测 量,所以,总的来说,一个“亲属关系网”中点的中心度要比“熟人关系网”中点的中心度 低一些。对点中心度的相对性测量无助于解决此问题。即使用弗里曼提出来的相对性术语计 算出了局部中心度,它们还是只能用于具有同类关系的网络之间的比较。 二、图的度数中心势 上面分析的是点的中心度。有时候我们关注的不是点,而是整个图,研究不同图是否有 不同的中心趋势。例如,在星形网络图中,“核心点”的度数中心度最大,其它点的度数中 心度都是 1。可见,这种网络中点的度数中心度差异很大,正是在这个意义上,我们说该图 具有较大的中心势。又如。在包含 n 个点的完备网络图中,任何点的度数都一样,都等于 n -1。也就是说,在这种网络中,不存在度数中心度最大的点,任何点的度数中心度都相同, 没有差异,没有什么“中心点”,看不出该图的中心趋势。正是在这个意义上,我们说该图 的中心势为 0。因此,我们可以设计出一种指数,用以刻画整个图的这种中心势,也可以达 到比较不同图的中心趋势的目的。因为,一个中心势程度不高的网络与一个中心势程度高的 网络是不同的。为了避免混淆,我们用中心度来描述图中任何一点在网络中占据的核心性; 用中心势刻画网络图的整体中心性。 对于一个网络来说,它的中心势指数由如下思想给出:首先找到图中的最大中心度数值; 然后计算该值与任何其它点的中心度的差,从而得到多个“差值”;再计算这些“差值”的 总和;最后用这个总和除以各个差值总和的最大可能值。用公式表示如下: max 1 max 1 () max[ ( )] n i i n i i CC C CC = = − = − ∑ ∑ 在具体计算的时候,我们既可以利用点 i 的绝对中心度(记为 CADi),也可以利用其相 对中心度(记为 CRDi)。如果图中点的绝对中心度的最大值记为 CADmax,相对中心度的最大 值记为 CRDmax,那么上述公式的具体形式为: max 1 max 1 () max[ ( )] n AD ADi i AD n AD ADi i CC C CC = = − = − ∑ ∑ 由于只有当网络是包含 n 个点的星形网络的时候,除数才达到最大值,是 2 32nn−+, 因此,上述公式又可以进一步变为: max 1 2 () 32 n AD ADi i AD CC C nn = − = −+ ∑ 。 如果根据相对中心度计算,那么把分子除以(n-1)就得到相对中心度,因此,分子和 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 58 分母同时除以(n - 1 ),上述公式就变为“相对度数中心势指数”如下: max 1 () 2 n RD RDi i RD CC C n = − = − ∑ 。这两个公式是相等的。 第二节 中间中心性 一、点的中间中心度 1.中间中心度(betweenness centrality)的含义 由直觉可知,如果一个行动者处于许多交往网络路径上,可以认为此人居于重要地位, 因为他具有控制其他两人之间的交往的能力。“处于这种位置的个人可以通过控制或者曲解 信息的传递而影响群体。”(Freeman,1979:221)因此,另一个刻画行动者个体中心度的指 标是中间中心度,它测量的是行动者对资源控制的程度。 如果一个点处于许多其它点对的捷 径(最短的途径)上,我们就说该点具有较高的中间中心度。在此意义上说,他起到沟通各 个他者的桥梁作用。 中间性(betweenness)概念虽然有很多学者提及,但是,它主要是由美国社会学家、 加州大学尔湾分校的林顿·弗里曼(Freeman,1979)教授提出来的。该概念测量的是一个 点在多大程度上位于图中其它点的“中间”。他认为,如果一个行动者处于多对行动者之间, 那么他的度数一般较低。这个相对来说度数比较低的点可能起到重要的“中介”作用,因而 处于网络的中心。例如,在图 5-2 中,点 G 和 M 处于许多对点的中间。由于点的中间度测量 的是一个行动者在多大程度上成为“中间人”或者在多大程度上能控制他人,因此,可以把 G 看成是在以 B 为中心的各个行动者和以 A 为中心的各个行动者之间的中间人,而 M 也在 B 的各个邻点和 C 的各个邻点之间起到了同样的中间人作用。 弗里曼对中间度的研究是围绕“局部依赖性”(local dependency)这个概念建立起来的。 如果连接两点 A 和 B 的途径经过某点 C,则称点 A 和 B 的关系依赖于点 C。波特(Burt, 1992) 根据“结构洞”(structural holes)概念对此进行了描述。当两个点以距离 2 相连而不是以距 离 1 相连的时候,就说两点之间存在一个结构洞 。结构洞的存在使得连接两点的第三者扮演 经纪人或者中间人的角色。例如,在图 5-2 中,点 E 只有依赖于点 A 才能与图中其它点建立 联系,点 E 与某些点的联系也要依赖于点 G、B、M 或 C。 2.中间中心度的测量 在测量点的中心度的各种指标中,中间中心度可能是最难计算的一个指标。一个点对 (pair of points)X 和 Z 之间可能存在多个短程线(捷径),假设为 n 个。一个点 Y 相对于 一个点对 X 和 Z 的中间度(betweenness)指的是该点处于此点对的捷径上的能力。具体地 说,我们可以利用“中间性比例”(betweenness proportion)这个概念来刻画这种“能力”, 其定义为:经过点 Y 并且连接这两点的短程线占这两点之间的短程线总数之比。它测量的 是 Y 在多大程度上位于 X 和 Z 的“中间”。这就是“中间中心度”。 具体地说,假设点 j 和 k 之间存在的捷径数目用 gjk 来表示。第三个点 i 能够控制此两点 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 59 3 的交往的能力用 bjk(i)来表示,即 i 处于点 j 和 k 之间的捷径上的概率。点 j 和 k 之间存在的 经过点 i 的捷径数目用 gjk(i)来表示。那么,bjk(i)= gjk(i) / gjk。 如果计算点 i 的绝对中间中心度(记为 CABi),我们仅仅需要把其相应于图中所有的点 对的中间度加在一起,即: (), nn ABi jk jk Cbijkijk=≠≠<∑∑ 并且 与上述类似的是,我们还可以给出一个加权的指数,即标准化的中间中心度,也是相对 中间中心度。弗里曼(Freeman, 1977)证明了,只有在星形网络的情况下,图中点的中间中 心度 ABiC 才可能达到如下最大值①: 2 max (32)/2Cnn=−+ 。因此,点 i 的相对中间中心度(CRBi)为: 2 2 32 ABi RBi CC nn= −+ ,其取值范围为 0 和 1 之间,并且该值可用于比较不同网络图中点 的中间中心度。 在测量点 x 的中间中心度的时候,需要考虑到网络中的那些其捷径经过该点的所有的行 动者对(every pair of actors),还要找出这些对的行动者之间存在多少条捷径。如果两个点 之间只有一条捷径,并且该捷径经过点 x,我们就赋予 x 的中间中心度的值为 1。如果两个 点之间有 n 条捷径,并且其中的一条捷径经过点 x,我们就赋予 x 的中间中心度的值为 1/n。 以上图为例②,我们分析其中点 4 的中间中心度,这就要考虑到所有行动者对。例如, 首先分析行动者 1 和 5,会发现 1-4-5 是一个连接 1 和 5 捷径,并且 1 和 5 之间的捷径仅此 一条,因此赋予行动者 4 的“中间中心度”的值是 1。分析发现,点 2 和 5 之间仅有一条捷 ① 在一个包含 n 个点的星形网络中,假设核心点是 O,其余边缘点分别是 A1、A2、An-1。首先应该知道的 是,除了点 O 之外,任何边缘点的中间中心度都是 0。下面说明为什么最大值是 2 max (32)/2Cnn=−+ 。 对于点 A1 来说,它与其他任何(n-2)个边缘点的关系都要通过点 O,因此,点 O 对于涉及到点 A1 的边 缘点对的中间中心度为(n-2);同理可证,点 O 对于涉及到点 A2 的边缘点对的中间中心度也是(n-2); 对于点 A3 的也是(n-2);⋯,对于点 An-1 的同样也是(n-2)。因此,总的中间中心度就是(n-1) 个(n-2),即(n-1)(n-2)个。又由于在计算的时候有重复,因为点 O 对 A1 和 A2 的控制,也是对 A2 和 A1 的控制,因此,得出的这个值再除以 2 就是点 O 对所有其它点的中间中心度指数,即(n-1)(n -2)/2 。因此, 2 max (32)/2Cnn=−+ (参见 Freeman, 1977)。 ② 该例引自(Everett, 2002)。 1 2 4 5 图 4-2 五人网络图 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 60 径,并且也经过点 4,因此,点 4 的中间中心度又多了 1;同时,点 3 和 5 之间仅有一条捷 径,并且仍然经过点 4,也对 4 的中间中心度做出贡献,因此,再赋予“行动者 4”1 个“中 间中心度”值。现在,“行动者 4”的中间中心度已经为 3。另外,其他包含行动者 4 的捷径 只有 1-4-3。但是,如果考察行动者 1 和 3,其间存在两条捷径,即 1-2-3 和 1-4-3。因此, 分别赋予 2 和 4 的值都是 1/2。这样,行动者 4 的中间中心度是 3 + 0.5 = 3.5,记作 CB(4) = 3.5。 点的总“中间度”尽管算起来比较复杂,但是这一测度仍然具有直观意义,并且在 UCINET 和 GRADAP 软件中可以轻松地算出来。 总之,一个点的中间中心度测量的是该点在多大程度上控制他人之间的交往,它“是很 有用的一个指数”(Freeman, 1979: 234)。如果一个点的中间中心度为 0,意味着该点不能控 制任何行动者,处于网络的边缘;如果一个点的中间中心度为 1,意味着该点可以 100%地 控制其他行动者,它处于网络的核心,拥有很大的权力。 二、图的中间中心势 从整体上说,一个图也有其中间中心势指数。该指数可以表达为(具体推导过程比较复 杂,参见 Freeman,1979:230;Degenne & Forse,1999:137): max max 11 32 ()() 452 1 nn AB ABi RB RBi ii B CC CC C nnn n == −− ==−+− − ∑∑ 其中, maxABC 是点的绝对中间中心度, maxRBC 点的相对中间中心度。 星型网络具有 100%的中间中心势指数,即一个行动者是所有其他者的桥接点。环形网 络的中间中心势指数为 0。 第三节 接近中心性 上面介绍的度数中心度刻画的是局部的中心指数,测量网络中行动者自身的交易能力, 没有考虑到能否控制他人。“中间中心度”虽然考虑到这一点,但是,没有考虑到避免受到 控制①。我们可以认为,如果网络中的一个行动者在交易的过程中较少依赖于他人,此人就 具有较高的中心度。一个非核心位置的成员“必须通过他者才能传递信息”(Freeman,1979: 224)。这样,核心位置的成员在传递信息上就较少依赖于他者。因此,应该考虑该行动者与 他人的接近性程度。可以认为,一个点越是与其它点接近,该点就越不依赖于他者。这就是 “接近中心性”(也叫整体中心性)思想。 ① “中间中心度”测量的是一个行动者“控制”其他行动者的能力,“接近中心度”测量的是一个行动者 不受其他行动者“控制”的能力。这两种测度稍有不同。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 61 一、点的接近中心度 1.接近中心度的含义 度数中心度仅仅是点中心度的一种测量,还有其它测量方法。有时候我们可能更关注一 个行动者与网络中所有其他行动者的接近性程度。这就引出点 x 的接近中心度 (closeness centrality):一种对不受他人控制的测度。 由上一节可知,在测量某点的“局部中心度”的时候,我们根据的是该点的度数。而弗 里曼等学者对“接近中心度”的测量却根据点与点之间的“距离”(distances)。前文已指出, 两点之间一般存在一条捷径,捷径的长度就是两点之间的距离。如果一个点与网络中所有其 它点的距离都很短,则称该点具有较高的整体中心度(又叫做接近中心度) 。在图中,这样 的点与许多其它点都“接近”。 在测量接近中心度的时候,我们关注的是捷径,而不是直接关系。如果一个点通过比较 短的路径与许多其它点相连,我们就说该点具有较高的接近中心度。当我们的研究不需要对 直接关系进行考察的时候,接近中心度就是一个有用的概念。 2.接近中心度的测量 巴乌拉斯(A. Bavelas)等学者首先提出接近中心度这个概念,但是该概念的形式化表 达是由萨比杜斯(G. Sabidussi)给出的(引自 Freeman,1979)。他给出的量化定义是:一 个点的接近中心度(closeness centrality)是该点与图中所有其它点的捷径距离之和(sum of distances)。其表达式如下所示: 1 1 n APi ij j Cd− = = ∑ 。其中 dij 是点 i 和 j 之间的捷径距离(即捷径 中包含的线数)。 实际上,这是“绝对接近中心度”。为了对来自不同图中的点的接近中心度进行比较, 需要给出“相对接近中心度”指数。 只有在星形网络中, 1 APiC − 才可能达到最小值。对于包含 n 个点的星形网络来说,“核心 点”的接近中心度是 1n − ①。除以这个最小的接近中心度,就可以得到相对接近中心度(即 接近性程度的标准化指标)为: 1 1 1 1 1 APi RPi RPi APi C nCCnC − − − −==− 或者 。 这个相对值容易解释,并且可以用来比较来自规模不同的网络中的两个点的接近中心度 ① 在一个包含 n 个点的星形网络中,假设核心点是 O,其余边缘点分别是 A1、A2、An-1。首先,点 O 与其 他 n-1 个点的距离都是 1,因此,点 O 的接近中心度是 n-1。任何边缘点的接近中心度都是 2n-3。因 为 , 对于点 A1 来说,它与点 O 的距离为 1,与其他任何(n-2)个边缘点之间的距离都是 2,并且捷径一定通 过点 O。因此,点 A1 的接近中心度为(n-2)×2+1 = 2n-3;同理可证,点 A2 以及所有其他边缘点的接 近中心度也是 2n-3。在包含 n 个点的各种类型的网络中,只有在星形网络中,核心点 O 的接近中心度才 达到最小。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 62 的大小。我们也可以得出结论:与中心点距离最远的行动者也在信息资源、权力、声望以及 影响方面最弱。 总之,一个点 x 的接近中心度的操作化定义为:x 与所有其它点之间的距离和。在图 5-3 中,点 4 与所有其它 4 个点的捷径长度都是 1,因此,4 的接近中心度为 4 ,即 CAC(4)−1 (共有 4 条捷径,每条长度都是 1)。现在分析点 2 的接近中心度。由图可见,点 2 分别与 点 1、3 和 4 的捷径长度也都是 1,但是,点 2 与 5 的捷径长度则是 2,因此 CAC(2)−1.= 5。 注意,接近中心度的值越大,越说明该点越不是网络的核心点。因此,用“-1”次幂 表示其意义。接近中心度是测量一个行动者独立于其他行动者控制的一个指标。 图 5-2 中也给出了各个点的整体中心度和局部中心度(绝对度数中心度和相对度数中 心度)。由表可见,A、B、C 的局部中心度相同,但是点 B 比 A 和 C 都具有整体中心性。 G 和 M 的整体中心度比 B 的大,但却比局部中心点 A 和 C 的整体中心度都小。因此,在“距 离和”上的差异也确证了从对图的视觉考察中得到的印象。这在对中心度较低的点的测量上 也明显可见。其它点的度数都是 1,表明具有低局部中心度。然而,通过“距离和”测量可 以清楚地看出如下事实:J、K、L 的整体(接近)中心性要比其它度数为 1 的点的整体(接 近)中心度高。 如果已经计算出来一个无向图中各个点的距离矩阵①,那么,一个点与所有其它点的“距 离和”便是该点所在的“行和”或者“列和”(二者相等)。一个“距离和”比较低的点与其 它许多点都“接近”。因此,我们所说的一个点的“接近性”是就该点与其它点的“距离和” 而言的。当然,在一个有向图中,捷径距离必须根据具有相同方向的各条线来测量,因此, 根据“行和”与“列和”计算出来“接近性”将有所不同。这样,一个有向图中某点的整体 中心度便可以根据所谓的“内接近性”和“外接近性”来计算。具体计算步骤请参见 (Wasserman and Faust, 1994),此处从略。 二、图的接近中心势 一个图的接近中心势指数(closeness centralization)表达式为(具体推导过程参见 Freeman,1979:231): max 1 (' ' ) (2 3)(2)(1) n RC RCi i C CC Cnnn = − = −−− ∑ 与度数中心度类似的是,星型网络具有 100%的接近集中趋势,而对于一个其中任何一 点都与其它点有同样距离的网络(例如完备网络、环形网络等)来说,其接近集中趋势为 0。 总之,图的中心势也有与点的中心度对应的三种测度:度数中心势、中间中心势以及接 近中心势(Wasserman and Faust,1994;Everett,2002;Freeman,1979)。上述公式进行总 结如表 4-1 所示。 ① 在 UCINET 中,沿着 Network→Cohesion→Distance 这条命令路径,然后再选择要分析的矩阵,即可计算 出该矩阵中各个元素之间的距离矩阵,从中可以清楚地看到任何两个行动者之间的距离是多少。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 63 表 4-1 点的中心度和图的中心势表达式汇总 一般来讲,上述三种中心度是相关的。如果他们不相关(或相关系数较小),则可 能表明网络具有令人感兴趣的结构。如下所示: 度数中心度低 接近中心度低 中间中心度低 度数中 心度高 所嵌入的聚类远离网络中的其他点。 “自我”的联络人是绕过他/她 的冗余的交往关系 接近中 心度高 是与重要的他者有关联 的关键人物。 在网络中可能存在多条途径, 自我与很多点都接近,但是其 他点与另外一些点也很近。 中间中 心度高 “自我”的少数关系对于 网络流动来说至关重要 这样的格值极少见。意味着“自我” 垄断了从少数人指向很多人的关系。 以上我们探讨了三类中心度及中心势的定义和测度。问题在于,在实际操作过程中,到 底应该选择哪种指数进行测量?这里只能给出一些原则性的说明。 首先要明确这三种测度的含义。度数中心度测量的是一个点与其它点发展交往关系的能 力。接近中心度和中间中心度刻画的是一个点控制网络中其他行动者之间的交往的能力,它 依赖于行动者与网络中的所有行动者之间的关系,而不仅仅是与邻点之间的直接关系。有时 候,接近中心度测量的结果没有中间中心度测量的结果精确。但是,总的来说,三种中心度 测量的结果相差不大。 再强调一次,在实际测量“中心性”的时候,到底应该选择哪种测度?我们还是坚持弗 度数中心性 中间中心性 接近中心性 绝对中 心度 CAD(i)=i 的度数 () nn ABi jk jk Cbi= ∑∑ , j k i and j k≠ ≠< 1 1 n APi ij j Cd− = = ∑ 标准化 中心度 CAD(i)/(n-1) 2 2 32 ABi RBi CC nn= − + 1 1 1 APi RPi CC n − − = − 图的中 心势 max 1 () 2 n RD RDi i RD CC C n = − = − ∑ max 1 () 1 n RB RBi i B CC C n = − = − ∑ max 1 (' ' ) (2)(1) n RC RCi i C CC C nn = − = −− ∑ × (2 3)n − 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 64 里曼的观点:“这依赖于研究问题的背景,如果关注交往活动,可采用以度数为基础的测度; 如果研究对交往的控制,可利用中间中心度;如果分析相对于信息传递的独立性或者有效性, 可采用接近中心度。不管怎样,对于上述三种测度来说,星形网络的中心都最居于核心地位。” (Freeman,1979:226)。 最后一点需要指出,在测量的时候,上述三类指标可能产生不一致的结果,并且它们也 没有考虑到行动者之间的交换或者交往的规模,因而仅仅适用于对二值图网络的测量。 第四节 特征向量中心性 上一节介绍的“接近中心度”的基础是每个行动者与所有其他行动者之间的捷径距离之 和(即远离度,farness)。在比较大的复杂网络中,这种测度可能引起误导。假设一个图中 有两个行动者 A 和 B。A 与大网络中存在的一个联系很紧密的小网络群体成员之间的距离 都很近,却与其它点的距离都比较远;而 B 与总体中所有其它点之间的距离都不远也不近, 即距离居中。如果测量 A 和 B 的远离度,结果可能是,二者的远离度测度(farness)在数 量上比较接近。然而,在一定程度上,行动者 B 要比 A 真正处于图中的“中心”地位,因 为 B 能够用同样的努力就可以与网络中的许多行动者建立联系。 实际上,一个点的中心度与其邻点的中心度息息相关。如果你被某个很受欢迎的行动者 选择,你的中心都将提高;如果你被一个有权力的人认为是有权力的,你的权力也将提高。 反之,如果你对某个有权力的人行使权力,显然你的权力会更大。或者说,一个人的权力是 与此人相关的其他人的权力的一个函数。这就是在测量中心度的时候出现的“循环”问题。 也就是说,一个行动者的地位是与之相关的其他行动者的地位的一个线性函数(参见, Bonacich, 2002)。又如,在社区权力研究中,如果一个行动者被已经被多次提名的其他行动 者提名,那么该行动者的地位一定很高。在学校中,如果有一些学生很受欢迎,他们又很喜 欢另外一个学生,那么此学生也一定很受欢迎。在交往网络中,那些本身收到很多信息的行 动者也是比较有价值的信息源。 一、特征根、特征向量的含义 进行特征向量(eigenvector)研究的目的是为了在网络总体结构的基础上,找到最居于 核心的行动者,它并不关注比较“局部”的模式结构。这种方法要用到“因子分析”(factor analysis),找出各个行动者之间的距离有哪些“维度”(dimensions)。每个行动者相应于每 个维度上的位置就叫做一个“特征值”(eigenvalue),一系列这样的特征值就叫做特征向量。 通常情况下,第一个维度可以抓住各个行动者之间的距离的“综合”的方面;第二个以及其 他维度把握的是比较具体的和局部的子结构。此类现象普遍存在,以下给出量化分析。 令 A 为邻接矩阵,其元素 aij 的含义是行动者 i 对 j 的地位(或者权力、中心度等)贡 献量,令 x 代表中心度值向量。那么,上述说法可以表达为: xi = a1i x1+a2ix2+⋯+anixn ① 即一个人的中心度是选择此人的其他人的中心度的一个函数。由上述等式界定的一系列 方程组可用矩阵形式表示如下(At 是 A 的转置矩阵): 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 65 At·x = x ② 在公式②中,x 是与特征根 1 对应的 A 的一个特征向量(eigenvector)。一般情况下, 方程②无非 0 解,除非 A 有一个特征根是 1。有一种方法可使这些方程组有解,这就需要对 矩阵的每一行进行标准化,从而使得每一行的总和为 1。这时候,方程②有非 0 解,因为 A 有一个特征根 1。 另外一种方法是把方程②推广,使之成为一般意义上的特征向量方程。我们用方程③和 ④分别代替方程①和②, λxi = a1i x1+a2ix2+⋯+anixn ③ At.x = λx ④ 如果 A 是一个 n×n 矩阵,方程④就有对应于 n 个 λ 值的 n 个解。解的一般形式可以用 矩阵表达为 A·X = X·λ。其中,X 是一个 n×n 矩阵,其各列是矩阵 A 的 n 个特征向量, 而 λ 是由各个特征根构成的对角线矩阵。 对于一个网络的邻接矩阵来说,其主特征根的具体计算过程如下(See Borgatti’ Syllabus; Bonacich,1972): (1)开始的时候,赋予每个点的中心度值都为 1; (2)根据每个点的全部邻点的中心度值的加权总和值来重新计算每个点的中心度。 (3)把每个值都除以最大值,使 v 标准化; (4)重复步骤(2)和(3),直到各个 v 的值不再变化。 当然,我们也用不着手工计算每个点的特征向量中心度,在 UCINET 中,有专门的计 算程序可选用。 对于一个点 A 来说,如果 A 与很多本身具有较高中心度的点相连接的话,那么该点就 具有高的核心度。在信息、疾病、病毒等的传递过程中,一个行动者如果具有较高的特征向 量中心度,他就与许多其本身与很多行动者连接的点相连接,因而增长了风险,当然也提高 了自己的中心度(参见 Bonacich,1972,Eigenvector centrality)。 如果一个点与其它本身处于核心地位的点相关联,该点也处于核心地位。艾滋病的传播 过程中,如果一位感染者的特征向量中心度高,他实际上就与许多本身与很多人联系的人想 联络,因而增加了他们被感染的机会。 当然,对于复杂的网络来说,我们不可能这样进行手工计算,因为这费时费力。对特征 向量中心度的测量可以在 UCINET 中执行(沿着 Network→Centrality→Eigenvector 这条路 径,然后选择待分析的网络数据即可)。数据分析的结果这里从略。 二、对特征向量中心度的推广 总之,特征向量已经成为刻画行动者中心度以及网络中心势的一种标准化测度,它的目 的是在网络整体结构的意义上,找到网络中最核心的成员,同时也可以测量出整个网络的“特 征向量中心势”指数。 特征向量中心度也有缺陷。特别是,当数据是有向数据的时候,利用特征向量中心度就 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 66 可能引起误导①,因为有些位置的行动者可能不被选择。这时候需要给出修正的特征向量中 心度,这部分内容比较复杂,有关问题正在研究之中,本讲义不再进一步说明。感兴趣的读 者请参见(Bonacich and Lloyd, 2001; Bonacich, Cody and Michael, 2002; Bell, Atkinson, and Carlson, 1999; Bonacich, 1987; Braun, 1997; Friedkin, 1991; Friedkin and Johnsen, 1997; Mizruchi and Potts, 1998; Poulin, Boily and Masse, 2000; Wasserman and Faust, 1994; Yasuda and Tokuraku, 1999)。 上述因子分析的研究思路有助于我们把握网络中比较综合的结构模式。 三、多种中心度指数的同时计算 在此需要补充一点,由于研究的目的不同,可能重点分析某种中心度和中心势,因此, 各种中心度研究思路并无“对错”之分。另外,也可以同时计算出各个点的上述四种中心度 指数,进而可以作对比分析。在UCINET中,这一工作可利用“MULTIPLE MEASURES” 来计算,它存在于如下路径之中:NETWORKS>CENTRALITY>MULTIPLE MEASURES。 如下所示: 利用该算法可计算出四种标准化的中心度测度,即度数中心度、接近中心度、中间中心度和 特征向量中心度。具体的计算过程及结果略。但是需要指出,该算法并不计算出各种描述统 计量,也不计算出中心势指数。 ① UCINET 只针对“对称数据”进行“特征向量中心性”的分析。对于“非对称数据”,该软件也首先做 “对称化”处理,然后进行分析。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 67 第五节 中心度和中心势分析举例 一、国外的例子:公司网络中的银行中心性① 在国外,很多公司拥有“共同的”董事会成员,即共享某些成员。从网络分析的意义上 说,这些公司正是通过“共享”的成员才联系在一起的。对共享董事职位的研究虽然不是新 课题,但是,20世纪70年代以前的多数研究很少应用社会网络分析的思想和技巧。多数此类 研究仅仅计算各个公司之间的职位和共享董事的数目。列文(Levine,1972)的影响深远的 论文标志着这种研究的转向。他研究了银行和公司之间的网络问题。他发现,“一些大银行 的董事会和大公司的董事会之间有关联”(Levine,1972:14)。于是,他利用社群图法构建 关联图。然而,主要转折点发生在1975年,当时迈克尔·施瓦兹(Michael Schwartz)等学 者向美国社会学会提交一篇会议论文,该论文把中心度概念运用到公司网络之中。虽然该文 未正式发表,但是其影响却是深远的(参见Scott,2000:96)。在他们的激励下,很多学者 进一步针对实际资料深入研究点的中心度。 施瓦兹等在20世纪70年代初就已建立美国大公司的数据库。他们收集了美国工业500强 和金融、商业250强行业在1962年运作的数据,以及从1963年到1973年之间每年所有新加入 到这“750强”的公司的数据。最后的数据库包含了在1962~1973年间美国1131家最大的公司 的所有董事名单,总数为13574。无论从哪个角度上说,该数据库都是一个大社会网络。 贝尔丹、施瓦兹及其同事的开创性论文②使用了这个数据库,并且应用格拉诺维特 (Granovetter,1973)对强、弱关系思想对这些数据进行了分析。他们的论断要点是,各个 公司专职职员之间的关联(interlock)可以看成是公司网络的“强”关系,而那些兼职的、 非行政官员之间的联系则是“弱”关系。这一理论论断的基础是,专职行政领导之间的关系 是董事会层次的联系,对公司来说具有战略意义。因此,他们都与各个公司的股东保持联络, 从而在公司之间建立了贸易关系15。另一方面,非行政董事之间的联系的时间投入较少,对 公司的战略意义较少。 人们应用波纳西茨的权力指数考察了最大公司的中心性。如前所述,这需要知道某个点 的中心度、与之相连的每条线的赋值以及与该点相连的其它点的中心度。这是一个“循环” 测度,因而需要大量运算。例如,一个包含750个公司的网络需要解750个联立方程组 (simultaneous equations)。在贝尔丹等人的分析中,第一步是决定用什么测度测量线的值。 对于弱关系的无向线来说,他们认为,每条线的值应该是公司之间的关联数(即共享的董事 数目),并且用两个董事会的规模进行加权。之所以这样加权,原因在于他们有这样一个假 设,即关联数越多,它对于董事会规模大的企业的意义,就越不如对于董事会规模小的企业 的意义大。其计算公式是: ①本例引自(Scott, 2000: 96-99)。 ② Bearden, J., Atwood, W., Freitag, P., Hendricks, C., Mintz, B. and Schwartz, M. 1975. “The Nature and Extent of Bank Centrality in Corporate Networks”. Paper to the American Sociological Association. 引自(Scott,2000: 193)。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 68 连接点i和点j的线的赋值 = /ij i jbdd。其中的 ijb 是在公司i和公司j之间的关联数, id 和 jd 分别是这两个公司的董事会规模。这个公式允许在图中所有“弱”关系的基础上对 波纳西茨的中心度测量进行计算。 如果根据强关系对中心度进行测量,则需要比较复杂的公式。在此情况下,对每个线的 取值的测量需要考虑到线的“方向”。对于“发送”线的公司来说,其值根据董事“发出” 的线数来计算,并且根据作为“接受者”的公司的董事会规模来加权。在这个过程中,根据 关系对于接收信息的董事会来说的重要性来加权。反之,对于那些“收到”关系的公司来说, 所收到的关系要根据作为发送者的董事会规模来加权。贝尔丹等认为,最后对中心度的测量 还要引入更进一步的权重。不用对“发送者”和“接受者”进行加权,而是考虑发送者值的 90%,接受者值的10%。之所以进行这种加权,其背后的理论原因在于,在企业的联络领域中, “给予”比“接受”更重要。具体地说,输送一位董事的企业常常表明了一个信号,即该企 业比接受该董事的企业更有权力。因此,对中心度值的这种人为的调整就是为了在最终结果 中体现出这个理论判断。 然而,应该注意的是,中心度不总是表达权力的一个符号。在某些情况下,最主要的、 最可见的行动者可能恰恰处在最弱者的中间(Mizruchi,1994:331~332)。 在该研究中,如果用波纳西茨的中心度测量方法来计算这些公司的中心度,会发现它与 公司的度数高度相关,相关系数为0.91。然而,贝尔丹等人认为,最好用比较复杂的波纳西 茨测度来测量,因为它能区分出那些度数低、但是却与“高度核心的企业”相关的公司。他 们认为,这种观点对于确定这些企业在经济结构的显著性来说非常重要。 施瓦兹等进一步研究了中心度,他们称之为“峰点分析”(peak analysis)。“峰点分析” 是对美国的公司网络在20世纪发展进行解释的基础。一般认为,如果一个点比任何与之相连 的点更处于中心地位,则称该点为“峰点”(peak)。把两个或者多个“峰点”连在一起的点 叫做“桥接点”(bridge)(参见图5-4)。“聚类”(cluster)是由所有与“峰点”直接关联的 点构成的,但是要去掉那些与另外一个峰点距离为1的点。这样,峰点就处于这些聚类的核 心。 运用这些技术测量点的中心度,最后的结论体现了公司之间网络的如下基本特点。贝尔 丹等人认为,“美国的公司关系网络总体上表现为具有“银行中心性”的模式:在测量中心 度的时候,无论根据强关系还是弱关系,银行都处于核心地位。外在的国家关系网络(主要 由弱关系结合在一起)与内在的区域集团(由强关系结合在一起)的共存也体现了银行中心 峰点 2 聚类 2 聚类 1 峰点 1 桥点 图 4-3 峰点和桥 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 69 性。对它们来说,强关系具有明确的区域基础。内在的区域集团既产生于金融企业的强关系, 也产生于非金融企业的强关系。但是,银行的强关系是强关系网络的核心。例如,1962年的 企业关系网络就由一个非常大的关联成分(connected component)、两个小的集团(每个集 团有4、5个企业)以及大量的“企业对”(pairs)和孤立企业构成。在大的关联成分中存在5 个峰点及与之相连的各个关联聚类”(Soctt,2000:98)。 弱关系把各个独立聚类连在一起,从而建构了一个扩大的国家网络,而该网络恰恰处在 上文所说的高度聚类的强区域关系网络之上。总体上说,这种国家网络反映了向商业事件倾 斜以及所有大公司都具有的利益趋同性。在这个网络中,大多数公司都与一个大的单一成分 相关联,多数其余者都是独立的企业。银行是最核心的行业,特别是起到“国家”作用而不 是“区域”作用的纽约银行。“正是银行中的非执行董事把整个国家网络结合在一起。”(Scott, 2000:99) 二、国内的例子:法村社会支持网络的中心性分析 下面我们结合一个中国村落的资料对上述各种中心度和中心势进行测量。我们主要结合 村民之间的“贷款”关系①分析各种中心度和中心势指数,目的是找出,哪些村民家庭在“贷 款关系”中居于核心地位,也就是说,找出来哪些村民家庭“控制”法村的经济命脉。另外, 为了反映所有与“村外”有贷款关系的情况,在“贷款矩阵”中,我利用“村外”这一个“点” 代表所有村外的“债务人”或者“债权人”。首先分析度数中心度,结果如下②: 表4-2 村民之间的贷款关系网络的集中趋势指标表 FREEMAN'S DEGREE CENTRALITY MEASURES 1 2 3 4 OutDegree InDegree NrmOutDeg NrmInDeg --------------------------------------------------------------- 9 CUNW③ 11.000 38.000 19.643 67.857 3 BMKU 11.000 0.000 19.643 0.000 24 LFLI 9.000 0.000 16.071 0.000 8 CHXZ 8.000 0.000 14.286 0.000 33 MHDO 7.000 0.000 12.500 0.000 37 SULB 6.000 0.000 10.714 0.000 40 TXYO 5.000 0.000 8.929 0.000 45 XJJI 1.000 3.000 1.786 5.357 ⋯⋯ ⋯⋯ ⋯⋯ ⋯⋯ ⋯⋯ 43 WWJU 0.000 5.000 0.000 8.929 ① 有关数据的进一步信息,请参见拙作(2006)。 ② 要指出的是,由于村民数目较多,本结果只给出具有重要意义的一些个案,没有把全部个案都记在这里。 ③ 这些大写字母都是村民的代号,其前面的数字为该村民的编号。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 70 26 LTYU 0.000 26.000 0.000 46.429 50 ZHLG 0.000 19.000 0.000 33.929 30 LXIY 0.000 11.000 0.000 19.643 52 ZHYZ 0.000 5.000 0.000 8.929 DESCRIPTIVE STATISTICS 1 2 3 4 OutDegree InDegree NrmOutDeg NrmInDeg --------------------------------------------------------------- 1 Mean 2.193 2.193 3.916 3.916 2 Std Dev 2.665 6.514 4.759 11.633 3 Sum 125.000 125.000 223.214 223.214 4 Variance 7.103 42.436 22.650 135.320 --------------------------------------------------------------- Network Centralization (Outdegree) = 16.008% Network Centralization (Indegree) = 65.083% Copyright (c) 1999-2000 Analytic Technologies① 从分析结果看,不同村民表现出不同的点入度和点出度,其中“村外”(代号为CUNW) 的点入度和点出度最大,这是可以理解的。因为在我们的分析中,把来自村外的资金和向村 外贷款的资金都看成是涉及到村外一个“人”。由表可见,债务人在村外的情况共有11人次, 而本村居然也有一位村民(代号为BMKU)贷款②达到11人次。 点入度的含义是关系“进入”的程度,即充当债权人的次数。点出度的次数是充当债务 人的次数。在上表中,“村外”的点入度(InDegree)为38,也就是说,债权人是村外的情 况有38例;点出度是11,说明债务人是村外的情况有11例。一些村民的点出度都是0,而点 入度很大,按照点入度从大到小的排列,他们是第26、50、30、43、52号村民,说明他们不 是债务人,但是充当很多次债权人的角色,是拥有权力的村民。 整个网络的标准化点入度中心势和点出度中心势分别为:65%和16%。这也说明了贷款关 系有很大的不对称性。前已指出,星形网络的度数中心势为100%。中心势越接近1,说明网 络越具有集中趋势(centralization)。从上述点出度来看,“贷款关系”的整个网络中心势 比较大。 上述结果虽然清楚地告诉我们哪些村民居于借贷关系的中心位置,但是,另外一个指标, 即中间中心度刻画村民在多大程度上处在其他任何两个村民之间的捷径上,也就是在多大程 度上“控制贷款资金的流动”,分析结果如表 5-3 所示。 表4-3 村民的中间中心度指标表 FREEMAN BETWEENNESS CENTRALITY ① “Copyright (c) 1999-2000 Analytic Technologies”是我所使用的软件 UCINET 的“版权”,表明其知识产 权,本讲义只在此处打印出来,也表明我对该软件的“尊重”。在其他分析结果中多数免去此项。 ② 这里所说的“贷款”指发生在村民之间的有利息的借款,村民们常常称这种贷款为“抬钱”或“抬款”。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 71 1 2 Betweenness nBetweenness 3 BMKU 23.106 1.500 8 CHXZ 196.195 12.740 9 XWGU 791.314 51.384 16 XWCH 50.610 3.286 24 LFLI 93.634 6.080 26 LTYU 421.446 27.367 ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯ 30 LXIY 215.706 14.007 33 MHDO 62.777 4.076 45 XJJI 106.139 6.892 50 ZHLG 266.044 17.276 52 ZHYZ 15.172 0.985 53 ZHHX 53.000 3.442 Network Centralization Index = 49.08% 对各个点的中间中心度的分析与上述度数中心度的分析是不同的。首先要说明的是,在 分析中间中心度的时候,我们要把数据看成是对称的。因此,在结果中,充当债务人和债权 人次数多的家庭的中间中心度都高,但是其意义迥然有别。对于债权人家庭来说,中间中心 度越高,说明他越能在资金上控制其他村民。对于债务人家庭来说,如果其中间中心度越高, 说明他在资金上越被他人控制。 从分析结果看,对于债权人来说,最能控制资源的村民来自“村外”,其次是第26、50、 30号村民。而对于债务人来说,第8号村民的中间中心度最高,说明他最受他人的控制,其 他债务人包括第24、33、37、51、53号村民等。还有一点值得注意的是,虽然第8号村民比3 号村民抬钱的次数多(实际上二人抬钱的次数都很多,前者为6次,后者为5次,二人都是法 村中欠债最多的家庭),但是,8号村民对其他债权人的依赖性要远远大于3号村民对债权人 的依赖性。 总之,就整个网络来说,其点出度中心势指数为 = 16%,点入度中心势指数 = 65%,而 中间中心势指数 = 49.08%。这说明,整个网络的中心度较高,并且债务人在很大程度上受 到债权人的控制。 本 章 小 结 在社会网络分析中对权力的探讨集中体现在对“中心度”和“中心势”的量化分析上。 本章介绍了几类常用的中心度和中心势指数,包括:度数中心度、中间中心度、接近中心度、 特征值中心度以及伯纳西茨权力指数,同时介绍了与它们相应的中心势指数;又介绍了其它 几类中心度指数:影响指数、信息中心度和可达中心度等。 中心度刻画单个行动者在网络中所处的核心位置;中心势刻画的则是一个网络所具有的 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 72 中心趋势。假设研究度数中心性,那么,对于一个拥有 n 个行动者的网络来说,其中可以计 算出来的中心度指数有 n 个,但是计算出来的中心势指数只有一个。 “度数中心度”刻画的是行动者的局部中心指数,测量网络中行动者自身的交易能力, 没有考虑到能否控制他人。“中间中心度”研究一个行动者在多大程度上居于其他两个行动 者之间,因而是一种“控制能力”指数。“接近中心度”考虑的是行动者在多大程度上不受 其他行动者的控制。如果网络中的一个行动者在交易的过程中较少依赖于他人,此人就具有 较高的中心度。一个点越是与其它点接近,该点就越不依赖于他者。 刻画一个行动者的特征向量中心度是为了在网络总体结构的基础上,找到最居于核心的 行动者,而不关注“局部”的模式结构。 最后需要指出,对中心度的测量不能脱离其它点的中心度。因此,在计算中心度的时候 包含着内在的循环。波纳西茨提出了“权力指数”力图解决这个问题,尽管该方案不无争议。 本章参考文献(略) 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 73 第五章 QAP——测量“关系”之间关系的 方法 本章摘要:常规统计方法要求变量之间要独立,而关系数据恰恰违背这个假设。如何测 量关系之间的关系?QAP 是可用的一种方法。本章介绍了 QAP 的原理,并用实际例子展示 QAP 相关和 QAP 回归的应用。QAP 不但可以测量两种关系数据之间的回归,还可以测量相 关,测量“属性数据”和“关系数据”之间的关系。 在常规的统计分析如多元回归分析中,前提条件之一是要求多个自变量之间相互独立, 否则会出现“共线性”,它会引起一些问题。例如,在完全共线性的条件下,将得不到参数 的估计量;在近似共线性情况下 OLS 估计量非有效。多重共线性使参数估计值的方差和标准 差增大,变量的显著性检验失去意义;模型的预测功能失效。在研究“亲属关系”是否提供 借款,即“亲属关系”和“资金关系”之间是否有关系的时候,假设通过常规统计分析发现 二者之间确实有关系。实际上,此时的相关是虚假的,一方面是因为村民之间在地理位置上 的相近带来的,一方面,这种研究本身就具有重大缺陷:“亲属关系”和“往来关系”本身 就有相关性。在社会网络分析中,检验这种虚假相关也是很困难的。 第一节 QAP 的含义 社会关系是社会学研究的核心内容之一。如何研究“关系”,许多人从多个角度(政治 学,经济学,国际关系学,定量研究和定性研究等)进行了探讨。从量化角度讲,由于“关 系”数据本身就是关于“联系”的数据,因而直接违背“共线性”的原则。这意味着,很多 常规的统计技术(如 OLS)是不能简单地应用于对关系数据的统计分析之中的。特别是, 在研究关系之间的关系的时候,例如在研究“亲属关系”是否带来“经济支持关系”的时候, 就需要特定的方法,QAP 就是方法之一。 QAP(Quadratic Assignment Procedure,二次指派程序)是一种对两个方阵中各个格值 的相似性进行比较的方法,即它对方阵的各个格值进行比较,给出两个矩阵之间的相关性系 数,同时对系数进行非参数检验,它以对矩阵数据的置换为基础。其原理如下(参见 Everett, 2002)。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 74 假设用两个矩阵分别表示 5 个人(A,B,C,D,E)之间的“朋友关系”和“建议关 系”(假设这两种关系都是对称的),如下所示(1 代表朋友,0 表示不是朋友)。每两个人之 间的关系都对应着关系矩阵中的格值,矩阵中的各行和各列对应着 5 个人。一般情况下,矩 阵的格值只有两个:1 和 0。从(1)中可见,A 和 B 是朋友,B 和 D 不是朋友,C 和 E 是 朋友,其他情况都可从表中分析出来;从(2)中可见,A 和 B 之间无建议关系,B 和 D 相 互提供建议,其他情况都可从表中分析出来。 (1)朋友关系图 (2)建议关系图 1000 1100 01 11 001 1 0011 ABCDE A B C D E − − − − − 0111 0011 10 01 110 0 1110 ABCDE A B C D E − − − − − 表 5-1:朋友关系矩阵和建议关系矩阵 上述矩阵数据就是关于 5 个人之间的关系(同理可用矩阵表示多个人、多个公司或者多 个国家之间的关系)。因此,各个观察值之间不相互独立,用许多标准的统计程序就不能进 行参数估计和统计检验,因为观察项之间不独立,否则会计算出错误的标准差。对于这个问 题,学者们利用一种随机化检验(randomization test)方法来检验,QAP 即属于此。QAP 是 一种以重新抽样为基础的方法,已经在社会网络研究中得到了广泛的应用,其研究对象都是 “关系”数据。QAP 可以计算出正确的标准差(参见: http://fmwww.bc.edu/RePEc/nasug2001/simpson.pdf)。 就上述两个矩阵来说,二者之间的相关性如何?QAP 要求进行的随机化操作步骤如下。 具体地说,为了比较两个矩阵之间的相关性,首先把每个矩阵中的所有取值看成是一个 长向量,每个向量包含 (1)nn− 个数字(对角线上的数字忽略不计)。然后像比较任何两个 变量之间的相关性那样计算这两个向量之间的相关性系数。 只要把二者分别变成两个向量,计算二者之间的相关系数(Krackhardt, 1987:176),即 可得到-0.8165,这表明二者之间是负相关的,也就是说,越是“朋友”,越不提供“建议”。 问题是,这个观察到的相关系数值在统计意义上是显著的吗?实际上,在这种情况下,我们 不能利用标准的推断,因为其前提性假设被违背。此时可以利用一种重排法(permutation approach)。从本质上讲,我们要追问的问题是,相对于在各个关系的取值是随机的情况下 计算得到的相关系数来说,观察到的相关系数是大还是小? 我们可以随机地对矩阵的标签(A,B,C,D,E)进行置换,然后计算相关系数。就 B A C D E D B A C E 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 75 上述“朋友关系”和“建议关系”例子来说。我们可以对其中的一个矩阵(如建议关系矩阵) 中的“标签”进行置换,对于包含 5 个行动者的矩阵来说,其最多可能有 5!=120 种置换方 式。按照图 2 的置换方式计算出来的与“朋友矩阵”之间的相关系数为正数 0.8165;按照图 3 的置换方式计算出来的与“朋友矩阵”之间的相关系数则为正数 0.0,向谁寻求建议与“是 否为朋友”是无关的。 表 5-2:建议关系的第一种转置图 表 5-3:建议关系的第二种转置图 1001 1100 01 11 001 1 1011 ABCDE A B C D E − − − − − 0011 0110 01 01 110 1 1011 ABCDE A B C D E − − − − − 建议关系的第一种转置图矩阵 建议关系的第二种转置矩阵 表 5-4:全体 120 种置换的分布 相关系数值 置换的次数 百分比 0.8165 0.4082 0.0000 -0.4082 -0.8165 4 32 48 32 4 3.3 26.7 40.0 26.7 3.3 加权的均值:0.0 总数:120 100 由图可见,在“建议关系矩阵”的全部 120 个置换矩阵中,有 4 个(占总数的 3.3%) 与“朋友关系”是强相关的(相关系数为 0.8165);有 32 个(占总数的 26.7%)与“朋友关 系”是中等程度相关的(相关系数为 0.4082);有 48 个(占总数的 40%)与“朋友关系” 是无关的,相关系数为 0.0;其余的 30%是负相关的。由这种分析可以得出如下结论:如果 表 2 代表我们的实际数据,那么这种实际结果表明这种置换只有 3.3%的概率是随机造成的, 也就是说,如果原假设为“建议数据是随机指派的”,那么在原假设成立的情况下,我们实 际观察到的数据在 3.3%的水平上是显著的。 该例子是比较简单的。如果网络规模较大,那么需要置换的次数将急剧增加。然而,对 该问题的解出现在(Mantel, 1967; Hubert and Schultz, 1976)(转引自 Krackhardt, 1987:176)。 一个矩阵和另外一个矩阵的全部可能的转置矩阵之间的相关系数的均值和标准差恰恰是这 B A C D E C B E A D 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 76 两个矩阵中的值的函数。因此,观察到的相关系数可表示为一个标准化的 Z-值。假设在进 行全部置换的情形下,置换的矩阵和原矩阵之间的相关系数服从标准正态分布的话,那么观 察到的相关系数的显著性水平就仅仅取决于在标准正态曲线下超出 Z-值之外的区域的面积 (Krackhardt, 1987:178)。 上述案例针对的是数据的标签进行重排。在具体的计算中,QAP 是针对一个矩阵的行 和列同时进行置换。具体做法是有三步。 首先,计算已知的两个矩阵之间的相关系数。 其次,对其中的一个矩阵的行和相应的列同时进行随机的置换(而不是仅仅置换行或者 列,否则破环原始数据),然后计算置换后的矩阵与另一个矩阵之间的相关系数①,保存计算 的结果;重复这种计算过程几百次甚至几千次,将得到一个相关系数的分布,从中可以看到 这种随机置换后计算出来的几百或几千个相关系数大于或等于在第一步中计算出来的观察 到的相关系数的比例。 最后,比较在第一步中计算出来的观察到的相关系数与根据随机重排计算出来的相关系 数的分布,看观察到的相关系数是落入拒绝域还是接受域,进而做出判断。也就说,如果上 述比例低于 0.05(假设研究者确定的显著性水平为 0.05),就在统计意义上表明所研究的两 个矩阵之间存在强关系,或者说二者之间出现在相关系数不太可能是随机带来的。 另外,既然QAP只对某个矩阵的行和列同时进行置换,然后计算置换后的矩阵与另一个 矩阵(即模式矩阵)之间的相关系数,这就保证了自变量矩阵和因变量矩阵在行和列上都相 互依赖。最后计算出显著性以及相关系数大于或者小于实际系数的概率。 第二节 QAP 分析实例展示 QAP 分析又可以分为 QAP 相关分析和 QAP 回归分析,下面分别用实际例子加以介绍。 一、QAP 相关分析 QAP 相关分析既可以研究两种“关系”矩阵之间是否相关,还可以研究一个属性(如 性别)与一种关系(如朋友关系)之间是否有关。下面分别加以展示。 1.两种关系之间关系的 QAP 检验 为了展示 QAP 的操作步骤,下面利用 UCINET 中的 QAP 命令计算“婚姻关系”和“商 业关系”之间的相关性,从而对该假设进行检验。如果在统计意义上显著,则研究假设“‘婚 姻关系’和‘商业关系’之间有关”成立。 在 UCINET 6.138 中,沿着 Tools→Testing Hypotheses→Dyadic(QAP)→QAP correlation ①但要注意的是,这里所说的相关是指两个矩阵(作为两个变量)之间的相关,给出的 Pearson 系数是两个 矩阵之间的相关性系数。还要指出的是,矩阵中的值是 1 或者 0,而在统计分析的时候通常不用 Pearson 系 数来分析分类变量之间的相关性。但是,考虑到虚拟变量的平均值和方差都是有意义的,因此可以把两个 矩阵看成是两个“虚拟变量”,视之为“连续变量”,在这个意义上也可以做两个矩阵之间的相关分析。 因此,上述 Pearson 系数就是这样计算出来的。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 77 这条路径,选择“PADGM”(婚姻关系)和“PADGB”(商业关系)作为输入矩阵①,然后提 交运算。运算结果给出的是 PADGM(婚姻关系)和 PADGB(商业关系)之间的相关关系检验。 在计算结果中,如果相关系数在统计意义上显著,则上述假设成立。新版 UCIINET 中的新 的 QAP 计算的过程及结果如下: 点击“QAP Correlation”之后,出现一个对话框。然后,在“Matrix to Correlate” 下面的空白处键入: PADGM PADGB。如下所示: ①PADGM(婚姻关系)和“PADGB”(商业关系)这两个矩阵并不单独存在于 UCINET 的数据库中,而是共同 存在于 PADGEET 这个文件之中。因此,在计算之前,需要用“unpack”程序先把这两个矩阵打开,然后才 能提交运算,否则是不能计算出二者之间的相关系数的。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 78 点击“OK”后会计算出如下结果: PADGM(婚姻关系)和 PADGB(商业关系)之间的相关关系检验。 QAP CORRELATION -------------------------------------------------------------------------------- Data Matrices: PADGM PADGB # of Permutations: 5000 Random seed: 24233 QAP results for PADGB * PADGM (5000 permutations) Obs Value Signif Average Std Dev Minimum Maximum Prop >= O Prop <= O ------- ------- ------- ------- ------- ------- ------- ------- Pearson Correlation 0.372 0.001 -0.002 0.092 -0.169 0.372 0.001 1.000 QAP Correlations PADGM PADGB PADGM 1.000 0.372 PADGB 0.372 1.000 ---------------------------------------- Output generated: 18 十一月 06 20:47:02 这里的“Obs Value”指的就是这两个矩阵实际的,即观察到的相关性系数;“Significa” 当然指的是显著性水平;“Average”指的是根据5000次随机置换计算出来的相关性系数的 平均值;“SD”是标准差;Minimum代表随机计算的相关系数中出现的最小值;Maximum 代表随机计算的相关系数中出现的最大值;Prop >= 0是这些随机计算出来的相关系数大于或 等于实际相关系数的概率;Prop <= 0是这些随机计算出来的相关系数小于或等于实际相关系 数的概率。实际上,“显著性水平”是关注的重点。 由表可见,上述两个矩阵之间是正相关的,相关系数为 0.372,并且关系在统计的意义 上是显著的。因此,“婚姻关系”与“商业关系”在统计意义上是相关联的。 2.属性变量与关系矩阵之间关系的 QAP 检验 性别相同的人是否容易相互提供建议?也就是说,对于一个二元邻接矩阵来说,它与一 个单一变量(代表每个行动者的属性的变量)之间是否相关?例如,“朋友关系”矩阵与“性 别”是否有关?朋友关系是否根据性别来分组,也就是说是否男孩倾向于与男孩建立朋友关 系,女孩与女孩是朋友关系?如何用 QAP 来检验这个命题?可采用两种办法。 (1)利用 UCINET 中的“自相关”(AUTOCORRELATION)分析法。这需要根据 UCINET 中的 TOOLS > STATISTICS > AUTOCORRELATION > CATEGORICAL > JOIN COUNT 路 径。 具体地说,该程序对一个对称矩阵和分为两组的向量之间进行自相关分析的随机检验 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 79 (randomization test of autocorrelation)。需要注意,该程序只能针对分为两组(如男孩和女 孩)的数据进行检验,检验的基础是计算组内和组间的关系数量,并且与一种随机的模型进 行比较。 假设上述 5 人图中每个人的性别分别是男,女,男,男,女,即性别向量是(1,0,1, 1,0),在 UCINET 中输入该向量,并令其为 sex。然后计算该向量与“建议关系”矩阵之 间的关系,图示如下: 点击之后,出现如下对话框,键入(或选出)输入数据“advice”和分区向量 sex。 点击“OK”后即计算出如下结果: 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 80 可见,计算的结果给出了实际的关系数量和期望的数量。第一行给出的是群体 1 的内部 关系数量,即女孩和女孩之间的关系数;第二行给出的是群体 1 和群体 2 之间的关系数量, 即女孩和男孩之间的关系数;第三行给出的是群体 2 的内部关系数量,即男孩和男孩之间的 关系数。其中,期望值(Expected)指的是,如果各个 1 是随机地在群体内部和群体之间分 布的话,出现的 1 的数量,它实际上等于全部可能出现的关系除以 2。观察值(Observed) 就是实际出现的关系数量;我们注意到,男孩和男孩之间的观察到的关系数为 1,这个“1” 对应着的是下面的“建议关系矩阵”中“第 3 行第 4 列”的“1”。“差量”(difference)就是 把前者减去后者得到的数,即观察值减去期望值。P>=Diff 和 P<=Diff 这两项给出的是根据 随机重排的矩阵计算出来的差量大于(小于)或等于观察值的相对频次概率(relative frequency)。这些列的值可用来检验观察值的显著性。 从上述计算结果来看,无论是群体 1 的内部关系数量,群体 1 和群体 2 之间的关系数量, 还是群体 2 的内部关系数量,都不显著。 (2)也可以利用 QAP,但是需要构建“性别关系矩阵” “建议关系矩阵”已经在前文中构建出来,问题在于如何构建“性别关系矩阵”?方法 如下:如果 A 和 B 的性别相同,则在矩阵的 A,B 交叉处的值赋予 1,否则为 0。 假设 A=男,B=女,C=男,D=男,E=女。那么根据上述思想构建的矩阵应为(在建议 关系矩阵中,C 行 D 列交叉值为‘1’它与上图中‘3 2-2’一行和‘Observed’一列交叉值 ‘1’是对应的): 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 81 性别关系矩阵: 0110 0001 10 10 101 0 0100 ABCDE A B C D E − − − − − ;建议关系矩阵: 1000 1100 01 11 001 1 0011 ABCDE A B C D E − − − − − 然后就可以利用 QAP 计算二者之间的相关关系了,具体计算步骤与上述例子相同,此 处不再赘述,下面只展示计算的结果。 点击“OK”后,得到的计算结果为: 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 82 可见,“性别关系”与“建议关系”之间存在负相关关系,尽管这种关系在统计意义上 不是显著的。 读者完全可以根据自己的课题研究与本例相似的相关关系问题。 (3)上述两种方法的比较 方法(1)给出组内和组间的检验结果,计算出显著性水平;方法(2)只给出组建检验, 另外计算出相关系数和显著性水平。 二、QAP 回归分析 QAP 回归的目的是研究多个矩阵和一个矩阵之间的回归关系,并且对 r 的平方的显著 性进行评价。在具体计算的时候要经过两步。首先,针对自变量矩阵和因变量矩阵的对应元 素进行标准的多元回归分析;其次,对因变量矩阵的各行和各列进行(同时)随机置换,然 后重新计算回归,保存所有的系数值以及判定系数 r2 值。重复这种步骤几百次,以便估计 统计量的标准误(standard errors)。对于每个系数来说,该程序将计算出在全部随机置换的 次数中,产生的系数大于或等于第一步计算时得到的系数的随机置换所占的比例。在进行多 元回归的 QAP 分析的时候,最主要要求是回归中的所有变量(即所有矩阵)必须是 1-模矩 阵,即必须是 N×N 的方阵。如果给出的是“个人-事件”关系网络等隶属关系数据,可以利用 UCINET 中的算法(Data>Affiliations)转换为 N×N 矩阵。关于 QAP 多元回归分析,这里仅 举 24 个国家之间的多种关系数据加以说明(有关 QAP 回归的具体细节,请参见 Krackhardt, 1988)。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 83 如果采用最初的置换矩阵的方法进行计算,以“外交关系”(diplomatic exchange)作为 因变量,以“原材料”(CRUDE_MATERIALS)、“食品”(FOODS)、“制造品”(MANUFACTURED_GOODS) 和“矿物质”(MINERALS)作为自变量,经计算得到的结果为: MULTIPLE REGRESSION QAP VIA PERMUTATION METHOD W/ MISSING VALUES -------------------------------------------------------------------------------- # of permutations: 2000 Diagonal valid? NO Random seed: 163 Dependent variable: "H:\Ucinet Data\DIPLOMATIC_EXCHANGE Expected values: H:\Ucinet Data\mrqap-predicted Independent variables: CRUDE_MATERIALS FOODS MINERALS MANUFACTURED_GOODS Number of valid observations among the X variables = 552 N = 552 Number of permutations performed: 1999 MODEL FIT R-square Adj R-Sqr Probability # of Obs -------- --------- ----------- ----------- 0.317 0.314 0.000 552 REGRESSION COEFFICIENTS Un-stdized Stdized Proportion Proportion Independent Coefficient Coefficient Significance As Large As Small --------------------- ----------- ----------- ------------ ----------- ----------- Intercept 0.339307 0.000000 1.000 1.000 0.000 CRUDE_MATERIALS 0.109232 0.115283 0.031 0.031 0.969 FOODS 0.049976 0.052744 0.202 0.202 0.798 MINERALS 0.140151 0.127966 0.049 0.049 0.951 MANUFACTURED_GOODS 0.367435 0.387285 0.000 0.000 1.000 ---------------------------------------- Output generated: 19 十一月 06 21:02:35 结果显示,分析结果包含两个部分:第一部分简单介绍模型的拟合情况。从结果可见,判定 系数(R-square)和调整的判定系数(Adj R-Sqr)基本相同,都比较大。前者达到 0.317, 前者达到 0.314。这说明,当知道“原材料”(CRUDE_MATERIALS)、“食品”(FOODS)、“” (MANUFACTURED_GOODS)和“矿物质”(MINERALS)与“全面外交关系”之间存在线性关系 的时候,可以用上述四个矩阵数据解释掉“全面外交关系”的 31.7%的方差,因为该判定系 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 84 数是从数据当中计算出来的“观察到的判定系数”。另外,除了“食品”贸易之外,其他贸 易关系与“外交关系”都是显著的。 如果采用另外一种方法(DOUBLE DEKKER SEMI-PARTIALLING)进行计算(如下所示), 点击后出现的对话框为如下,键入作为因变量的矩阵 DIPLOMATIC_EXCHANGE,分别输入作为 自变量的四个矩阵的名称 CRUDE_MATERIALS、FOODS、MANUFACTURED_GOODS 和 MINERALS,如 下所示: 点击 OK 后得到的结果①为: MULTIPLE REGRESSION QAP VIA DOUBLE DEKKER SEMI-PARTIALLING -------------------------------------------------------------------------------- # of permutations: 2000 Diagonal valid? NO Random seed: 586 Dependent variable: "H:\Ucinet Data\DIPLOMATIC_EXCHANGE Expected values: H:\Ucinet Data\mrqap-predicted Independent variables: CRUDE_MATERIALS.##h FOODS.##h MANUFACTURED_GOODS.##h ① 需要补充的是,针对同样的数据,对于每个自变量的回归系数来说,并不是每一次分析的结果都完全一 样,但是相差不多。而判定系数(R-square)和调整的判定系数(Adj R-Sqr)一样。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 85 MINERALS.##h Number of permutations performed: 2000 MODEL FIT R-square Adj R-Sqr Probability # of Obs -------- --------- ----------- ----------- 0.317 0.314 0.000 552 REGRESSION COEFFICIENTS Un-stdized Stdized Proportion Proportion Independent Coefficient Coefficient Significance As Large As Small --------------------- ----------- ----------- ------------ ----------- ----------- Intercept 0.339307 0.000000 CRUDE_MATERIALS 0.109233 0.115284 0.011 0.011 0.990 FOODS 0.049976 0.052744 0.143 0.143 0.858 MANUFACTURED_GOODS 0.367435 0.387285 0.000 0.000 1.000 MINERALS 0.140151 0.127965 0.005 0.005 0.996 分析结果也包含两个部分:第一部分简单介绍模型的拟合情况,结果与上述方法计算结果中 的模型总结部分一样。判定系数和调整的判定系数(Adj R-Sqr)基本相同,都比较大。判 定系数右侧的一项是概率。要注意,这个概率是满足如下条件的随机置换的次数占总随机置 换次数的比例(也是一种概率),即该次随机置换产生的判定系数要不小于观察到的判定系 数,它是单尾检验(One-Tailed Probability)的概率。 “# of Obs”这一项指的是观察项的数目,它等于 552。这是因为我们有 24 个国家构 成的 24 行 24 列矩阵,其中当然有 24×(24-1)= 552 个观察项(一个国家与“自身”不 存在贸易关系)。 第二部分给出了截距、每个自变量的非标准化回归系数、标准化回归系数和统计显著性 检验的结果等。与上表不同的是,这里给出了两个概率(Proportion As Large 和 Proportion As Small)。要注意,与上述类似,这两个概率是满足如下条件的随机置换的次数占总随机置换 次数的比例(也是一种概率),“Proportion As Large”指的是随机置换产生的判定系数的绝 对值不小于观察到的判定系数的随机置换占总置换次数的比例;“Proportion As Small”指的 是随机置换产生的判定系数的绝对值不大于观察到的判定系数的随机置换占总置换次数的 比例。显然,此处进行的是双尾检验(Two-Tailed Probability)。 在本例中,CRUDE_MATERIALS、MANUFACTURED_GOODS和MINERALS)的回归 系数在统计的意义上是“显著”的(其显著性水平分别是0.011,0.000和0.005),中间者最显 著。“FOODS”不显著,表明“食品”对“全面外交关系”的贡献在统计意义上不显著。 可见,利用这两种方法计算的结果没有太大的差异。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 86 第三节 小结及讨论 置换检验与常规统计检验之间的关系: 置换检验 常规检验 检验关系变量之间的关系;不关 注总体的分布;非参数检验 检验属性变量之间的关系,随机样本,总体为正态分 布,参数检验;检验的结果可以推广到总体 QAP 研究的范围很广:如拥有共同董事的公司在股票市场上的行为是否类似?年龄相 仿的人是否容易成为朋友? 在对图集合中的全部图都重新作标签,再计算后将得到统计量的分布。QAP 检验的原假 设就是,在多个图基础上观察到的图论层次上的统计量来源于该分布。QAP 是一种非参数 检验(non-parametric test)。进行这种检验需要多次随机地对各个输入的矩阵数据进行重新 标签,不断地计算检验统计量(test statistic),然后评价大于(小于)或等于观察值的比例。 在解释 QAP 检验结果的时候,心中要记住 QAP 原假设的实质。不应该把 QAP 检验的 结果解释为是评价其背后的结构差异。确实,QAP 可以被精确地理解为检验在控制已知的 矩阵结构的基础上,通过变动特定点的标签引起的结构差异。实际上,在所研究的矩阵之间 往往存在着实质性的同构。QAP 趋于给出非显著性的结果。一般情况下,在利用 QAP 来检 验两个变量的图统计量的时候,不能获得一个单尾显著性水平。反之,QAP 下的显著性并 不一定意味着观察到的结构关系与人们从诸如图的规模、密度等典型结构中期望的结构关系 是异常相关联的。在研究诸如“朋友关系”和“建议关系”是否存在关系这样的例子的时候, QAP 就是一种非常好的可以排除掉虚假的结构关系的方法。例如,某些被调查者倾向于不 加区分地提名很多人,这导致一种结构相似性,而这种相似性却与那些涉及到的人的身份无 关。 总之,QAP 是一种用来检验关系矩阵之间的关系的方法。它可以计算出显著性水平, 因而可用于对一些关系性的命题进行检验。 本章参考文献(略) 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 87 第六章 凝聚子群研究① 本章概要:本章在给出凝聚子群的含义基础上,介绍了各种凝聚子群的类型,最后介绍 两种分裂指数的计算,目的是用一种指数测量群体的分裂程度。 社会学研究的一个重要任务是揭示社会的结构。什么是社会结构?这始终是社会学自创 始以来的一个重要课题。在社会科学的很多领域,社会结构都是一个使用极为广泛,也极为 混乱的概念。一方面,人们可以利用不同的词语,如社会系统、制度、整合和网络等来表征 社会结构;另一方面,即使在解释什么是“社会结构”的时候,不同的学者也有不同的侧重 点。前一种做法大多散见于社会学经典作家的论述中,后一种做法则涉及结构功能主义、结 构主义和后结构主义各个理论流派的主要观点。但是,在笔者看来,这些关于社会结构的思 想都缺乏可操作化的指标。社会网络分析恰恰专注于此。 第一节 凝聚子群概说 广义地说,凝聚子群研究是一种社会结构研究。本节首先探讨社会结构的含义,重点指 出社会网络意义下的社会结构的含义。然后给出分析凝聚子群的基础,给出凝聚子群的几种 类型。 一、社会结构研究的两种视角:质的研究和量的研究 在笔者看来,如果坚持简单的二分法,对社会结构的研究存在两种研究思路:质化的 (qualitative)结构观和量化的(quantitative)结构观。可以说,现存大多数对社会结构的研 究都属于“质的研究”。例如,有学者(周怡,2000)把关于社会结构的研究分为四个时期: 社会学的经典时期;帕森斯时代的社会结构研究;后帕森斯时代的社会结构;后结构主义时 代的社会结构研究。这些关于社会结构的概念和界定都属于前一种研究类型。 后一种类型即是我们所说的“网络结构”范式。这是一种利用量化的方法刻画社会结构 的研究,也是“社会网络分析”学者所坚持的治学思路(Wellman and Berkowitz, 1988; Berkowitz, 1982)。以下首先简单分析“质的研究”意义上的社会结构观,然后介绍“网络 结构观”。 (一)对社会结构的“质的研究” 在社会学初创时期,斯宾塞以及孔德等学者的思想充满了自然主义和实证主义的品格, 这时候的“社会结构”概念基本上是从生物学中移植来的。而马克思的结构研究与社会结构 研究的生物学取向不同,马克思更强调源于社会物质生活中的生产关系。帕森斯(T. Parsons) 认为,所谓社会结构是具有不同基本功能的、多层面的次系统所形成的一种“总体社会系统”, ① 本章是在拙作(2004)第六章的基础上修订、增补而成的,二者内容有所重叠。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 88 是包含“执行适应”(A)、“目的达成”(G)、“整合”(I)和“模式维护”(L)四项基本功 能的完整体系。帕森斯的“社会结构:总体社会系统=AGIL”的概念,明显会引导人们思考 大规模的社会现象或社会体系等宏观结构(如政府、官僚制度等)。经过帕森斯的发展,社 会结构的概念已初具规模,把社会看成是若干成分之间的功能联系,而不是简单的混合与堆 积。人类学家列维—斯特劳斯(Claude Levi Strauss,1908~ )用社会之“深层结构”代替 帕森斯的社会宏观结构。列维—斯特劳斯更强调那种决定历史、社会与文化中的诸具体事件 和行为的“深层结构”,即与语言行为相对的语法结构,与社会行为相对的经济基础的结构 以及与意识活动相对的无意识机制等。总的来说,列维—斯特劳斯有关结构的论述可以总结 为:①结构是内在的、不可直接观察的,也是非实体性的,故它不是实体性结构;②结构是 深层结构中的规则总体,是隐藏着的逻辑关系。 社会学家吉登斯(Antony Giddens, 1938~ )的工作是希望社会结构的概念能够脱离二 元对立,最终走向综合。他指出:“结构是潜在于社会系统不断再造过程中的规则和资源” (吉登斯,1998:377)。在吉登斯的论述中,规则属于行动者的知识与理解部分,它是行动 的内在元素,是潜在的、非决定性的情境界域。行动者“具有知识”,这种知识是反思性的。 自我反思和相互反思构成“相互知识”——成为行动的内在元素。行动者在知识上的不完满, 将导致行动的意外后果。正是“意外后果”的发生,引起了社会结构的变迁。 所有这些结构观都属于对社会结构的“质的研究”,都没有涉及到结构的“模式”。这就 是网络研究的任务之一。 (二)对社会结构的网络研究 如何刻画一个群体的社会结构?齐美尔,霍曼斯等社会学家都进行过论述。现在,我们 看看网络专家是如何研究的,看看他们是如何对群体这个概念进行操作化处理的。 虽然在社会网络分析者中没有一个明确、公认、统一的社会结构观,但是下述观点大体 上是多数网络研究者坚持的结构观:社会结构是在社会行动者之间实存或者潜在的关系模式 (Wellman and Berkowitz,1988;Berkowitz,1982;Scott,2000)。关系模式可以有多种, 例如二人关系、三人关系、“块”(或者子群)层次的关系等。而分析网络中存在多少派系, 每个派系之间是什么关系,派系内部成员之间的关系具有怎样的特点,一个派系的成员和另 一派系的成员之间的关系具有怎样的特点等,这些也是一种社会结构研究①。结构分析者的 一个重要关注点是分析出网络中存在的“子结构”(sub-structure)。网络分析者给出一系列 算法,用来分析网络的整体结构如何由小结构(如 n-派系、n-宗派、k-丛)组成。 在网络结构研究中,把行动者分到各个派系(或者子群)之中,这是一种重要的研究方 向。与此同时,应该理解作为一个整体的社会网络是如何行事的,这一点非常重要。例如, 假设有两个网络,一个网络中的行动者分为两个相互不重叠的派系,另外一个网络中的行动 者分为两个相互重叠的派系(即某些网络成员同时归属于两个派系之中)。我们可以期望, 在有重叠派系的网络中,网络成员之间的冲突和矛盾可能较少一些,而在不存在重叠的网络 之中,矛盾则相对多一些。如果网络成员之间有重叠,成员的流动和扩散可能比较迅速;如 ① 林南(2005/2001:33)先生从社会资本的角度给出社会结构的界定。他指出,“社会结构由以下部分组 成:(1)占据不同数量的一种或者多种有价值资源的一组社会单位(位置);(2)与权威(对资源的控 制和获得)有等级性的关系;(3)在运用资源的时候共享一些规则和程序;(4)它们被寄托给遵循这些 规则和程序的行动者。这种社会结构观把资源和权力结构结合在一起,而不仅仅是一种抽象的形式结构, 因而具有实际意义。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 89 果网络成员之间没有重叠,成员的流动和扩散可能仅限于一个群体的内部。 另外,从个体行动者的角度讲,了解一个行动者是如何嵌入一个网络之中的,这对于理 解他(她)的行为具有重要意义。例如,有的行动者起到在各个群体之间的“桥梁”作用; 有的行动者与一个派系中的所有行动者都有关系;有的却是一个相对孤立者。不同的行动者 嵌入网络中的不同程度会对其行为和看待问题的方式产生重要影响。 理解社会结构以及个体的嵌入性的一个重要工具就是关于子结构(或者子群、派系等) 的思想。一个派系的一般性定义也很简单:一个派系无非是一个行动者的子集和,子集合中 的行动者之间的联系相对比较紧密。但是,派系的精确定义以及对该定义的推广就稍微复杂 一些。这些定义都属于“凝聚子群”(cohesive subgroups)的范畴。 群体问题不仅是社会学研究的重要问题,更是社会心理学研究的重要问题。社会学从群 体在整个社会关系系统中所占的位置出发,分析各个群体之间、群体与大环境之间的关系以 及群体内部各个成员之间的关系。社会心理学则从群体与个体之间的互动角度出发,把个体 看成是在群体之中的行为者,接受群体的观念、影响、规范和价值观等。 群体是多种多样的。每个人的一生都生活在很多群体之中。广义地说,一个社会行动者 (如社区、城市、甚至国家等)也如此。尽管关于群体的定义有很多,但是我们参考时蓉华 (2004:490)的观点,给出在社会网络分析的意义上的群体定义。群体是在即定目标和规 范的约束之下,彼此互动、协同活动的一群社会行动者。 这个定义体现了群体概念的关键,即它的所有成员之间必须有互动。群体要有自己的目 标、有群体规范、群体意识,还要有群体的分工。另外,群体一般要有一定的凝聚力,这体 现在其成员要有认同感、归属感和有力感(时蓉华,2004:491)。高度的凝聚力可以增强对 群体目标的达成、促进成员遵守群体的规范,增强成员的自信心,也影响到群体的工作效率。 另外,我们的群体定义不限于个人。或者说,群体中的“个体”可以是个人,也完全可以是 家庭、合作小组、目标小群体、城市,甚至国家等。 在社会学研究特别是社会网络研究中,没有比较明确的“凝聚子群”的定义,它也不是 一个有明确含义的概念。大体上说,“凝集子群是满足如下条件的一个行动者子集合,即在 此集合中的行动者之间具有相对较强、直接、紧密、经常的或者积极的关系。”(Wasserman and Faust,1994:249)正是由于我们可以从多个角度分析“较强、紧密、经常以及积极” 等关系的属性,因此,凝聚子群的概念也有多种。 本章将回顾凝聚子群研究的缘起,介绍各种凝集子群概念,它们的基本特征以及分析这 些凝聚子群的方法。需要补充的是,社会网络领域对群体的研究主要是从形式化的角度进行 的,其目的是为了分析凝聚子群的各种类型,找到在一个整体网络中存在多少种凝聚子群。 这种研究显然不同于社会心理学领域中的凝聚子群研究。 二、凝聚子群的类型 许多学者(Erickson,1988;Friedkin,1984;时蓉华,2004)指出,在社会学、社会学 心理学研究中,特别是在对有关社会现象(如社会团结、从众心理、精神健康、心理疾病等) 的解释中,社会凝聚力(social cohesion)都扮演重要角色。例如,福李金(Friedkin,1984: 236)认为,在社会学理论研究中,我们常常可以利用网络凝聚性(network cohesion)作为 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 90 一个解释变量,特别是在研究群体的各个成员如何达成共识的时候,利用网络凝聚性作为一 个解释变量更具有说服力。按照这种思想,我们可以期待在那些相互之间存在频繁接触的人 们当中,同质性比较强;在那些相互之间交往比较少的人们之间,异质性就比较强。科林斯 (Collins,1988)也强调凝聚性在社会网络分析中的重要性:“个体与网络的关系越紧密, 他们就越受到网络中的各种标准的影响。”孤立的和紧密关联的群体构成了派系,在这种具 有高度凝聚力的群体中,个体的信念常常很一致。 群体、子群、派系等概念在社会科学领域,特别是在社会心理学和社会学中得到了广泛 的应用。在社会心理学领域,小群体(small group)一般指相对稳定、人数不多、有共同目 的、相互接触较多的联合体。而在小群体内部又可以分化出一些子群体(subgroup),又叫 做小圈子。小圈子的人数当然更少一些,“一般为 2 至 7 人。”(时蓉华,2004:500)。在本 讲义中,我们并不严格限定小群体的规模为 2 到 7 人。但是,小圈子中的人数一定要少于小 群体中的人数,这是必然的。 实际上,对“二方关系”和“三方关系”的研究也属于“凝聚子群”研究的范围。只是 由于二方关系和三方关系具有自己的特色,我们才用两章篇幅分别进行研究。 在社会学领域中,群体的概念也是多种多样的。弗里曼(Freeman,1992a)回顾了群体 概念在社会学领域中的应用。尽管如此,直到 20 世纪 90 年代,学者们并没有给出群体的精 确的形式化定义。而这个工作的完成要归功于社会网络分析的学者。 社会网络分析者的任务之一是对“社会群体”概念进行形式化处理。在他们看来,可以 通过网络中行动者子集合的一些特征来刻画、研究社会群体。“子群”的形式化概念是通过 子群体中成员的总体凝聚性给出的,这种凝聚性建立在成员之间的某些特定关系属性的基础 上。然而,由于我们可以根据多种网络属性对一个群体的凝聚性进行量化处理,因此,凝聚 子群也有多种形式化定义。例如,“初级群体”(Primary Groups)具有怎样的含义?什么样 的网络结构能够描述这种群体?凝聚子群分析的目标是确定出来非重叠性的群体,从而允许 我们确定其内在群体结构。 子群在有关文献中占据重要地位。但是,多数文献都没有回答,关系性的行动者是如何 以及为什么同时维持他们子群体和它们之间的关系。在社会网络文献中,存在多种对凝聚子 群进行量化处理的方法。总的来说,我们可以从四个方面考察凝聚子群,这四个方面也恰恰 体现了网络分析者对凝聚子群进行形式化处理的如下四个角度: ① 关系的互惠性; ② 子群成员之间的接近性或者可达性; ③ 子群内部成员之间关系的频次(点的度数); ④ 子群内部成员之间的关系密度相对于内、外部成员之间的关系的密度。 具体地说,建立在“关系的互惠性”基础上的凝聚子群考察的切入点是网络各个成员之 间关系的相互性,也就是说,考察任何一对成员是否相互“选择”,是否为邻接点;建立在 “成员之间的可达性”基础上的凝聚子群,分析子群的各个成员之间是否可达,但是不要求 都邻接;建立在“成员之间关系的频次”基础上的凝聚子群,分析的入手点是子群成员与其 他成员之间的关系频次;建立在“相对频次”基础上的子群概念,则关注子群中的成员相对 于网络中的其它行动者来说是否比较紧密,是否具有相对较高的凝聚力。 对应于这几类凝聚子群概念,分析的方法各不相同。各种方法关注的分别是不同的社会 网络属性。另外,同一个凝聚子群概念在不同性质的网络中的含义也不同。例如,“派系” 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 91 这个概念在“无向关系网络”、“有向关系网络”和“多值关系网”中的含义就有所不同。因 此,以下在分别介绍无向关系网中的各种凝聚子群的类别的同时,进一步探讨在“有向关系 网络”和“多值关系网”中的凝聚子群的含义。 需要指出的是,关于凝聚子群研究的文献更多地体现在社会心理学领域。例如,凝聚群 体的目标、规范、群体心理、凝聚力、冲突、合作等内容已经得到相应的研究(时蓉华,2004), 对这些问题感兴趣的读者请进一步参考有关资料,这里从略。 第二节 建立在互惠性基础上的凝聚子群 派系(cliques)这个概念是在讨论图论的社会学意义的时候提出来的。最初,社会网络 学者主要针对面对面的小群体中的具有积极意义的关系(例如朋友关系、喜爱的关系等)进 行凝聚子群分析,目的是找出可以“分派”的子群来。实际上,早期社会网络学者已经在霍 桑工厂和杨基城报告中涉及到“派系”思想。霍桑实验中涉及到的“非正式群体”就可以看 成是派系。一般来说,对于二元有向关系网络来说,“派系”常常指这样的一个子群体,即 其成员之间的关系都是互惠的,并且不能向其中加入任何一个成员,否则将改变这个性质。 派系是最基本的凝聚子群概念。对于二元无向关系来说,利用图论语言可以给出派系的如下 定义。 一、派系的定义 (一)无向关系网络中的派系 对于不同性质的网络来说,派系的定义也不同。在一个图中,“派系” 指至少包含三个 点的最大完备子图(maximal complete sub-graph)。这里有三点值得强调。首先,派系的成 员至少包含三个点,之所以做如此要求,主要是为了指出一个互惠对(mutual dyad)不构成 派系;其次,派系是“完备”的,即其中任何两点之间都是直接相关,都是邻接的,并且不 存在任何与派系中所有点都有关联的其他点。第三,派系是“最大”的,其含义是,我们不 能向其中加入新的点,否则将改变“完备”这个性质。 “派系”是“最大的完全子图”,即在该点集中,任何点对之间都存在一条直接相连的 线,并且该派系不能被其他任何派系所包含。如图 6-1 所示,一个包含 4 个成员的派系包含 6 条线,一个包含 5 点成员的派系有 10 条线,9 个成员的派系有 36 条线。可以看出,一个 派系中的任何两个成员之间都存在关系。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 92 图 6-1 不同规模的派系图示 由上述分析可以总结派系拥有的如下性质:(1)派系的密度为 1;(2)一个包含 n 点的 派系中任何一个成员都与其他 n-1 个成员相连;(3)派系中任何两点之间的距离都是 1;(4) 组内关系到组外关系的比例达到最大;(5)派系中的所有三方组都是传递性三方组。 后面将指出,如果一个点集的任何两点都可以通过一定的途径相连,这样的点集叫做“成 分”(component)。“派系”这个概念与“成分”不同。“派系”的概念要比“成分”严格。 一个成分中的所有点之间不要求都是邻接的,而一个“派系”中的点必须都邻接。 (二)有向关系网络中的派系 上述派系概念只是针对无向网络图来说的。有向网络图中派系的含义稍有不同。在一个 无向图中,所有点之间的关系都是相互的,所以考察派系要用到图中所有线。在有向图中, 派系的含义有所区别。根据派系的定义,只有“互惠”的关系才能纳入派系之中。因此,分 析有向图中的派系一定针对的是行动者之间的互惠关系,而这种要求往往是比较严格的。例 如,在图 6-2 中{1,2,3}构成一个派系。假设该图是一个有向关系图,并且 1 和 2 之间 的关系是相互的,2 和 3 之间的关系也是相互的,但是 1 和 3 之间只存在单向的关系,那么 这三个点就不构成一个派系。可见,有向图中派系的概念是很严格的。因此,我们称在有向 图中区分出来的派系叫做强派系(strong cliques),把从无向图中分析得到的派系叫做弱派 系(weak cliques)。 在针对具体数据分析其派系构成的时候,可以利用 UCINET 中的程序(沿着 network→ subgroups→cliques 这个路径)对关系数据矩阵进行派系分析,找到其中有多少个派系以及 每个派系包含哪些成员等。 (三)多值关系网络中的派系 上文讨论的网络主要是二值关系网。但是,在现实生活中,关系常常是有多种取值的。 例如,人们往往把朋友关系分为几类,如“密友”、“好友”、“一般朋友”和“一面之交的朋 友”等。又如,在研究国际贸易的时候,贸易额决不是“1”和“0”这样的二值数据,而是 多值的。在一个多值网络中,凝聚子群研究的目的是为了找到其中存在的一些相互联系比较 紧密的具有凝聚力的小群体。因此,子群成员之间的关系应该具有较大的值。 根据关系是否存在方向,可以把多值网络分为有向多值网和无向多值网两种。为了简单 起见,下面对凝聚子群的的分析主要针对的是无向多值网。 在研究无向多值网中的凝聚子群(如派系、n-派系等)的时候,必须首先要确定该子群 的凝聚程度,也就是要首先给出一个临界值 c 来。可以想象,该临界值越大(小),所发现 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 93 的子群的凝聚力就越强(弱)。如果关系的取值在 0 和 C-1 之间的话,那么临界值的取值 范围也在 0 和 C-1 之间。 1.“c 层次派系”的含义 既然关系是多值的,那么在多值网络中的派系的概念就不只有一个。而是有多类。具体 地说,在一个图(整体网)中,一个在 c 层次上的派系 (a clique at level c)指的是该图中的 一个满足如下条件的子图,即该子图中任何一对点之间的关系强度都不小于 c,并且在子图 外部的任何一点到该子图中的所有点之间的关系强度都小于 c。 临界值 c 的不同,得到的 c 层次上的派系 也不同。需要注意的是,假设存在两个临界值 c1 和 c2 的派系,并且假设 c1 大于 c2,即 c1>c2,那么 c1 层次的派系将包含在 c2 层次的派系 之中(Doreian, 1969: 240; Wasserman and Faust, 1994: 279)。 2.“c 层次派系”分析举例 假设下面的数据矩阵代表某村落中 10 个家庭在一周时间内的相互拜访关系网(本表参 考了 Doreian, 1969: 241)。下面我们分析其中存在的派系的情况。 A B C D E F G H I J A 0 5 0 1 0 1 5 4 1 1 B 1 0 3 5 1 5 3 1 3 5 C 0 4 0 5 1 5 1 0 0 0 D 5 5 3 0 3 5 5 0 3 5 E 0 5 1 1 0 1 3 0 4 1 F 3 5 3 5 5 0 5 4 3 5 G 4 5 0 3 1 5 0 4 3 4 H 5 0 1 1 0 0 5 0 5 3 I 4 4 1 3 1 5 5 0 0 2 J 1 5 0 4 3 5 4 1 2 0 可以利用一定的计算程序计算出该网络包含的各种派系的情况。当 c=1 的时候,即在第 一个层次的意义上,可以发现存在四个 1 层次派系:{B,C,D,E,F}、{A,G,H,J}、 {A,B,D,F,G,I,J}和{E,B,D,F,G,I,J}。 当 c=2 的时候,可以发现存在的 2 层次派系要比第一层次的派系稍有改变,它包括:{A, G,H}、{B,C,D,F}和{B,D,F,G,I,J}。 当 c=3 的时候,可以发现存在的 3 层次派系包括:{A,G,H}、{B,C,D,F}和{B, D,F,G,I}和{B,D,F,G,J}。 当 c=4 的时候,在上一步分析中发现的包含 5 个成员的 3 层次派系{B,D,F,G,I} 和{B,D,F,G,J}则分裂为两个分别包含 4 个成员的 4 层次派系,变为{B,F,G,I}和 {B,D,F,J}。 当 c=5 的时候,层次已经达到最高,5 层次派系只包括{B,D,F}、{B,F,G}和{B, F,J}。可见,点 B 和 F 都存在于上述三个派系之中。 由上述这种派系分析,我们可以清楚地看到派系之间相互包含的情况。 上述分析可总结如下表所示。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 94 派系的层次 每个层次的派系 1 {A,B,D,F,G,I,J},{B,E,D,F,G,I,J}, {B,C,D,E,F},{A,G,H,J} 2 {B,D,F,G,I,J},{B,C,D,F},{A,G,H} 3 {B,D,F,G,J},{B,D,F,G,I},{B,C,D,F}, {A,G,H} 4 {B,D,F,J},{B,F,G,J} 5 {B,D,F},{B,F,G},{B,F,J} 表 6-1:村民拜访关系的派系结构 如果说规模较小的网络比较容易找到派系的话,那么当网络规模变大的情况下,一般难 以分析其中存在的派系。这时候研究者只能通过电脑编程,利用计算机找到各种层次的派系。 在 UCINET 中不能直接分析多值关系网络中的派系,但是可以简介地计算出来。 二、对派系概念的评价 从派系的定义可以看出,如果研究网络中关系相当紧密的小凝聚群体的话,“派系”无 疑是可以利用的一种凝聚子群概念。但是,学者们常常批评派系概念具有如下相互关联的四 个缺点: 首先,派系这个概念太严格。研究者已经认识到,在对实际资料进行分析的时候,派系 这个概念可能没有多大用途,因为它太严格了。艾尔巴(Alba,1973)甚至称之为是“吝啬 的”(stingy)。这是因为,如上所述,在一个无向关系网络中,如果其中的一个子图是派系, 那么其中任何两点之间都一定存在直接相连的一条线,缺一不可,否则不能称之为派系。多 瑞安(Doreian,1969:237)也指出,“只要去掉一个互惠的关系,派系就不成其为派系了。” 可见,这个概念确实太严格。 另外,在有向关系网和多值关系网络中,c 层次派系的含义也很严格。对于一个有向关 系网中的一个小群体来说,只有当它的成员之间的关系都是互惠关系的时候,该群体才可能 成为一个派系。在多值关系网络中,只有其成员之间的关系的取值都不小于 c 的时候,才可 能成为 c 层次的派系。显然,这种定义很严格,在现实生活中比较少见。 其次,派系的规模受到点的度数的限制。如果在一项研究中,研究者要求被调查者列举 出他(她)的三个好友,那么,在调查数据中,每个人都至多与其他三个人有关系,在这个 网络中就不可能存在包含多于 3 个成员的派系了。推而广之,如果行动者被限定为拥有 k 个关系,那么,在结果中就不可能包含超过 k 个成员的派系。 再次,现实中出现的派系常常规模太小,并且重叠很多。在一个联系比较稀疏的网络中, 派系的数目可能极少。特别是在有向关系网络中,派系的数目更少。 最后,派系概念的另一个缺陷是,派系中的成员之间没有任何分化(Doreian,1969; Freeman,1992)。也就是说,既然派系是最大的完备子群,那么派系中的所有成员在图论的 意义上都是等同的,所有成员之间都邻接,他们之间就没有任何区别。假如我们期望一个网 络中的凝聚子群表现出一些令人感兴趣的结构特点来(如群体内存在得到广泛认同的核心成 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 95 员,存在一些不太被认同的边缘成员等)。这时候,派系的概念就不是一个恰当的凝聚子群 概念。对于一个多值关系网络来说,其中一个 c 层次派系中的各个成员之间的关系都不小于 c。但是,c 派系的概念把所有这些大于 c 的关系看成是等同的,并不关注它们之间的进一 步差异,不关注它们之间的进一步分化。这是派系概念的缺点之一。 另一方面,一些研究大网络(如包含几百个行动者的网络)的学者们也发现,群体中可 能存在大量相互重叠的派系。在这种情况下,派系的概念就没有多少意义了。这时候应该研 究派系的重叠性。 正是由于派系这个概念太严格,学者们在此基础上给出另外一些凝聚子群概念,使之具 有较大的理论价值和应用价值,这就引出了一系列推广的凝聚子群概念。 总的来说,学者们利用两种结构特征放松了派系概念的严格性。首先,艾尔巴(Alba, 1973)等利用“可达性”、“路径距离”和“直径”这几个性质推广派系的概念;其次,赛德 曼和弗斯特(Seidman and Foster)等学者利用“点的度数”(nodal degree)提出另外一些凝 聚子群概念。这两种推广的起点都是派系,都是通过放松一个或者几个限制性因素来推广派 系概念的(参见 Scott,2000:100~122;Wasserman and Faust,1994:253~256;Everett,2002)。 这就是下节的内容。 第三节 建立在可达性和直径基础上的凝聚子群 不可否认,很多重要的社会过程都是通过中介者达成的。也就是说,在现实生活中,行 动者之间的关系未必是直接相关的,间接的关系也不可忽视。例如,谣言的传播,通过关系 找工作等社会过程往往需要第三者参与,而这些行动者之间的关系往往不很紧密。因此,有 理由相信,相互之间联系不是非常紧密的一个小群体也可以叫做“凝聚子群”。这样的子群 成员之间不必然邻接。当然,它们之间的距离一般也不会太大。这时候,建立在可达性 (reachability)等基础上的两个凝聚子群概念,即 n-派系和 n-宗派就可派上用场。正是考虑 到这一点,以下给出这两种凝聚子群。 一、n-派系 如前所述,派系是最大的完备子图,这个概念比较严格。因此,有人从“可达性”这个 角度对此概念进行了推广。建立在可达性基础上的凝聚子群要求一个子群的成员之间的距离 不能太大。这样,我们可以设定一个临界值 n 作为凝聚子群中的成员之间距离的最大值。这 就引出了对派系概念做出最早推广的 n-派系(n-cliques)概念。与上述类似,无向网络和有 向网络中的 n 派系的含义有所不同。下面分别进行研究。 (一)无向网络中的 n-派系 1.无向二值网络中 n-派系的定义 对于一个无向二值关系网络图来说,如果其中的一个子图满足如下条件,就称之为 n- 派系:在该子图中,任何两点之间在总图中的距离(即捷径距离)最大不超过 n。从形式化 角度说,令 d(i, j)代表两点 ni,nj 在总图中的距离。那么,一个 n-派系的形式化定义就是一 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 96 个满足如下条件的拥有点集 Ns 的子图,即:d(i, j)≤n,对于所有的 ni,nj∈Ns 来说,并且 在总图中不存在与子图中的任何点的距离不超过 n 的点。 一般认为,n-派系的概念比较接近人们日常对派系的理解。这里的 n 是派系成员之间距 离的最大值。这样,一个 1-派系实际上就是最大的完备子图本身,也就是上述的“派系”。 而一个 2-派系则是这样的一个派系,即其成员或者直接(距离为 1)相连,或者通过一个共 同邻点(距离为 2)间接相连。n = 2 也常常是一个较好的临界值。当然,在实际分析中,n 的大小要由研究者自己决定。n 越大,对派系成员限制的标准就越松散。例如,一个 3-派系 就是一个比 2-派系松散的群体。n 的最大值要比图中点总数少 1。 n-派系可以通过矩阵操作方法进行分析,这在许多社会网络分析软件中都存在。例如, 仅仅对邻接矩阵进行操作,就可以产生一个距离矩阵。这个矩阵的布尔代数平方表示的是所 有距离为 2 的关系,三次方给出所有距离为 3 的关系,依此类推。大多数社会网络分析软件 都可以进行这种计算。 我们也可以分析多值图中的派系,方法与前一部分所讨论的一样,用一种临界点标准进 行分析。对于 n 的每一个取值来说,这种分析都会产生一系列嵌套派系:嵌套 2-派系,嵌 套 3-派系等(可参见 Scott,2000;Wasserman and Faust,1994)。 2.无向网络中的 n-派系分析举例 1-派系 2-派系 3-派系 图 6-2 规模为 4 的 n-派系 2-派系:{1,2,3,4,5}和{2,3,4,5,6};2-宗派:{2,3,4,5,6} 图 6-3 一个包含 2-派系、2-宗派的图 A A A B C B C B C (1) (2) (3) D E D E D E 图 6-4 子图和 2-派系 图 6-3 给出了三个规模为 4 的 n-派系,n 的取值分别是 1、2、3。图 6-4 给出了一个图 及其包含的 2-派系、2-宗派(下面将介绍其含义)。这里需要指出的是,{1,2,3}当然也 1 3 5 2 4 6 F 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 97 是一个 2-派系,因为,任何派系都是 n-派系。反之不成立。 在图 6-5 中,①不是 2-派系,因为有两点之间的距离大于 2;②和③都是 2-派系。 (二)有向网络中 n-派系 在介绍有向网络中的 n 派系之前,有必要首先介绍一些新的概念,这就是有向关系图中 的“半途径”(semipath)和“关联度”(connectivity)。这两个概念分别是无向网络中的“途 径”和“关联度”这两个概念的推广。 在一个有向关系网络中,点 i 到点 j 的一条“途径”指的是从 i 点出发指向 j 点的、由 各不相同的点和线的方向相同的系列。途径的长度是其中包含的线的条数。点 i 到点 j 的一 条“半途径”(semipath)指的是从 i 点出发指向 j 点的、由各不相同的点和线构成的系列。 也就是说,有向网络中的途径要考虑到关系的方向,而“半途径”则不考虑方向。半途径的 长度也是其中包含的线的条数。 1.有向网络中的四类关联性 这样看来,对于一对点 i 和 j 来说,连接二者之间的长度为 n 的途径可能有如下四类 (Wasserman and Faust, 1994: 275~276)。或者说,一对点 i 和 j 是 (1)n-弱关联的( weakly n-connected),如果它们之间通过一条长度不超过 n 的半途径 连接在一起; (2)单向 n-关联的(unilaterally n-connected),如果它们之间存在一条从 i 指向 j 的、 长度不超过 n 的途径,或者存在一条从 j 指向 i 的、长度不超过 n 的途径; (3)n-强关联的( strongly n-connected),如果它们之间存在一条从 i 指向 j 的、长度不 超过 n 的途径,并且存在一条从 j 指向 i 的、长度不超过 n 的途径;从 i 指向 j 的途径中包 含的点和线可能不同于从 j 指向 i 的途径中的点和线; (4)n-回返关联的( recursively n-connected),如果它们是 n-强关联的,并且从 i 指向 j 的途径与从 j 指向 i 的途径包含相同的点和线,只是方向相反。 这四种关联的含义依次递进,越来越严格。对应于上述四类关联性,有向关系网络中的 n-派系也有如下四类。 2.有向网络中的四类 n-派系 一个子图可能是如下四类 n-派系之一,只要它满足相应的条件。 (1)弱关联的 n-派系(a weakly connected n-clique),如果该子图中的所有点都是 n- 弱关联的,并且不存在与该子图所有点之间具有 n-弱关联关系的其他点。 (2)单向关联的 n-派系, 如果该子图中的所有点都是单向 n-关联的,并且不存在与该 子图所有点之间具有单向 n-关联的其他点。 (3)强关联的 n-派系, 如果该子图中的所有点都是 n-强关联的 ,并且不存在与该子图 所有点之间具有单向 n-强关联的其他点。 (4)回返关联的 n-派系, 如果该子图中的所有点都是回返 n-关联的,并且不存在与该 子图所有点之间也具有回返 n-关联的其他点。 (三)多值网络中的 n-派系 在一个多值关系网络中,n-派系建立的基础是子群成员之间的各个捷径之值。在上一节 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 98 中我们已经介绍了,在多值关系网络中,c 层次的途径指的是其中所有线的取值都不小于 c 的途径。与之类似,在一个多值关系网络中,如果两点之间存在一条 c 层次的途径的话,我 们就说这两个点时在 c 层次上可达的(reachable at level c)。那么,c 层次的 n-派系就是如 下这种子群,即其中所有点之间的捷径上的所有线的取值都不小于 c。因此,在一个多值图 中,一个 c 层次的 n-派系就包含了所有那些相互之间通过长度不超过 n 的途径在 c 层次上 可达的成员,或者说其中的每对成员之间都存在一条 c 层次的派系。并且即其中所有点之间 的捷径上的所有线的取值都不小于 c。 有向网络以及多值网络中的 n-派系分析思路相同。只要遵循定义,有向网络以及多值 网络中的 n-派系都是可以找到的,本部分的具体例示从略。 (四)对 n-派系的评价 n-派系思想在应用方面有三个局限性。首先并且最重要的是,当 n 大于 2 的时候,很难 给它以社会学的解释。距离为 2 的关系可以直接解释为那些有共同邻居的人之间的关系,该 邻居可以起到中间人的作用等。距离大于 2 的途径包括了比较疏远的弱关系。尽管比较长的 弱关系链可能对网络的总体结构非常重要,如格拉诺维特(Granovetter,1973)所指出的“弱 关系的强度”命题那样,但是,它们对于派系的意义是什么,这不很清晰。一谈到派系,就 好像要有相对紧密关系的存在。因此,很难确定 n 大于 2 的 n-派系的含义。 其次,作为一个子图,n-派系的直径有可能大于 n。因为,n-派系虽然要求各个点之间 通过长度不超过 n 的路径连接在一起,但是这并不能保证这些路径仍然保留在子群之中。例 如,在图 6-5 中,①中的点 A、B、C、D、E 形成一个 2-派系,但是,连接 D 和 E 的长度为 2 的途径(path)要经过非成员 F。该派系的“直径(即捷径的最大长度)却是 3,但是 3 却是用来定义派系长度的。这样,点集{A、B、C、D、E}构成了一个 2-长派系,但是它 的直径却是 3。推而广之,一个 n-派系的“直径”可能比 n 长。也就是说,连接一个派系中 的两点的中介点可能不是派系中的成员。 在对一个图进行 n-派系分析的时候,得到的派系之间重叠的往往比较多。在某些情况 下,我们找到的派系却具有一些我们不希望看到的性质。例如,n-派系的成员可能被本身不 是派系的成员的那些行动者连在一起。这个性质使 n-派系概念难以在社会学上得到应用。 再次,一个 n-派系可能是一个不关联图。一个 n-派系中的两点可能通过一条长度不超 过 n 的捷径连接在一起,这条捷径可能包含 n-派系的外部的点,并且这两个点之间不存在 一条仅仅包含 n-派系的成员的途径(path),因此,这个 n-派系就是一个不关联图。这些局 限性表明,n-派系往往并不像我们期待的那样是一个具有较高凝聚性的凝聚子群。因此,推 广这个概念也在情理之中。 二、n-宗派 艾尔巴(Alba,1973)和莫坎(R. J. Mokken)等学者对 n-派系的思想进行了推广。莫 坎提出 n-宗派(n-clan)这个概念。他认为,应该在派系概念的基础上,再提出一个有用的 概念,一个比较自然的限制性条件是要求 n-派系本身的直径不超过 n,这种做法可以避免 n-派系的一些缺点。 莫坎指出,所谓 n-宗派指的是满足如下条件的一个 n-派系,即其中任何两点之间的捷 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 99 径距离都不超过 n。可见,所有的 n-宗派都是 n-派系。图 6.5 中的(2)和(3)是 2-宗派, 而(1)不是。 n-宗派与 n-派系都是子图,二者之间的最主要区别在于对“距离”的理解上。后者所说 的“距离”指的是两点在“总图”中的距离,前者指的是两点在“子图”中的距离。应该说, n-宗派概念比 n-派系概念严格一些。或者可以说,任何 n-宗派都是 n-派系,反之不成立。 第四节 建立在点度数基础上的凝聚子群 本节介绍建立在点的度数基础上的凝聚子群概念。这种概念是通过对子群中的每一个成 员的邻点个数进行限制而得到的。 一、k-丛 派系概念要求各个点之间都存在关联。与这种要求不同的是,以度数为基础的凝聚子群 研究要求其成员之间的距离不低于某个值。这就是对派系概念进行的另一个推广,即赛德曼 和弗斯特(Seidman and Foster)提出来的 k-丛(k-plex)概念。这个概念提出的背景如下。 赛德曼和弗斯特观察到,n-派系常常不稳健(robust),表现出“脆弱性”(vulnerability)。 所谓一个子图是比较稳健的,其含义是,去掉该图的一个或者几个点之后,该图的结构相对 来说不受到太大的影响,否则称该图是不稳健的。我们可以利用关联性(connectivity)来测 量脆弱性(参见本讲义的“关联性研究”一章),即对于一个图来说,“如果移去任何一个点, 那么该图的结构在多大程度上是脆弱的。”例如,在图 6-6 中,尽管除了点 3 之外的任何两 个点之间的距离都是 2,但是,每一个捷径都包含点 3。这就是说,点 3 对于任何其他点对 之间的联系来说都至关重要。进一步说,如果没有点 3,那么点 1,2,4 相互之间都不能联 系在一起。因此,这个 2-派系是“脆弱的”。 2 3 1 4 图 6-5 一个不稳健的 2-派系 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 100 (一)无向网络中的 k-丛 正是通过这种分析,赛德曼和弗斯特提出了 k-丛概念。其定义如下:一个 k-丛就是满 足下列条件的一个凝聚子群,即在这样的一个子群中,每个点都至少与除了 k 个点之外的其 它点直接相连 (邻接)(adjacent)。也就是说,如果一个凝聚子群的规模为 n,那么只有当 该子群中的任何点的度数都不小于(n-k)这个值的时候,我们才称之为 k-丛。如果 k = 1, 根据定义,1-丛中的每一个成员都与其他 n-1 个点相连,那么,一个 1-丛就等于 1-派,也 当然是一个派系,是一个最大的完全子图。当 k = 2 的时候,其中所有点都至少与 n-2 个 其它点相连,但是,2-丛可以不是 2-派系。在图 6-7 中,①是一个 3-派系,因为所有点之 间的距离都不大于 3。然而,它却不是一个 3-丛,因为与点 A、C、E、F 相连的成员的数目 都少于 6-3 = 3。图②则既是一个 3-派系,也是一个 3-丛。读者可以自行检验。 在分析 k-丛的时候,一个重要问题是,研究者如何确定 k-丛的最小规模,即 k 是多大 的时候才可以接受。当 k 取值较小的时候,k-丛可以是相对较小的。但是,k 值的增大会产 生无用的结果。其原因是,k 值高的子图都只能是内聚力较小的子图。那么,一个可以接受 的 k-丛的最小规模应该是多少?下表给出了在这个问题上学者们坚持的经验“原则” (Everett, 2002)。k-丛这个概念比 n-派系更能体现凝聚力思想,当 n 的取值比 2 大的时候 更是如此。 (二)多值网络中的 k-丛 在多值网络中,k-丛的定义稍微复杂一些,需要考虑 c 层次的 k-丛这个概念。具体地 说,对于一个多值关系网络中的一个凝聚子群来说,如果其中的全部 gs 个点到该子群的至 少 gs-k 个点之间的关系的取值都不小于 c 的话,这种凝聚子群就叫做 c 层次的 k-丛 (Wasserman and Faust, 1994: 279)。 多值网络中的 k-丛的具体分析过程从略。本部分的具体例示从略。 A B C D E F ① C D B F E A ② 图 6-6 一个 3-派系和 3-丛 k 网络的最低规模 2 4 3 5 4 7 k 2k-1 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 101 二、k-核 与 k-丛概念相对的另一个建立在度数基础上的凝聚子群概念是 k-核(k-core)。k-核指 的是满足下面条件的一个子图,即子图中的点都至少与该子图中的 k 个其他点邻接。与 k- 丛相比较而言,前者要求各个点都至少与除了 k 个点之外的其它点相连,而 k-核要求任何 点至少与 k 个点相连。在图 6-7 中,②也是一个 3-核。下图中包含左右两个 3-核,然而, 如果在 A 和 B。之间再加入一条线的话,整个图就变成一个 3-核了。 一般来说,作为一类凝聚子群,k- 核有自己的优势所在。K 值的不同,得 到的 k-核显然也不同。研究者要根据自 己的数据自行决定 k 值的大小。我们往 往可以从中发现一些有意义的凝聚子 群。这是研究 k-核的一个好处。 在 UCINET 中,沿着 Network→Region→K-Core 这条分析的途径(如下所示),选择待分析的数据,就可以计算 出 k-核来。k-核不一定是具有高度凝聚力的子群,但是它们表现出与派系类似的性质来。 第五节 建立在“子群内外关系”基础上的凝聚子群 以上介绍的凝聚子群概念的建立都根据子群内部成员之间的关系的具体性质(如邻接 性、捷径距离以及点的度数等)。除此之外,我们还可以从另外一个角度入手给出凝聚子群 的概念。如艾尔巴(Alba,1973)所说,一个凝聚子群至少涉及到两个方面:一个是重点关 注子群内部的关系;另外一个是比较子群内部成员之间的关系强度或频次相对于子群内、外 部成员之间的关系强度或频次。艾尔巴把子群内部的关系与子群之间的关系称为凝聚子群的 “核心-边缘” (centripetal-centrifugal)维度。在这种思想引导下,一些学者比较子群内部 关系的紧密性与子群外部关系的稀疏性。这就引出下面将要介绍的凝聚子群概念。 既然一个凝聚子群应该是其内部关系相对比较紧密的一个群体,我们就不应仅仅关注子 群内部关系的性质,还应该分析子群内外关系的特点。以下几个凝聚子群概念就是根据这种 思想得到的。 一、成分 如果一个图可以分为几个部分,每个部分内部成员之间存在关联,而各个部分之间没有 任何关联,在这种情况下,我们把这些部分称为成分(component)。在一个图中,如果拿走 其中的某点,那么整个图的结构就分为两个互不关联的子图(成分)的话,则称该点为切点 (或桥点)(cutpoint)。下图中就包含 P1、P2、P3 和 P7,这四个切点因为,不论哪一点,整 个网络都将分为两个成分。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 102 图 6-7 关系网络中的“桥点” 可以想象,切点在网络图中占据重要的位置,对于其它点来说也具有重要意义。该点所 代表的行动者常常是非常重要的行动者,他扮演着“掮客”的角色,起到“中介”的作用。 利用 UCINET,可以分析一个网络包含多少个成分,其步骤如下图所示。实际上,对于 比较小的网络来说,我们可以通过直接观察就能看出其中存在多少个成分,这是比较容易的。 但是,对于规模较大的复杂网络来说,一般较难找出其中存在的多个成分。这时候 UCINET 恰好派上了用场。该程序既可以分析二值网络数据,也可以分析多值数据中的成分,既可以 分析无向关系网络,也可以分析有向关系网络中的成分。需要注意的是,有向网络数据中的 成分的定义稍微复杂一点,分为“弱成分”和“强成分”两种。简单地说,在有向网络中, 如果忽略关系的方向,得到的成分就是“弱成分”;如果在一个成分中,任何两点之间都存 在严格双向的途径,这样的成分就叫做“强成分”。 一个孤立点也可以看成是一个成分,整个网络也可以看成是一个成分。我们一般对既非 单个点,也非整体网的成分更感兴趣,因为这样的成分反映了整个网络可以分为多少个小群 体。当然,如果不对“成分”这个概念进行一些限定的话,它也就没有太多的理论意义和现 实意义。其原因在于,该定义没有给出这个独立存在的小群体到底是怎样的,因为我们是根 据一个小群体是独立存在来判断它是否为一个成分的。该定义不能告诉我们其他信息,例如 该成分的内部成员之间的联系是多还是少?内部是否有派别林立的情况发生?成分的定义 中没有给出这些信息。因此,需要对“成分”这个凝聚子群概念进行推广。“块”就是这样 的一个概念。 P1 P7 P4 P5 P2 P3 P6 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 103 二、块 如果一个图分为一些相对独立的子图的话,则称各个子图为“块”(blocks)。用来构建 “块”的程序模型叫做块模型(blockmodels)。 块模型最早是由怀特、布尔曼和布雷格(White, Boorman, and Breiger,1976)提出来的, 它是一种研究网络位置模型的方法,是对社会角色的描述性代数分析。后来,学者们从许多 方面对此概念进行了深入研究和推广。其最新进展是随机块模型(stochastic blockmodels, 具体参见 Wasserman and Faust,1994)及对块模型的深化,利用电脑程序分析块(参见 Doreian, Batagelj, and Ferligoj, 2000, 2004, 2005)。除此之外,许多学者还运用“块模型”研究一些具 体问题,例如对科学共同体的研究(Breiger,1976)、对世界经济体系的研究(Snyder and Kick, 1979)、对组织问题的研究以及大量的小群体研究等。总之,“块模型”这个概念和方法已经 得到了广泛的应用。 块模型的定义可以有多种。下面首先其描述性定义。 定义:一个块模型是由如下两项组成的:(1)把一个网络中的各个行动者按照一定标准 分成几个离散的子集,称这些子集为“位置”,也可称之为“聚类”、“块”(参见 Wasserman and Faust,1994:350;White,Boorman and Breiger,1976:769);(2)考察每个位置之间 是否存在关系。 这样看来,一个块模型就是一种模型,或者一种关于多元关系网络的假设。它提供的信 息是关于各个位置或者各个子群(而不是每个行动者)之间的关系,因而研究的是网络的总 体特点(White, Boorman, and Breiger,1976)。 每个“块”(block)(即 klrb )实际上对应的是初始矩阵的一个子矩阵。如果某块中所有 值(对角线除外)都是 1,称之为 1-块;如果都为 0,称之为 0-块。 总之,一个块模型就是对一元关系或者多元关系(包括二值关系以及多值关系)网络的 一种简化表示,它代表的是该网络的总体结构。每个位置中的各个行动者相互之间都具有结 构对等性。例如,位置 BK 中的所有行动者与 Bl 中的所有行动者之间的关系都类似。因此, 块模型是在位置层次上的研究,而不是在个体层次上的研究(参见 Wasserman and Faust, 1994:394~340;Burt,1976:93~122)。 关于块模型的构建和对块模型的解释,请参见拙作(2006)。我们专门设一章探讨块模 型,此处不再赘述。 三、LS 集合 如果既考虑到子群内部关系的频次,也考虑到子群的成员向子群外发出关系的频次的 话,就可以得到一个新的子群概念,这就是 LS 集合。 (一)LS 集合的含义 赛德曼(Seidman, 1983a,转引自 Wasserman and Faust, 1994: 268)把 LS 集合界定为: “在一个社会网络中,如果存在满足如下条件的一个点集 S,则称该点集为 LS 集合: 如果该点集内的每个真子集合中存在的到‘该真子集合在 S 中的补集’的关系都多于该真子 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 104 集合到‘S 外’的关系。” 现在用形式化的语言进行表述。假设存在一个图 G,它所对应的点集为 N;并且 G 中 存在一个子图 Gs,其对应的点集记作 Ns;再假设 Ns 中存在一个真子集合 Ss,即 Ss ⊂ Ns。 如果任何一个真集合 Ss 到 Ns-Ss(即 Ss 在 Ns 中的补集)中点的关系都多于到 N-Ns 中点的 关系的话,则称 Ns 是一个 LS 集合。 可见,LS 集合的概念对子集合内部和子集合之间的关系进行了比较。这里要考虑的基 本集合有三个,它们满足如下关系:Ss ⊂ Ns ⊂ N。N 是总的点集合,即对应于总图 G 的点集 合。首先需要注意的是,子集合 Ss 代表的是从 Ns 中选出来的任何一个子集合。Ns 就是一个 潜在的 LS 集合。其次要考虑两个补集合 N-Ns 和 Ns-Ss。同时要考虑两类线:从 Ss 到集合 Ns-Ss 的线和从 Ss 到集合 N-Ns 的线。LS 集合 Ns 内部的线应该比从 LS 集合中的一个真子 集合到非 LS 集合的成员的线要多得多。 LS 集合拥有如下重要性质。首先,由于 LS 集合中的所有子集合内部的关系都要多于 外部的关系,因此它们都是相对稳健的(robust),不包含分裂性的群体。因此,我们可以假 设一个社会网络中的 LS 集合会随着时间的推移保持相对的稳定。其次,在一个既定的图中 可能存在多个 LS 集合,在各个 LS 集合之间有一种重要的关系,即任何两个 LS 集合或者是 没有任何共同的成员,或者一个 LS 集合包含另外一个 LS 集合。可见,这一点与派系、n- 派系和 k-丛等概念不同,因为这些子群是可以相互重叠的,但是,LS 集合不能重叠。LS 集 合之间或者是包含与被包含的关系,或者无公共点,这个事实意味着在一个图中存在着一个 系列的具有等级的 LS 集合。 (二)LS 集合分析举例 LS 集合这个概念的本质含义可以看成是其子集合的和集。最初,学者们利用晶体管中 的芯片来展示 LS 集合的构成。这种晶体管设计的目的是在各个芯片之间建立最小数目的关 联。因此,LS 集合这个概念保证了如果在一个 LS 集合中包含的任何一个子集合被安装在芯 片上,它与外界建立的关联就要多于 LS 集合与外界建立的关联。 因此,集合 Ns 中的所有点就首先构成一个 LS 集合。Ns 中的每个单独的元素 n 也可以 看成是一个 LS 集合,并且可以称之为“平凡 LS 集合”(trivial LS sets)。在一个关联图中包 含的“平凡 LS 集合”有 N+1 个。 上文已经指出,LS 集合有一个重要的性质,即其中所有子集合内部的关系都要多于外 部的关系,因此它们都相对稳健,一般不会分裂。例如,在图 6-9 中包含 16 个 LS 集合(引 自 Borgatti, Everett, and Shirey, 1990: 340)。 这 16 个 LS 集合分别是: {1},{2},{3},{4},{5},{6},{7},{8},{9},{10},{11},{12},{1 2 3 4}, {1 2 3 4 5 6 7 8},{9 10 11 12},{1 2 3 4 5 6 7 8 9 10 11 12} 1 2 5 6 9 10 3 4 7 8 11 12 图 6-8 一个 12 点图 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 105 可见,除了单点集合之外,其余四个集合中的个体成员相互之间的联系都比与外部成员之间 的联系多。这一点也恰恰是具有凝聚力的群体的一个重要特征。 需要注意的是,集合{5 6 7 8}并不是一个 LS 集合,因为它不满足 LS 集合的定义。或者 说,不满足“该点集内的每个真子集合中存在的到该真子集合在 S 中的补集的关系都多于该 真子集合到 S 外的关系”这个条件。例如,该集合的一个真子集{5 6 7}到补集合{8}的关系 有 3 个,然而真子集{5 6 7}中各个点到集合{5 6 7 8}外的点的关系也有 3 个,不满足“多于” 这个条件。又如,该集合的一个真子集{5 6 8}到补集合{7}的关系有 2 个,然而真子集{5 6 8} 到集合{5 6 7 8}外的关系也有 2 个,也不满足“多于”这个条件。总之,集合{5 6 7 8}不满 足 LS 集合的定义。 我们还可以这样解释为什么{5 6 7 8}不是一个 LS 集合。因为对于一个集合来说,只要 其中有一个真子集不满足上述条件,该集合就不是 LS 集合。或者说,一个 LS 集合中的任 何一个真子集与该真子集到其在 LS 集合的补集上的关系都必须多于到 LS 集合外的关系。 因此,在上图中,LS 集合{1 2 3 4}包含的真子集合有 14 个,其中每个到 LS 集合其余成员 之间的关系都多于到非 LS 集合的成员之间的关系。这一点如表 6-2 所示。 表 6-2 来自图 6-9 中{1 2 3 4}这个 LS 集合(该集合的补集是{5 6 7 8 9 10 11 12})中 的所有真子集 Ss 及其分别到 Ns-Ss 和 N-Ns 的关系总数 真子集 Ss Ns-Ss Ss 到 Ns-Ss 的关系总数 Ss 到 N-Ns 的关系总数 {1} {2} {3} {4} {1 2} {1 3} {1 4} {2 3} {2 4} {3 4} {1 2 3} {1 2 4} {1 3 4} {2 3 4} {2 3 4} {1 3 4} {1 2 4} {1 2 3} {3 4} {2 4} {2 3} {1 4} {1 3} {1 2} {4} {3} {2} {1} 3 2 3 2 3 4 3 3 4 3 2 3 2 3 0 1 0 1 1 0 1 1 2 1 1 2 1 2 利用这种方法,我们可以用表 6-3 进一步说明集合{5 6 7 8}为什么不是一个 LS 集合。 表 6-3 来自图 6-9 中{5 6 7 8}这个 LS 集合(该集合的补集是{1 2 3 4 9 10 11 12})中 的所有真子集 Ss 及其分别到 Ns-Ss 和 N-Ns 的关系总数表 真子集 Ss Ns-Ss Ss 到 Ns-Ss 的关系总数 Ss 到 N-Ns 的关系总数 {5} {6} {6 7 8} {5 7 8} 2 3 1 1 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 106 {7} {8} {5 6} {5 7} {5 8} {6 7} {6 8} {7 8} {5 6 7} {5 6 8} {5 7 8} {6 7 8} {5 6 8} {5 6 7} {7 8} {6 8} {6 7} {5 8} {5 7} {5 6} {8} {7} {6} {5} 2 3 3 4 3 3 4 3 3 2 3 2 1 0 2 2 1 2 1 1 3 2 2 2 可见,在集合{5 6 7 8}中,只有{5 6 7}和{6 7 8}这两个真子集不满足“LS 集合”的条件。 因为如表 6-3 中的黑体数字所示,{5 6 7}到{8}的关系有 3 个,到除了 5,6,7,8 之外的其 它点的关系也有 3 个,前者不大于后者。{6 7 8}这个真子集的情况也一样。因此,集合{5 6 7 8}不是一个 LS 集合。可以想象,如果表 6-2 中第 4 列的黑体数字 3 和 2 分别变为较小的 数字,集合{5 6 7 8}就是一个 LS 集合了。 通过上述图例说明可以看到,对一个图的 LS 集合的分析是比较麻烦的。特别是对于比 较大的网络来说就更复杂了,因为这里要考虑到一个集合中的所有可能的真子集。可以想象, 对于一个整体网络来说,如果分析其中一个规模为 N 的点集合是否为一个 LS 集合,则需要 考虑该点集中的 12 122NN NN NCC C−+ ++ = −" 个真子集。如果 N 比较小,那么需要考虑的 真子集的数目也不很多。如果 N 比较大,就要考虑很多真子集了。例如,如果 N 是 5,则 需要考虑 52230−= 个真子集。如果 N 是 10,则需要考虑 102 2 1022−= 个真子集,这是 比较复杂的。 在前文中我们已经说明了,一个网络中的任何两个 LS 集合或者是没有任何共同的成员, 或者一个 LS 集合包含另外一个 LS 集合。换句话说,如果 A 和 B 是一个网络中的 LS 集合 的话,那么或者 AB∩ =∅,或者 ABA∩ = ,或者 ABB∩ = 。A 和 B 之间的关系可能 出现的情况只有这三种。因此,我们可以把一个网络中的所有可能的 LS 集合构成的集合看 成是一系列嵌套的点集合。例如,在上图中,各个 LS 集合构成如下分区形式(Borgatti, Everett, and Shirey, 1990: 343): {{1} {2} {3} {4} {5} {6} {7} {8} {9} {10} {11} {12}} {{1 2 3 4} {5} {6} {7} {8} {9} {10} {11} {12}} {{1 2 3 4 5 6 7 8} {9 10 11 12}} {{1 2 3 4 5 6 7 8 9 10 11 12}} 需要补充的是,在 UCINET 软件中并没有给出用来分析 LS 集合的程序,原因之一在于 这种程序比较复杂,在笔者看来,更重要的原因在于 LS 集合分析的理论意义不很大,因为 后来学者们(Borgatti, Everett, and Shirey, 1990)提出来的 Lambda 集合这个概念已经推广、 超越了 LS 集合。因此,Lambda 集合的概念具有明确的理论和实践意义,得到了更多的应 用。这就是下面要研究的内容。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 107 四、lambda 集合 LS 集合内部成员之间的关系相对比较紧密,但是与外部成员之间的关系相对较少。不 幸的是,LS 集合的“这个过剩性质意味着 LS 集合在现实生活中很少出现”(Borgatti, Everett, and Shirey, 1990: 337)。因此,推广 LS 集合就是必然的。 (一)Lambda 集合的含义 就关联性而言,一个凝聚子群应该是相对稳健的。也就是说,一个凝聚子群一般不会因 为从中拿掉几条线就变成不关联图。正是考虑到这一点,伯伽提等学者(Borgatti,Everett and Shirey,1990)提出了“lambda 集合”(lambda set)这个新概念。 具体地说,在去掉图中的一些线之后,一对点在多大程度上仍然可以通过一条线相连? 这可以通过这一对点的“边关联度”(line connectivity)指数给出定量测量。一对点 i 和 j 的 “边关联度”指数标记为λ(i, j),它等于为了使得这两个点之间不存在任何路径,必须从 图中去掉的线的最小数目。λ(i, j)的值越小,i 和 j 就越对去掉的一些线敏感,即越趋向 于分离开来。反之,λ(i, j)值越大,i 和 j 就越对去掉的一些线不敏感,或者说,要想把 i 和 j 分开,就越需要从图中去掉更多的线。更明确地说,λ(i, j)值越大,i 和 j 越稳健; λ(i, j)值越小,i 和 j 越敏感。 现在考察一个拥有点集 Ns 的子图 Gs 中的各个点对。如果下面的条件满足,我们就说 Ns 是一个 Lambda 集:Ns 自身内部的任何一对点的边关联度都比任何一个由来自于 Ns 的一 个点和 Ns 外部一点构成的点对的边关联度要大。 从形式化的角度说,一个 Lambda 集合是一个满足如下条件的点集 sNN⊆ :对于所有 的 ,, ,sijk N∈ 并且 slNN∈ − 来说,都有: ,(,)ij klλ λ>() 。 Lambda 集合的一个重要性质是,集合中的点就“邻接性”或者“捷径距离”而言不一 定具有凝聚性。一个 Lambda 集合中的成员之间不一定是邻接的,因为在 Lambda 集合中, 各个点之间的路径的长度是不加限制的,Lambda 集合的各个点之间可能距离很远。 (二)Lambda 集合分析例示 下面,我们对上述介绍的 12 点图进行 Lambda 集合分析。在 UCINET 中,沿着 Network→Subgroup→Lambda Sets 这条路径,选择需要加以分析的数据,即可分析该数据中 的 Lambda 集合。如下图所示。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 108 点击 Lambda Set 之后,出现如下对话框,找到我们所说的 12 点图对应的矩阵①,点击 OK 后,得到如下分析结果。 LAMBDA SETS -------------------------------------------------------------------------------- Input dataset: C:\Program Files\Ucinet 6\DataFiles\Lamda.set.12.nodes HIERARCHICAL LAMBDA SET PARTITIONS 1 1 1 Lambda 2 1 3 4 5 7 6 8 9 0 1 2 ------ - - - - - - - - - - - - 3 . XXX . . . XXX . . . . 2 XXXXXXX XXXXXXX XXXXXXX 1 XXXXXXXXXXXXXXXXXXXXXXX Maximum Flow Between Pairs of Nodes 2 1 3 4 5 7 6 8 9 10 11 12 -- -- -- -- -- -- -- -- -- -- -- -- 2 12 2 2 2 1 1 1 1 1 1 1 1 1 2 12 3 2 1 1 1 1 1 1 1 1 3 2 3 12 2 1 1 1 1 1 1 1 1 4 2 2 2 12 1 1 1 1 1 1 1 1 5 1 1 1 1 12 2 2 2 1 1 1 1 7 1 1 1 1 2 12 2 2 1 1 1 1 6 1 1 1 1 2 2 12 3 1 1 1 1 8 1 1 1 1 2 2 3 12 1 1 1 1 9 1 1 1 1 1 1 1 1 12 2 2 2 10 1 1 1 1 1 1 1 1 2 12 2 2 11 1 1 1 1 1 1 1 1 2 2 12 2 12 1 1 1 1 1 1 1 1 2 2 2 12 Output generated: 15 十二月 05 14:13:37 Copyright (c) 1999-2000 Analytic Technologies 该程序首先计算任何两个点之间的最大流量(即关联度),并且利用该信息构建 Lambda ① 该矩阵需要首先构建出来,可以起名为 Lamda.set.12.nodes。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 109 集合。分析结果给出了一个图中所有可能存在的 Lambda 集合。上述矩阵就是最大流量矩阵 (maximum flow matrix),其中在 i 行 j 列中给出的是 i 和 j 之间的边关联度。对角线的值等 于点数。 在上图中,Lambda 的值有 1,2,3。这三个数字分别代表不同的“最小边关联度”。对 应于不同的最小边关联度就存在不同的 Lambda 集合的分配情况。由图可见,如果 k=1,那 么全体行动者都可归为一个 Lambda 集合之中。但是,如果 k=2,那么全体行动者都可归为 三个 Lambda 集合,它们分别是{1 2 3 4 }、{5 6 7 8}、{9 10 11 12}。如果 k=3,在全体行动 者中,只有{1 3}是一个 Lambda 集合,{6 8}也是一个 Lambda 集合,其余每个行动者都不能 与任何点共同构成一个 Lambda 集合。这一点也体现在 UCINET 的如下分析结果中。 上图给出的是就层次聚类分析图,每个层次对应着一个层次的最低内部边关联度。这个 值刻画了 Lambda 集合。 最后需要补充的是,UCINET 中给出的 Lambda 分析程序主要分析的是“对称数据”, 特别是“二值无向数据”。如果网络数据时有向数据的话,那么程序将进行对称化处理,其 方法是取 xij 和其对称值 xji 中的较大者。例如,如果 xij=2,而 xji=0 的话,那么该程序将令 xji=2。也就是说,该程序只分析对称数据,不管该数据是二值的还是多值的,只要是对称数 据即可。因此,该程序也可用来分析多值对称数据中的 Lambda 集合。 五、社会圈 还有一些学者提出新的凝聚子群概念。在任何图中,不同的 k-派系和 k-丛之间都存在 一定数目的交叉重叠。进行派系分析(既包括 n-派系,也包括 n-宗派)的结果常常产生一 长串的重叠的派系,这些结果往往难以解释。一个相对密集的网络常常由大量互相重叠的派 系构成。例如,一个包含 20 个点的密集网络可能有大约 2000 个互相重叠的派系。在这种情 况下,派系之间重叠的程度可能比派系本身的构成更有意义。因此,社会网络分析者应该应 用一些可以明确体现出这种重叠的概念,而“社会圈”(social circle)这个概念恰恰如此(Alba and Kadushin,1976;Alba and Moore,1978;Kadushin,1966)。 “社会圈”这个概念是卡杜山(Kadushin)根据齐美尔(Simmel,1902)的最初思想提 出来的,后者最早提出了“社会圈交叉”的重要性。齐美尔是根据个人网络之间的重叠性和 嵌入性来思考社会圈的。例如行动者 A 的个体网与行动者 B 的个体网之间可能有重叠的成 员,或者 A 的个体网的全体成员都包含在 B 的个体网之中,如下图所示。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 110 B 而一个社会圈的凝聚性不是建立在其成员的‘面对面’的接触之上,而是建立在较短的 间接关系链的基础上,正是这种关系链把人们连在一起。其原因在于,如果重叠的派系拥有 一定比例的公共成员,那么它们可以组合在一起成为“圈”。 艾尔巴(Alba,1973)建议,恰当的程序就是应用“滚雪球”方法,这样,派系就会越 来越大,成为松散的圈。在分析圈的时候,第一步是找到那些规模为 3 的 1-派系,然后把 所有那些只有一个成员不同的派系合并到一个圈中。换句话说,确定圈的第一步的标准是, 如果各个派系的三分之二的成员完全相同,则就把这些派系合并为一个圈。这样,经过第一 步分析之后,结果是产生了一个或者多个圈、一系列独立的派系以及一些孤立点。 第二步,其余派系可能合并到一些圈当中,这时候,“圈”和“派系”之间只有较低层 次的重叠。艾尔巴建议,在这一步中有三分之一的重叠就可以。这种组合的结果将产生一个 大的圈或一系列被联系不很紧密的派系和点所包围的小圈。图 6-10 即是对社会圈的一个简 单分析。第一步分析出来两个圈,但是他们在第二步合并在一个圈中(Scott,2000:120)。 与许多图论程序一样,有很重要的一点需要指出,即选择什么样的重叠水平标准是没有 定论的。研究者必须清醒地知道,他的标准在实际应用中是否有意义。 1-派系:{A、B、C}{B、C、D}{B、D、E}{B、F、G}{B、G、E} 第一步产生的圈:{A、B、C、D、E}{B、F、G、E} 第二步产生的圈:{A、B、C、D、E、F、G} 图 6-9 互相交叉的社会圈 第六节 凝聚子群中的分裂指数 一、单类网络中的分派指数 在一个组织中可能存在多个小派系。对于一个整体网络来说,其中存在的分派情况是否 A 重叠性 嵌入性 A B A B C D E F G A B C D E F G 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 111 严重?我们可以利用一些指数加以测量,E-I 指数就是其一,该指数可用于测量派系林立的 程度,可用于危机管理。 什么是 E-I 指数?简单地说,我们可以把网络中存在的关系分为两类:各个派之间的关 系(External links)和每派内部的关系(Internal links)。前者对于组织的危机管理来说往往 居于重要地位。由此,我们可以构造一个指数,即 E-I 指数(Exyernal-Internal Index,简写 为 E-I Index)专门测量派系林立的程度,这就要用到上述的两类关系。具体地说, EL ILE I index EL IL −−=+ (Krackhardt, David and Robert N. Stern,1988:127)。 其中,EL 代表“子群体之间的关系的数量”(the number of external friendship links); IL 代表“子群体内部的关系的数量”(the number of internal friendship links)。 实际上,E-I 指数也等于(子群的密度)/(整体的密度)(罗家德,2005:144)。该指 数的取值范围为[-1,+1],它的含义如下。 该值越向 1 靠近,表明关系越趋向于发生在群体之外,意味着派系林立的程度越大;该 值越接近-1,表明子群体之间的关系(即外部关系)越少,关系越趋向于发生在群体之内, 意味着派系林立的程度越小;该值越接近 0,表明关系越趋向于随机分布,看不出派系林立 的情形。 该指数拥有一些值得指出来的性质:首先,该指数测量的是“外部关系”对“内部关系” 的支配程度,而不仅仅测量了外部关系。因此,该指数不但随着外部关系数量的降低而降低, 而且随着内部关系的增加而降低。 Krackhardt 等学者指出(Krackhardt, David and Stern,1988:127),之所以用比例的形 式计算该指数,主要出于如下三方面的考虑: 首先,从理论角度讲,内部关系的密度越大,子群体内部的成员之间越倾向于相互认同。 朋友关系的密度越低,越容易降低整个组织的认同,因而可以使得人们成功地面对危机。其 次,我们可以假设每个人的时间,精力和需要是有限的,因此在社会互动和亲密关系的维持 方面都是有限度的。超出一定的限度,人们就会考虑是否维持某种子群体内部的关系和子群 体之间的关系。在这个意义上可以说,一个人的内部的关系越多,用来维持外部的关系的精 力越少。因此,内部关系代表了一种子群体内部的‘机会成本’。最后,之所以在 E-I 指数 中纳入内部关系,还有方法论上的考虑。也就是说,在诸如调查“朋友”的时候,由于把调 查者对于什么是“朋友”的标准不一,因此可能造成调查结果存在误差。这时候,通过比较 内部关系和外部关系,就可以较好地控制测量误差的来源,因为诸如此类的测度对调查的误 差来说不敏感。这也是采用此指数的原因。 在 UCINET 中,沿着 Network>Cohesion>E-I index 这条路径,就可以分析矩阵的 E-I 秩 数了。该算法将针对一个矩阵的某种分区计算出 E-I 指数,并执行一种置换检验,以便评价 其显著性。假设一个矩阵被分为各个相互独立的分区,那么根据定义,E-I 指数就是群体外 的关系数量减去群体内的关系数量,再被总的关系数量相除。虽然该值取值范围为[-1,1], 但是对于已知的一个网络密度个群体的规模来说,其取值范围可能是限定性的。该指数也针 对每个群体和每个行动者进行计算。同时要进行置换检验,以便检验该网络的 E-I 指数是否 在统计意义上显著地大于或小于某个值。 一般情况下,输入数据是多值矩阵。为了计算 E-I 指数,还要有一个属性矩阵,它是包 含着每个行动者所在分区信息的矩阵。为了把矩阵分为各个群体,需要指定一个向量,这需 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 112 要给出数据名,维度(行或列)和一个整数。例如,要利用名为 ATTRIB 的矩阵的第二行作 为分区向量,需要键入“ATTRIB ROW 2”。程序将读取该行的数据,并用这个数据来界定 群体。程序将对用来对数据进行分区的属性向量重新编码,计算出与各个群体对应的块密度 矩阵。 沿着 Network>Cohesion>E-I index 这条路径,点击之后会出现对话框。在“Input Dataset” (输入的数据)一项上选出有待分析的数据矩阵 Camp92,在“Attribute”(分区属性)一项 找到分区信息的矩阵(或向量)18attribute 的第一列(实际上该矩阵只有一列)(如下所示)。 点击“OK”后即可计算出如下结果。 在整体网分析的结果中,给出了观察到的频次,随后跟着的一列是这些值除以数据中的 总关系值得到的比例,第三列给出在群体规模已知的情况下可能出现的最大关系值。最后一 列是密度指标,观察值除以最大值,该列最下端的值给出了 E-I 指数。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 113 置换检验的结果用另外一个表来表示。第一列表达的是观察值,紧接着的 4 列给出了来 自重排检验的最小值、均值、最大值和标准差。随后给出随机检验获得的值大于(或等于) 以及小于等于观察值的次数。这些值都用概率的形式表示,可用作 p 值。 下面的表给出了群体层次的关系和 E-I 指数。最后一个表表示每个个体的关系和 E-I 指 数。需要指出的是,本例根据的是多值矩阵计算出来的。当然也可以根据二值数据进行分析。 二、多类网络中的分派指数 上述指数主要针对一个网络中分为多派的情况来计算的。如果一个网络中存在多种关 系,或者各个行动者带有自己的属性,那么我们如何才能发现其中出现的分派情况,进而计 算出一种“隔离”(segregation)指数呢?弗里曼(Freeman,1972)认为,从理论上讲,对 于多种社会关系来,如果已知一种群体成员的属性(如性格、贫富、性别等)在网络中没有 什么明显影响力的话,那么至少就这种属性来说,可以把关系看成是随机分布的,因而看不 出来一个网络中是否出现严重的分派现象,看不出网络分为多少个群体。因此,期望出现的 群体之间的关系数量(number of cross-group ties)和实际出现的群体之间的关系数量就测量 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 114 了“分派指数”(segregation)。其计算公式具体可表达为 () () EX XSeg EX −= 。其中,E(X)代 表期望出现的群体之间的关系数量,X 代表实际出现的群体之间的关系数量。这样解说仍然 比较抽象,下面用一个例子展示具体的计算过程。 请看如下这个假设的例子。在一所高中的一个班级中,学生之间的人际关系网络(日常 往来)中存在两类属性:肤色和性格。肤色有两类:蓝色和棕色;性格也有两类:内向(用 正方形表示)和外向(用长方形表示)。 如何测量“隔离指数”?首先要计算数据中实际出现的群体之间的关系数量,然后计算 期望出现的群体之间的关系数量。这需要先创建混合矩阵(mixing matrix)(即计算出来不 同肤色之人之间的交流的次数,计算出不同性格的人之间的交往次数等),进而计算分隔指 数①。当然,在进行这种工作之前,还要把网络数据输入到 UCINET 之中。可以按照如下格 式输入(当然还有其它格式),如下所示。然后把该数据语言转换为 UCINET 数据,转换方 法是在 UCINET 中沿着 Data→Import→DL 路径,选择该数据 A,即可转换为矩阵,可以把 该矩阵命名为 A。 ①本指数主要参考了美国杜克大学社会学系 Moody 教授的个人主页:http://www.sociology.osu.edu/jwm/。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 115 (一)构造标示矩阵 下一步,在 UCINET 中分别构造两个标示矩阵(indicator matrix)。从图中可以看到,第 1 到第 6 个人都是“蓝色的”,因此,在标示矩阵中,“蓝色”这一列下的前六行的数字都是 “1”;第 7 到第 15 个人都是“棕色的”,因此,在标示矩阵中,“棕色”这一列下的前 7 行 到第 15 行的数字都是“1”。如下所示。 上述两个标示矩阵的构造或输入要用到 UCINET 中的“数据表”(spreadsheet),具体操 作过程如下,即沿着 Data→Spreadsheets→Matrix 这条路径(如下所示)。 蓝 棕 1 0 1 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 内 外 0 1 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 0 1 0 1 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 116 点击之后就打开了数据表格式。按照上述表示输入这两个矩阵,可分别命名为“Eyes”和 “Character”。 (二)转置 为了计算“混合矩阵“,需要利用“标示矩阵”的转置矩阵。因此,需要利用 UCINET 中的“转置”(transpose)命令(或利用 UCINET 中的 Matrix Algbra),把“标示矩阵”进行 转置处理,得到该矩阵的转置矩阵(在 UCINET 中,沿着 Data→Transpose 这条路径,分别 选择上述 Eyes 文件和 Character 文件,点击 ok 后即可得到其转置矩阵,可分别命名为 tranEyes-Transp 和 Character-Transp)。把“标示矩阵的转置矩阵”乘以邻接矩阵,再乘以标 示矩阵,这样就可以计算出“混合矩阵”(mixing matrix)M。 混合矩阵的计算要用到 UCINET 中的矩阵算法。具体来说,在 UCINET 中,沿着 Tools→Matrix Algebra 这条路径,如下所示。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 117 点击之后出现对话框。在对话框中输入如下内容: b=prod(Eyes-Transp,A)(其含义为计算 Eyes-Transp 和 A 这两个矩阵之积),回车。 再键入 M=prod(b,Eyes)(即计算刚刚计算得到的 b 矩阵和 A-Sym 这两个矩阵之积,并命名 乘积矩阵为 M),回车。在最下面一栏中输入“Disp M”(其含义为展示出上述计算得到的 矩阵 M),如下所示。 回车之后就得到计算出来的混合矩阵 1,如下所示。同理可计算得到混合矩阵 2。 用矩阵语言表示就是,混合矩阵 M = I`AI。 经过这种矩阵计算和分析,得到如下两类混合矩阵: 混合矩阵 1 混合矩阵 2 蓝 棕 蓝 6 17 棕 17 16 (三)计算“隔离指数”(segregation index)的计算 为了计算期望值,需要利用标准形式的列联表中期望频次的计算公式:行边缘值×列边 缘值/总和值。 外向 内向 外向 20 3 内向 3 30 M = I` A I (k x k) (k x n) (n x n) (n x k) 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 118 观察到的值及期望值(括号内为期望值) 蓝 棕 行边缘和 蓝 6(9.45) 17(13.55) 23 棕 17(13.55) 16(19.45) 33 列边缘和 23 33 56 期望值 E(X) = (13.55+13.55);X = (17+17)。所以,分隔指数 Seg =(27.1 – 34)/27.1 = -6.9 / 27.1= -0.25。分隔指数的计算可以手工进行,当然也可以编写小程序进行计算。 对于“性格”这个属性来说,观察到的值及期望值(括号内为期望值) 外向 内向 行边缘和 外向 20(9.45) 3(13.55) 23 内向 3(13.55) 30(19.45) 33 列边缘和 23 33 56 可见,E(X) = (13.55+13.55);X = (3+3);所以,分隔指数 Seg = (27.1 – 6) / 27.1 = 21.1 / 27.1 = 0.78。 (四)分隔指数的现实意义及存在的问题 分离指数的目的是为了用一个指标说明一个整体网络中存在的分派的情况。例如,“生 源异质性”与“朋友隔离”情况之间有什么关系?从理论上讲,我们可以调查一所高校的多 个班级,计算每个班级的“生源异质性”指数和“朋友隔离指数”,然后通过散点图即可看 出二者之间的关系。当然也可以计算出一定的系数来。 上文已经指出,分隔指数计算公式为 () () EX XSeg EX −= 。E(X)代表期望出现的群体之间 的关系数量,X 代表实际出现的群体之间的关系数量。现在的问题是,分隔指数的区分范围 是什么?它具有怎样的含义?以下表为例。 蓝 棕 蓝 ab 棕 cd (1)如果 a = d = 0,那么计算出来的分隔指数将达到最小值-1,意味着在每个子群体 的内部不存在关系,关系完全存在于各个子群体之间。这时候不但不存在分割,而且关系完 全出现在各个子群之间。 (2)如果 a/c = b/d 的话,那么计算出来的分隔指数将等于 0,意味着不存在分割。 (3)如 果 b = c = 0,那么计算出来的分隔指数将达到最大值 1,意味着关系完全存在于 每个子群体内部,在每个子群体之间不存在关系,整个群体分割为相互独立无关的多个子群 体,此时整个网络的分割程度达到最大。从公式中可以看出,此时 X 等于 0,也就是不出现 群体之间的关系,分隔指数达到最大值 1。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 119 第七节 凝聚子群分析的步骤例示 派系、n-派系、成分、n-宗派、k-丛、k-核、LS 集合、Lambda 集合、社会圈等都属于 “凝聚子群”范畴,都可以看成是“凝聚子群分析”(cohesive subgroup analysis)的各个类 型。当网络规模较小的时候,分析这些概念的步骤不很复杂,手工即可做到。但是当网络规 模较大的时候,分析这些概念的方法、技术和步骤都很复杂,这离不开电脑程序。随着网络 规模的增加,计算所需要的时间呈指数增长。分析凝聚子群的一些算法都要搜索数据,发现 问题的解。搜索的时间可能随着网络规模的增加而急速增长。由于一般来讲大网络的关系趋 于稀疏而不紧密,因此,边的数量不是一个重要的问题,对于包含几百个或几千个点的网络 来说,派系分析是可以进行的,只要其中没有太多的群体。对于派系和 k-宗派研究来说, 边的数目和派系的数目是需要考虑的。 总的来说,大网络的密度一般不大,在计算的时候,可能出现成百上千个派系。在找出 派系的时候,如果出现计算上的困难,分析者可以考虑增加将要加以分析的派系中行动者的 数目,因为这将大大降低分析出来的凝聚子群的数目。也就是说,如果在计算方面有问题, 那么分析者应该考虑逐渐增加一个群体的最小规模,因为这样将大大降低所分析的群体的数 量。在搜索群体的时候,计算量是很大的。如果说对于拥有 100 个点的网络来说可以做到子 群分析,那么对于 1000 个行动者并且分为 15 个群体的情况来说,从计算角度上说不可能做 到。因此,对于非常大的网络来说,我们建议在分析之前把该网络分解为比较小的部分,把 网络分成各个子群、位置(positions)、“块”或者成分。计算上的问题: 在具体分析一个网络中包含的凝聚子群的时候,上面介绍的各种子群以及各种计算上的 困难都是需要加以考虑的,这就需要经过一些依次递进的步骤(本部分内容参考了 Everett, 2002:102-109),这些步骤基本上都可以在 UCINET 中得到分析。当然,需要注意的是,本 节将介绍的各个步骤只是在原则上起到一定的指导作用。在具体的分析中可以不必严格遵循 这些步骤,因为不同的学者有不同的关注点。或者说,在具体分析的时候,研究者一定要结 合自己的研究兴趣、针对具体数据的实质、问题的性质等进行凝聚子群分析。分析的顺序也 不一定遵循这里将要介绍的顺序。 一、进行凝聚子群分析的几个指导性步骤 第一步,如果数据是二值的,直接看第二步。如果数据是多值的,可以有两种处理方法。 一是利用多维量表(Multi-Dimensional Scaling,缩写为 MDS)(在 UCINET 中沿着 Tools→ MDS 这条路径)或者层次聚类方法(Cluster Analysis)(假设数据是对称的)(沿着 Tools→ Cluster 这条路径)进行分析,如下图所示。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 120 二是对数据进行“二值化”(dichotomize)处理(transform→Dichotomize),但是要注意 如下问题。在进行数据处理的时候,如果是“相似性”(similarity)数据(即数字越大表示 关系越近的数据),要确保大于某个指定值的数字重新编码为“1”,否 则 为“ 0”;如 果 是“ 相 异性”(dissimilarity)(即距离)数据(即数字越大表示关系越远),则相反,即把大于某个 指定值的数字重新编码为“0”,否则为“1”。可以根据不同的临界值进行分析,以便检验数 据的稳健性,找出数据中隐含的比较完备的结构。 如果关系是多维度①的,则需要分别进行处理和分析。可以首先对数据进行开包(在 UCINET 中沿着 Data→unpack 这条路径),然后分别对各个数据进行分析。有的程序可以直 接针对多维数据矩阵进行分析(例如分析“块”的程序,这时候就不用“开包”分析)。 第二步,分析“成分”。对于有向关系数据来说,需要既找出“强成分”(strong components),也要找出“弱成分”(weak components)(在 UCINET 中,沿着 Networks→Regions →Components 这条路径),分析图示如下。我们不但可以分析二值关系网络中的成分,也可 以分析多值关系网络中的成分。 例如,在点击“Valued graphs”之后,会出现如下对话框。我们只需要在“输入的多值 网络数据”(Input valued network dataset)一项上加入将分析的网络数据即可计算出“多值网 络”中的成分构成。 ① 所谓关系是多维度的,指的是在同一个行动者群体中同时研究的多类关系(例如“朋友关系”、“邻居 关系”和“亲属关系”等)。我们称此类关系具有多维度。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 121 成分分析是凝聚子群分析的最简单形式,有时候成分可以为我们提供用来回答问题的充 分信息。如果情况确实如此,分析就到此结束。如果成分分析的结果并没有为我们提供充分 的信息,那么,对于无向关系数据来说,需要进行第三步分析;对于有向数据来说,要首先 进行对称化处理(symmetrize)。 第三步,如果需要分区,并且已经知道可以分为几个区,可以直接进行下面第六步的分 析。否则进行派系分析,找出所有的派系(Networks→Subgroups→Cliques),图示如下。 这里又分为几种情况。 (1)如果在分析的结果中没有找到派系或者仅仅找到几个派系,则可以试着进行如下 分析: ① 如果派系的规模最小者是 4,可以降低规模(但是不能降低到 3 以下); ② 如果数据是对称的,并且考虑的是互惠关系,则需要结合原始数据分析是否真的没 有派系或者有很少的派系。如果原始数据中的行动者之间的关系很少,那么存在的 派系很可能在现实中确实较少,到此分析结束。 ③ 如果数据经过了二值化处理,则对于相似性数据来说,需要降低临界值,对于相异 性数据来说,需要提高临界值。如果所有这些努力都不可行,则按照如下第五步进 行分析,即找出其所有的 k-丛。 (2)如果分析的结果是找到了太多的派系(这只有在第四步之后才可明显出现),则 把 上述三个步骤颠倒过来进行如下分析:首先,如果没有什么互惠关系可以改动的话,则需要 增加派系的最低规模(这一步总是比较有效的),最终也就是改变临界值。如果分析的最终 结果是出现了一个比较简单的派系序列,则可以结束分析了。但是,除非从最终的结果中可 以看出很简单的结构,否则需要进行第四步分析。 第四步,分析派系重叠的模式。如果存在大量派系,派系之间的重叠性就很大。这种重 叠性可能隐藏了派系的结构。利用“共享成员”(co-membership)矩阵(该矩阵是在进行派 系分析的时候自动给出的)来降低派系的数量。目的是找出派系中的主要成员、外人 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 122 (outsiders)以及群体中可能存在的领导者。通过这个步骤,我们也可能推演出网络中大体 上有多少个分组,这个信息将有助于我们进行“分派”(factions)分析,这就是第六步。如 果已经大体上知道网络中可以分为多少个小派别,则可以进行分派分析,即第六步的分析。 否则分析结束。 第五步,找出所有的 k-丛(k-plexes),这一步要在上述派系分析的步骤失败之后再进行, 因为这时候可以看出,在要分析的数据中,各个行动者之间的联系是比较松散的。如果情况 并非如此,并且几乎不存在什么 k-丛,那么需要进行第三步的分析。如果这也失败,就需 要增加 k 的值,重复进行分析。只是要注意的问题是,k 的值不能增加得太大。关于 k 值的 大小和网络规模之间的限制性关系,前文已经给出一个经验公式,可以作为参照。下图是在 点击 UCINET 中的 K-plex 之后出现的对话框。研究者只要选出需要加以分析的输入数据, 即可找到该网络中存在多少个 k-丛。当然,这首先要研究者自己确定 k 的取值是多大。 如果这种分析仍然无效,转向第六步分析。如果分析的结果是找到了一个简单的 k-丛 列表,分析到此结束。但是,与分析派系一样,艾弗雷特(Martin Everett)建议进一步分析 k-丛之间的重叠性,也就需要把 k-丛看成是派系,从而像在第四步那样进行分析。 第六步,分派分析,找出指定数目的派别(factions)。针对网络中的任何一个成分,都 可以进行分派分析,因为,各个独立的成分总归属于各个不同的派别之中。因此,只有那些 需要进一步分成各个较小子群的成分才需要进行分派分析。我们首先需要指定派系的数目, 然后找出各个派系的成员(Networks→Subgroups→n-cliques 或者 n-clan 或者 k-plex 等)。在 UCINET 中,“faction”命令指的是分析出指定数目的派系情况,而“cliques”命令则无此功 能。由于不同性质的网络具有不同的子群性,并且子群内部还可能分出子-子群,因此,我 们需要结合具体的关系网络进行检验。 另外,在 UCINET 中,也可以通过分析找到一个网络图中的“块”大约有多少(沿着 transform-block 路径进行分析即可)。 关于利用上述思路分析具体数据的例子请参见(Everett,2002:105-109),下一小节将 进行介绍。除了上述方法之外,在 UCINET 中,还可以针对多值图计算出在图论意义上的 全部最佳子群。这需要利用“f-Groups”命令(如下图所示)。该命令的目的是为了找到在 多值矩阵中的在弱传递性(weak transitivity)基础意义上的互斥子群体。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 123 所谓弱传递性指的是三方关系具有的如下性质:对于来自多值图中的三个点 x,y 和 z 来说,如果只要从 x 指向 y 并且 y 指向 z 的关系强于某个指定的值 s,那么就在 x 和 z 之间 存在一条大于某个较小的值 w 的关系,那么就说这三方关系是弱传递的,具有弱传递性 (weakly transitive)。 “f-Groups”命令将取图中最大值为 s,令使用者事先指定的值为 w,进而检查弱传递 性(weak transitivity)。s 的值逐渐降低,直到发现一个违背“弱传递性”条件的三方组存在。 然后可利用 s 值对图进行二值化处理。在这种二值化的图中找到的各个成分(对于有向图来 说是弱成分)将形成各个互斥的 F-群体(F-groups)。需要注意的是,这种命令往往分析的 是多值图。 二、凝聚子群分析的实例展示——Borgatti 的例子 下面我们结合博加提(参见 Steve Borgatti 的个人主页)的例子,用一个完整的实例展 示凝聚子群分析的各个步骤。这里所用的资料来自于 Newcomb(1961)和 Nordlie(1958) 收集的友爱关系等级数据。1956 年,Newcomb 对密西根大学的相互不熟悉的 17 名交换生 (本科生)之间的友谊关系进行了试验研究。在 16 周膳宿时间内,他们相互提名,即根据 “感觉喜欢”对其他 16 名学生的喜欢的等级进行排序。下面分析的是第 15 周的数据,等级 值最小为 1,表示最喜欢;最大值为 16,表示最不喜欢。在此数据中也允许存在“无关”的 情况(即不作评价)。该数据如下所示: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- 1 0 12 15 5 10 11 6 4 7 16 8 9 2 3 13 14 1 2 8 0 13 2 3 6 9 10 5 15 7 4 11 12 14 16 1 3 8 11 0 10 12 3 5 13 4 14 6 2 9 15 7 16 1 4 6 4 15 0 3 2 10 11 5 16 9 8 7 14 12 13 1 5 5 4 13 2 0 8 10 6 1 14 12 11 3 9 15 16 7 6 6 9 14 3 8 0 7 1 2 15 13 11 4 10 12 16 5 7 12 4 8 6 14 10 0 5 9 16 2 1 7 11 13 15 3 8 1 9 15 3 6 4 13 0 11 14 10 8 2 7 12 16 5 9 10 5 13 3 7 1 12 9 0 16 11 6 8 4 14 15 2 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 124 10 2 12 14 11 10 6 3 4 7 0 9 1 15 13 5 16 8 11 9 3 6 4 7 13 5 14 8 16 0 2 10 11 12 15 1 12 8 2 12 7 11 14 1 10 3 16 5 0 6 9 15 13 4 13 1 10 14 9 8 5 3 2 7 15 12 11 0 6 13 16 4 14 4 9 16 10 15 2 8 11 1 14 3 7 6 0 12 13 5 15 15 12 8 11 3 16 7 9 13 4 14 15 5 6 10 0 2 16 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 分析的第一步:二值化处理 显然,该数据不是二值数据,因而在具体分析之前需要进行二值化转换(当然可以对多 值数据进行分析,这里暂且不考虑这些)。其原因在于,首先,就两个行动者之间的比较来 说,等级秩序是有问题的。具体地说,如果某人喜欢所有人,另外一个人都不喜欢其他人的 话,但是他们都必须把每个人都放置在一个等级之中。其次,有时候用不着把等级值分为 16 个等级,因为这种分类太多了。因此,在某些情况下我们建议不使用等级值。 我们可以根据自己的想象,先假定一个人的前 5 项选择是重要的,因此,把全部等级值 为 1 到 5 的选项都用 1 来代替,所有其他值都用 0 来代替。具体的转换步骤为:假设上述矩 阵名为“17like”,并且该矩阵位于桌面上,那么在 UCINET 中,可按照如下图式的方法进行 二值化处理:即沿着 Transform → Dichotomize 这样的路径(如下图所示), 点击之后会出现如下所示的对话框,点击“GT–Greater Than”,会下拉出现五个选项,选 择 LT,即“小于”项后,再把“Cut-Off Value”选项上键入“6”(因为我们要求小于 6 的值用“1”来代替)。在此矩阵,对角线是不予考虑的,因此,在“Diagonal OK”一项保 持不变,仍然为“No”(如果对角线予以考虑,则要在“Diagonal OK”一项把‘No’变为 ‘Yes’)。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 125 在“Output dataset”(即输出数据)选项上,研究者自己可以确定输出的结果放在哪个磁 盘里,并且可以起新的名字,本例子的输出文件名为“LT6”。 经过这种转换得到的矩阵如下: Input file: C:\Documents and Settings\Administrator\桌面\DL17.txt Output datatype: Real Output dataset: C:\Program Files\Ucinet 6\DataFiles\DL17 1 1 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 - - - - - - - - - - - - - - - - - 1 0 0 0 1 0 0 0 1 0 0 0 0 1 1 0 0 1 2 0 0 0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 3 0 0 0 0 0 1 1 0 1 0 0 1 0 0 0 0 1 4 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 0 1 5 1 1 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 6 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 1 7 0 1 0 0 0 0 0 1 0 0 1 1 0 0 0 0 1 8 1 0 0 1 0 1 0 0 0 0 0 0 1 0 0 0 1 9 0 1 0 1 0 1 0 0 0 0 0 0 0 1 0 0 1 10 1 0 0 0 0 0 1 1 0 0 0 1 0 0 1 0 0 11 0 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 1 12 0 1 0 0 0 0 1 0 1 0 1 0 0 0 0 0 1 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 126 13 1 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 1 14 1 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 1 15 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 1 1 16 0 1 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 17 1 1 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 第二步:进行成分分析 成分分析有两类:弱成分分析和强成分分析。成分分析例示如下。在 UCINET 中,沿着 Network→Regions→Components→Simple graphs 这条路径(如下所示), 点击之后出现如下对话框,其中“Kind of components”一项有两种选择,即“弱”(weak) 和“强”(strong)之分。 点击“Weak”一项,选择“OK”即可得到分析结果,发现该数据只有一个弱成分,是由全部 行动者构成的。如果点击“Weak”右侧的箭头,即可出现“strong”选项。选择“OK”即可 得到进行强成分分析的结果,发现该数据包含5个强成分,即存在1个大的强成分(由1,2, 4,5,6,7,8,9,11,12,13,14,17这13个点构成)和4个较小的强成分(分别由3,10, 15和16这四个单点组成)。具体结果如下所示: COMPONENTS 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 127 --------------------------------------------------------------------- Input dataset: C:\Program Files\Ucinet 6\DataFiles\DL17 Kind of Components: STRONG 5 components found. NODE COMPONENT 1 1 2 1 3 2 4 1 5 1 6 1 7 1 8 1 9 1 10 3 11 1 12 1 13 1 14 1 15 4 16 5 17 1 Components with 3 or more members: 1: 1 2 4 5 6 7 8 9 11 12 13 14 17 Component size heterogeneity: 0.401 Normalized heterogeneity: 0.426 Entropy: 0.872 Normalized entropy: 0.308 Fragmentation: 0.426 ---------------------------------------- 这种分析还是没有为我们提供有关该群体内部结构的任何洞见。因此,我们需要对该数 据矩阵进行对称化处理,继续进行更细致的分析。在 UCINET 中,对称化处理的图示如下: 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 128 点击“Symmetrize”之后,得到一个对话框,其中的“Symmetrizing Method”一项可以有 14 种选法。我们利用互惠关系对该矩阵进行对称化处理,也就是说,只有满足 xij = xji = 1 的矩阵格值才令它为 1,否则都为 0。因此,我们选择“Symmetrizing Method”一项中的 “Minimum”,因为这项指令把矩阵中的各个值 xij 和 xji 的值都用二者之中较小者来代替 (i < j)。这就符合“互惠性”这个条件。也就是要求根据关系的对称性进行对称化处理: 按照这种方法进行处理得到如下对称矩阵: 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 129 第三步:进行派系分析, 得到如下 7 个派系: 1: 2 4 9 17 2: 2 4 5 3: 1 8 13 4: 1 13 17 5: 4 6 9 6: 6 8 13 7: 7 11 12 Actor-by-Actor Clique Co-Membership Matrix 1 1 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 - - - - - - - - - - - - - - - - - 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 130 1 2 0 0 0 0 0 0 1 0 0 0 0 2 0 0 0 1 2 0 2 0 2 1 0 0 0 1 0 0 0 0 0 0 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 2 0 3 1 1 0 0 2 0 0 0 0 0 0 0 1 5 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 1 0 2 0 1 1 0 0 0 1 0 0 0 0 7 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 8 1 0 0 0 0 1 0 2 0 0 0 0 2 0 0 0 0 9 0 1 0 2 0 1 0 0 2 0 0 0 0 0 0 0 1 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 12 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 13 2 0 0 0 0 1 0 2 0 0 0 0 3 0 0 0 1 14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 17 1 1 0 1 0 0 0 0 1 0 0 0 1 0 0 0 2 HIERARCHICAL CLUSTERING OF EQUIVALENCE MATRIX 1 1 1 1 1 1 1 1 Level 3 0 7 1 2 4 5 6 5 6 8 1 3 2 4 9 7 ----- - - - - - - - - - - - - - - - - - 2.000 . . . . . . . . . . . XXX XXX . . 1.667 . . . . . . . . . . XXXXX XXXXX . 1.000 . . XXXXX . . . . . XXXXX XXXXXXX 0.750 . . XXXXX . . . . XXXXXXX XXXXXXX 0.417 . . XXXXX . . . . XXXXXXXXXXXXXXX 0.114 . . XXXXX . . . XXXXXXXXXXXXXXXXX 0.000 XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX Clique-by-Clique Co-membership matrix 1 2 3 4 5 6 7 - - - - - - - 1 8 2 0 1 2 0 0 2 2 6 0 0 1 0 0 3 0 0 6 2 0 2 0 4 1 0 2 6 0 1 0 5 2 1 0 0 6 1 0 6 0 0 2 1 1 6 0 7 0 0 0 0 0 0 6 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 131 从中可以看到,3,10,14,15 和 16 这四人不隶属于任何派系,他们是孤立者。显然, 这种派系分析告诉我们的信息是比较多的。我们可以更深入分析。 第四步:群体共享成员(group co-membership method)方法产生一个包含如下成员的大 群体{1,2,4,5,6,8,9,13,17}和小群体{7,11,12} 以及一些局外人士。共享群体聚类分析与这种分 析的结果是一致的,但是又可提供关于大网络的结构的新洞见。大网络可分为{2,4,5,6,9,17} 和{1,6,8,13,17}这两种子网络,这表明行动者 6 和 17 在网络中居于重要地位。 在本例中,所汇报的群体来源于成分分析,用不着进行派系分析。Taking the top 7 choices produces similar but the outsiders tend to cloud the standard clique analysis. 然而,指定进行 3 派分析的分派方法(Faction method with 3 groups)给出的分组结果是{1,2,4,5,6,8,9,13,14,17}, {10,15,16}和{3,7,11,12},这与前述的分析是非常一致的。在本例中,{10,15,16}群体与其他 群体之间无关联。因此,我们得出的结论是,我们的分析是稳健的(robust),能够代表数据 的内在结构,分析到此结束。 三、凝聚子群分析举例——国内的例子 原则上,只要网络数据是关于一个行动者群体之间关系的数据,我们就可以进行凝聚子 群分析。在介绍了国外的例子之后,下面结合中国一个小村落的社会支持网络数据,分析其 中的凝聚子群(参见拙作,2006)①。社会支持可以分为多种类型。我们主要结合一个村落 各个家庭之间的“帮工关系网络”数据进行子群分析。 首先计算出在“帮工关系”上存在多少个子群(位置)②,然后给出各个位置之间的密 度表③、像矩阵,最后给出其简化图。我们可以从中清楚地看到,法村的帮工关系网络分为 多少个子群,如表 6-4 所示。 表6-4 96户家庭之间的帮工网络密度表 CONCOR Density Matrix 1 2 3 4 ----- ----- ----- ----- 1 0.370 0.092 0.020 0.037 2 0.099 0.388 0.029 0.073 3 0.017 0.025 0.301 0.034 4 0.031 0.103 0.112 0.288 R-squared = 0.161。分析得到的子群分组情况如下。 第一子群的成员有: ① 这里给出的例子并没有严格按照上述步骤进行凝聚子群分析。实际上,在进行凝聚子群分析的时候,需 要结合具体的数据进行具体的分析。 ② 分析步骤简介如下:在 UCINET 中,沿着 Network → Roles & Positions → Structural → CONCOR 这条 路径展开,然后在 CONCOR 中对“帮工关系表”进行分析即可得到下述结果。 ③ “密度表”为上述程序自动给出。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 132 1 2 3 4 5 6 7 8 9 34 35 30 37 38 81 28 65 78 85 26 23 50 29 47 41 71 89 第二子群的成员有: 39 22 12 19 27 64 48 31 21 10 66 49 51 46 45 91 20 82 44 13 14 79 11 67 77 第三子群的成员有: 84 72 15 42 57 88 32 60 76 56 63 70 86 18 73 68 69 58 59 96 61 74 75 94 17 33 55 83 87 43 95 93 第四子群的成员有: 16 80 54 52 62 36 25 92 90 40 53 24 整个网络的密度值经过计算为:0.1277。 同样按照上述做法,得到的像矩阵为: 1 2 3 4 ---- ---- ---- ---- 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 表 6-6 96 户家庭帮工关系的像矩阵表 我们得到的完全是一个对角线矩阵,恰好验证了假设上述,并且可以进一步得到如下结 论:村民们的帮工网络分为 4 个子群(subgroup),并且完全是自反性的(self-reflexive)。也 就是说,总体上,帮工现象出现在子群的内部成员之间,而各个子群之间基本上不相互帮工。 可见,在“帮工关系网络”中存在的帮派性更加明显了。 总之,尽管涉及到帮工网络的家庭成员有 96 个,但是从整体上说,其简化图却非常简 单,如图 6-11 所示。 1 2 图中的每一个点(头像)代表一个子群,每个点上面带箭头的小圆圈,表示的是从该点 ‘发出’关系,又回到该点。在各个点之间没有连线,表示在各个子群之间不存在相互帮工 的情况。也就是说,这四个子群之间不存在帮工方面的来往,但是这不排除有其他方面(如 借钱、贷款、借小东西等)的交往。 1 2 3 4 图 6-11 96 户村民的帮工关系简化图 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 133 本 章 小 结 凝聚子群是一种含义广泛的子群概念,它包括很多种具体的类型。进行凝聚子群研究的 目的是为了揭示群体内部的子结构。本章是从“子群体的形式结构”角度对社会结构的量化 研究。本章介绍了多种凝聚子群概念。建立在互惠性基础上的凝聚子群有:派系、n-派系、 n-宗派,这些凝聚子群概念越来越宽泛。建立在子群内外关系上的凝聚子群有成分、块、 LS 集合、Lambda 集合等。建立在点的度数基础上的凝聚子群:k-丛和 k-核。在无向网络、有 向网络和多值网络中,上述每种凝聚子群的含义又有所改变。 对于一个整图中的一个点集来说,如果它分别满足如下条件,就成为一定的凝聚子群: 派系:如果该子图是规模大于三的最大完备子图。 n-派系:该子图中的任何两点之间(在总图中)的距离都不超过 n。 n-宗派:子图中任意两点之间在子群内部的捷径距离不超过 n。 K-丛:子图中任何点与至少 n-k 个其它点相连接。 k-核:子图中任何点与至少 k 个其它点相连接。 成分:子图中任何两点都可以通过一定的途径相连。 Lamda 集合:子图 Ns 内部的任何一对点的边关联度都比任何一个由来自于 Ns 的一个点 和 Ns 外部一点构成的点对的边关联度要大,这样的子图 Ns 就叫做 Lamda 集合。 LS 集合:假设总图 G 对应的点集为 N;并且 G 中存在一个子图 Gs,其对应的点集记作 Ns;再假设 Ns 中存在一个真子集合 Ss,即 Ss ⊂ Ns。如果任何一个真集合 Ss 到 Ns-Ss(即 Ss 在 Ns 中的补集)中点的关系都多于到 N-Ns 中点的关系的话,则称 Ns 是一个 LS 集合。 在分析凝聚子群的时候,可以坚持如下步骤。首先分析定义比较严格的凝聚子群,然后 分析界定比较松散的子群。例如,可以先分析“派系” ,如果不存在派系,应该进一步分析 n-派系、 n-宗派、 k-丛、k-核、成分、 Lambda 集合等。如果在研究之初就知道一个整体网 分为几个派系,但是不能确定每个派系到底包含哪些成员的话,则可直接利用 UCINET 中的 faction 程序进行分析,以便找到每个派系所包括的成员。 找到凝聚子群之后,对它们的解释也离不开这些凝聚子群本身具有的属性特征。因此, 要结合“属性资料”对凝聚子群进行解释和说明。 本章参考文献(略) 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 134 第七章 关联性研究 上文我们研究了凝聚子群的各种类型,并对凝聚子群的分析进行了展示。在实际问题中, 我们还关注网络的另外一类特点,这就是关联性。关联性与凝聚性是不同的。 关联性问题与社会学的一些经典问题是联系在一起的。例如,关联性与经典社会学中的 “团结”研究相关。从社会网络的角度上讲,无论是机械团结,还是有机团结,都体现出社 会行动者之间的关联性质。有关关联性的研究还与当代著名的“小世界”(small world)研 究息息相关。因为小世界就是一个关联之网。本章探讨关联性的含义,并且对此进行测量。 第一节 关联性的含义 关联性的定义:一个集体的各个成员之间的社会关系把该集体团结在一起,我们就说该 集体具有关联性。该定义体现了社会网络的如下性质: 首先,行动者必须是关联的,否则该集体就不具有关联度;其次,各个点必须具有可达 性(reachability),即任何两点之间都至少存在一条途径。连接两个点之间的途径越多,关 联度越大。有一点需要特别注意,即关系的密度往往不是决定性的因素,而是关系的模式 (pattern)。就下面两个图而言,二者的密度相同,但是由于关联的模式不同,可达性却截 然相反。一个图是可达的;另外一个图却是不连通的,分为两个成分。 如果密度增加,但却通过一个核心人物的努力而增加的,会有什么效果?请看如下三个图。 D =0.25 D =0.25 D =0.25 取走一点,整个网 络就分崩离析 D =0.39 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 135 由上图可见,对于规模相同的两个图来说,如果密度增加,但却通过一个核心点的努力 而增加的,那么密度大的网络将对核心点产生很大的依赖,因而是“不稳健”的。 另外,关联度将随着网络中独立途径数目(independent paths)的增加而增加。对于一 规模和密度都相同的两个图来说,如果其中一个图的很多线都通过一个人,那么该图将具有 较小的关联度(如下面的左图所示);反之,如果一个图中的线不是围绕着一个点展开的, 那么该图将具有较大的关联度(如下面的右图所示)。 关联度高的图和关联度低的图在很多方面是不同的。二者之间的差异如下表所示。 关联度低的图 关联度高的图 权力集中 信息集中 行动者不平等 易受到个别点的影响 分派结构 权力分散 信息分散 行动者平等 不易受个别点的影响 均匀结构 如果我们关注的网络是有向网络的话,那么又存在一个与关联性息息相关的概念,即支 配性(dominance)或者等级性(hierarchy)。Krackhardt 认为,如下图所示的单向树形结构 (Outree)是等级性的原型(archetype)。在社会网络分析领域,如何计量支配性或等级性? 这体现在下一节将介绍的关联性测量问题之中。 D =0.39;关联度最小 D =0.39;关联度较大 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 136 第二节 关联性的测量 对关联性的测量可以有多个角度。Krackhardt 给出关联度的如下四个维度(本部分参见 Moody 教授个人主页上的 ppt 讲义): 1.关联度(Connectedness) 2.有向图的等级度(digraph hierarchy) 3.有向图的效率(digraph efficiency) 4.最近上限(least upper bound)。下面分别加以论述。 1.关联度(Connectedness) 对于一个有向图来说,如果其中的任何点之间都可以建立联系,则称这样的图为关联图, 关联图也叫做成分。这一点已经在本章开头得到了说明。问题是,对于一个网络来说,如何 测量这种关联性?其关联的程度有多大?我们可以通过“可达性”(reachability)来测量关 联性的程度。 关联度的测量公式是 1 1/2 VC NN =−−() 。其中 V 是该网络中不可达的点对数目(the number of pairs that are not reachable),N 是网络的规模。 从操作化的角度讲,“关联性”的计算需要用到可达矩阵,下面用一例加以说明。 对于上述 5 点图来说,如何计算其关联度?首先,构造与之对应的有向图矩阵;然后,对该 矩阵进行对称化处理,得到无向矩阵;最后,在 UCINET,利用 Networks > Cohesion > Distance 路径,选择该无向矩阵,即可计算出可达距离矩阵(如上表所示)。 V = 可达矩阵对角线上方“0”的总数①。所以,从可达矩阵中可以看出 V=4;N=5。所 以, 4110.61/2 5(51/2 VC NN =− =− =−−() ) 。 实际上,该值恰好等于如下可达矩阵(reachability matrix)的密度。在 UCINET,利用 Networks > Cohesion > Reachability 路径,选择上述无向矩阵,即可计算出如下所示的可达 矩阵(该矩阵只表明两点之间是否可达,不关注可达的距离)。 ①如果网络规模很大,我们不能用肉眼数出来矩阵中有多少个 0,这时候需要用到 UCINET 中一定的矩阵代 数算法来计算,具体算法可参见 UCINET 中的 Matrix Algebra。 3 5 4 1 2 有向矩阵 1 2 3 4 5 1 0 1 0 1 0 2 0 0 1 0 0 3 0 1 0 0 0 4 0 0 0 0 0 5 0 0 0 0 0 无向矩阵 1 2 3 4 5 1 0 1 0 1 0 2 1 0 1 0 0 3 0 1 0 0 0 4 1 0 0 0 0 5 0 0 0 0 0 可达距离矩阵 1 2 3 4 5 1 0 1 2 1 0 2 1 0 1 2 0 3 2 1 0 3 0 4 1 2 3 0 0 5 0 0 0 0 0 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 137 该矩阵的密度 = (矩阵中 1 的个数)/(N(N-1))= 12 /(5×4) = 0.6(或者利用 UCINET 中的 Network > Cohesion > Density 路径计算)。可见,即可达矩阵的密度等于关联度。 2.图的等级度 图的等级度(Graph Hierarchy)表达的是人们相互之间在多大程度上非对称地可达 (asymmetrically reachable)。 图的等级度的计算公式为 1 max( ) VGH V=− 。其中 V 等于网络中对称地可达的点对的 数目(the number of symmetrically reachable pairs in the network)。Max(V)等于 i 可达 j 或者 j 可达 i 的点对数目(the number of pairs where i can reach j or j can reach i)。显然,图的等级度 往往针对有向图来说的。对于上例来说,其有向矩阵、根据有向矩阵计算出来的可达矩阵和 二值化可达矩阵如下: 显然,V = 1;Max(V) = 4; 11 1 0.75max( ) 4 VGH V=− =− = H 的含义如下,即 H 越大,表明网络越具有等级结构;反之亦反。 3.图的效率 图的效率(Graph Efficiency)指的是在已知图中所包含的成分数确定的情况下,图在多 大程度上存在着多余的线。 图的效率的计算公式为 1 max( ) VGE V=− 。其中,V 是多余线的条数,max(V)是最大 可能的多余线的条数(the maximum possible number of excess links)。该公式与图的等级度的 计算公式类似,但是含义不同。下面举例加以说明。 Reachable: 1 2 3 4 5 1 0 1 1 1 0 2 1 0 1 1 0 3 1 1 0 1 0 4 1 1 1 0 0 5 0 0 0 0 0 有向矩阵 1 2 3 4 5 1 0 1 0 1 0 2 0 0 1 0 0 3 0 1 0 0 0 4 0 0 0 0 0 5 0 0 0 0 0 Dreach 1 2 3 4 5 1 0 1 2 1 0 2 0 0 1 0 0 3 0 1 0 0 0 4 0 0 0 0 0 5 0 0 0 0 0 二值化的可达矩阵 1 2 3 4 5 1 0 1 1 1 0 2 0 0 1 0 0 3 0 1 0 0 0 4 0 0 0 0 0 5 0 0 0 0 0 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 138 在一个规模为 N 的关联成分(connected component)中,所包含的线数最小为 N-1(假设成 分是对称的,只需要利用邻接矩阵上半部分即可)。 上图包含两个成分。第一个成分包含 4 个点,因此,线的最小数目为 3;而实际上其中 共存在 4 条线,因此,多余了 1 条线,即 V1= 4-3 = 1。第二个成分包含 3 个点,线的最小 数目为 2;其中实际存在 3 条线,因此,V2= 3-2 = 1。就全部成分来说,V= V1 + V2 = 2。 如果图中任何两点之间都相连的话(在这种情况下该图就是一个派系了),那么多余线 的条数就达到最大值 N(N-1)/2。对于第一个成分来说,Max(V1) = (6-3)=3;对于第二个成 分来说,Max(V2) = (3-2)=1,因此,Max(V) = Max(V1) + Max(V2) = 4。 因此,图的效率 112/40.5max( ) VGE V=− =− = 。 对于一般的图来说,计算效率的步骤如下: (1)区分出图中的全部成分; (2)对于每个成分 i 来说,需要做两步计算,即计算 V(多余线的条数)和 max(V)(最 大可能的多余线的条数);具体来讲, ①计算多余线的条数 ()/2 1iiiV Sum G N=−−; ②计算最大可能的多余线的条数 2() ( 1)( 1)( 1)iii i iMax V N N N N= −− −= − ; (3)把根据每个成分计算出来的 V 进行汇总,同时也对根据每个成分计算出来的 max(V) 进行加总,即 ()iVSV= , () ( ())iMax V S Max V= ; (4)计算图的效率 1 max( ) VGE V=− 。 实际上,该值必然等于图中各个成分的密度的平均值。 4.最近上限 最近上限(Least Upper Boundedness,LUB)这个值关注的是树形图中存在多少个“根” (roots)。对于任何一对行动者来说,LUB 就是能够达到二者的最接近的人。在一个正式等 级结构中,一对行动者之间多数情况下都拥有至少一个 LUB。 1 2 3 4 1 5 6 72 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 139 在上图中,E 是(A,D)的 LUB,B 是(F,G)的 LUB,H 是(D,C)的 LUB。 如果在组织中两个人之间没有共同的老板的话,那么根据定义,LUB 是不存在的。例如, 在下图中,4 和 7 就没有 LUB。 LUB 的计算公式为 1 max( ) VLUB V=− 。其中 V 等于网络中不存在 LUB 的点对数 (number of pairs that have no LUB),这个值的计算要根据全部成分进行汇总;并且 (1)(2)() 2 nn n NNMax V −−= 。具体计算的时候需要用到可达矩阵(reachability)。以上图为 例,具体计算步骤例示如下。 A D B C E F G H 距离矩阵 1 2 3 4 5 6 7 8 9 1 1 1 1 2 2 2 2 1 1 1 3 1 1 4 1 5 1 6 1 1 1 2 7 1 1 8 1 9 1 可达矩阵R 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 2 1 1 1 3 1 1 4 1 5 1 6 1 1 1 1 7 1 1 8 1 9 1 可达矩阵的转置R` 1 2 3 4 5 6 7 8 9 1 1 2 1 1 3 1 1 4 1 1 1 5 1 1 1 6 1 7 1 1 8 1 1 9 1 1 1 1 1 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 140 注意,上述矩阵对角线的值被设定为 1,这是因为我们假定。如果一对点不能被至少一个共 同点达到,就违反了 LUB 的定义。我们可以通过如下所示的矩阵操作获得“共同的可达性” (common reachability)。 如何计算出“共同可达到”两个点的点的数量?对于两个点(如 A 和 B)中的任意一个 点(如 A)来说,我们需要首先找到可达到 A 的点(如 C),再看 C 点是否可达到 B,如果可 达,说明 C 是 A、B 的共同可达的点。按照这种思路,我们需要先计算可达矩阵的转置矩阵 (因为该矩阵的行表达的就是接受的关系),再乘以可达矩阵(其行表示发出的关系) ,得到 的就是“共同可达的矩阵”。如果该矩阵中的值为 1,即表明 1 之所在的行和列之间是共同 可达的。也就是说,在二者之间存在着共同可达的点。总之, 用“可达矩阵的转置矩阵”乘 以“可达矩阵”,得到的就是“共同可达的矩阵”。用矩阵语言表示就是:R`*R = CR。 在共同可达矩阵中,任何 0 值都表明对应的一对点之间不存在一个 LUB。根据计算公式 1 max( ) VLUB V=− 。首先计算 V,由于 V 等于网络中不存在 LUB 的点对数,就本例而言, V=15 (即“共同可达矩阵上半部分有 15 个 0 ”)。又由于 (1)(2)(9 1)(9 2)() 2822 nn n NNMax V −− − −===。 因此, 151 1 0.496max( ) 28 VLUB V=− =− = 。 LUB 的含义:LUB 越大,表明等级性越大;反之亦反。 上述指数的计算都要在 UCINET 中的矩阵算法中进行,UCINET 中并没有简便的路径 计算这些指数。 最后需要指出的是,关于等级性的研究是多种多样的。本章只探讨了其中的一些算法, 除此之外,中心性研究实际上也是等级研究的一类。读者也可以给出自己的测量方法。 本章参考文献(略) 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 0 0 0 1 2 1 2 1 2 2 0 0 0 1 3 1 1 2 1 1 0 0 0 2 4 1 2 1 3 2 0 0 0 1 5 1 2 1 2 3 0 0 0 1 6 0 0 0 0 0 1 1 1 1 7 0 0 0 0 0 1 2 1 2 8 0 0 0 0 0 1 1 2 1 9 1 1 2 1 1 1 2 1 5 共同可达矩阵= R`*R = CR = 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 141 第八章 块模型——构建及解释 本章摘要:本章探讨了块模型的含义,对块模型的解释,并用实际例子展示了块模型的 应用。块模型主要是一种分析多元数据矩阵的整体结构的方法。 根据劳瑞和怀特(Lorreian and White)的说法,要想找出一个网络的总体模式,必须根 据行动者的结构对等性做一些转换性的工作,所使用的方法主要是把各个点集中到更大点集 之中,这样,各个点集之间的系统的内在结构要比在大量孤立点之间的具体关系更加明晰。 White, Boorman and Brieger 的块模型思想是把社会生活看成是相互关联的角色系统 (interconnected system of roles)。他们认为角色在一个角色系统中相互关联,这就是社会结 构(social structure)。 第一节 块模型的含义 White, Boorman and Breiger 发表一篇重要文章,描述了块模型(block-modeling)的理 论和经验要素。指明了可以根据角色之间的互动来理解社会结构,而不仅仅根据帕森斯的宏 大理论来解释。劳瑞和怀特(Lorreian and White)的又进一步把一个复杂网络“简化”为“块 模型”或者“像矩阵”(Image)。在进行“简化”工作的时候,要把初始发生矩阵中的点用 一种聚类分析的方法进行重排,从而形成了在结构上对等的一系列影像矩阵。也就是说,在 社会网络分析中,我们可以根据“结构对等性”①对行动者进行分类,对此进行研究的方法 就是块模型分析方法。由于它关注的是网络的总体结构,不同于个体网络分析,因而可以在 总体上研究网络的结构。 例如,在下面的图中,集合 M1 包含一些点,这些点相互之间被看成是在结构上对等、 但是在结构上不同于另一个结构上对等的点集 M2。劳瑞和怀特认为,一个网络的最基本特 征在各个点集之间的关系中可以明显看到,并且这些关系的本质可以通过影像矩阵的各个格 值(块)体现出来。怀特的大多数后续工作就是研究如何产生这种块模型。 【图 8-1】:一个网络及其块模型 各个点 1 2 3 4 … N 点集 N1 N2 M1 1 2 简化为 M2 . M M×N 长方形矩阵 像矩阵 ① “规则对等性”(regular equivalence)和自同构对等性(automorphic equivalence)这两个概念是对结构 对等性概念的推广,参见(Doreian,1997)。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 142 在构建块模型的时候,需要用到 UCINET 软件中的 CONCOR 程序(参见 Doreian et al, 2000:12)。块模型方法是根据结构性信息把各个点进行分区的方法。它可以利用下面将介 绍的 CONCOR 来分析,也可以利用 UCINET 中的层次聚类方法(hierarchical clustering)进 行分析。 一、块模型 块模型(blockmodels)分析最早由怀特、布尔曼和布雷格(White, Boorman, and Breiger, 1976)提出来,它是一种研究网络位置模型的方法,是对社会角色的描述性代数分析。后来, 学者们从许多方面对此概念进行了深入研究和推广。其最新进展是随机块模型(stochastic blockmodels,参见 Wasserman and Faust,1994)。除此之外,许多学者还运用“块模型”研 究一些具体问题,例如对科学共同体的研究(Breiger,1976)、对世界经济体系的研究(Snyder and Kick,1979)、对组织问题的研究以及大量的小群体研究等。总之,“块模型”这个概念 和方法已经得到了广泛的应用。 (一)块模型的定义 块模型的定义可以在三个层次上给出。我们首先给出描述性定义,然后给出形式化定义。 定义 1:一个块模型是由如下两项组成的:(1)把一个网络中的各个行动者按照一定标 准分成几个离散的子集,称这些子集为“位置”,也可称之为‘聚类’、‘块’(参见 Wasserman and Faust,1994:350;White,Boorman and Breiger,1976:769);(2)考察每个位置之间 是否存在关系。根据这种定义可以认为,一个“块”就是邻接矩阵的一部分,是一个整体中 的子群体。 这样看来,一个块模型就是一种模型,或者一种关于多元关系网络的假设。它提供的信 息是关于各个位置(而不是每个行动者)之间的关系,因而研究的是网络的总体特点(White, Boorman, and Breiger,1976)。 定义 2:一个块模型是把一个网络 N 中的行动者分区成为各个位置 B1,⋯,B2,BB, 并且存在一个对应法则 Ø,它把行动者分到各个位置之中,即如果行动者 i 处于位置 BK 之 中,则 Ø(i)= BK。我们利用 bklr 表征位置 BK 和 Bl 在关系 Xr 上是否存在联系。如果存在联 系,则 bklr = 1,否则为 0。 定义 3:我们也可以根据影像矩阵(image matrix)B={ bklr }对块模型进行定义。B 是一个 B×B×R 的排列,其要素 bklr 的含义与上述相同。整个矩阵 B 也是一个块模型。初 始矩阵用常见的 g×g×R 多元关系社群矩阵表示。可见,B 是初始矩阵的简化矩阵。它包 含两个成分:对应法则 Ø(对各个行动者的位置进行指派)和矩阵 B(给出各个位置之间的 关系的有无)。每个行动者被指派到并且只指派到一个位置之中。 矩阵 B 中的各项都叫做“块”(block),每个“块”(即 bklr)实际上对应的是初始矩阵 的一个子矩阵。如果某块为 1,称之为 1-块;如果为 0,称之为 0-块。 总之,一个块模型就是对一元关系或者多元关系(包括二值关系以及多值关系)网络的 一种简化表示,它代表的是该网络的总体结构。每个位置中的各个行动者都具有结构对等性。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 143 例如,位置 BK 中的所有行动者与 Bl 中的所有行动者之间的关系都类似。因此,块模型是在 位置层次上的研究,而不是在个体层次上的研究(参见,Wasserman and Faust,1994: 394—340;Burt,1976:93-122)。 (二)块模型的构建 学者们提出许多方法构建块模型。这要涉及到两个步骤。第一步是对行动者进行分区, 即把各个行动者分到各个位置之中。常见的方法是 CONCOR 以及层次聚类方法。第二步是 根据一些标准确定各个块的取值,即各个块是 1-块,还是 0-块。不同性质的关系采用的标 准是不同的。总的来说有 6 种标准:完全拟合、0-块标准、1-块标准、α-密度指标、最大值 标准(适用于多值数据)以及平均值标准(适用于多值数据)(参见 Wasserman and Faust, 1994:397-401)。 前三个标准都是比较严格的,一般情况下用不上。确定-1 块还是 0-块的最常用的标准 是 α-密度指标,其中 α 是临界密度值,它可以指的是整个网络的平均密度值。在对多个网 络进行分析的时候,α 也可以指的是各个网络的平均密度值。也就是说,α 可以是一个,也 可以是多个。α 还可以用行的平均值来代替。我们利用整个网络的平均密度值表示 α。 (三)对结果的解释 对块模型分析结果的解释有如下三个层次。 1.个体层次——利用个体的属性资料(如性别、年龄、社会地位等)分析块模型的有 效性,这是因为个体的属性往往与网络的结构关系密切。 2.位置层次——对各个位置进行描述性分析。要具体考察各个位置之间是如何发送和 接收信息。这种描述性分析有助于总结各个位置发送和接收信息的趋势。 对“子群”之间关系的研究借鉴了“点”之间的研究。在研究网络中点的特点的时候, 我们往往利用点入度和点出度,从而分出 4 类点:孤立点(isolates)、发送点(transmitters), 即只有点出度的点、接收点(receivers),即只有点入度的点、传递点(carriers or ordinary points),即既有点入度又有点出度的点(参见 Marsden,1984,1990;Wasserman and Faust, 1994:411)。这种分类研究也适用于对网络位置的描述。 伯特(Burt,1976:93-122)对位置进行了分类研究。他首先区分类两类位置:一类位 置的成员接受关系,另一类位置的成员发送关系。其次,他又对如下两类位置进行了区分: 一类位置的成员之间的总关系的一半以下针对自己位置的成员,另一类位置的成员之间的总 关系的一半以上针对自己位置的成员。这样,我们就可以确定哪些位置接受关系,哪些位置 发送关系,哪些位置内部关系紧密,哪些位置内部关系不紧密。从而产生了与上述类似的 4 种分类:孤立位置,其成员与外界没有任何联系;谄媚位置(Sycophants),其成员与其它 位置的成员之间的关系比与自己成员之间的关系多,并且没有接收到多少外来的关系;经纪 人位置(Brokers)的成员既发送也接受外部关系,其内部成员之间的联系比较少;首属位 置(Primary)的成员既接受来自外部成员的关系也有来自自身成员的关系。 瓦瑟曼等人指出,在考察关系的时候,我们也要分析各个位置的规模(参见 Wasserman and Faust,1994:413)。例如,假设我们分析来自位置 BK 的各个成员的关系。假设其中有 gk 个行动者,那么 BK 内部可能具有的关系总数为 gk(gk-1)个。在总体中含有 g 个行动者, 因此,BK 位置各个成员的所有可能的关系有 gk(g-1)个。这样,我们可以期待一个位置 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 144 的总关系的期望比例为(gk(gk-1))/(gk(g-1))= (gk-1)/(g-1)。我们可以利用 这个比例作为评价位置内部关系趋势的指标。 下表给出 4 种位置分类,它基于位置内部以及位置之间的关系。 位置接收到的关系比例 位置内部的关系比例 ≈ 0 > 0 ≥(gk-1)/(g-1) 孤立者位置 首属人位置 ≤(gk-1)/(g-1) 谄媚人位置 经纪人位置 【表 8-1】:四种位置类型 当然,上述 4 类位置标签也依赖于关系的内容。如果关系是“负面性的”(如‘不喜欢’ 等),那么首属人位置最好解释为“受蔑视者”、‘替罪羊’等。 需要补充的是,对位置的这种分类研究不能进行统计检验。而随机块模型以及单一关系 网络的统计分析方法、多元网络分析方法可以提供二人组选择概率的统计分析。 3.整体层次——利用影像矩阵(image matrix)对总体的块进行描述。 最简单的情况是对 2-位置块模型的影像矩阵分析。怀特等人(White,Boorman and Breiger,1976)等人指出,对于最简单的块模型,即 2-位置块模型来说,其可能存在的状 态有 24 = 16 种。由于某些块相互同构,因而实际上有 10 类各不相同的块模型,并且大多数 块模型都有明确的解释性意义(参见 Wasserman & Faust,1994:421)。 以下首先分析最简单的像矩阵——2-位置的像矩阵,然后分析多于 2 个位置的像矩阵, 最后简要介绍对多关系网络的像矩阵分析。 (1)有两个位置的像矩阵 最简单的像矩阵是对包含 2 个位置(简写为 2-位置)的块模型的像矩阵分析。怀特等 人(White,Boorman and Breiger,1976)等人指出,对于最简单的块模型,即 2-位置块模 型来说,由于有 2 个位置,因而在块模型中有 2×2 = 4 个元素。又由于每个元素的取值又有 两种可能:1-块和 0-块,因此,2-位置所有可能存在的状态共有 24 = 16 种。在这 16 种状态 中,某些块相同,因而实际上有 10 类各不相同的块模型,即有 10 个同构类,这 16 种像以 及 10 个同构类像的具体结构如下所示(Wasserman and Faust,1994:421)。 ① 没有任何关系的块,即虚无块: 00 00      ② 有一个位置内关系的块: 10 00      或者 00 01      ③ 有一个位置间关系的块: 01 00      或者 00 10      第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 145 ④ 有两个位置内关系的块: 10 01      ⑤ 有两个位置间关系的块: 01 10      ⑥ 存在两个关系,即自反式并且“向外”关系: 11 00      或者 00 11      ⑦ 存在两个关系,即自反式并且“向内”关系: 10 10      或者 01 01      ⑧ 存在三个关系,其中两个是位置间关系: 01 11      或者 11 10      ⑨ 存在三个关系,其中两个是位置内关系: 10 11      或者 11 01      ⑩ 四个关系,即完备关系 11 11      图 8-2 2-位置块模型中可能存在的 10 类像矩阵 在上述 10 个同构类中,大多数像都有明确的理论意义。怀特等学者(White,Boorman and Breiger,1976)对这些像的理论意义进行了说明。例如,像②中有一个凝聚子群,该位 置也是孤立者。像③表明一个位置向另外一个位置发送关系,前一种位置扮演“谄媚者”的 角色。像④表示的是“纯粹的”自反性结构,如果该关系式“正向”关系的话,那么④表明 的是两个凝聚子群的情况。④还可能表示的是具有内生性质的系统,该系统中的关系仅仅存 在于系统内部的子群之内,子群之间不存在关系。④也可能表示在各个孤立地域中的各个国 家之间的贸易关系。⑤是“纯”对称关系。如果所研究的关系是“负面”关系的话,那么这 种结构反应的将是“对抗”和“敌对”的状态等。⑥也可能表明一种内生系统,其中所有的 关系都指向另外一个群体的成员(例如,在一个外婚制系统中,“从另外一个群体中寻找配 偶”)。像④(对于正面关系来说)和像⑤(对于负面关系而言)的结合,产生于均衡理论一 致的结果。根据该理论,处于一个均衡系统中的行动者可以分为不同的聚类,以至于所有的 正向“选择”关系是发生在子群内部,所有的负向“选择”关系是发生在子群之间。像⑥根 据所作出的“选择”的不同,区分出“积极的”位置和“消极的”位置。像⑦把凝聚子群(像 ②)的某些方面和差异结构(像③)结合起来,从而表达了一种核心-边缘结构(其中有一 个首属者位置和一个谄媚者位置),这种结构也可以被解释为“等级结构”(hierarchy)。像 ⑧也是一类特殊的结构,怀特等学者(White,Boorman and Breiger,1976)把这种结构描 述为一种核心-边缘结构,或者是一种奉承者模式(hanger-on)。另外,像⑧与像⑤类似,其 中的关系仅仅存在于各个位置之间。像⑨几乎是一种完备模式。怀特等学者(White,Boorman 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 146 and Breiger,1976)把这种结构描述为具有如下特点的等级结构。像⑩则是一个完备关系模 式,其中任何位置之间没有差异之分。 (2)有两个以上位置的像矩阵 对于拥有 3 个位置的单种关系模型来说,可能存在的 3×3 矩阵安排有 29 = 512 种,其 中共有 104 种各不相同的像矩阵(同构类),我们很难做到对所有这些像矩阵进行全面分析。 随着位置数目的增加,各不相同的像矩阵(同构类)的数目急速增加。例如,4-位置模型可 能有 216 种排列矩阵,这时候分析起来更为困难,我们也不可能进行全盘分析。另外,其中 的很多像矩阵并没有什么理论意义。出于上述考虑,也为简便起见,我们往往只需要考察一 些具有重要理论意义的“理想模型”。下面我们只针对 4-位置的情形,特别考察能够表现出 “凝聚子群”、“核心-边缘结构”、“集中趋势”、“等级性”和“传递性”的像矩阵(Wasserman and Faust, 1994: 423)。 (1)凝聚子群 在现实的组织关系系统中大量存在小群体、非正式组织等现象。对于单种正向多值关系 来说,这种系统所对应的像矩阵中的关系主要是位置之间的关系。这种像矩阵的主对角线上 都是 1,即在位置层次上是自反式的关系(尽管在个体层次上可能对“自反式”关系不加以 定义)。例如,我们可能对“自己帮助自己”的关系不给出定义,也不加以研究,但是我们 可能通过对一个大群体的分析,发现其中存在多个小群体,并且发现每个群体内部的各个成 员之间相互帮助,而不同群体成员之间却不存在帮助行为。这种关系模式就是“凝聚子群” 关系模式,表现在像矩阵中就是主对角线的值都是 1,其余都是 0。如①所示。 需要注意的是,该块模型中的 1-块并不意味着其中的行动者一定构成一个图论意义上 的派系(clique)。因为这些行动者构成的图不一定是完备子图。 (2)核心-边缘结构 核心-边缘结构也是在现实中存在的一种重要社会结构。在这种结构中主要存在两类行 动者:核心行动者和边缘行动者。核心行动者相互之间联系紧密,构成凝聚子群;处于边缘 地位的行动者相互之间不存在关系或者存在较少的关系,因而不构成凝集子群,但是它们与 核心成员之间有关系(参见拙作,2004,第八章;Mullins, Hargens, Hecht, and Kick, 1977)。 在一个块模型中,如果像矩阵中的各个块可以进行置换,使得 1-块集中在像矩阵左上 半部分,0-块集中在右下半部分(见②),那么在该块模型中就明显表现出核心-边缘结构来。 在世界政治经济体制中常常见到这种核心边缘结构。 (3)集中趋势 所谓集中化的结构也不难理解,即在关系网络中所有关系都指向某个位置,或者都是从 某个位置中发出来的。这种结构表现在像矩阵中就是,所有的 1-块都在同一列(如果关系 指向同一个位置)或者在同一行(如果所有关系都是从同一个位置发出来的)中。当然,自 反式关系也可能存在于这种结构之中。国外学者在研究社会学专业期刊的引用问题、组织之 间关系网络问题的时候,发现都存在这种“集中趋势”结构。 (4)等级性 在军事机构中,军人严格地遵守上级的命令,表现出严格的等级秩序。这种结构表现在 像矩阵中就是类似④的结构。 (5)传递性 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 147 就三个人 A、B、C 之间的“帮助关系”来说,如果 A 帮助 B,B 帮助了 C,那么 A 认 为自己也应该帮助 C 的话,这就是个人层次上的传递性关系结构。在块层次上,关系的传 递性是针对“块”(行动者子集或者“位置”)而言的。具体地说,就三个位置 kB 、 lB 和 mB 来说,所谓块层次上的传递性关系结构指的是,如果从 kB 到 lB 存在一个关系,从 lB 到 mB 也 存在一个关系,那么就存在一个从 kB 到 mB 的关系。 在一个完全传递性的模型之中,我们可以通过一定的矩阵置换步骤,把所有的 1-块置 换到像矩阵的左下角(或右上角),如⑤所示。 上述各种模型都是理想意义上的模型,现实关系网络中的像矩阵一般不会表现出上述理 想结构来。因此,这些理想的像矩阵类似于韦伯所说的“理想类型”(ideal type),可作为参 照物,用来与现实模型进行比较,从而发现现实像矩阵的特点。 ① 凝集子群像矩阵: 1000 0100 0010 0001       ② 核心-边缘像矩阵: 1111 1000 1000 1000       ③ 中心化趋势的像矩阵: 1111 0000 0000 0000             或者 1000 1000 1000 1000             ,简化图分别如下: ④ 等级层次的像矩阵: 0100 0010 0001 0000             简化图 简化图 简化图 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 148 ⑤ 关系传递性的像矩阵: 0111 0011 0001 0000             或者 0000 1000 1100 1110             。简化图分别如下: 图 8-3:包含两个以上位置的块模型中的 5 个理想像(Wasserman and Faust, 1994: 423) 3.多元关系的像矩阵 多元关系的像矩阵比较复杂,难以解释。较好的方法是分别比较各个像矩阵,例如可以 分析关系的重叠性(考察像矩阵是否类似),分析关系的交换性、互惠性(如果两个矩阵相 互为转置矩阵,则出现关系的互惠性)。但是,如果没有一定的理论基础,这种分别对待式 的研究似乎 ad hoc。对块模型的操作化研究要利用 CONCOR 方法和程序。 可用来研究多元关系的一种方法是考察各对像矩阵,分析二者是否表现出同样的多元关 系模式,例如“交换性”或者“多元性”(multiplexity)。所谓“关系的多元性”指的是两种 或者多种关系共同发生的一种趋势。例如,“是朋友”和“是讨论问题的伙伴”这两种关系 在两个人之间有可能共同发生。如果两个或者多个像矩阵是恒等(或者几乎恒等)的,该块 模型中就明显出现了多元性。这里所说的关系的互惠性是针对两种关系而言的,其含义如下。 如果一种关系沿着一个方向“流动”,而另外一种关系“反向”流回来,这两种关系就具有 互惠性。例如,就“提供情感支持”和“提供物品”这两种关系来说,如果前一种关系的像 矩阵是后一种关系的像矩阵的转置矩阵的话,那么在该块模型中就出现了明显的互惠性。另 外,“结构均衡性”也可以被表达为两个像矩阵的组合。为了表示结构均衡性,一种正向影 响关系的像矩阵会在位置内存在关系,而另外一种负向关系的像矩阵会在各个位置之间存在 关系。 二、CONCOR 方法 CONCOR 是一种迭代相关收敛法(convergent correlations 或者 convergence of iterated correlation)。它基于如下事实:如果对一个矩阵中的各个行(或者列)之间的相关系数进行 的重复计算(当该矩阵包含此前计算的相关系数的时候),最终产生的将是一个仅仅由 1 和 -1 组成的相关系数矩阵。进一步说,我们可以据此把所要计算的一些项目分为两类:相关 系数分别为 1 和-1 的两类。这个现象最初是于 1970 年代分别由两个研究小组独立发现的。 具体地说,CONCOR 程序开始于一个矩阵,首先计算矩阵的各个行(或者各个列)之 间的相关系数,得到一个相关系数矩阵(C1)。如前所述,这些相关系数只是表征结构对等 性的一种可能的测度。CONCOR 算法的特点是,它把系数矩阵 C1 作为输入矩阵,继续计算 此矩阵的各个行或者各个列之间的相关系数。也就是说,要计算第一个系数矩阵 C1 的各个 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 149 行(或者各个列)之间的相关系数。得到的各个“相关系数的相关系数”将构成又一个新的 系数矩阵 C2。然后继续依次计算。最后得到“相关系数的相关系数的相关系数的⋯矩阵”。 这种迭代过程似乎可以无限计算下去。实际上,经过许多次迭代之后,最后的矩阵中的 相关系数值不是 1 就是-1。 例如,假设有一个规模为 14 的网络,计算得到的初始相关系数矩阵为: 以该相关系数为基础,计算该矩阵的各行和各列的相关系数。即进行第一次迭代,得到的结 果将是: 同理,再计算该矩阵的相关系数,即进行第二次迭代,结果为: 1.00 -0.20 0.08 0.08 -0.19 -0.19 0.77 0.77 0.77 0.77 -0.26 -0.26 -0.26 -0.26 -0.20 1.00 -0.19 -0.19 0.08 0.08 -0.26 -0.26 -0.26 -0.26 0.77 0.77 0.77 0.77 0.08 -0.19 1.00 1.00 -1.00 -1.00 0.36 0.36 0.36 0.36 -0.45 -0.45 -0.45 -0.45 0.08 -0.19 1.00 1.00 -1.00 -1.00 0.36 0.36 0.36 0.36 -0.45 -0.45 -0.45 -0.45 -0.19 0.08 -1.00 -1.00 1.00 1.00 -0.45 -0.45 -0.45 -0.45 0.36 0.36 0.36 0.36 -0.19 0.08 -1.00 -1.00 1.00 1.00 -0.45 -0.45 -0.45 -0.45 0.36 0.36 0.36 0.36 0.77 -0.26 0.36 0.36 -0.45 -0.45 1.00 1.00 1.00 1.00 -0.20 -0.20 -0.20 -0.20 0.77 -0.26 0.36 0.36 -0.45 -0.45 1.00 1.00 1.00 1.00 -0.20 -0.20 -0.20 -0.20 0.77 -0.26 0.36 0.36 -0.45 -0.45 1.00 1.00 1.00 1.00 -0.20 -0.20 -0.20 -0.20 0.77 -0.26 0.36 0.36 -0.45 -0.45 1.00 1.00 1.00 1.00 -0.20 -0.20 -0.20 -0.20 -0.26 0.77 -0.45 -0.45 0.36 0.36 -0.20 -0.20 -0.20 -0.20 1.00 1.00 1.00 1.00 -0.26 0.77 -0.45 -0.45 0.36 0.36 -0.20 -0.20 -0.20 -0.20 1.00 1.00 1.00 1.00 -0.26 0.77 -0.45 -0.45 0.36 0.36 -0.20 -0.20 -0.20 -0.20 1.00 1.00 1.00 1.00 -0.26 0.77 -0.45 -0.45 0.36 0.36 -0.20 -0.20 -0.20 -0.20 1.00 1.00 1.00 1.00 1.00 -.77 0.55 0.55 -.57 -.57 0.95 0.95 0.95 0.95 -.75 -.75 -.75 -.75 -.77 1.00 -.57 -.57 0.55 0.55 -.75 -.75 -.75 -.75 0.95 0.95 0.95 0.95 0.55 -.57 1.00 1.00 -1.0 -1.0 0.73 0.73 0.73 0.73 -.75 -.75 -.75 -.75 0.55 -.57 1.00 1.00 -1.0 -1.0 0.73 0.73 0.73 0.73 -.75 -.75 -.75 -.75 -.57 0.55 -1.0 -1.0 1.00 1.00 -.75 -.75 -.75 -.75 0.73 0.73 0.73 0.73 -.57 0.55 -1.0 -1.0 1.00 1.00 -.75 -.75 -.75 -.75 0.73 0.73 0.73 0.73 0.95 -.75 0.73 0.73 -.75 -.75 1.00 1.00 1.00 1.00 -.77 -.77 -.77 -.77 0.95 -.75 0.73 0.73 -.75 -.75 1.00 1.00 1.00 1.00 -.77 -.77 -.77 -.77 0.95 -.75 0.73 0.73 -.75 -.75 1.00 1.00 1.00 1.00 -.77 -.77 -.77 -.77 0.95 -.75 0.73 0.73 -.75 -.75 1.00 1.00 1.00 1.00 -.77 -.77 -.77 -.77 -.75 0.95 -.75 -.75 0.73 0.73 -.77 -.77 -.77 -.77 1.00 1.00 1.00 1.00 -.75 0.95 -.75 -.75 0.73 0.73 -.77 -.77 -.77 -.77 1.00 1.00 1.00 1.00 -.75 0.95 -.75 -.75 0.73 0.73 -.77 -.77 -.77 -.77 1.00 1.00 1.00 1.00 -.75 0.95 -.75 -.75 0.73 0.73 -.77 -.77 -.77 -.77 1.00 1.00 1.00 1.00 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 150 第三次迭代的结果: 再进行最后一步,把上述只有 1 和-1 值的矩阵进行重排,将得到如下矩阵: 1.00 -.99 0.94 0.94 -.94 -.94 0.99 0.99 0.99 0.99 -.99 -.99 -.99 -.99 -.99 1.00 -.94 -.94 0.94 0.94 -.99 -.99 -.99 -.99 0.99 0.99 0.99 0.99 0.94 -.94 1.00 1.00 -1.0 -1.0 0.97 0.97 0.97 0.97 -.97 -.97 -.97 -.97 0.94 -.94 1.00 1.00 -1.0 -1.0 0.97 0.97 0.97 0.97 -.97 -.97 -.97 -.97 -.94 0.94 -1.0 -1.0 1.00 1.00 -.97 -.97 -.97 -.97 0.97 0.97 0.97 0.97 -.94 0.94 -1.0 -1.0 1.00 1.00 -.97 -.97 -.97 -.97 0.97 0.97 0.97 0.97 0.99 -.99 0.97 0.97 -.97 -.97 1.00 1.00 1.00 1.00 -.99 -.99 -.99 -.99 0.99 -.99 0.97 0.97 -.97 -.97 1.00 1.00 1.00 1.00 -.99 -.99 -.99 -.99 0.99 -.99 0.97 0.97 -.97 -.97 1.00 1.00 1.00 1.00 -.99 -.99 -.99 -.99 0.99 -.99 0.97 0.97 -.97 -.97 1.00 1.00 1.00 1.00 -.99 -.99 -.99 -.99 -.99 0.99 -.97 -.97 0.97 0.97 -.99 -.99 -.99 -.99 1.00 1.00 1.00 1.00 -.99 0.99 -.97 -.97 0.97 0.97 -.99 -.99 -.99 -.99 1.00 1.00 1.00 1.00 -.99 0.99 -.97 -.97 0.97 0.97 -.99 -.99 -.99 -.99 1.00 1.00 1.00 1.00 -.99 0.99 -.97 -.97 0.97 0.97 -.99 -.99 -.99 -.99 1.00 1.00 1.00 1.00 1.00 -1.0 1.00 1.00 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 -1.0 -1.0 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 -1.0 1.00 1.00 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 -1.0 1.00 1.00 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 -1.0 -1.0 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 1.00 -1.0 -1.0 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 -1.0 1.00 1.00 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 -1.0 1.00 1.00 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 -1.0 1.00 1.00 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 -1.0 1.00 1.00 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 -1.0 -1.0 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 1.00 -1.0 -1.0 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 1.00 -1.0 -1.0 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 -1.0 1.00 -1.0 -1.0 1.00 1.00 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 151 我们可以对该矩阵的各个行和列同时进行简化处理,从而得到如下形式: +1 -1 -1 +1 这样就达到了对所对应的各个行动者进行分区(此表分为两个区,即两个位置),从而简约 数据的目的。除此方法之外,我们也可以利用层次聚类对各个行动者进行分类,也可以利用 多维量表(MDS)方法对分区进行图像化的表征。利用多种方法对同一个矩阵进行分析可 以达到相互补充的目的。 一个网络可以有多个分区,并且每个区本身还可以细分。这也可以利用 CONCOR 对每 个子矩阵进行同样的分区操作而得到多个分区。分区越细致,各个区中的行动者就越少。 这就存在一个问题,一个网络应该进行多少次分区?对此没有定论。但是,一般认为, 如果经过分区之后,一个区中只有 3 个或者更少的行动者,分区的效果就不好。因此,在最 后的结果中,每个区中的行动者最好大于 3 个。 经过多次迭代计算之后,CONCOR 利用树形图(tree-diagram 或者 dendrogram)表达各 个位置之间的结构对等性程度,并且标记出各个位置拥有的网络成员。 CONCOR 也可以直接分析多元关系数据以及多值关系矩阵。只是我们要记住,CONCOR 的分析对象是相关系数矩阵 C1,它包含的是皮尔森积距系数,这种系数用来测量各对行动 者之间的相似性。至于 CONCOR 在‘分区’的时候存在的问题请参见(Wasserman and Faust, 1994:377-380)。 需要指出,上述程序并不能直接给出支持网络中有多少个“块”,它需要几个步骤。首 先根据皮尔森相关系数找出矩阵中有多少个‘位置’,然后根据密度表以及一定的标准(共 有 6 种,我们将选择其中的一种),确定各个‘位置’是 0-块,还是 1-块(参见 Wasserman and Faust,1994:394-424)。从而给出具有高度概括性的‘影像矩阵’,最后还可以画出简化图。 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 -1.0 1.00 1.00 1.00 1.00 1.00 1.00 1.00 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 152 第二节 块模型的应用举例 如果用一个整体网来表征人们之间的相互支持行为,那么如何分析其整体的结构?首 先,我们可以计算改整体网络出在“帮工”上存在多少个子群(位置)①,然后给出各个位 置之间的密度表②、像矩阵,最后给出其简化图。从中可以清楚地看出法村的帮工关系网络 分为多少个帮派,如下图所示。 【表 8-2】:96 户家庭帮工关系网络的密度矩阵表 CONCOR Density Matrix 1 2 3 4 ----- ----- ----- ----- 1 0.370 0.092 0.020 0.037 2 0.099 0.388 0.029 0.073 3 0.017 0.025 0.301 0.034 4 0.031 0.103 0.112 0.288 R-squared = 0.161。这一次的分区情况如下表所示: 【表 8-3】:96 户家庭帮工关系网络的分区图 这次分析得到的子群分组情况如下。 第一子群的成员有: 1 2 3 4 5 6 7 8 9 34 35 30 37 38 81 28 65 78 85 26 23 50 29 47 41 71 89 第二个子群的成员有: 39 22 12 19 27 64 48 31 21 10 66 49 51 46 45 91 20 82 44 13 14 79 11 67 77 第三个子群的成员有: 84 72 15 42 57 88 32 60 76 56 63 70 86 18 73 68 69 58 59 96 61 74 75 94 17 33 55 83 87 43 95 93 第四个子群的成员有: 16 80 54 52 62 36 25 92 90 40 53 24 整个网络的密度值经过计算为:0.1277。通过“新密度表”(即表 8-2)和“原密度表”的对 比可以看到,第四个子群成员之间的密度系数明显增加,由原来的 0.105 增加到现在的 0.288, 已经远远大于删除后的整个网络的平均密度水平 0.1277。 同样按照上述做法,得到新的像矩阵如表 8-4 所示: ① 分析步骤简介如下:在 UCINET 中,沿着 Network——Roles & Positions——Structural——CONCOR 这条 路径展开,然后在 CONCOR 中对“帮工关系表”进行分析即可得到下述结果。 ② “密度表”为上述程序自动给出。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 153 1 2 3 4 ---- ---- ---- ---- 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 【表 8-4】:96 户家庭帮工关系的像矩阵表 分析得到的完全是一个对角线矩阵。进一步得到如下结论:村民们的帮工网络分为 4 个子群(subgroup),并且完全是自反性的(self-reflexive)。也就是说,总体上,帮工现象出 现在子群的内部成员之间,而各个子群之间基本上不相互帮工。可见,在重新分析之后,帮 派性表现得更加明显。 总之,尽管涉及到帮工网络的家庭成员有 96 个,但是从整体上说,其简化图却非常简 单,表示如图 8-3 所示。 【图 8-4】:96 户村民的帮工关系简化图 图中的每一个点(头像)代表一个子群,每个点上面带箭头的小圆圈,表示的是关系从 该点“发出”,又回到本点。在各个点之间没有连线,表示在各个子群之间不存在相互帮工 的情况。也就是说,这四个子群之间不存在帮工方面的来往,但是这不否认子群之间在其他 方面(如借钱,贷款、借小东西等)有交往。 需要指出的是,块模型主要用于对多元网络的分析。本例所用数据只是一个一元网络, 对多元网络的分析的步骤与之类似。这里不再赘述。 1 2 3 4 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 154 第九章 结构洞 本章摘要:结构洞的存在使得处于中间位置的行动者居于重要的联络地位,因而在很大 程度上控制资源的流动。本章主要参考 Burt 的著述和 Moody 的讲义,介绍测量结构洞的方 法,并用实例进行了展示。 第一节 结构洞界定 一、结构洞的含义 一谈到结构洞,至少涉及到三个人。对于三个行动者 A,B,C 来说,如果 A 和 B 有关 联,B 和 C 有关联,而 A 和 C 无关系的话,我们就说这种结构是一种结构洞,或者说在 A 和 C 之间存在一个结构洞。结构洞的存在使得 B 处于中间人地位,B 因而可以控制资源的 传递等。在下图中存在多个结构洞。在管理者的社会资本中,弱关系和结构洞占据重要地位, 它与企业在市场上的表现,市场的网络等都具有重要的关联。 二、结构洞的测量 结构洞的计算比较复杂。总的来说存在两类计算:Burt 的结构洞计算和 Borgatti 的个人 中间度,我们主要介绍前者。 Burt 的结构洞的计算要考虑四方面因素。为此,Burt 讨论了一个网络的 4 个相互关联的 方面,并以此为基础来计算结构洞。 1.有效规模(Effective Size);2.效率(Efficiency);3.限制度(Constraint);4.等 级度(Hierarchy)。下面分别加以介绍。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 155 1.有效规模 有效规模指的是个体网的规模(Size)减去网络的冗余度(Redundancy),即有效规模 等于网络中的非冗余因素。Burt 对点 i 的有效规模的测量方法是: 1,,iiqjq jq ES p m q i j=− ≠  ∑∑ 。 其中,j 表征与自我点 i(ego i )相连的所有点,q 是除了 i 或 j 之外的每个第三者。括号 内部的量 piqmjq 代表在自我点和特定点 j 之间的冗余度。piq 代表行动者 i 投入到 q 的关系所 占比例,对于二值网络来说,它就是常数 1/N,N 为网络的规模。这样看来,点 i 的有效规 模公式可以进一步简化如下。 1,,iiqjq jq ES p m q i j=− ≠  ∑∑ , 进一步简化为 1,,iiqjq jjq ESpmqij=− ≠∑ ∑∑ ; 最后简化为 1 ,,ijq jq ES n m q i jn=− ≠∑∑ 。 点 i 的有效规模是该点的个体网规模减去该网络的冗余度,通过简化式可以看出,有效 规模也等于个体网规模减去该个体网络的成员(不包括核心点)的平均度数。下面用一例加 以展示。对于下面的 5 点图来说,如何计算各个点的有效规模?首先,构建与图对应的邻接 矩阵和比例矩阵 P(即表征各个 piq 值的矩阵)。 邻接矩阵 根据定义,一个点的有效规模也等于该点所在个体网的规模减去该个体网络中除了核心 点之外的其它点的平均度数。如果把点 1 看成是“中心点”(ego),那么 1 的冗余度 (redundancy)就等于 1 的个体网络成员的平均度数(当然不能计算连接到中心点 1 的线)。 例如,对于点 1 的冗余度来说,由于 1 的个体网规模为 4,其成员包括 2,3,4,5。每个成 员的度数及平均度数(注意,由于我们计算的是“1”的有效规模,因此,每个成员的度数 只能根据“1”的个体网中的度数来计算)如下所示。 点 2345度数的均值 度数 1 0 1 2 4/4=1 因此,1的有效规模为4-1=3。 如何计算 2 的冗余度?同理,由于 2 的个体网络的规模是 2,其成员包括 1,5。每个成 12345 101111 210001 310000 410001 511010 3 1 4 2 5 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 156 员的度数及平均度数。 点 1345 均值 度数 10012/2=1 所以,2的有效规模是2-1=1。 现在分析点 5 的冗余度。由于 5 的个体网络的规模是 3,其成员包括 1,2,4。每个成 员的度数及平均度数如下所示。 点 1234 均值 度数 2 1 0 1 4/3=1.33 所以,5的有效规模是3-1.33=1.67。 平均度数值无非是另外一类密度指标值,我们可以计算行动者 i 的冗余度为:2t/n,其 中 t 是 i 的个体网络中的关系数(不算与中心点相连的点数),n 是 i 的个体网络规模(不算 自我点)。因此,i 的有效规模是 n - 2t/n。 2.效率 在测量结构洞的时候所使用的效率概念比较简单,一个点的效率等于该点的有效规模除 以该点锁在个体网络的实际规模。就上例而言,每个点的效率分别如下。 3.限制度 从概念上讲,一个人的“限制度”(constraint)指的是此人在自己的网络中在多大程度 上拥有运用结构洞的能力或者协商的能力。波特指出,“你自己的机会受到的限制取决于, (1)你曾经投入了大量网络时间和精力的另外一个接触者 q,在多大程度上向(2)接触者 j 的关系投入大量的精力。” 上述说明可以引出限制性的如下操作化定义,即 2       += ∑ q qjiqijij pppC 。其中 piq 是 在行动者 i 的全部关系中,投入到 q 的关系占总关系的比例(Burt, 1992:54)。该定义可以 用下图加以说明。 点 实际规模 有效规模 效率 1 4 3 0.75 2 2 1 0.5 3 1 1 1.0 4 2 1 0.5 5 3 1.67 0.55 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 157 Cij = 直接投入((Pij) + 间接投入。 从公式中可以看出,点 i 受到的限制度的最小值为 pij 的平方(即 j 与其它点都不相连), 最大值是 1(如果 j 是 i 的唯一联络人)。在这个公式中,取遍所有的联络人 j 得到的总和就 测量了 i 在网络中的创业机会受到的总限制性(the aggregate constraint)(Burt,1992:55)。 在实际矩阵中,如何计算出限制度?公式中的度 piq 是上文已经介绍的,容易计算。关 键在于如何计算 piqpqj。实际上,假设已知矩阵 p,我们可以通过计算 2-步途径距离(2-step path distance)来计算出间接的限制度(piqpqj),如下所示。 P × P × P*P = prod(p,p)= 根据公式,任何两点之间的总限制度等于:C =(P + P2)##2。其中,P 是标准化的邻 接矩阵(即每一行各个值总和为 1),##代表把矩阵的各个“元素”进行平方(而不是进行 矩阵的乘法运算)。Cij 测量的是 j 施加给 i 的限制力。 对于每个 i 来说,取遍各个 j 得到的总和值即测量了 i 在整个网络中受到的总限制度, 如下表的最右一列所示。 1 2 3 4 5 1 .00 .25 .25 .25 .25 2 .50 .00 .00 .00 .50 3 1.0 .00 .00 .00 .00 4 .50 .00 .00 .00 .50 5 .33 .33 .00 .33 .00 1 2 3 4 5 1 .00 .25 .25 .25 .25 2 .50 .00 .00 .00 .50 3 1.0 .00 .00 .00 .00 4 .50 .00 .00 .00 .50 5 .33 .33 .00 .33 .00 1 2 3 4 5 1 - .083 .000 .083 .250 2 .165 - .125 .290 .125 3 .000 .250 - .250 .250 4 .165 .290 .125 - .125 5 .330 .083 .083 .83 - q i j pqj pij piq 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 158 以“1”为例,与之接触的“5”对 1 的控制最强(即在第一行的各个值中,C15 最大), 因为 5 与网络中其它者之间的联系最多。5 的要求因而将是最难以回避或者协商的。3 对 1 的限制性最小,因为它与 1 的网络中的其他成员之间完全隔离。因此,他的要求具有最大的 可协商性。 最后一列给出的是各个点在网络中受到的总限制度。从中可见,“3”受到的限制最大, “1”在网络中最不受限制。 4.等级度 从概念上说,在伯特看来,等级度(hierarchy)指的就是限制性在多大程度上围绕着一 个行动者展开,或者说集中在一个行动者身上。点 i 在网络中的等级度的计算公式为: ln// ln( ) ij ij j CC CN CNH NN  = ∑ 在公式中,N 是 i 的个体网络中的点数,即 i 的个体网规模。C/N 是每个点的限制度的 均值。分母代表最大可能的总和值。如果计算上例中的“1”这个点在网络中的等级度,则 需要按照公式,计算出“1”的个体网成员中每个点的限制度 Cij 及均值 C/N,然后再进行计 算。如下表所示。 经计算,“1”的等级度为 H=.514。 当一个点(人)的每个联络人的限制度(不管高低)都一样的时候,该点的等级度达到 最小值 0。例如,在一个派系中,每个行动者的限制度都是 0。反之,当所有的限制都集中 于一个单个的行动者的时候,该行动者的等级度就达到最大值 1。 一般来讲,等级度越高,说明该点越居于网络的核心,其控制力也就越大;反之亦反。 第二节 结构洞测量例示 在实际案例中,我们不应该手工计算结构洞的各种指标。Burt 于 20 世纪 90 年代初就已 P+P2 Cij C .00 .33 .25 .33 .50 .00 .11 .06 .11 .25 .53 .67 .00 .13 .29 .63 .44 .00 .02 .08 .39 .83 1.0 .25 .00 .25 .25 1.0 .06 .00 .06 .06 1.18 .67 .29 .13 .00 .63 .44 .08 .02 .00 .39 .83 .66 .41 .08 .41 .00 .44 .17 .01 .17 .00 .79 2 3 4 5 C C:0.11 0.06 0.11 0.25 0.53 /:ijCN C 0.83 0.46 0.83 1.9 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 159 经编写出测量结构洞的程序。可惜的是,该程序只能在 DOS 下进行计算,难以应用。值得 称道的是,UCINET 软件最近加入了结构洞的各种测量指标。我们就利用该程序对结构洞的 计算进行展示,其界面如下所示。 我们选择 UCINET 中自带的数据矩阵 KATZ 来展示结构洞的计算。该数据及其对应的图如下。 点击“Structural Holes”后,选出“KATZ”数据,如下所示。 计算的结果如下。 1 2 3 4 5 6 - - - - - - 1 0 0 0 0 0 1 2 0 0 1 0 0 1 3 0 1 0 1 0 1 4 1 0 0 0 1 0 5 0 0 0 1 0 1 6 100100 1 2 4 3 6 5 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 160 对计算结果的解释如下。在“Dyadic Redundancy”下面是一个行动者-行动者矩阵,表 明的是列行动者(即他者)相对于行行动者来说在多大程度上是一个冗余之人。该值越大, 表明该值所在列的行动者相对于该值所在行的行动者来说越是一个多余的人。例如,在第 1 行中的最大值为 0.33,它是第 1 行第 4 列的值。这说明,“4”这个点对于“1”这个点来说 是最冗余的;第 1 行第 5 列的值为 0.17,仅少于 0.33。这说明,“5”这个点对于“1”这个 点来说是冗余的,但不是最冗余的。对其它值的解释与此类似。 在“Dyadic Constraint”下面是一个限制度矩阵,对它的解释与上述矩阵的解释类似, 它表明的是行所在的行动者在多大程度上受到该行动者所在网络的其他成员的限制。该值越 大,表明该值所在列的行动者对该值所在行的行动者的限制力越大。例如,在第 6 行中的最 大值为 0.19,它是第 6 行第 4 列的值。这说明,在“6”的个体网成员当中,“4”这个点对 于“6”这个点的限制力最大;第 6 行第 1 列的值为 0.13,是第二大的值。这说明,“1”这 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 161 个点对“6”这个点的限制力是第二大的。对其它值的解释与此类似。 在“Structural Holes Measures”下面给出了四种结构洞指数。第一列给出了各个点的有 效规模。一般来讲,有效规模越大,说明该点在社会网络中的行动越自由,越不受限制,反 之亦反。但是,由于每个点的个体网规模各不相同,对“有效规模”的解释往往也不具有可 比性。这时候,需要有一个相对的有效规模测度,这就是第二列给出的各个点的效率测度。 可以认为,效率越大,说明该点在社会网络中的行动越高效;反之亦反。从计算结果中可以 看到,效率最高者为点“3”,达到 0.792,这说明“3”的行动最具有效率。第三列给出了 各个点在网络中受到的总限制度。可以看出,最大值为第 2 行所在的 0.772,这说明“2” 这个点在社会网络中受到的限制最大。最后一列给出了各个点在网络中的等级度。由于一个 点的等级度越高,说明该点越居于网络的核心。第四列的最大值为第 1 行的 0.116,对说明 “1”最居于网络的核心。第四列的最小值为第 6 行的 0.063,对说明“6”最不居于网络的 核心。其它点的解释这里不再赘述。 最后需要指出的是,上述各种结构洞指数的计算是常规的计算。如果研究的是个体中心 网,那么应该按照个体中心网来计算各种结构洞指数。也就是说,我们也可以仅仅根据每个 点的个体网成员来计算结构洞指数。对上述数据进行此类计算的结果如下: 对计算结果的解释与上述解释类似。这里不再赘述。 由于个体网络的规模各不相同,按照个体中心网来计算各种结构洞指数因而相互之间不 具有可比性。尽管如此,各种指数还是能够为我们对有关命题的判断提供一种指标,可能为 证实或者证伪某种命题提供数据上的支持。 最后需要补充的是,结构洞指数的计算可以是多种多样的。例如,在个体中心网性质的 讨论网中,可以参照“网络成员中互不相识的成员规模测量讨论网的‘结构洞’概念。”(张 文宏,2006:15)。本章只是介绍 Burt 的结构洞指数,这种指数既适用于整体网,也适用于 个体网。相信读者也可以根据研究课题的需要给出自己的结构洞指数。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 162 第十章 2-模网研究 本章摘要:2-模网络的图形分析,二部数据结构,二步“2-模图”;2-模网络的定量分析; 2-模网络的分派分析:核心边缘结构和分配分析。 人们往往是通过他们所隶属的组织而建立联系的,各个组织也在一定程度上界定了其中 个体的个体性。在社会网络分析中,所谓的“二元性”(Duality)指的是群体之间的关系也 意味着个体之间的关系。通过组织建立的关系就是 2-模网络(2-mode networks)。本章介绍 分析 2-模网络的一些方法。总的来说,对 2-模网络的分析网络可以进行图形分析,二部数 据结构分析,2-模网络的定量分析和 2-模网络的分派分析等。下面分别加以介绍。 第一节 2-模数据的矩阵分析和图形分析 社会网络分析面对的数据是关系数据,多数情况下主要表达的是微观层次的关系,但是 却用一些分析技术来推断宏观层次的社会结构。例如,我们可以利用个体层次的关系来推导 出诸如派系、n-派系、k-丛这样的宏观结构。但是,有一类数据描述的是两类群体,特殊情 况下描述的是一群行动者和诸多事件之间的关系,这是 2-模网络数据,也称之为隶属关系 数据,这一点我们已经在第一章就有所交代。2-模网络数据为我们分析“微观和宏观”、“个 人和集体”、“主观和客观”关系提供了可能。例如,1940 年代,美国学者 Davis 及其同事 收集到 18 位妇女参与 14 个事件的信息。在该数据中,如果考察每位妇女参与了哪些事件, 就可以解释这个 2-模网络的结构,找到其中存在的派系和分组情况,进而赋予每个事件以 一定的意义。我们也可以分析作为宏观层次结构的各个事件是如何影响到每位妇女的选择 的。与此同时,也可以看到在各个事件之间的相似性。 正是利用这个例子,布雷格(Breiger,1974)探讨了“个人和群体之间的二元性”(The duality of persons and groups)问题。布雷格关注的二元论问题指的是如下情形,即每个人是 如何通过他们所隶属的机构而形成社会结构的;与此同时,社会结构又是如何通过一种制度 化的安排从而限制并型塑着其中个体的行为的。 诸如此类的 2-模网络(或者微观-宏观结构)很多。推而广之,从更高层次上讲,社会 世界是一类“嵌套”型的结构,其中的个体(和大型的结构)都嵌套在更大的结构之中,依 此类推。社会学理论和社会学分析的核心内容之一是诸如“结构和能动”(structure and agency)、“个体和集体”或者“微观和宏观”(macro and micro)之间的张力问题,这类问 题却可以利用 2-模网络进行量化分析。 本章将探讨一些分析 2-模网络数据的工具。我们首先探讨数据结构,然后介绍如何对 数据进行可视化处理,最后介绍如何从量化角度对 2-模网络数据的模式进行分析。 为了分析的方便,下面主要利用一种假想的 2-模网络数据,即学生参与小组的数据。 假设该数据描述了 14 位同学参与 7 个小组学习的情况。该数据具有两模:学生和小组。它 是一种二值数据,表明了各位同学参与学生小组的情况。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 163 一、2-模网络向 1-模矩阵的转化 2-模数据可以利用长方形矩阵来表征,在此基础上可转换为两个 1-模数据,或者转换为 一个 2-部 1-模矩阵,在此基础上可画图分析。上述学生和小组数据就可以利用长方形数据 矩阵来保存。首先看看该假想的数据的具体情况,如下所示。 图 1 14 位同学参与 7 个小组学习的情况 我们把该数据命名为“affiliation.14.7”,并保存在 H 盘中。从数据中可以看到,第一位 同学(即 A)参加了“数学”、“英语”小组的学习;第 12 位同学(即 L)同学参加了“数 学”、“地理”和“生物”小组的学习。其它同学的参与情况从表中可一目了然。 (一)数据的转换——从 2-模到 1-模 分析 2-模数据的最常见的方法就是把该数据转换为两个 1-模数据,进而考察每一类点 之间的关系。例如,我们可以创建一种“学生-学生关系”数据,它测量的是每一对同学之 间关系的强弱,即测量两个行动者(同学)共同参与同一学习小组的次数。我们也可以创建 一种事件-事件(小组-小组)关系数据,它记录的是每一对事件(学习小组)之间共享的行 动者(学生)的次数。在 UCINET,利用 Data > Affiliations 工具就可以实现这种想法。点击 “Affiliations”之后,出现对话框,在 H 盘中选出我们要分析的数据“affiliation.14.7”,如 下所示。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 164 在具体转换的时候可有多种选择: 1.就模态的选择来说,有两种选项。如果选择行模式(row mode),生成的则是以行动 者为计算标准的矩阵,即行动者-行动者关系矩阵;如果希望创建一种事件-事件 1-模矩阵, 则需要选择“列模式”(column)。 2.转换的方法有两种 (1)对应乘积法(cross-product method)考虑到行动者 A 所在行的每一项,分别乘以 行动者 B 的对应项,然后加总。通常情况下,这种方法用于二值数据,因为乘积是对“共 同发生”次数的累加。对于二值数据来说,只有当每个行动者在某个事件上都出现的时候, 乘积的值才是 1。因此,在各个事件上的加总值就产生了行动者共同参与的事件的次数,这 同时也测量了关系的强度。 对于本例来说,如果两个行动者都没有参与事件,结果为 0 * 0 = 0,如果一个行动者参 与事件,另外一个人不参与,结果是一样的:0 * 1 = 0。如果两位同学都参与了事件,(即 1 * 1 = 1)= 1,那么在结果矩阵二者对应之值就为 1。 (2)最小值方法(minimums method)考察在每个事件上的两个行动者的每一项,并 选择出最小值。对于二值数据来说,计算的结果与 cross-product method 是一样的。对于 多值数据来说,最小值方法的实质就是:两个行动者之间的关系等于二者与事件之间关系的 最小值。当初始数据是多值数据的时候,这种方法是常用的。 如下选择“行”模式,并且利用“对应乘积法”,得到的转换矩阵就是同学-同学关系矩 阵。如下所示。 图 2:利用 Data>Affiliations 创建的同学-同学关系 可见,A 同学参与了 2 个小组(该行乘以自身的对应项得到的值)。A 同学和 L 同学共 同参与的学习小组有两个(即第一行和第 12 列的值为 2)。对其它值的解释与此类似。当然, 利用这种算法可以揭示出一些信息,但是不能揭示出全部信息。至少两个同学共同参与的学 习小组到底有哪些?这个信息必须结合原始数据来说明。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 165 如果希望创建小组-小组 1-模矩阵,则需要选择“列模式”(column),如下所示。 点击“OK”后得到如下结果: 可见,“数学”小组共有 6 位同学参加(即第一行第一列的值为 6)。有两位同学既参加 了数学小组,又参加了英语小组(即第一行第三列的值为 2)。对其它值的解释与此类似。 当然,如果追问哪些同学参加了什么小组,这还要结合原始数据来说明。作为结果的行动者 -行动者矩阵或者事件-事件矩阵都是 1-模多值矩阵,表达了关系的强度。在此基础上,任何 用来分析 1-模网络的方法(如中心性分析等)都可用来分析这种矩阵。 (二)数据从 2-模到 1-模转换的矩阵算法 下面用一个简单的例子展示数据转换过程(本例参见 Hannemen 的讲义和 Moody 的讲 义)。假设现在有一个数据表达了 6 人(A,B,C,D,E,F)参加 5 个事件的情况。 人际关系网 C E B D F A A B C D E F A 0 0 0 1 0 0 B 0 0 1 0 0 0 C 0 1 0 1 0 0 D 1 0 1 0 1 2 E 0 0 0 1 0 1 F 0 0 0 2 1 0 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 166 可见,A 和 D 共同参加一个事件,D 和 F 共同参加两个事件,其他情况如图所示。5 个事件之间共享的成员情况如下图所示: 由图可见,3 和 4 这两个事件共同拥有 2 个人,2 和 3 共同拥有 1 个人,其他情况也可以从 图中分析出来。 问题在于:上述两种矩阵尽管联系紧密,但是不可轻易进行比较。因此,我们需要一种 算法找到二者之间的关系。为了比较二者之间的关系,需要构造如下个人-群体邻接矩阵 (person-to-group adjacency matrix),该矩阵一般是最初调查得到的数据。 在该矩阵中,每一列代表一个群体,每一行代表一个个人,如果格值 Aij 等于 1,即表示第 i 行所代表的个人隶属于 j 这个群体。从矩阵中可以看出两个人共同参与的群体有多少,这只 需要比较各个行即可:找出两行都是 1 的地点,进行汇总,即可以计算出重叠。例如,如果 比较 A 和 F,如下所示可以看出:A 隶属于群体 1,F 隶属于两个群体 3 和 4,但是他们却 没有共同参与一个群体。 如果比较 A 和 F(如下表所示),可以看出:D 隶属于群体 2,3,4,5,F 隶属于两个群体 3 和 4,他们共同参与的群体有两个,即 3 和 4。 1 2 3 4 5 1 0 1 0 0 0 2 1 0 1 1 1 3 0 1 0 2 1 4 0 1 2 0 1 5 0 1 1 1 0 群际关系网 1 2 5 4 3 1 2 3 4 5 A 0 0 0 0 1 B 1 0 0 0 0 C 1 1 0 0 0 D 0 1 1 1 1 E 0 0 1 0 0 F 0 0 1 1 0 A = 1 2 3 4 5 Σ A 0 0 0 0 1 = 1 F 0 0 1 1 0 = 2 A×F 0 0 0 0 0 = 0 1 2 3 4 5 Σ D 0 1 1 1 1 = 4 F 0 0 1 1 0 = 2 D×F 0 0 1 1 0 = 2 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 167 对于群体的分析来说也是如此。例如,群体 1 有两个成员,群体 2 也有两个成员,它们之间 重叠的数目是 1。 如何把上述思想进一步推广,得到具有推广意义的结论?一般来说,我们可以计算出来任何 一对群体(个人)之间的重叠量,通过汇总个人-群体邻接矩阵(persons-to-groups adjacency matrix)中对应的行(列)对应因子之积即可。也就是说:个人-个人(Person)矩阵 1 g ij ik jk k PAA = = ∑ 。群体-群体(Group)矩阵 1 p ij ki kj k GAA = = ∑ 。 通过矩阵的运算,可以很容易地计算上述矩阵。首先,定义 AT 为矩阵 A 的转置矩阵, 即 T ij jiAA= 。如果 A 的规模为 P×G,那么 AT 的规模就是 G×P。因此, ;TTPAAGAA==, 如下所示。 从理论上讲,这两个等式就界定了布雷格(Breiger)所说的“二元性”:“就成员网络而言, 成为一个图(即矩阵 P)中行动者的人同样可被看成是在其对偶图(dual picture)(即矩阵 G) 中的关系,对于群体来说也是如此”(Breiger,1974:87)。计算出的网络具有如下特点:(1) 总是对称的;(2)对角线告诉我们一个人(或群体)隶属于(拥有)多少个群体(个人)。 1 2 1×2 A 0 0 0 B 1 0 0 C 1 1 1 D 0 1 0 E 0 0 0 F 0 0 0 Σ 2 2 1 1 2 3 4 5 A 0 0 0 0 1 B 1 0 0 0 0 C 1 1 0 0 0 D 0 1 1 1 1 E 0 0 1 0 0 F 0 0 1 1 0 A6×5= A B C D E F 1 0 1 1 0 0 0 2 0 0 1 1 0 0 3 0 0 0 1 1 1 4 0 0 0 1 0 1 5 1 0 0 1 0 0 A T 5×6 = A B C D E F A 1 0 0 1 0 0 B 0 1 1 0 0 0 C 0 1 2 1 0 0 D 1 0 1 4 1 2 E 0 0 0 1 1 1 F 0 0 0 2 1 2 P = A × AT = 1 2 3 4 5 1 2 1 0 0 0 2 1 2 1 1 1 3 0 1 3 2 1 4 0 1 2 2 1 5 0 1 1 1 2 G = AT × A= 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 168 在一些情况下,此类计算具有一定的现实意义。例如,当我们收集到 41 位学者参与中 国社会学会下面的 4 个二级分会(城市社会学、社会学方法、社会理论和社会网络)数据(如 下所示)之后,很可能希望进一步了解,每个分会有哪些成员(这容易处理,只要看每个分 会所在列中有多少‘1’即可),各个分会之间有多少人是共享的。这种想法就可以利用上述 矩阵计算的思想得到实现。我们可以利用 UCINET 进行这些操作,计算出各个分会之间有 多少人是共享的,结果如下。 读者完全可以根据自己收集的网络数据进行类似的计算,得到的结果可能支持或者反驳 自己提出的命题。 二、二部“2-模图”分析 分析 2-模网络的上述方法主要是矩阵方法。我们在前文已经介绍了,表征网络数据的 方法还有图形法。因此,我们也可以利用图论方法来表示 2-模网络数据,这就需要首先构 建二部矩阵(bipartite matrix),在此基础上建构二部图(Bipartite “Two-Mode” graphs)。在 会员 城市 方法 网络 理论 1 1 0 0 0 2 0 1 0 0 3 0 1 0 0 4 1 0 1 0 5 1 1 0 1 6 0 1 1 0 7 0 1 0 0 8 1 0 1 0 9 0 0 1 1 10 0 0 0 1 11 1 0 0 0 12 0 0 0 1 13 0 0 1 1 14 1 0 1 1 15 0 0 1 1 16 0 1 0 1 17 0 1 0 0 18 0 0 0 1 19 0 1 1 0 20 0 0 1 0 21 1 1 1 0 22 1 0 0 1 23 0 1 0 0 24 1 0 1 0 25 0 0 1 1 26 1 0 1 0 27 1 0 0 0 28 1 0 0 1 29 0 0 1 0 30 0 1 0 0 31 1 1 0 0 32 0 0 1 0 33 0 0 1 1 34 1 0 1 0 35 1 0 1 1 36 0 0 1 1 37 1 1 0 0 38 0 0 1 1 39 0 0 0 1 40 0 0 1 1 41 1 1 0 0 A= G=(AT)A 城市 方法 网络 理论 城市 17 5 8 5 方法 5 14 3 2 网络 8 3 21 10 理论 5 2 10 18 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 169 UCINET 中,这需要利用 Data>Display 来展示 2-模网络的 2-部数据结构(Bi-partite data structures)。 (一)二部矩阵的构建 要构建一个二部矩阵,需要在隶属关系矩阵的基础上再加入一些行和列,使之变成方阵。 这种矩阵不同于上述的 1-模矩阵,因为二部矩阵同时表达了两个模之间的关系,而上述 1- 模矩阵表达的只是一个模态(集合)之间的关系。具体地说,上述学生-小组数据对应的二 部矩阵将拥有 21 行(14 位同学加上 7 个小组)和 21 列(14 个同学加上 7 个小组),而两 个 1-模网络的规模分别是 14 和 7。二部矩阵中的两个行动者-事件块与初始矩阵完全一样, 两个新的矩阵(同学-同学矩阵和小组-小组矩阵)通常编码为 0。在 UCINET 中,利用 Transform>Bipartite 就可以把 2-模长方形矩阵转换为 2-模二部矩阵。其对话框如下所示: 在该对话框中,“value to fill within-mode ties”(即令在每个模内部赋予的值是多少) 一项通常设定为 0。因此,行动者之间(或者学习小组)只有在共同参与一些“学习小组” (或者有共同的学生)的时候才存在联系。因此,我们一般设定每个模内部的关系是不存在 的。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 170 只要数据以这种方阵的形式表达,用来分析 1-模网络数据的方法都可用来分析该数据。 但是在解释的时候需要注意,因为有待分析的网络是一类特殊的网络,其中的关系是在不同 层次(学生和学习小组)上的点之间的关系。在一定意义上,行动者(学生)和事件(学习 小组)可被看成是在单一分析层次上的社会对象(social objects),进而也可以探讨其中的中 心性和关联性等特征。但是,这种分析相对较少,尽管分析的结果可能出现某种有趣的 (creative possibilities)结论。 通常情况下,我们保持行动者和事件“分开”,并且关注行动者是如何把事件关联在一 起的,事件又是如何把行动者联络在一起的。下面我们将考察用来完成这种任务的技术。网 络分析的第一步就是对数据进行可视化处理,即进行二步-2-模分析。 (二)二部图的构建 在利用图来表达 2-模数据的时候不存在什么新的技术问题。行动者和事件都被看成是 点,线用来表达行动者到达事件的关系(在行动者和行动者之间,或事件和事件之间不存在 直接的关系) 在 UCINET 中,利用 NetDraw>File>Open>UCINET dataset>2-Mode Network 工具可 用来针对小网络生成一个有用的图,这就是二部 2-模图(Bipartite “Two-Mode” graphs)。图 3 展示了对上述 21 点图进行这种图形分析的结果。 1.例一 图 3 14 位同学参与 7 个小组的二部图分析结果 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 171 该图中包含 21 个点,表现出一定的聚类性。对 2-模网络的这种可视化处理的结果可以 清楚地看到 2-模关系的结构。除此之外还可能获得一些洞见,特别是在利用某种量表方法 (scaling method)来确定各个点的位置的时候更是如此,因为量表方法都要求距离接近的 行动者的关联序也高,因为他们拥有相似的事件截面(profiles of events)。例如,在 NetDraw 中,按照 MDS(MultiDimensional Scaling,即多维量表)方法重新划图,可以得到如下结果: 由于多维量表技术是根据“距离”进行画图的,因此,在二维空间中,距离越近的点关 系也越紧密。从上图可见,“英语”(English)、演讲(speech)和“政治”(politics)在距离 上比较接近,这说明这三者具有较大的相似性。数学(maths)和“生物”(biology)比较接 近,这说明这二者具有较大的相似性。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 172 上述画图的方法固然有其优点,例如可以形象化地表示关系,但是其缺点也很明显,即 不能给出关于关系结构的更多的量化说明。实际上,恰恰是行动者和事件的这种“聚在一起” 或者“对应”才成为下面将讨论的量化计量方法将回应的问题。也就是说,下面介绍的计量 方法将努力抓住由事件带来的行动者的聚类,由行动者的共同出现带来的事件的聚类,从而 揭示行动者-事件关系的深层次结构。 2.例二 有关 2-模网络的例子很多。例如,如果我们研究的是一些个人参与某些事件(群体、 俱乐部、小组、协会等)的网络(即个人-事件 2-模网络)的话,那么就可能构建一个网络 来表达人和群体之间的关联。在这种情况下,也可以构建一个二步“2-模图”,在这种网络 中的点就具有两种类型:个人和群体。现在,我们再看一个经典个案,即南方妇女数据(the Southern Women’s data)(该数据是戴维斯和他的同事在 1940 年代收集的,是有关 18 位女性 参与 14 个社会事件的数据,创建 Davis et al., 1941:第七章,转引自 Scott, 2000: 22)。该数 据的结构如下所示: 最初对这个数据的处理有两种方式,即分别构建个人-个人关系网络图和群体-群体关系网络 图,上文已经对此进行了介绍。利用 UCINET 中的 Data>Affiliations 算法,可以计算这两种 网络,如下所示: AFFILIATIONS --------------------------------------------------------- Input dataset: "H:\Ucinet Data\DataFiles\davis Dimension: ROWS Method: Cross-Products (co-occurrence) 1 1 1 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 173 E L T B C F E P R V M K S N H D O F - - - - - - - - - - - - - - - - - - 1 EVELYN 8 6 7 6 3 4 3 3 3 2 2 2 2 2 1 2 1 1 2 LAURA 6 7 6 6 3 4 4 2 3 2 1 1 2 2 2 1 0 0 3 THERESA 7 6 8 6 4 4 4 3 4 3 2 2 3 3 2 2 1 1 4 BRENDA 6 6 6 7 4 4 4 2 3 2 1 1 2 2 2 1 0 0 5 CHARLOTTE 3 3 4 4 4 2 2 0 2 1 0 0 1 1 1 0 0 0 6 FRANCES 4 4 4 4 2 4 3 2 2 1 1 1 1 1 1 1 0 0 7 ELEANOR 3 4 4 4 2 3 4 2 3 2 1 1 2 2 2 1 0 0 8 PEARL 3 2 3 2 0 2 2 3 2 2 2 2 2 2 1 2 1 1 9 RUTH 3 3 4 3 2 2 3 2 4 3 2 2 3 2 2 2 1 1 10 VERNE 2 2 3 2 1 1 2 2 3 4 3 3 4 3 3 2 1 1 11 MYRNA 2 1 2 1 0 1 1 2 2 3 4 4 4 3 3 2 1 1 12 KATHERINE 2 1 2 1 0 1 1 2 2 3 4 6 6 5 3 2 1 1 13 SYLVIA 2 2 3 2 1 1 2 2 3 4 4 6 7 6 4 2 1 1 14 NORA 2 2 3 2 1 1 2 2 2 3 3 5 6 8 4 1 2 2 15 HELEN 1 2 2 2 1 1 2 1 2 3 3 3 4 4 5 1 1 1 16 DOROTHY 2 1 2 1 0 1 1 2 2 2 2 2 2 1 1 2 1 1 17 OLIVIA 1 0 1 0 0 0 0 1 1 1 1 1 1 2 1 1 2 2 18 FLORA 1 0 1 0 0 0 0 1 1 1 1 1 1 2 1 1 2 2 与该矩阵对应的图(在 NetDraw 中,选择“Open”打开文件后,再选择“Circle Layout”即 可画出圆形的图像): 现在,我们可以构建个人-群体关系图(在 NetDraw 中,选择“Open”后,选择“2-Mode Network” 即可): 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 174 第二节 2-模数据的定量分析 一、2-模数据的中心性分析 (一)2-模数据的中心性分析 针对“二部矩阵”进行各种中心性指数分析。首先构建二部矩阵,第一节已经介绍了构 建二部矩阵的方法。然后利用 UCINET 中的“中心度”算法计算该二部矩阵中各个点的中 心度,这一点也在本书“中心性分析”一章中有所论证,此处不再赘述。 (二)2-模数据的中心度可视化分析 利用各种中心度指数可以把握每个点的中心程度。除此之外,我们还可以对中心度进行 可视化分析,使得中心度大的点的规模也大。这样的话,每个点到底在多大程度上居于网络 的核心,在图中可一目了然。这种想法可以在 UCINET 的 NetDraw 中得到实现。在 NetDraw 中打开“学生-学习小组”数据之后,会出现如下所示的数据图。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 175 然后沿着 Analysis > Centrality Measures,点击之后会出现如下对话框,其中可以选择的 中心度指数有六项(即 Measures 下面的六项),研究者选择自己感兴趣的中心度指数(如中 间中心度,如下图所示)。 点击“OK”之后会出现如下结果。由于中心度最大的点也最大(如下图所示),从图中可以 清楚地看到那些点居于网络的核心位置。例如,“speech”点最大,说明就“中间中心度” 而言它最居于网络的核心。当然,对 2-模数据中心性分析结构的解释稍稍不同于对 1-模数 据中心性分析结果的解释。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 176 当研究多个变量的时候,往往希望找到它们之间共同拥有的特征。利用有关“协变项” (co-variation)方面的信息,我们可以推导出这些变量背后的一些维度和因子。如果确实如 此,我们就可以关注该维度即可。这就是因子分析和成分分析的任务,它关注变量之间共同 的因子以及每个个案在各个维度上的取值是多少。 我们可以利用同样的“计量”(scaling)逻辑来分析有关行动者与事件之间的关系网络, 也就是说,我们也可以对 2-模网络进行因子分析。可以根据行动者参与事件的情况来计量 或表征他们之间的相似性,但是要根据它们之间的共同方差对事件进行加权分析。与之类似, 我们也可以对事件进行指标化处理,这却要根据行动者共同参与的模式来分析——但是要根 据它们之间的共同参与的频次对行动者进行加权。诸如多维量表(Tools>MDS)、因子分析 和主成分分析(principal components analysis)可用来对事件或行动者进行计量。 在利用这种计量逻辑来分析行动者-事件之间的关系数据的时候,可以采用一些软件。 UCINET 包含两类关联紧密的因子分析技术,即“奇异值分解”( Tools>2-Mode Scaling>SVD)和“2-模量表因子分析”(Tools>2-Mode Scaling Factor Analysis),它们都 将同时考察行动者之间的和事件之间的共同的方差。UCINET 还包括对应分析 (Tools>2-Mode Scaling>Correspondence)技术,它应用同样的逻辑于二值数据之中。一 旦区分出这种联合方差背后的共同维度,我们就会把行动者和事件“画在”同一个空间之中, 进而看出哪些行动者在参与事件这个问题上是相似的,哪些事件在有哪些行动者参与这个问 题上是相似的,哪些行动者和事件在位置上相互接近。 有时候,可能通过对背后的因子或维度的解释获得一些洞见,可以深刻地认识到为什么 行动者和事件以一定的方式相互接近。一般来讲,行动者和事件的某些聚类可能形成一些有 意义的社会行动“类型”或者“区域”(domains)。 下面利用这些技术简要地分析上述学生(行动者)参与学习小组(事件)的数据,以便 展示 2-模数据分析的逻辑。首先介绍奇异值分解,然后介绍因子分析,最后探讨对应分析 技术。需要强调的是,这些方法研究的目的都是为了降维,从而找到数据背后的共同因子。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 177 二、2-模数据的奇异值分解 奇异值分解法(Singular value decomposition,缩 写 为 SVD)是一种用来区分出 2-模( 多 值)网络数据背后的一些因子的方法。为了展示 SVD,我们需要输入一个 2-模矩阵。图 4 给出的是从 2-模网络数据中抽取(extracted)出来的“奇异值”(singular values),这要利用 UCINET 中的 Tools>2-Mode Scaling>SVD 程序。该程序一般针对实数矩阵进行奇异值分解 分析(singular value decomposition of real-valued matrix)。 SVD 的原理如下:对于一个 n×m 矩阵(n 不小于 m)X 来说,SVD 算法将找到矩阵 U、 D 和 V,使得 X = UDV'(V'是 V 的转置矩阵)。矩阵 D 是一个 r×r 的对角线矩阵,它包含 r 个奇异值。矩阵 U 是一个 n×r 矩阵,它包含矩阵 XX'的 r 个特征值(eigenvectors);V 是一 个 m×r 矩阵,它包含矩阵 X'X 的 r 个特征值。各个特征值按照降序排列。对于对称数据来 说,U 和 V 相等。 用矩阵的语言表示 SVD 定理就是:秩①为 r 的实矩阵 A 必有如下分解式: 1 2 0 ' 00 r a a AU V a    =   " 该公式就叫做 A 的奇异值分解 。其中,U 和 'V 都是正交阵②,并且 0; 1, 2, ,iai n>=" 。 12,,,raa a" 叫作 A 的奇异值。 由于 2 1 2 2 2 0'' 00 r a a AA V V a    =   " ; 2 1 2 2 2 0'' 00 r a a AA U U a    =   " 所以,奇异值就是 'AA(也是 'AA )的非零特征根的平方根。 SVD 的目的是什么?当我们面对的隶属关系数据的行数和列数较多的时候,可通过奇异 值分解的技术,降低其维度数,以便达到找到共同因子的作用,找到数据背后共同的因子, 这就是 SVD 的目的。该方法将分解出一些奇异值(singular values),是一种不同于常规的 ① 矩阵的秩是矩阵的列向量组(或行向量组)的任一极大线性无关组所含向量的个数。通俗地讲,矩阵的 秩指的是矩阵中相互独立的向量数的最大值,它表征了矩阵中独立向量的维度,相当于数据矩阵的背后共 同的维度。 ② 正交阵的定义如下:设 A 是 n 阶实阵(其中的值都是实数),并且 ' nAA I= ,则称 A 为正交阵。这里的 nI 为 n 阶单位阵。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 178 因子分析和主成分分析的方法。因此,一个比较好的想法就是应该既考虑到 SVD,又考虑 2-模因子分析的结果。 在 UCINET 中,SVD 分析的执行过程如下: 点击“SVD”后,出现如下对话框: 需要注意的是,输入数据的行数不能少于列数(一般要求行数要远远大于列数),否则 进行转置处理,再提交运算,并且矩阵最好是多值矩阵(对于二值矩阵来说,最好应用下面 将介绍的对应分析法来分析)。 在具体分析的时候,如何对行和列的值进行计量?一共有三种选项: 坐标(Coordinates):每个特征向量根据与之对应的特征值来加权处理。 负载值(Loadings):每个特征向量根据与之对应的特征值的平方根来加权处理(当利 用 SVD 来分析相关系数矩阵的时候,这种选项产生的是因子负载值)。 轴(Axes):不执行重新计量,这是默认值。 需要保存的因子的个数(No of factors to save):默认值为 3 个。研究者可根据情况进行 修改,但是其最大值为 r,即用来分解矩阵 X 的特征向量的数目。 是否根据各个因子对矩阵进行重构(Reconstruct matrix from factors):默认值为“否”。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 179 如果选择“是”(YES),那么程序会根据 r 个特征向量计算出 UDV'这个乘积。其结果是根 据“最小二乘法”标准(least squares criterion)利用秩为 r 的矩阵对 X 的最佳逼近。 输出的数据有多项。其中一项为包含行值(即包含 U 矩阵)的文件,名为 RScores。 另外一项输出文件为包含列值的文件,名为 CScores。它是包含 V 矩阵的文件。 第三个输出的文件为包含奇异值的文件,名为 Eigen。它是包含 D 矩阵的文件。 第四个输出的文件为包含重构的矩阵的文件,名为 Recon。它是包含与 X 逼近的矩阵 UDV'的文件。 最后一个输出的文件为包含行和列联合在一起的矩阵文件,名为'RCScores。它是包含 U 矩阵和 V 矩阵连接在一起的矩阵,产生的是一个(M+n)×r 的矩阵,可把它的行和列画在 一个图中)。 如果在上图中的“Input Data”一项中选择我们给出的学生-小组数据,那么经过计算, 上述学生、小组矩阵的秩(rank)为 7,因而出现 7 个奇异值。对该矩阵进行 SVD 分析的结 果如下。 图 4 对上述数据进行 SVD 分析的结果 在分析出的 7 个奇异值中,第一个奇异值的减少误差比例(PRE)很少,只有 8.5%。 第二个奇异值的 PRE 就达到 48.4%,累计百分比为 56.9%;第三个奇异值的 PRE 为其 17.2 %,累计百分比为 74.1%。这说明第一个奇异值的解释力不大,第二个最大,第三个奇异 值的解释力次之。问题是,这些奇异值的含义是什么?这一点可以通过针对小组的进一步 SVD 数据分析的结果来说明。 图 5 对学生-小组数据的 SVD 分析的结果(小组量表) 可以认为,第一个维度(奇异值)反映的是这些同学的共同的能力,第二个维度反映了 学生在“文科”(政治、英语)方面的能力(因为该奇异值在政治、英语、演讲等方面的负 载值大);第三个反映了学生在“理科”(地理、化学)方面的能力。因此,我们可以命名第 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 180 二个奇异值为“文科因子 ”,第三个奇异值为“理科因子”。可见,演讲小组、政治小组、英 语小组居于一个维度,化学小组、生物小组、地理小组等处于另外一个维度。 如果看到这些奇异值,我们就可以考察行动者和事件在每个奇异值上的负载值是多少, 或者如何定位在背后的维度上的。首先,计算结果中可以看到每个行动者在各个维度上的负 载值(这些值都是在进行 SVD 分析的时候自动给出来的)。 图 6 对学生-小组数据的 SVD 分析结果(学生量表) 从结果中可以看出,A 同学在“文科因子”上的负载值为-0.274,而在“理科因子”上 的负载值为 0.250。这说明,A 擅长于理科,不擅长文科。 在常见的因子分析和主成分分析中,“奇异值”(singular values)与“特征值” (eigenvalues)类似。上述计算也表明,奇异值是非零特征根的平方根。这里计算的结果 比较清楚地说明,有关行动者和事件之间的联合方差“空间”(joint space of the variance) 不能仅仅根据一个奇异值加以描述,还需要至少另外一个维度来解释。当然,如果我们清楚 地认识到,数据背后存在着诸如“左派/右派”、“金钱/面子”活着“兴趣/指令”等简单的分 组的话,那么我们仅仅利用少数的奇异值就可以解释联合方差的实质性部分。在本个案中, 结果告诉我们,用来解释行动者和事件的联合方差的维度至少不是单一的。 有时候需要对各个行动者和事件的位置进行可视化处理,这就需要利用散点图 (scatterplot),这要由在各个维度上的量表值(scale scores on the various dimensions)来界 定。实际上,在 SVD 计算得到的输出文件中也给出二维散点图,它可以记载前两个特征向 量之间的关系(当然也可以描述第一个和第三个特征值之间的关系或者第二个和第三个特征 值之间的关系,但这需要研究者自己在输出的图中进行选择)。可以对该散点图进行编辑、 保存、整理、打印等分析。例如可以把标签加入或者省略。保存之后的图像可利用 Tools > Scatterplot > Review 来查看。也可利用 Word 处理程序读取。 就本例而言,如果根据前两个维度进行展示,可以得到如下散点图(该图是由上述程序 自动给出的,也可以给出其余两个维度之间的散点图)。图 7 即展示了在前两个维度上的结 果。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 181 图 7 对学生-小组数据的 SVD 分析二维图 可见,第一个维度(图中的左右维度,即相当于同学们的“共同素质”维度)看不出各 个事件之间的明显差异,第二个维度(图中的上下维度)似乎由各个学生之间的差来界定。 散点图并没有清楚地把特定的一些行动者和事件沿着强线性维度进行定位。但是它确实产生 一些有趣的聚类,表明了行动者所在的群体,也表明了一些有关参与模式的核心问题。例如, “geography”、“biology”和“maths”明显聚在一起,且很靠近;右上部分的“politics”、“speech” 和“English”也明显比较靠近,尽管其靠近的程度不像数学一组近。 需要注意的是,针对 SVD 计算的结果不一定有明确的解释。像本例这样有明确解释的案 例其实是很少见的。另外,即使针对同一个特征根,接收不同学术训练的人给出的解释很可 能是不同的。与此同时,我们也不能保证做出的解释是完全符合数据的。例如,我们也注意 到,在学生-小组数据的 SVD 分析结果(学生量表)中, M 同学在两个因子上的负载值都是 负数,我们能简单地说 M 不具有文科因子和理科因子吗?实际上,由于他同时参与了数学、 英语、演讲和生物这四个小组的学习,因此,我们也可以说 M 同时具有文科素养和理科素养。 三、2-模数据的因子分析 一谈到因子分析,往往与主成分分析关联在一起,二者异同点并存。在有些文本中,主 成分分析法(principal components analysis,简写为 PCA)也被称为“因子分析法”,实际上 二者是不同的。一般认为,因子分析的含义比较广泛,用来进行因子分析的方法比较多,其 中之一就是主成分分析。在 SPSS 中,主成分分析也是因子分析程序的一个部分,这也使得 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 182 其成为得到广泛应用的一种数据分析方法(郭志刚,1999;Scott, 2000: 154-157)。 主成分分析是作为一种分析个案-变量属性(a case-by-variable)矩阵的方法发展起来的, 其目的是为了发现多个变量中共享的一个或多个因子或成分。它试图利用原始数据发现一系 列坐标或轴(因子或维度),从而可以用来绘制出数据散布图。当利用一个个案-隶属项(a case-by-affiliation)矩阵中的关系数据的时候,所得到的散布图就具有如下形式,即从一个 点到另一个点的空间距离和环绕方向表达了有关它们之间实际相对位置的信息。 一个简单的 PCA 算法将首先把个案-变量矩阵转换为变量-变量(variable-by-variable) 矩阵,从而表明了变量(即初始阵的各列)之间的相关关系。因此,新的矩阵就展示了各个 变量之间的相关性程度。下一步就是搜索这个矩阵,找到那些高度相关的变量,并且用一个 构造出来的人工变量代替,以此来测量各个变量之间的相关关系。如此看来,一组相互关联 或者相关程度高于一个特定值的变量将用一个构造出来的变量来替代。这个构造出来的变量 就称为第一主成分。再下一步是寻找另外一系列高度相关,却与第一系列变量不相关的变量。 用来代替这些变量的、构造出来的新变量就是第二主成分。主成分分析法将持续此类过程, 其目的是确定一系列互不相关的主成分,它们加在一起,共同解释了在数据中发现的全部变 差。这种全面的分析将一直持续到确定出所有可能的成分。通过这种过程,初始的变量-变 量相关系数矩阵实际上就转换成为一个变量-成分相关矩阵。 第一主成分代表了最高度相关的一组变量。根据定义,第二主成份与第一主成分无关, 即与之是“正交”的。同理,如果存在的维度超过两个,那么其中的每个维度与其他维度彼 此垂直或者不相关。在主成分分析中,一般需要搜索出能够解释数据中较高比例方差的最少 数目的主成分。 因此,PCA 开始于一个变量 -变量相关系数矩阵,它是根据初始的个案-变量矩阵构造出 来的。根据变量-变量矩阵可以构造出一个变量-成分矩阵,该矩阵的每个格值表达的是计算出 来的每个变量在每个成分上的“负载值”(loadings)。各个主成分被当成一个散点图的各个轴, 各个负载值用来确定每个变量在各个轴上的位置。 有时候需要对数据的结构进行旋转,目的是为了给它的结构提供一个更清晰的图像。旋 转的方法主要有两种:直角旋转法和斜角旋转法。其中直角旋转法又包括变值尽简法(Varimax Solution)和因值尽简法(Quartimax Solution)。变值尽简法是在旋转的时候尽量因子矩阵 中每一列的值尽可能变为 1 或者 0,以便突出每一个因子的性质。该方法从简化因子矩阵的每 一列出发,使得和每个因子有关的负载平方的方差最大。当只有少数的几个变量在某个因子 上有较高的负载时,对因子的解释是最简单的,和某个因子有关的负载的平方的方差最大时, 因子具有最大的可解释性。因此,该方法又叫做“方差最大法”(郭志刚,1999:104-105)。 因值尽简法则在旋转的时候令每一个变项在某个因子上的负载值尽可能为 1,而在其他因子上 的负载值尽可能为 0,以便突出一个最强因子的性质;从计算的角度讲,该方法是从简化因子 矩阵的行出发,通过旋转初始因子,使得每一个变量只在一个因子上有较高的负载值,只其 他因子上有尽可能低的负载值;该方法通过使因子负载矩阵中每一行因子负载平方的方差达 到最大求得因子解,因此该方法又叫做“四次方最大法”(郭志刚,1999:104)。 一般情况下,如果各个点在空间中似乎沿着一个特定方向散布的话,那么转动这个构型, 直到各个点沿着第一主成分最大限度地展开,这将是合理的。例如,在图 8.4 中,图(2)表 达了一种构型的旋转,这要比未旋转的图(1)更与轴拟合。更一般地说,旋转程序的目的是 为了形成一个构型的定位,以便更好地与主要轴吻合。旋转程序输出的结果是一个新的变量- 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 183 成分矩阵,它包含了每个变量的一组修改过的负载值。 PCA 的结果给出的是由一组维度界定的一个空间上多个变量的分布。按照类似的方法可 采取另外一个程序,该程序会形成个案的散布图。在这个程序中,第一步是把初始的个案-变 量矩阵进行转置,并计算出一个个案-个案相关系数矩阵。随后的程序则完全相同,尽管分析 单位变为个案而不再是变量。最终结果是一个个案-成分负载值矩阵,从中可以绘制出个案分 布图来。在某些文献中,这种个案-个案分析称为“Q-模式”的主成分分析法,以便与常规性 的、变量-变量“R-模式”分析区分开来。 在用因子分析法处理数据的时候有两种方式:Q-模式因子分析和 R-模式因子分析 。需要 注意的是,通常情况下,PCA 为 R-模式的,即它针对初始阵的各列进行操作。因此,对一个 个案-隶属项发生阵(case-by-affiliation incidence matrix)的 R-模式的印度分析就是对通过数据 矩阵各个隶属项的共同因子进行的分析。如果研究者希望考察各个个案之间的关系结构,就 有必要对这个矩阵实行转置,从而把个案变为矩阵的各列,如在一种 Q-模式的 PCA 分析中一 样。例如,可以对一个个人-组织发生阵直接进行分析,从而形成一个组织-成分矩阵,或者把 这个矩阵进行转置分析,从而形成一个个体-成分矩阵。 在分析“学生-小组”矩阵的过程中,PCA 算法将考察各个小组,以便找到那些在其成员 属性上最相似的学习小组。如在 CONCOR 中一样,此时也用相关系数作为相似性测度。所发 现的各个具有相似性的小组集合将用一些主成分来代替。对初始发生阵实行转置就可以分析 各个个案,从而进行 Q-模式的因子分析。如前文几章所讨论过的 CONCOR 和块模型程序中 所看到的那样,从同样的输入数据中产生的列解(column solution)和行解(row solution)将 相互具有“对偶性”(dual)。它们虽然不同,但却是对同一组数据中的互补性表征(Scott, 2000: 156)。 尽管对于无向关系的对称数据矩阵来说,行解和列解将完全相同,但是仍然可以用 PCA 分析邻接矩阵。然而,在一个有向邻接矩阵的情况下,两种解会有所不同,一个解可能对应 于由“发送”关系生成的网络,另一个解则对应于由“接受”关系生成的网络。 (一)R-模式的因子分析(变量-变量分析,即针对隶属项之间的关系进行的分析) 在 UCINET 中,因子分析的执行过程如下: 点击“Factor Analysis”后,出现对话框。我们利用 UCINET 中的 2-模网络数据学生- 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 184 小组数据进行因子分析。选出数据,如下所示: 点击“OK”后,会计算出一些结果,如下所示。 图 8 针对学生-小组数据进行 R 模式的 2-模因子分析得到的特征值 一般认为,选取的因子数目应该使得累积解释的方法比例达到 70-80 以上。从计算结果 中可以看到,前两个因子可以解释掉数据中总方差的 70.5%;前三个因子就可以解释掉数据 中总方差的 86.3%。因此,为了把握起见,我们可以把因子数目确定为 3。当然,也可以简 单地把因子数目确定为 2,这样解释起来可能更容易一些。问题是,每种因子的含义是什么? 这一点需要通过观察各个学习小组在因子上的一些负载值来解释。如下所示。 图 9 旋转的因子负载值和每位同学在 3 个因子上的负载值 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 185 对结果的解释:因子一可以解释为“文科因子”,因子二可以解释为“理科因子”,因子 三可以解释为“英语因子”(显然,这样的解释也不一定恰当,这里权且这样命名各个因子 的含义)。与此同时,每个学生在各个因子上的负载值都体现在计算的结果当中。例如,D 同学的理科能力很强(负载值为 1.454),文科能力很弱(负载值为 0.1)。对其他学生的解释 与之类似。 (二)Q-模式的因子分析(个案-个案分析,即针对行动者之间的关系进行的分析) 如果分析个案-个案之间是否存在共同因子的关系,这种分析就是 Q-模式的分析,需要 对 2-模矩阵的转置矩阵(转置矩阵可通过 UCINET 中的 transpose 命令执行)进行分析。沿 着 UCINET 中的 Tools>2-Mode Scaling>Factor Analysis 路径,选择转置之后的“小组-学生” 数据 affiliation14,点击“OK”后会计算出如下结果: FACTOR ANALYSIS ------------------------------------------------------------------- Method of extraction: PRINCIPAL COMPONENTS Method of rotation: VARIMAX Data type: 2-mode raw data matrix Input dataset: "H:\Ucinet Data\DataFiles\affiliation14 EIGENVALUES FACTOR VALUE PERCENT CUM % RATIO ------- ------- ------- ------- ------- 1: 6.988 49.9 49.9 2.348 2: 2.976 21.3 71.2 1.260 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 186 3: 2.362 16.9 88.0 2.072 4: 1.140 8.1 96.2 3.438 5: 0.332 2.4 98.6 1.639 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ======= ======= ======= ======= ======= 14.000 100.0 Rotated Factor Loadings 1 2 3 4 ------ ------ ------ ------ 1 A -0.661 -0.196 0.322 -0.428 2 B 0.275 0.132 0.170 0.937 3 C -0.945 0.172 -0.220 -0.151 4 D 0.571 0.151 0.651 0.474 5 E 0.194 -0.345 -0.876 0.245 6 F -0.698 0.177 0.205 -0.656 7 G 0.945 -0.172 0.220 0.151 8 H 0.057 -0.821 -0.108 -0.473 9 I -0.008 0.897 0.201 -0.345 10 J 0.275 0.132 0.170 0.937 11 K 0.151 -0.302 0.871 0.281 12 L -0.698 0.177 0.205 -0.656 13 M -0.254 0.892 -0.224 0.160 14 N 0.698 -0.177 -0.205 0.656 Factor scores 1 2 3 4 ------ ------ ------ ------ 1 maths -0.806 0.904 0.060 -0.831 2 politics 0.699 -0.493 1.116 0.944 3 english -0.853 -0.019 -1.471 1.747 4 geography -1.284 -1.524 0.958 -0.524 5 chemistry 1.465 -1.072 -1.298 -0.973 6 speech 1.108 0.971 0.943 0.554 7 biology -0.328 1.234 -0.307 -0.916 第一个因子的解释力最大,占 50%;当因子达到 3 的时候,三个因子就可以解释掉数据 中总方差的 88%。因此,我们可以通过 Q 模式的因子分析得到的因子数目确定为 3。 问题是,这三个因子是不同于上述 R-模式的因子分析的 3 个因子的,它们的含义是什 么?这一点我们不好说明。如果真需要解释的话,也需要结合各个学生的具体信息来解释。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 187 例如,如果关注每个学生所在的班级的话,假设发现在因子 1 上负载值较高的学生多数来自 一班,在因子 2 上负载值较高的学生多数来自二班,因子 3 上负载值较高的学生多数来自三 班的话,那么可以把这三个因子分别命名为“一班因子”、“二班因子”和“三班因子”。当 然,实际数据中很少出现这种明显的分类情况。 这样看来,进行 Q 模式的因子分析的结果不一定有实际意义,本例既是如此。本利只是 为了展示如何进行 Q 模式的因子分析,计算的结果很难解释,这一点请读者注意。如果研究 者认为行动者(个案)之间存在着共同的因子的话(例如分为各个班级,并且每个班级的同 学参加学习小组的情况明显不同的话),那么可利用这种 Q-模式分析的结果来解释共同的因 子。 因子分析与 SVD 的目标是一样的,都是用来区分出行动者-事件方差(space of actor-by-event variance)的联合空间背后的维度,并且在该空间中对行动者和事件进行定 位。用来区分不同维度的因子分析不同于 SVD。 因子分析的解不同于 SVD,它表明了在学生和小组的联合方差方面存在的复杂的维度。 也就是说,对各个维度的简单的描述并不足以提供非常精确的预测,不能预测每个行动者和 事件的定位。尽管如此,因子分析法却提供了比 SVD 分析稍稍简洁的结果,尽管结果类似 于 SVD 的结果,但是在具体细节上仍然存在重要的差别。 总之,我们已经有一定的印象,即三个因子的拟合度很低。为了对这种模式进行可视化 分析,需要把行动者和事件在各个维度上的负载值从输出文件中抽取出来 ,利 用 scatterplot 进行画图。 四、2-模网络的对应分析 对应分析最初是 Beozecri 在 1970 年提出来的,是多变量统计分析中一种有用的分析方 法。对应分析把 R 型因子分析和 Q 型因子分析统一了起来,通过 R 型因子分析直接得到 Q 型因子分析的结果,同时把变量(指标,事件、隶属项等)和行动者同时反映到相同的坐标 轴(因子轴)的一张图形上,用此来说明隶属项与行动者之间的对应关系。 对于二值数据来说,我们不推荐利用 SVD 和因子分析 。这是因为,因子分析方法运行 的基础是行动者和事件之间的相关系数矩阵或者协方差/方差。当行动者到事件的联系用二 值数据来表示的时候,相关系数可能不能充分地表示协方差,从而使得关系模式难以显现。 因此,严格地讲,上文利用 SVD 和因子分析来分析学生-小组数据是不太恰当的。 (一)对应分析的原理 对应分析(Correspondence Analysis)是在因子分析的基础上发展起来的。上文已经指 出,因子分析分为 R 型因子分析和 Q 型因子分析。R 型因子分析是对变量(指标、事件、 或者隶属项等)作因子分析,研究的是变量(指标、事件、或者隶属项等)之间的相互关系, 即各列之间的关系;Q 型因子分析是对行动者(样品、个案等)作因子分析,研究的是各行 之间的相互关系。因子分析常常把每一种分析结果画出得分图来看各个变量之间的接近程 度。然而,在错综复杂的经济和管理关系中,人们所关心的不仅仅是行或列本身变量之间的 关系,而是行变量和列变量的相互关系;或者说,人们不仅需要了解变量之间的关系,样品 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 188 之间的关系,还需要了解变量与样品之间的对应关系,这是主成分方法和因子分析等方法所 没有说明的。这时候,对应分析就派上了用场。 因此,对二值行动者-事件的测量方法可采用对应分析(correspondence analysis) (Tools>2-Mode Scaling>Correspondence)。对应分析很类似于潜类分析(Latent Class Analysis),其运算基础是多变量二值列联表分析(multi-variate binary cross-tabulations),有 关它的分布假设更适用于二值数据。 对应分析是通过对二维交互表的频数分布来确定“行动者”和“事项”及其类别之间的 关系,把这种关系反映在二维或三维的分布图中。每个变量的类别差异是通过图中的分值距 离表现出来的,但是这个距离是加权的距离,再加权的过程中,以卡方值的差异表现的。因 此,对应分析的基础是将卡方值转变为可度量的距离。距离越近,两个类别在图上的距离越 近。 (二)对应分析的应用 为了展示对应分析的应用,我们需要首先对数据进行二值化处理。如果我们的分析目的 主要是为了找到网络中的分派现象(如是否分为文理),而不是简单的参与各个小组的情况, 那么我们就可以创建两类数据,一类要根据参与文科小组的情况,一类根据理科小组的情况 (当然这需要事先知道有关文理科的情况)。从而分别针对这两个数据进行对应分析。 图表 10 展示了利用对应分析法得到的小组在联合行动者-事件空间的三个维度上的负 载值。 图表 10 小组在联合行动者-事件空间的三个维度上的负载值 CORRESPONDENCE ANALYSIS --------------------------------------------------------- Input dataset: "H:\Ucinet Data\DataFiles\affiliation.14.7 Method: Principal Coordinates Matrix rank is 6 SINGULAR VALUES FACTOR VALUE PERCENT CUM % RATIO PRE CUM PRE ------- ------ ------- ------- ------- ------- ------- 1: 0.812 32.2 32.2 1.371 0.470 0.470 2: 0.592 23.5 55.7 1.223 0.250 0.720 3: 0.484 19.2 74.9 1.442 0.167 0.887 4: 0.336 13.3 88.2 1.834 0.080 0.967 5: 0.183 7.3 95.5 1.615 0.024 0.991 6: 0.113 4.5 100.0 1.615 0.009 1.000 ======= ====== ======= ======= ======= 2.521 100.0 在对应分析中,给出的奇异值数目即维度数,它是两个变量(行数或列数)的最小类别 数减去 1。例如,在我们的数据中,两个变量(学生和小组)的最小类别是 7(即小组数), 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 189 因此,维度数为 6。从计算结果上看,PRE 表示“减少误差比例”,代表的是每个因子的解 释力。可见,第一个因子的解释比例为 0.47,累积到第三个因子的总解释力达到 0.887。可 见,可以把因子数目确定为 3 比较恰当。那么每个因子的含义是什么,这还要结合每种学习 小组在三个因子上的负载值来解释。负载值如下所示: Column Scores 1 2 3 ------ ------ ------ 1 maths -1.052 0.170 -0.117 2 politics 0.952 0.429 0.484 3 english 0.444 -0.046 -0.838 4 geography -0.809 -0.503 0.701 5 chemistry 0.776 -1.495 -0.130 6 speech 0.574 0.524 0.136 7 biology -0.981 0.299 -0.389 至于如何解释这些因子的含义,自行判断。这里需要指出的是,不同的解释者给出的解 释可能完全不同,并且也不存在一个统一的解释。本例计算的结果也比较难以解释。 总的来说,由于这些数据并没有反映明显的分派性,只反映了参与性,因此我们不能期 望所得到的发现能够对应于上文讨论的结果。然而,我们确实看到了,这种方法也可用来对 各个事件在各个维度上的负载值进行定位,从而能够把握住行动者和实践二者的方差。图表 11 展示了各个行动者在三个因子上的负载值。 图表 11 学生在联合行动者-事件空间的三个维度上的负载值 Row Scores 1 2 3 ------ ------ ------ 1 A -1.146 -0.281 0.603 2 B 0.809 0.510 -0.150 3 C -0.738 -0.034 -0.332 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13 M -0.312 0.399 -0.624 14 N 0.845 -0.248 -0.180 由于对因子的解释不很明确,因此,每个学生在椅子上的负载值的解释也比较困难了。 因此,这里不给出具体地揭示了。 如果希望区分出一些有意义的模式,那么可视化处理通常是最好的方法。图 12 展示了 行动者和事件在联合对应分析空间中的前两个维度上的散点图。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 190 图 12 对应分析的二维图 右下方包含一个有意义的行动者和事件的聚类,表达了如何解释对应分析的结果。在右 下方,我们看到了一些 biology,maths 距离最近,politics 和 speech 也最近。这些结果表明, 小组分组比较明显,学生分组不太明显。 第三节 2-模数据的分派分析 通常情况下,2-模网络中的行动者和事件都是“共在”(co-presence)的,发生阵一般 是二值矩阵。在这种情况下,上述讨论的计量方法都是可以利用的,但是我们应该对计算的 结果保持谨慎。这是因为,各种维度分析法都是在相似性/距离(similarity/distance)矩阵的 基础上计算出来的。对于二值数据来说,诸如相关系数这样的测度可能引起误导(特别是在 分析 2-模网络数据的时候更是如此)。当数据比较稀松的时候,甚至用于分析二值数据的对 应分析法也可能误导人。 在这种情况下,可选用块模型法(block modeling)来分析。块模型直接针对二值发生 矩阵进行分析,它试图对行和列进行置换,从而找到尽可能与理想的像接近的结果。这种研 究并不涉及到任何有关分布的假设,即用不着假设数据是服从什么分布,而这些假设在通常 的量表分析(scaling analysis)中都要有。针对 1-模网络的块模型分析已经在上面的章节中 有介绍。下面介绍用来分析 2-模网络数据的两类块模型:核心-边缘分析和分派分析。 一、2-模数据的核心-边缘分析 核心-边缘结构是一种理想型的结构模式,它把行和列都分为两类。在主对角线上的块 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 191 是核心,是密度高的块。主对角线上的另外一块就是边缘,是密度低的块。核心-边缘模型 不太关注非对角线上的块的关系密度。 当我们利用核心-边缘模型来分析行动者-行动者数据,即 1-模数据的时候(这要利用 UCINET 中用来分析 1-模网络的核心-边缘结构的 Network > Core/Periphery 算法,具体例子 参见拙作,2004:第八章),该模型将努力区分出自身密度较高的一系列行动者(核心),还 区分出自身密度较低的一系列行动者(边缘)。处于核心的行动者能够协调行动,处于边缘 地位的行动者则不能协调行动。其结果是,处于核心的行动者在与边缘的行动者之间的交换 关系中处于优势地位。 类似的是,当我们利用核心-边缘模型来分析行动者-事件数据(即 2-摸网络)的时候(这 要利用 UCINET 中的 Network > 2-Mode > Categorical Core/Periphery 步骤),我们实际上也 一样,力图找到与理想性的像(idealized image)接近的结果,即在主对角线上找到高密度 和低密度的块,但是其意义却是另类的。 “核心”是由一系列行动者的分区构成的,这些行动者与事件分区中的每个事件紧密联 系在一起,同时,事件的分区也与核心分区中的行动者紧密联系在一起。因此,“核心”是 一个聚类,是经常“共现”(co-occurring)的行动者和事件的聚类。“边缘”一方面由一系 列行动者构成的分区构成,这些行动者在同样一些事件上不“共在”,另一方面由一系列事 件的分区构成,这些事件相互没有联络,因为它们不共享一些行动者。 在 UCINET 中,Network > 2-Mode > Categorical Core/Periphery 算法利用数量方法 (numerical methods)来搜索行动者和事件的分区,使之与理想的像(idealized image)尽 量接近。图 13 展示了针对学生-小组数据进行 2-模核心-边缘分区的结果。 图 13 针对学生-小组数据进行类别性的核心-边缘模型分析结果 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 192 计算结果中包含两个拟合优度指数:初始拟合值为 0.461,最终拟合值为 0.743。各个 块的密度信息也体现在密度矩阵中。 Network>2-Mode>Categorical Core/Periphery 所使用的量化搜索方法是一类生成性的 算法(genetic algorithm)。它生成的拟合优度测度(measure of goodness of fit)要利用“拟 合值”(fitness score)来表示(0 意味着拟合度低,1 意味着完全拟合)。我们也可以根据 密度矩阵判断结果的好坏。如果块模型完全拟合,那么 1.1 块的密度将是 1,2.2 块的密度 就是 0。从计算结果上看,尽管它与理想的块有很大差距,但是也足以说明问题了。 从分析结果看,该数据的分块矩阵中已经展示出“核心”,它由 C,N,M 和 7 个小组 构成,其余数据局于边缘地位。 二、2-模数据的分派分析 另一类块模型方法是“分派”(factions)分析。分派分析在“凝聚子群”一章中已经有 所交代,其目的是将一个网络进行分组,找到其中互斥的组别,从而使群体内部的密度高, 群体之间的密度低。在 UCINET 中,沿着 Networks > Subgroups > Factions 程序可分析 1- 模数据,可针对指定的分派数量(如 4 派)进行分析。对于 2-模数据来说,我们则要利用 Network > 2-Mode > 2-Mode Factions 算法来分析,但是要注意,它只能分出两派。 在对 1-模行动者数据 进行分派分析的时候,我们要做的工作是区分出两个行动者聚类, 这两个聚类相互联系紧密,因为他们参与同样的事件,但是他们与其他派以及事件的成员之 间的联系很少。如果我们利用这种分派思想来分析 1-模事件数据,我们要分析的则是一些 事件,它们是由于拥有相同的参与者而被联络在一起。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 193 Network>2-Mode>2-Mode Factions 程序利用同样的方法于长方形的行动者-事件矩 阵。在分析的过程中,程序试图对行动者和事件的联合分组进行定位,使这些分组尽可能互 斥。原则上说,存在的分派数量可能多于 2 个,但是实际上只能给出两组。上图展示了 2- 模分派块模型分析的结果。 计算结果显示,该网络分为两组“politics,english,speech,chemistry”和除了“F,L, C,A”以外的所有其他学生以及全部 7 个学习小组构成了网络的核心,其余关系构成网络 的边缘。 在计算结果中提供了两个拟合优度指数:初始拟合值为 0.194,它是观察值(0 或 1) 和“应该”出现在每块中的值之间的相关系数。最终拟合值为 0.361,它是重新定位后的格 值(0 或 1)和“应该”出现在每个块中的值之间的相关系数。各个块的密度也告诉我们拟 合优度的信息。对于分派分析来说,理想的模式应该是在对角线上有 1-块(即群体内关联 紧密),非对角线上的值为 0-块(群体之间的联系少)。 分为两派的模型的拟合情况没有进行核心 -边缘模型分析的结果好(前者的拟合值为 0.361,后者为 0.743)。这说明,通过分派分析得到的数据的“像” (image)(即分为两个 独立的,并且基本上联系较少的事件 -行动者空间)并不像拥有一个高密度的像那样与实际 数据拟合的好。 通过这种分派分析得到的“块”本身也不令人兴奋。因为它把多数行动者和全部的小组 放在一派当中(密度为 0.359)。第二派较小,密度为 0.172。 本章小结 2-模网络数据可能使我们获得宏观-微观或者结构-能动关系的洞见。就 2-模数据来说, 我们可以考察宏观的结构(events)模式是如何模式化行动者之间的互动的;我们也可以考 察行动者是如何通过他们隶属于各个事件的模式而界定并创生宏观结构的。另外,我们可以 试图同时针对行动者和结构之间的关系模式进行描述。 利用各种方法(矩阵法,图表法,计量法和块模型法等)来探讨 2-模网络数据的模式, 这是本章的重点。具体说来,一类方法来源于因子分析。这些方法(最好适用于多值数据) 主要用来找到行动者-事件空间背后的维度,然后对行动者和事件都进行画图分析。它可以 揭示许多特定的行动者在特定的事件上的互动模式。 另一类方法就是块模型。这些方法的目标是评价实际的行动者-事件隶属关系模式与有 关行动者-事件的联合空间的理想型的模式(如核心-边缘模式或者分派模式)进行对比。就 行动者-事件的隶属关系可以根据这种方式来理解而言,块模型也允许我们区分行动者所在 的组别,也可以行动者所在的事件。 2-模数据不限于个体行动者及其所属的关系。很多层次的分析单位(组织、工业、国家、 社区等)都可以看成是 2-模问题。例如,多位大学生的来源(大城市,中等城市,小城镇, 农村);学生的家庭背景(学生所隶属的家庭经济状况)。2-模网络研究具有广泛的应用性。 本章参考文献(略) 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 194 第十一章 中间人分析 本章概要:中间人往往掌握着多个群体之间的秘密,因而具有一定的竞争优势。在“结构洞” 一章中我们已经知道,网络中存在的结构洞中的中间位置具有竞争优势。结构洞的存在界定 了各种机会的大小。它与网络的密度、规模、等级度和中间性有关。 第一节 中间人的分类 顾名思义,“中间人”指的是居于中间位置的人。具体来讲,在一个三方关系 ABC 中, 如果 A 有一个指向 B 的关系,同时 B 有一个指向 C 的关系,但是 A 没有指向 C 的关系, 那么 B 就是中间人。也就是说,A 需要通过 B 才能与 C 联络上,B 因此是一个中间人。如 果 A、B、C 位于不同的群体,那么中间人扮演什么角色呢?总的来说会出现如下五类中间 人。可以根据 B 扮演的社会角色来命名中间人的具体角色。 (1)协调人(Coordinator)。一个群体中的起到中介作用的人。如果 b 是一个中间人, 并且 a,b,c 处于同一个群体之中,这时候就称 b 为协调人。程序会计算出满足该条件的 b 成为中间人的次数。 (2)顾问(Consultant)。如果 b 是一个中间人,并且 a,c 处于同一个群体之中而 b 处 于另外一个群体,这时候就称 b 为顾问。也就是说,中间人位于一个群体,另外两个人位于 另外一个群体。程序会计算出满足该条件的 b 成为中间人的次数。 (3)守门人(Gatekeeper)。如果 b 是一个中间人,并且 b,c 处于同一个群体之中,而 a 处于另外一个群体,这时候就称 b 为守门人。也就是说,关系的发起人位于另外一个群体 之中。程序会计算出满足该条件的 b 成为中间人的次数。 (4)代理人(Representative)。如果 b 是一个中间人,并且 a,b 处于同一个群体之中, 而 c 处于另外一个群体,这时候就称 b 为代理人。也就是说,关系的目的的位于另外一个群 体之中。程序会计算出满足该条件的 b 成为中间人的次数。 (5)联络人(Liaison)。如 果 b 是一个中间人,并且 a 所在的群体不同于 b 所在的群体, 也不同于 c 所在的群体,这时候就称 b 为联络人。也就是说,这三个人隶属于三个群体。程 序会计算出满足该条件的 b 成为中间人的次数(罗家德,2002:80-82;Gould & Fernandez, 1989:93)。这些中间人角色的图形表示如下所示。 第二届社会网与关系管理研讨会资料 刘军:整体网分析讲义——UCINET 软件应用 195 当 b 不是 a 和 c 之间的唯一中间人的时候,可以给与 b 一定的局部中间人取值。也就是 说,如果在 a 和 c 之间存在两条长度为 2 的途径,并且其中一只经过 b 的话,那么就可以只 给与 b 的中间人指数为 1/2,而不是 1。在程序中这一项是可选的。 第二节 中间人的计算(略) 参考文献(略) b c a b ca b c a b c a b ca (1) (2) (3) B 是协调员 B 是顾问 B 是守门人 B 是代理人 B 是联络人 (4) (5)
还剩194页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 20 金币 [ 分享pdf获得金币 ] 53 人已下载

下载pdf

pdf贡献者

aizimoon

贡献于2011-06-11

下载需要 20 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf