spss教程中文完整版


SPSS统计与分析 统计要与大量的数据打交道,涉及繁杂的计算和图表绘制。现代的数据分析工 作如果离开统计软件几乎是无法正常开展。在准确理解和掌握了各种统计方法原理 之后,再来掌握几种统计分析软件的实际操作,是十分必要的。 常见的统计软件有 SAS,SPSS,MINITAB,EXCEL 等。这些统计软件的功能 和作用大同小异,各自有所侧重。其中的 SAS 和 SPSS 是目前在大型企业、各类院 校以及科研机构中较为流行的两种统计软件。特别是 SPSS,其界面友好、功能强大、 易学、易用,包含了几乎全部尖端的统计分析方法,具备完善的数据定义、操作管 理和开放的数据接口以及灵活而美观的统计图表制作。SPSS 在各类院校以及科研机 构中更为流行。 SPSS(Statistical Product and Service Solutions,意为统计产品与服务解决方案)。 自 20 世纪 60 年代 SPSS 诞生以来,为适应各种操作系统平台的要求经历了多次版 本更新,各种版本的 SPSS for Windows 大同小异,在本试验课程中我们选择 PASW Statistics 18.0 作为统计分析应用试验活动的工具。 1. SPSS 的运行模式 SPSS 主要有三种运行模式: (1) 批处理模式 这种模式把已编写好的程序(语句程序)存为一个文件,提交给[开始]菜单上 [SPSS for Windows]→[Production Mode Facility]程序运行。 (2) 完全窗口菜单运行模式 这种模式通过选择窗口菜单和对话框完成各种操作。用户无须学会编程,简单 易用。 (3) 程序运行模式 这种模式是在语句(Syntax)窗口中直接运行编写好的程序或者在脚本(script) 窗口中运行脚本程序的一种运行方式。这种模式要求掌握 SPSS 的语句或脚本语言。 本试验指导手册为初学者提供入门试验教程,采用“完全窗口菜单运行模式”。 2. SPSS 的启动 (1) 在 windows[开始]→[程序]→[PASW],在它的次级菜单中单击“SPSS 12.0 for Windows”即可启动 SPSS 软件,进入 SPSS for Windows 对话框,如图 1.1, 图 1.2 所示。 2 图 1.1 SPSS 启动 图 1.1 PASW Statistics 启动对话框 3. SPSS 软件的退出 SPSS 软件的退出方法与其他 Windows 应用程序相同,有两种常用的退出方法: ♦ 按 File→Exist 的顺序使用菜单命令退出程序。 ♦ 直接单击 SPSS 窗口右上角的“关闭”按钮,回答系统提出的是否存盘的问题之后 即可安全退出程序。 4. SPSS 的主要窗口介绍 3 SPSS 软件运行过程中会出现多个界面,各个界面用处不同。其中,最主要的界 面有三个:数据编辑窗口、结果输出窗口和语句窗口。 (1) 数据编辑窗口 启动 SPSS 后看到的第一个窗口便是数据编辑窗口,如图 1.3 所示。在数据编辑 窗口中可以进行数据的录入、编辑以及变量属性的定义和编辑,是 SPSS 的基本界 面。主要由以下几部分构成:标题栏、菜单栏、工具栏、编辑栏、变量名栏、观测 序号、窗口切换标签、状态栏。 图 1.3 数据浏览界面 ♦ 标题栏:显示数据编辑的数据文件名。 ♦ 菜单栏:通过对这些菜单的选择,用户可以进行几乎所有的 SPSS 操作。关 于菜单的详细的操作步骤将在后续实验内容中分别介绍。 为了方便用户操作,SPSS 软件把菜单项中常用的命令放到了工具栏里。当鼠 标停留在某个工具栏按钮上时,会自动跳出一个文本框,提示当前按钮的功能。另 外,如果用户对系统预设的工具栏设置不满意,也可以用[视图]→[工具栏] →[设定] 命令对工具栏按钮进行定义。 ♦ 编辑栏:可以输入数据,以使它显示在内容区指定的方格里。 ♦ 变量名栏:列出了数据文件中所包含变量的变量名 菜单栏 工具栏 编辑栏 观 测 序 号 变量名栏 窗口切换标签 状态栏 标题栏 4 ♦ 观测序号:列出了数据文件中的所有观测值。观测的个数通常与样本容量的 大小一致。 ♦ 窗口切换标签:用于“数据视图”和“变量视图”的切换。即数据浏览窗口与变 量浏览窗口。数据浏览窗口用于样本数据的查看、录入和修改。变量浏览窗口用于 变量属性定义的输入和修改。 ♦ 状态栏:用于说明显示 SPSS 当前的运行状态。SPSS 被打开时,将会显示 “PASW Statistics Processor”的提示信息。 (2) 结果输出窗口 在 SPSS 中大多数统计分析结果都将以表和图的形式在结果观察窗口中显示。 窗口右边部分显示统计分析结果,左边是导航窗口,用来显示输出结果的目录,可 以通过单击目录来展开右边窗口中的统计分析结果。当用户对数据进行某项统计分 析,结果输出窗口将被自动调出。当然,用户也可以通过双击后缀名为.spo 的 SPSS 输出结果文件来打开该窗口。 试验1 数据文件管理 一、试验目的与要求 通过本试验项目,使学生理解并掌握 SPSS 软件包有关数据文件创建和整理的 基本操作,学习如何将收集到的数据输入计算机,建成一个正确的 SPSS 数据文件, 并掌握如何对原始数据文件进行整理,包括数据查询,数据修改、删除,数据的排 序等等。 二、试验原理 SPSS 数据文件是一种结构性数据文件,由数据的结构和数据的内容两部分构 成,也可以说由变量和观测两部分构成。一个典型的 SPSS 数据文件如表 2.1 所示。 表 2.1 SPSS 数据文件结构 姓名 性别 年龄 … 张三 1 45 … 李四 2 23 … … … … … … … … … 王五 2 45 … SPSS 变量的属性 SPSS 中的变量共有 10 个属性,分别是变量名(Name)、变量类型(Type)、长 度( Width)、小数点位置(Decimals)、变量名标签(Label)、变量名值标签(Value)、 缺失值(Missing)、数据列的显示宽度(Columns)、对其方式(Align)和度量尺度 (Measure)。定义一个变量至少要定义它的两个属性,即变量名和变量类型,其他 属性可以暂时采用系统默认值,待以后分析过程中如果有需要再对其进行设置。在 spss 数据编辑窗口中单击“变量视窗”标签,进入变量视窗界面(如图 2.1 所示)即 可对变量的各个属性进行设置。 观测 变量 数据内容 6 图 2.1 变量视窗 三、试验内容与步骤 1.创建一个数据文件 数据文件的创建分成三个步骤: (1)选择菜单 【文件】→【新建】→【数据】新建一个数据文件,进入数据 编辑窗口。窗口顶部标题为“PASW Statistics 数据编辑器”。 (2)单击左下角【变量视窗】标签进入变量视图界面,根据试验的设计定义每 个变量类型。 (3)变量定义完成以后,单击【数据视窗】标签进入数据视窗界面,将每个具 体的变量值录入数据库单元格内。 2.读取外部数据 当前版本的 SPSS 可以很容易地读取 Excel 数据,步骤如下: (1)按【文件】→【打开】→【数据】的顺序使用菜单命令调出打开数据对话 框,在文件类型下拉列表中选择数据文件,如图 2.2 所示。 7 图 2.2 Open File 对话框 (2)选择要打开的 Excel 文件,单击“打开”按钮,调出打开 Excel 数据源对话 框,如图 2.3 所示。对话框中各选项的意义如下: 工作表 下拉列表:选择被读取数据所在的 Excel 工作表。 范围 输入框:用于限制被读取数据在 Excel 工作表中的位置。 图 2.3 Open Excel Data Source 对话框 8 3.数据编辑 在 SPSS 中,对数据进行基本编辑操作的功能集中在 Edit 和 Data 菜单中。 4.SPSS 数据的保存 SPSS 数据录入并编辑整理完成以后应及时保存,以防数据丢失。保存数据文件 可以通过【文件】→【保存】或者【文件】→【另存为】菜单方式来执行。在数据 保存对话框(如图 2.5 所示)中根据不同要求进行 SPSS 数据保存。 图 2.5 SPSS 数据的保存 5. 数据整理 在 SPSS 中,数据整理的功能主要集中在【数据】和【转换】两个主菜单下。 (1)数据排序(Sort Case) 对数据按照某一个或多个变量的大小排序将有利于对数据的总体浏览,基本操 作说明如下: ♦ 选择菜单【数据】→【排列个案】,打开对话框,如图 2.7 所示。 (2)抽样(Select Case) 在统计分析中,有时不需要对所有的观测进行分析,而可能只对某些特定的对象有 兴趣。利用 SPSS 的 Select Case 命令可以实现这种样本筛选的功能。以 SPSS 安装 配套数据文件 Growth study.sav 为例,选择年龄大于 10 的观测,基本操作说明 9 图 2.7 排列个案 对话框 如下: ♦ 打开数据文件 Growth study.sav,选择【数据】→【选择个案】命令,打开 对话框,如图 2.8 图 2.8 选择个案对话框 ♦ 指定抽样的方式:【全部个案】不进行筛选;【如果条件满足】按指定条件进 行筛选。本例设置:产品数量>150,如图 2.9 所示; 10 图 2.9 选择个案 对话框 设置完成以后,点击 continue,进入下一步。 ♦ 确定未被选择的观测的处理方法,这里选择默认选项【过滤掉未选定的个 案】。 ♦ 单击 ok 进行筛选,结果如图 2.10 图 2.10 选择个案的结果 (3)增加个案的数据合并(【合并文件】→【添加个案】) 将新数据文件中的观测合并到原数据文件中,在 SPSS 中实现数据文件纵向合 并的方法如下: 11 选择菜单【数据】→【合并文件】→【添加个案】,如图 2.11,选择需要追加的 数据文件,单击打开按钮,弹出 Add Cases 对话框,如图 2.12。 图 2.11 选择个体数据来源的文件 图 2.12 选择变量 12 (4)增加变量的数据合并(【合并文件】→【添加变量】) 增加变量时指把两个或多个数据文件实现横向对接。例如将不同课程的成绩文 件进行合并,收集来的数据被放置在一个新的数据文件中。在 SPSS 中实现数据文 件横向合并的方法如下: 选择菜单【数据】→【合并文件】→【添加变量】,选择合并的数据文件,单击 “打开”,弹出添加变量,如图 2.12 所示。 图 2.12 ♦ 单击 Ok 执行合并命令。这样,两个数据文件将按观测的顺序一对一地横向 合并。 (5)数据拆分(Split File) 在进行统计分析时,经常要对文件中的观测进行分组,然后按组分别进行分析。 例如要求按性别不同分组。在 SPSS 中具体操作如下: ♦ 选择菜单【数据】→【分割文件】,打开对话框,如图 2.13 所示。 13 图 2.13 分割文件对话框 ♦ 选择拆分数据后,输出结果的排列方式,该对话框提供了 3 种方式:对全部 观测进行分析,不进行拆分;在输出结果种将各组的分析结果放在一起进行 比较;按组排列输出结果,即单独显示每一分组的分析结果。 ♦ 选择分组变量 ♦ 选择数据的排序方式 ♦ 单击 ok 按钮,执行操作 (6)计算新变量 在对数据文件中的数据进行统计分析的过程中,为了更有效地处理数据和反映 事务的本质,有时需要对数据文件中的变量加工产生新的变量。比如经常需要把几 个变量加总或取加权平均数,SPSS 中通过【计算】菜单命令来产生这样的新变量, 其步骤如下: ♦ 选择菜单【转换】→【计算变量】,打开对话框,如图 2.14 所示。 14 图 2.14 Compute Variable 对话框 ♦ 在目标变量输入框中输入生成的新变量的变量名。单击输入框下面类型与标签 按钮,在跳出的对话框中可以对新变量的类型和标签进行设置。 ♦ 在数字表达式输入框中输入新变量的计算表达式。例如“年龄>20”。 ♦ 单击【如果】按钮,弹出子对话框,如图 2.15 所示。包含所有个体:对所有的 观测进行计算;如果个案满足条件则包括:仅对满足条件的观测进行计算。 ♦ 单击 Ok 按钮,执行命令,则可以在数据文件中看到一个新生成的变量。 15 图 2.15 如果…子对话框 四、备择试验 某航空公司 38 名职员性别和工资情况的调查数据,如表 2.3 所示,试在 SPSS 中进行如下操作: (1)将数据输入到 SPSS 的数据编辑窗口中,将 gender 定义为字符型变量,将 salary 定义为数值型变量,并保存数据文件,命名为“试验 1-1.sav”。 (2)插入一个变量 income,定义为数值型变量。 (3)将数据文件按性别分组 (4)查找工资大于 40000 美元的职工 (5)当工资大于 40000 美元时,职工的奖金是工资的 20%;当工资小于 40000 美 元时,职工的奖金是工资的 10%,假设实际收入=工资+奖金,计算所有职工的实 际收入,并添加到 income 变量中。 表 2.3 某航空公司 38 名职员情况的调查数据表 Id Gender Salary Id Gender Salary 1 M $ 57000 20 F $ 26250 16 2 M $ 40200 21 F $ 38850 3 F $ 21450 22 M $ 21750 4 F $ 21900 23 F $ 24000 5 M $ 45000 24 F $ 16950 6 M $ 32100 25 F $ 21150 7 M $ 36000 26 M $ 31050 8 F $ 21900 27 M $ 60375 9 F $ 27900 28 M $ 32550 10 F $ 24000 29 M $ 135000 11 F $ 30300 30 M $ 31200 12 M $ 28350 31 M $ 36150 13 M $ 27750 32 M $ 110625 14 F $ 35100 33 M $ 42000 15 M $ 27300 34 M $ 92000 16 M $ 40800 35 M $ 81250 17 M $ 46000 36 F $ 31350 18 M $103750 37 M $ 29100 19 M $ 42300 38 M $ 31350 试验2 描述统计 一、试验目的与要求 统计分析的目的在于研究总体特征。但是,由于各种各样的原因,我们能够得 到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过 对样本的研究,我们才能对总体的实际情况作出可能的推断。因此描述性统计分析 是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统 计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或 对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律 进行初步观察)。 本本试验旨在于:引到学生利用正确的统计方法对数据进行适当的整理和显 示,描述并探索出数据内在的数量规律性,掌握统计思想,培养学生学习统计学的 兴趣,为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实 的基础。 二、试验原理 描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用 信息的提取和分析,通常用一些描述统计量来进行分析。 集中趋势的特征值:算术平均数、调和平均数、几何平均数、众数、中位数等。 其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。 离散趋势的特征值:全距、内距、平均差、方差、标准差、标准误、离散系数 等。其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动 程度。 分布特征值:偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。 三、试验内容与步骤 下面给出的一个例题是来自 SPSS 软件自带的数据文件“Employee.data”,该文 件包含某公司员工的工资、工龄、职业等变量,我们将利用此例题给出相关的描述 统计说明,本例中,我们将以员工的当前工资为例,计算该公司员工当前工资的一 些描述统计量,如均值、频数、方差等描述统计量的计算。 1.频数分析(Frequencies)1 基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况, 1频数分析多适用于离散变量,其功能是描述离散变量的分布特征。 SPSS 应用软件试验指导手册 对把握数据的分布特征是非常有用的。比如,在某项调查中,想要知道被调查者的 性别分布状况。频数分析的第一个基本任务是编制频数分布表。SPSS 中的频数分布 表包括的内容有: (1)频数(Frequency)即变量值落在某个区间中的次数。 (2)百分比(Percent)即各频数占总样本数的百分比。 (3)有效百分比(Valid Percent)即各频数占有效样本数的百分比。这里有效 样本数=总样本-缺失样本数。 (4)累计百分比(Cumulative Percent)即各百分比逐级累加起来的结果。最终 取值为百分之百。 频数分析的第二个基本任务是绘制统计图。统计图是一种最为直接的数据刻画 方式,能够非常清晰直观地展示变量的取值状况。频数分析中常用的统计图包括: 条形图,饼图,直方图等。 频数分析的应用步骤 在 SPSS 中的频数分析的实现步骤如下: 选择菜单“【文件】—>【打开】—>【数据】”在对话框中找到需要分析的数据 文件“SPSS/Employee data”,然后选择“打开”。 选择菜单“【分析】—>【描述统计】—>【频率】”。如图 2.1 所示 图2.1 Frequencies对话框 确定所要分析的变量,例如 年龄 在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话 框,如下图 2.2 所示,选择统计输出选项。 询问是否输出频数分布表 SPSS 应用软件试验指导手册 图2.2 统计量子对话框 图2.3 Charts子对话框 结果输出与分析 点击 Frequencies 对话框中的“OK”按钮,即得到下面的结果。 表2.4 描述性统计量 Statistics SPSS 应用软件试验指导手册 Gender N Valid 474 Missing 0 表 2.4 中给出了总样本量(N),其中变量 Gender 的有效个数(Valid)为 474 个、缺失值(missing) 为 0。 表2.5 Gender频数分布表 Frequency Percent Valid Percent Cumulative Percent Valid Female 216 45.6 45.6 45.6 Male 258 54.4 54.4 100.0 Total 474 100.0 100.0 表 2.5 中,Frequency 是频数,Percent 是按总样本量为分母计算的百分比,Valid Percent 是以有效样本量为分母计算的百分比,Cumulative Percent 是累计百分比。 图 2.5 变量 Gender 的条形图,图 2.6 变量 Gender 的饼图。 Female Male Gender 0 50 100 150 200 250 300 Frequency Gender 图2.5 变量gender的条形图 Female Male Gender 图2.6 变量gender的饼图 2.描述统计(Descriptives)2 SPSS 的【描述】命令专门用于计算各种描述统计性统计量。本节利用某年国内 上市公司的财务数据来介绍描述统计量在 SPSS 中的计算方法。具体操作步骤如下: 选择菜单【分析】→【描述统计】→【描述】,如图 2.7 所示 2 描述统计主要对定距型或定比型数据的分布特征作具体分析。 SPSS 应用软件试验指导手册 图 2.7 描述 对话框 将待分析的变量移入 Variables 列表框,例如将每股收益率、净资产收益率、资 产负债率等 2 个变量进行描述性统计,以观察上市公司股权集中度情况和负债比率 的高低。 Save standardized values as variables,对所选择的每个变量进行标准化处理,产 生相应的 Z 分值,作为新变量保存在数据窗口中。其变量名为相应变量名前加前缀 z。标准化计算公式: s xxiZi −= 单击【选项】按钮,如图 2.8 所示,选择需要计算的描述统计量。各描述统计 量同 Frequencies 命令中的 Statistics 子对话框中大部分相同,这里不再重复。 SPSS 应用软件试验指导手册 图 2.8 选项 子对话框 在主对话框中单击 ok 执行操作。 结果输出与分析 在结果输出窗口中给出了所选变量的相应描述统计,如表 2.6 所示。从表中可 以看到,我国上市公司前两大股东持股比例之比平均高达 102.9,说明“一股独大” 的现象比较严重;前五大股东持股比例之和平均为 51.8%,资产负债率平均为 46.78%。 另外,从偏态和峰度指标看出,前两大股东持股比例之比的分布呈现比较明显 的右偏,而且比较尖峭。为了验证这一结论,可以利用 Frequencies 命令画出变量 z 的直方图,如图 2.9 SPSS 应用软件试验指导手册 表2.6 描述统计量表 Descriptive Statistics N Mean Std. Skewness Kurtosis Statistic Statistic Statistic Statistic Std. Error Statistic Std. Error 前两大股东持股比例 之比 315 102.865 199.19974 6 4.168 .137 22.404 .274 前五大股东持股比例 的平方和 315 .51836 .1496003 .602 .137 -.318 .274 资产负债率 315 .4677 .16773 -.165 .137 -.414 .274 Valid N (listwise) 315 -2.00000 0.00000 2.00000 4.00000 6.00000 8.00000 Zscore: 前两大股东持股比例之比 0 30 60 90 120 150 Frequency Mean = -1.4224733 E-16 Std. Dev. = 1.0000... Histogram 图 2.9 变量 Z 的直方图 3.探索分析(Explore) 调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分 析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述, 显得更加细致与全面,对数据分析更进一步。 探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。 一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验, 以及确定研究者要使用的某种统计方式是否合适。 在打开的数据文件上,选择如下命令:选择菜单“【分析】—>【描述统计】—> 【探索】”,打开对话框。 SPSS 应用软件试验指导手册 因变量列表;待分析的变量名称,例如将每股收益率作为研究变量。 因子列表:从源变量框中选择一个或多个变量进入因子列表,分组变量可以将 数据按照该观察值进行分组分析。 标准个案:在源变量表中指定一个变量作为观察值的标识变量。 在输出栏中,选择两者都,表示输出图形及描述统计量。 选择【统计量】按钮,选择想要计算的描述统计量。如图所示 对所要计算的变量的频数分布及其统计量值作图 打开“Plots 对话框”,出现如 下图。 SPSS 应用软件试验指导手册 ♦ 结果的输出与说明 (1)Case Processing Summary 表 在Case Processing Summary 表中可以看出female 有216个个体,Male258个个体,均无缺失 值。 (2)Descriptive 表 SPSS 应用软件试验指导手册 Descriptive Gender Statistic Std. Error Mean $26,031.92 $514.258 Lower Bound $25,018.29 95% Confidence Interval for Mean Upper Bound $27,045.55 5% Trimmed Mean $25,248.30 Median $24,300.00 Variance 57123688.26 8 Std. Deviation $7,558.021 Minimum $15,750 Maximum $58,125 Range $42,375 Interquartile Range $7,013 Skewness 1.863 .166 Female Kurtosis 4.641 .330 Mean $41,441.78 $1,213.968 Lower Bound $39,051.19 95% Confidence Interval for Mean Upper Bound $43,832.37 5% Trimmed Mean $39,445.87 Median $32,850.00 Variance 380219336.3 03 Std. Deviation $19,499.214 Minimum $19,650 Maximum $135,000 Range $115,350 Interquartile Range $22,675 Skewness 1.639 .152 Current Salary Male Kurtosis 2.780 .302 (3)职位员工薪水直方图显示 SPSS 应用软件试验指导手册 $20,000 $30,000 $40,000 $50,000 $60,000 Current Salary 0 10 20 30 40 Frequency Mean = $26,031.92 Std. Dev. = $7,558.021 N = 216 for gender= Female Histogram (4)茎叶图描述 茎叶图自左向右可以分为3 大部分:频数(Frequency)、茎(Stem)和叶(Leaf)。茎表 示数值的整数部分,叶表示数值的小数部分。每行的茎和每个叶组成的数字相加再乘以茎宽 (Stem Width),即茎叶所表示的实际数值的近似值。 Current Salary Stem-and-Leaf Plot for gender= Female Frequency Stem & Leaf 2.00 1 . 55 16.00 1 . 6666666666777777 14.00 1 . 88889999999999 31.00 2 . 0000000000000111111111111111111 35.00 2 . 22222222222222222222233333333333333 38.00 2 . 44444444444444444444444444555555555555 22.00 2 . 6666666666677777777777 17.00 2 . 88888899999999999 7.00 3 . 0001111 8.00 3 . 22233333 8.00 3 . 44444555 5.00 3 . 66777 2.00 3 . 88 SPSS 应用软件试验指导手册 11.00 Extremes (>=40800) Stem width: 10000 Each leaf: 1 case(s) (5)箱图 Female Male Gender $0 $20,000 $40,000 $60,000 $80,000 $100,000 $120,000 $140,000 Current Salary 431 454 106 34 103 446343 18 32 242 134277 413 168 29 80240 468 348 371 图中灰色区域的方箱为箱图的主体,上中下3 条线分别表示变量值的第75、50、25百分位 数,因此变量的50%观察值落在这一区域中。 方箱中的中心粗线为中位数。箱图中的触须线是中间的纵向直线,上端截至线为变量的最 大值,下端截至线为变量的最小值。 SPSS 应用软件试验指导手册 四、备择试验 完成下列试验内容,并按试验(1)所附试验报告的格式撰写报告。 1.表2.7为某班级16位学生的身高数据,对其进行频数分析,并对实验报告作出说明。 表 2.7 某班 16 位学生的身高数据 学号 性别 身高(cm) 学号 性别 身高(cm) 1 M 170 9 M 150 2 F 173 10 M 157 3 F 169 11 F 177 4 M 155 12 M 160 5 F 174 13 F 169 6 F 178 14 M 154 7 M 156 15 F 172 8 F 171 16 F 180 2.测量18台电脑笔记重量,见表2.8,对其进行描述统计量分析,并对试验结果作出 说明。 表 2.8 18 台笔记本电脑重量表 序号 1 2 3 4 5 6 7 8 9 重量 1.75 1.92 1.59 1.85 1.83 1.68 1.89 1.70 1.79 序号 10 11 12 13 14 15 16 17 18 重量 1.66 1.80 1.83 2.05 1.91 1.76 1.88 1.83 1.79 SPSS 应用软件试验指导手册 试验3:统计推断 一、试验目的与要求 1.熟悉点估计概念与操作方法 2.熟悉区间估计的概念与操作方法 3.熟练掌握T检验的SPSS操作 4.学会利用T检验方法解决身边的实际问题 二、试验原理 1.参数估计的基本原理 2.假设检验的基本原理 三、试验演示内容与步骤 1.单个总体均值的区间估计 例题:为研究在黄金时段中,即每晚8:30-9:00 内,电视广告所占时间的多少。美 国广告协会抽样调查了20个最佳电视时段中广告所占的时间(单位:分钟)。请给 出每晚8:30 开始的半小时内广告所占时间区间估计,给定的置信度为95%。 操作 程序: ♦ 打开SPSS,建立数据文件:“ 电视节目市场调查.sav”。这里,研究变量为: time,即每天看电视的时间。 ♦ 选择区间估计选项,方法如下: 选择菜单【分析】—>【描述统计】—>【探 索】” ,打开图3.1Explore 对话框。 ♦ 从源变量清单中将“time”变量移入Dependent List框中。 SPSS 应用软件试验指导手册 图3.1 Explore对话框 ♦ 单击上图右方的“统计量”按钮打开“探索:统计量”对话框。在设置均值的置 信水平,如键入95%,完成后单击“继续”按钮回到主窗口。 图3.2 探索 统计量设置窗口 ♦ 返回主窗口点击ok运行操作。 ♦ 计算结果简单说明: 表3.1 描述统计量 Descriptive Statistic Std. Error time Mean 6.5350 .13480 95% Confidence Interval for Mean Lower Bound 6.2529 Upper Bound 6.8171 5% Trimmed Mean 6.5167 Median 6.4500 Variance .363 Std. Deviation .60287 Minimum 5.60 Maximum 7.80 Range 2.20 Interquartile Range .95 Skewness .295 .512 Kurtosis -.612 .992 ♦ 如上表显示。从上表“ 95% Confidence Interval for Mean ”中可以得出,每 晚8:30 开始的半小时内广告所占时间区间估计(置信度为95%) 为:(6.2529, 6.8171),其中lower Bound 表示置信区间的下限,Upper Bound表示置信区间的上限。 点估计是:6.5350。 SPSS 应用软件试验指导手册 2.两个总体均值之差的区间估计 例题:The Wall Street Journal(1994,7 )声称在制造业中,参加工会的妇女比 未参加工会的妇女的报酬要多2.5 美元。想通过统计方法,对这个观点是否正确给 出检验。 假设抽取了7位女性工会会员与8位非工会会员女性报酬数据。要求对制造业中 参加工会会员的女性报酬与未参加工会的女性报酬平均工资之差进行区间估计,预 设的置信度为95%。 ♦ 打开SPSS,按如下图示格式输入原始数据,建立数据文件:“工会会员工资 差别.spss”。这里,“会员”表示是否为工会会员的变量,y 表示是工会会员,n表示 非工会会员,“报酬”表示女性员工报酬变量,单位:千美元。 ♦ 计算两总体均值之差的区间估计,采用“独立样本T 检验”方法。选择菜单 “ 【分析】→【比较均值】→独立样本T检验”, 打开对话框。 ♦ 变量选择 (1)从源变量清单中将“报酬”变量移入检验变量框中。表示要求该变量的均值 的区间估计。 (2)从源变量清单中将“group”变量移入分组变量框中。表示总体的分类变量。 图3.3 独立样本T检验 对话框 ♦ 定义分组 单击定义组按钮,打开Define Groups 对话框。在Group1 中输入 1,在Group2 中输入2(1表示非工会会员,2 表示工会会员)。完成后单击“继续”按 SPSS 应用软件试验指导手册 钮回到主窗口。 图3.4 define groups设置窗口 ♦ 计算结果 单击上图中“OK”按钮,输出结果如下图所示。 (1)Group Statistics(分组统计量)表 分别给出不同总体下的样本容量、均值、标准差和平均标准误。从该表中可以 看出,参加工会的妇女平均报酬为19.925,不参加工会的妇女平均报酬为20.1429。 表3.2 分组统计量 Group Statistics 会员 N Mean Std. Deviation Std. Error Mean 1.00 8 19.9250 .46522 .16448 报酬 2.00 7 20.1429 .52236 .19743 (2)Independent Sample Test (独立样本T 检验)表 Levene’s Test for Equality of Variance,为方差检验,在Equal variances assumed (原假设:方差相等)下,F=0.623, 因为其P-值大于显著性水平,即:Sig.=0.444>0.05, 说明不能拒绝方差相等的原假设,接受两个总体方差是相等的假设。因此参加工会 会员的女性报酬与未参加工会的女性报酬平均工资之差95%的区间估计为 [0.76842,0.33271]。 T-test for Equality of Means 为检验总体均值是否相等的t 检验,由于在本例 中,其P-值大于显著性水平,即:Sig.=0.408>0.05, 因此不应该拒绝原假设,也就 是说参加工会的妇女跟未参加工会的妇女的报酬没有显著差异。本次抽样推断结论 不支持The Wall Street Journal(1994,7 )提出的“参加工会的妇女比未参加工会的妇 女的报酬要多2.5 美元”观点,即参加工会的妇女不比未参加工会的妇女的报酬多。 表3.3 独立样本T检验结果 Independent Samples Test SPSS 应用软件试验指导手册 Levene's Test for Equality of Variances t-test for Equality of Means F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper 报酬 Equal variances assumed .623 .444 -.855 13 .408 -.21786 .25485 -.76842 .33271 Equal variances not assumed -.848 12.187 .413 -.21786 .25697 -.77679 .34108 3.单个总体均值的假设检验 (单样本T检验) 例子:某种品牌的沐浴肥皂制造程序的设计规格中要求每批平均生产120 块肥 皂,高于或低于该数量均被认为是不合理的,在由10 批产品所组成的一个样本中, 每批肥皂的产量数据见下表,在0.05 的显著水平下,检验该样本结果能否说明制造 过程运行良好? ♦ 判断检验类型 该例属于“大样本、总体标准差σ未知。假设形式为: H0:μ=μ0, H1 :μ≠μ0 ♦ 软件实现程序 打开已知数据文件,然后选择菜单“【分析】→【比较均值】 →单样本T检验”,打开One-Sample T Test 对话框。从源变量清单中将“产品数量” 向右移入“Test Variables”框中。 图3.5 one-sample T test窗口 在“Test Value” 框里输入一个指定值(即假设检验值,本例中假设为120),T 检验 SPSS 应用软件试验指导手册 过程将对每个检验变量分别检验它们的平均值与这个指定数值相等的假设。 ♦ “One-Sample T Test”窗口中“OK”按钮,输出结果如下表所示。 (1)“One-Sample Statistics”(单个样本的统计量)表 分别给出样本的容量、均 值、标准差和平均标准误。本例中,产品数量均值为118.9000。 表3.4 单样本统计量 One-Sample Statistics N Mean Std. Deviation Std. Error Mean 产品数量 10 118.9000 4.93176 1.55956 (2)“One-Sample Test”(单个样本的检验)表 表中的t 表示所计算的T 检验统 计量的数值,本例中为-0.705。 表中的“df”,表示自由度,本例中为9。 表中的“Sig” (双尾T 检验), 表示统计量的P-值, 并与双尾T检验的显著性的大小进行比较: Sig.=0.498>0.05,说明这批样本的平均产量与120 无显著差异。 表中的“Mean Difference”, 表示均值差,即样本均值与检验值120 之差, 本例中为-1.1000。表 中的“95% Confidence Internal of the Difference”, 样本均值与检验值偏差的95%置 信区间为(-4.628,2.428),置信区间包括数值0,说明样本数量与120 无显著差 异,符合要求。 表3.5 单样本T检验结果 One-Sample Test Test Value = 120 95% Confidence Interval of the Difference t df Sig. (2-tailed) Mean Difference Lower Upper 产品数量 -.705 9 .498 -1.10000 -4.6280 2.4280 4.两独立样本的假设检验(两独立样本T检验) 例题:The Wall Street Journal(1994,7 )声称在制造业中,参加工会的妇女比 未参加工会的妇女的报酬要多2.5 美元。想通过统计方法,对这个观点是否正确给 出检验。 假设抽取了7位女性工会会员与8位非工会会员女性报酬数据。要求对制造业中 参加工会会员的女性报酬与未参加工会的女性报酬平均工资之差进行区间估计,预 设的置信度为95%。 ♦ 打开SPSS,按如下图示格式输入原始数据,建立数据文件:“工会会员工资 差别.sav”。这里,“会员”表示是否为工会会员的变量,y 表示是工会会员,n表示非 SPSS 应用软件试验指导手册 工会会员,“报酬”表示女性员工报酬变量,单位:千美元。 ♦ 计算两总体均值之差的区间估计,采用“独立样本T 检验”方法。选择菜单 “ 【分析】→【比较均值】→【独立样本T检验】”。 (1)从源变量清单中将“报酬”变量移入检验变量框中。表示要求该变量的均值 的检验。 (2)从源变量清单中将“会员”变量移入分组变量框中。表示总体的分类变量。 图3.6 sample T test 窗口 ♦ 定义分组 单击Grouping Variable 框下面的Define Groups 按钮,打开Define Groups 对话框。在Group1 中输入1,在Group2 中输入2(1表示非工会会员,2 表示 工会会员)。完成后单击“继续”按钮返回主窗口。 图3.7 define groups对话框 ♦ 计算结果 单击上图中“OK”按钮,输出结果如下图所示。 SPSS 应用软件试验指导手册 (1)Group Statistics(分组统计量)表 分别给出不同总体下的样本容量、均值、标准差和平均标准误。从该表中可以 看出,参加工会的妇女平均报酬为19.925,不参加工会的妇女平均报酬为20.1429。 表3.6 分组统计量 Group Statistics 会员 N Mean Std. Deviation Std. Error Mean 1.00 8 19.9250 .46522 .16448 报酬 2.00 7 20.1429 .52236 .19743 (2)Independent Sample Test (独立样本T 检验)表 Levene’s Test for Equality of Variance,为方差检验,在Equal variances assumed (原假设:方差相等)下,F=0.623, 因为其P-值大于显著性水平,即:Sig.=0.444>0.05, 说明不能拒绝方差相等的原假设,接受两个总体方差是相等的假设。 T-test for Equality of Means 为检验总体均值是否相等的t 检验,由于在本例中, 其P-值大于显著性水平,即:Sig.=0.408>0.05, 因此不应该拒绝原假设,也就是说 参加工会的妇女跟未参加工会的妇女的报酬没有显著差异。本次抽样推断结论不支 持The Wall Street Journal(1994,7 )提出的“参加工会的妇女比未参加工会的妇女的 报酬要多2.5 美元”观点,即参加工会的妇女不比未参加工会的妇女的报酬多。 表3.7 独立样本T检验结果 Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means F Sig. t df Sig. (2-tailed) Mean Difference Std. Error Difference 95% Confidence Interval of the Difference Lower Upper 报酬 Equal variances assumed .623 .444 -.855 13 .408 -.21786 .25485 -.76842 .33271 Equal variances not assumed -.848 12.187 .413 -.21786 .25697 -.77679 .34108 5.配对样本T检验 配对样本是对应独立样本而言的,配对样本是指一个样本在不同时间做了两次 试验,或者具有两个类似的记录,从而比较其差异;独立样本检验是指不同样本平 均数的比较,而配对样本检验往往是对相同样本二次平均数的检验。 SPSS 应用软件试验指导手册 配对样本T检验的前提条件为:第一,两样本必须是配对的。即两样本的观察值 数目相同,两样本的观察值顺序不随意更改。第二,样本来自的两个总体必须服从 正态分布。例如针对试验前学习成绩何智商相同的两组学生,分别进行不同教学方 法的训练,进行一段时间试验教学后,比较参与试验的两组学生的学习成绩是否存 在显著性差异。 假设某校为了检验进行新式培训前后学生的学习成绩是否有了显著提高,从全 校学生中随机抽出30名进行测试,这些学生培训前后的考试成绩放置于数据文件“学 生培训.sav”中。在SPSS中对这30名学生的成绩进行配对样本t检验的操作步骤如下: ♦ 选择菜单【分析】→【比较均值】→【配对样本T检验】,打开对话框,如 图3.8所示,将两个配对变量移入右边的Pair Variables列表框中。移动的方法是先选 择其中的一个配对变量,再选择第二个配对变量,接着单击中间的箭头按钮。 图3.8 Paired-Samples T Test对话框 ♦ 选项按钮的用于设置置信度选项,这里保持系统默认的95% ♦ 在主对话框中单击ok按钮,执行操作。 ♦ 实例结果分析 表3.8和表3.9给出了培训前后学生考试成绩的均值、标准差、均值标准误差以及 培训前后成绩的相关系数。从表3.8来看,培训前后平均成绩并没有发生显著的提高。 表3.10给出了配对样本t检验结果,包括配对变量差值的均值、标准差、均值标 准误差以及差值的95%置信度下的区间估计。当然也给出了最为重要的t统计量和p 值。结果显示p=0.246>0.05,所以,学校的所谓新式培训并未带来学生成绩的显著 变化。 SPSS 应用软件试验指导手册 表3.8 培训前后成绩的描述统计量 Paired Samples Statistics Mean N Std. Deviation Std. Error Mean 培训前 67.00 30 14.734 2.690 Pair 1 培训后 68.60 30 12.947 2.364 表3.9 培训前后成绩的相关系数 Paired Samples Correlations N Correlation Sig. Pair 1 培训前&培训后 30 .865 .000 表3.10 配对样本T检验结果 Paired Samples Test Paired Differences t df Sig. (2-tailed) Mean Std. Deviation Std. Error Mean 95% Confidence Interval of the Difference Lower Upper Pair 1 培训前-培训后 -1.600 7.398 1.351 -4.362 1.162 -1.185 29 .246 四、备择试验 1.某省大学生四级英语测验平均成绩为 65,现从某高校随机抽取 20 份试卷,其分 数为:72、76、68、78、62、59、64、85、70、75、61、74、87、83、54、76、56、 66、68、62,问该校英语水平与全区是否基本一致?设 α=0.05 2.分析某班级学生的高考数学成绩是否存在性别上的差异。数据如表所示: 某班级学生的高考数学成绩 性别 数学成绩 男( n=18) 85 89 75 58 86 80 78 76 84 89 99 95 82 87 60 85 75 80 女( n=12) 92 96 86 83 78 87 70 65 70 65 70 78 72 56 3.SPSS 自带的数据文件 world95.sav 中,保存了 1995 年世界上 109 个国家和地区 的部分指标的数据,其中变量“lifeexpf”,“lifeexpm”分别为各国或地区女性和男性人 口的平均寿命。假设将这两个指标数据作为样本,试用配对样本 T 检验,女性人口 的平均寿命是否确实比男性人口的平均寿命长,并给出差异的置信区间。(设 α= 0.05) 试验4:方差分析 一、试验目标与要求 1.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思想和 原理 2.掌握方差分析的过程。 3.增强学生的实践能力,使学生能够利用SPSS统计软件,熟练进行单因素方差 分析、两因素方差分析等操作,激发学生的学习兴趣,增强自我学习和研究的能力。 二、试验原理 在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很多。 例如,农作物的产量受作物的品种、施肥的多少及种类等的影响;某种商品的销量 受商品价格、质量、广告等的影响。为此引入方差分析的方法。 方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种 控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差 加以比较,据以推断各组样本之间是否存在显著差异。若存在显著差异,则说明该 因素对各总体的影响是显著的。 方差分析有3个基本的概念:观测变量、因素和水平。观测变量是进行方差分析 所研究的对象;因素是影响观测变量变化的客观或人为条件;因素的不同类别或不 通取值则称为因素的不同水平。在上面的例子中,农作物的产量和商品的销量就是 观测变量,作物的品种、施肥种类、商品价格、广告等就是因素。在方差分析中, 因素常常是某一个或多个离散型的分类变量。 根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析; 根据因素个数,可分为单因素方差分析和多因素方差分析。在SPSS中,有One-way ANOVA(单变量-单因素方差分析)、GLM Univariate(单变量多因素方差分析); GLM Multivariate (多变量多因素方差分析),不同的方差分析方法适用于不同的 实际情况。本节仅练习最为常用的单因素单变量方差分析。 三、试验演示内容与步骤 单因素方差分析也称一维方差分析,对两组以上的均值加以比较。检验由单一 因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。并 可以进行两两组间均值的比较,称作组间均值的多重比较。主要采用One-way ANOVA过程。 采用One-way ANOVA过程要求:因变量属于正态分布总体,若因变量的分布明 SPSS 应用软件试验指导手册 显是非正态,应该用非参数分析过程。若对被观测对象的试验不是随机分组的,而 是进行的重复测量形成几个彼此不独立的变量,应该用Repeated Measure菜单项,进 行重复测量方差分析,条件满足时,还可以进行趋势分析。 假设某汽车经销商为了研究东部、西部和中部地区市场上汽车的销量是否存在 显著差异,在每个地区随机抽取几个城市进行调查统计,调查数据放置于数据文件 “汽车销量调查.sav”中。在SPSS中试验该检验的步骤如下: ♦ 步骤1:选择菜单【分析】→【比较均值】→【单因素方差分析】,依次将 观测变量销量移入因变量列表框,将因素变量地区移入因子列表框。 图 4.1 One-Way ANOVA 对话框 ♦ 单击两两比较按钮,如图4.2,该对话框用于进行多重比较检验,即各因素 水平下观测变量均值的两两比较。 方差分析的原假设是各个因素水平下的观测变量均值都相等,备择假设是各均 值不完全相等。假如一次方差分析的结果是拒绝原假设,我们只能判断各观测变量 均值不完全相等,却不能得出各均值完全不相等的结论。各因素水平下观测变量均 值的更为细致的比较就需要用多重比较检验。 SPSS 应用软件试验指导手册 图 4.2 两两比较对话框 假定方差齐性选项栏中给出了在观测变量满足不同因素水平下的方差齐性条件 下的多种检验方法。这里选择最常用的LSD检验法;未假定方差齐性选项栏中给出 了在观测变量不满足方差齐性条件下的多种检验方法。这里选择Tamhane’s T2检验 法;Significance level输入框中用于输入多重比较检验的显示性水平,默认为5%。 ♦ 单击选项按钮,弹出options子对话框,如图所示。在对话框中选中描述性复 选框,输出不同因素水平下观测变量的描述统计量;选择方差同质性检验复选框, 输出方差齐性检验结果;选中均值图复选框,输出不同因素水平下观测变量的均值 直线图。 ♦ 在主对话框中点击ok按钮,可以得到单因素分析的结果。试验结果分析: 表4.1给出了不同地区汽车销量的基本描述统计量以及95%的置信区间。 SPSS 应用软件试验指导手册 图 4.3 选项子对话框 表4.1 各个地区汽车销量描述统计量 Descriptive 销量 N Mean Std. Deviation Std. Error 95% Confidence Interval for Mean Minimum Maximum Lower Bound Upper Bound 西 10 157.90 22.278 7.045 141.96 173.84 120 194 中 9 176.44 19.717 6.572 161.29 191.60 135 198 东 7 196.14 30.927 11.689 167.54 224.75 145 224 Total 26 174.62 27.845 5.461 163.37 185.86 120 224 表4.2给出了Levene方差齐性检验结果。从表中可以看到,Levene统计量对应的p 值大于0.05,所以得到不同地区汽车销量满足方差齐性的结论。 表4.2 各地区汽车销量方差齐性检验表 Test of Homogeneity of Variances Levene Statistic df1 df2 Sig. 1.262 2 23 .302 表4.3是单因素方差分析,输出的方差分析表解释如下:总离差SST=19384.154, 组间平方和SSR=6068.174,组内平方和或残差平方和SSE=13315.979,相应的自 由度分别为25,2,23;组间均方差MSR=3034.087,组内均方差578.956,F=5.241, 由于p=0.013<0.05说明在α=0.05显著性水平下,F检验是显著的。即认为各个地区 的汽车销量并不完全相同。 Levene统计量对应的p值 大于0.05,所以得到不同 地区汽车销量满足方差 齐性的结论。 SPSS 应用软件试验指导手册 表4.3 单因素方差分析结果 ANOVA 销量 Sum of Squares df Mean Square F Sig. Between Groups 6068.174 2 3034.087 5.241 .013 Within Groups 13315.979 23 578.956 Total 19384.154 25 表4.4 多重比较检验结果 Multiple Comparisons Dependent Variable: 销量 95% Confidence Interval (I) 地区 (J) 地区 Mean Difference (I-J) Std. Error Sig. Lower Bound Upper Bound 中 -18.544 11.055 .107 -41.41 4.33西 东 -38.243(*) 11.858 .004 -62.77 -13.71 中 西 18.544 11.055 .107 -4.33 41.41 东 -19.698 12.126 .118 -44.78 5.39 东 西 38.243(*) 11.858 .004 13.71 62.77 LSD 中 19.698 12.126 .118 -5.39 44.78 Tamhane 西 中 -18.544 9.635 .199 -44.05 6.96 东 -38.243 13.648 .054 -77.10 .61 中 西 18.544 9.635 .199 -6.96 44.05 东 -19.698 13.410 .436 -58.31 18.91 东 西 38.243 13.648 .054 -.61 77.10 中 19.698 13.410 .436 -18.91 58.31 * The mean difference is significant at the .05 level. 如前所述,拒绝单因素方差分析原假设并不能得出各地区汽车销量均值完全不 等的结论。各地区销量均值的两两比较要看表4.4所示的多重比较检验结果。表中上 半部分为LSD检验结果,下半部分为Tamhane检验结果。由于方差满足齐性,所以 这里应该看LSD检验结果。表中的Mean difference列给出了不同地区汽车销量的平均 值之差。其中后面带“﹡”号的表示销量有显著差异,没有带“﹡”号的表示没有显著 差异。可以看出,东部和西部汽车销量存在显著差异,而中部与东部、中部与西部 汽车销量并没有什么显著差异。这一结论也可以从表中Sig列给出的p值大小得到印 证。 四、备择试验 1. 用SPSS进行单因素方差分析。某个年级有三个小班,他们进行了一次数据考试, 现从各班随机地抽取了一些学生,记录其成绩如表。原始数据文件保存为“数学考试 成绩.sav”。试在显著性水平0.05下检验各班级的平均分数有无显著差异。 数学考试成绩表 SPSS 应用软件试验指导手册 Ⅰ Ⅱ Ⅲ 73 66 88 77 68 41 89 60 78 31 79 59 82 45 48 78 56 68 43 93 91 62 91 53 80 36 51 76 71 79 73 77 85 96 71 15 78 79 74 80 87 75 76 87 56 85 97 89 2.某学校给3组学生以3种不同方式辅导学习,一个学期后,学生独立思考水平提高 的成绩如表所示。 学生独立思考水平提高的成绩 方式1 37 42 42 43 41 42 45 46 41 40 方式2 49 48 48 48 47 45 46 47 48 49 方式3 33 33 35 32 31 35 34 32 32 33 问:该数据中的因变量是什么?因素又是什么?如何建立数据文件?对该数据进行 方差分析,检验3种方式的影响是否存在显著差异? SPSS 应用软件试验指导手册 试验5:相关分析与回归分析 一、试验目标与要求 本试验项目的目的是学习并使用 SPSS 软件进行相关分析和回归分析,具体包 括: (1) 皮尔逊pearson简单相关系数的计算与分析 (2) 学会在SPSS上实现一元及多元回归模型的计算与检验。 (3) 学会回归模型的散点图与样本方程图形。 (4) 学会对所计算结果进行统计分析说明。 (5) 要求试验前,了解回归分析的如下内容。 ♦ 参数α、β的估计 ♦ 回归模型的检验方法:回归系数β的显著性检验(t-检验);回归方程 显著性检验(F-检验)。 二、试验原理 1.相关分析的统计学原理 相关分析使用某个指标来表明现象之间相互依存关系的密切程度。用来测度简 单线性相关关系的系数是Pearson简单相关系数。 2.回归分析的统计学原理 相关关系不等于因果关系,要明确因果关系必须借助于回归分析。回归分析是 研究两个变量或多个变量之间因果关系的统计方法。其基本思想是,在相关分析的 基础上,对具有相关关系的两个或多个变量之间数量变化的一般关系进行测定,确 立一个合适的数据模型,以便从一个已知量推断另一个未知量。回归分析的主要任 务就是根据样本数据估计参数,建立回归模型,对参数和模型进行检验和判断,并 进行预测等。 线性回归数学模型如下: iikkiii xxxy εββββ +++++= 22110 在模型中,回归系数是未知的,可以在已有样本的基础上,使用最小二乘法对 回归系数进行估计,得到如下的样本回归函数: iikkiii exxxy +++++= ββββ ˆˆˆˆ 22110 回归模型中的参数估计出来之后,还必须对其进行检验。如果通过检验发现模 型有缺陷,则必须回到模型的设定阶段或参数估计阶段,重新选择被解释变量和解 SPSS 应用软件试验指导手册 释变量及其函数形式,或者对数据进行加工整理之后再次估计参数。回归模型的检 验包括一级检验和二级检验。一级检验又叫统计学检验,它是利用统计学的抽样理 论来检验样本回归方程的可靠性,具体又可以分为拟和优度评价和显著性检验;二 级检验又称为经济计量学检验,它是对线性回归模型的假定条件能否得到满足进行 检验,具体包括序列相关检验、异方差检验等。 三、试验演示内容与步骤 1.连续变量简单相关系数的计算与分析 在上市公司财务分析中,常常利用资产收益率、净资产收益率、每股净收益和托 宾Q值4个指标来衡量公司经营绩效。本试验利用SPSS对这4个指标的相关性进行检 验。操作步骤与过程: ♦ 打开数据文件“上市公司财务数据(连续变量相关分析).sav”,依次选择“【分 析】→【相关】→【双变量】”打开对话框如图,将待分析的4个指标移入右边的变 量列表框内。其他均可选择默认项,单击ok提交系统运行。 图5.1 Bivariate Correlations对话框 结果分析: 表给出了Pearson简单相关系数,相关检验t统计量对应的p值。相关系数右上角有 SPSS 应用软件试验指导手册 两个星号表示相关系数在0.01的显著性水平下显著。从表中可以看出,每股收益、 净资产收益率和总资产收益率3个指标之间的相关系数都在0.8以上,对应的p值都接 近0,表示3个指标具有较强的正相关关系,而托宾Q值与其他3个变量之间的相关性 较弱。 表5.1 Pearson简单相关分析 Correlations 每股收益率 净资产收 益率 资产收益率 托宾Q值 Pearson Correlation 1 .877(**) .824(**) -.073 Sig. (2-tailed) . .000 .000 .199 每股收益率 N 315 315 315 315 Pearson Correlation .877(**) 1 .808(**) -.001 Sig. (2-tailed) .000 . .000 .983 净资产收益率 N 315 315 315 315 Pearson Correlation .824(**) .808(**) 1 .011 Sig. (2-tailed) .000 .000 . .849 资产收益率 N 315 315 315 315 Pearson Correlation -.073 -.001 .011 1 Sig. (2-tailed) .199 .983 .849 . 托宾Q值 N 315 315 315 315 ** Correlation is significant at the 0.01 level (2-tailed). 2.一元线性回归分析 实例分析:家庭住房支出与年收入的回归模型 在这个例子里,考虑家庭年收入对住房支出的影响,建立的模型如下: ii xiy εβα ++= 其中,yi是住房支出,xi是年收入 线性回归分析的基本步骤及结果分析: (1)绘制散点图 打开数据文件,选择【图形】-【旧对话框】-【散点/点状】, 如图5.2所示。 图5.2 散点图对话框 SPSS 应用软件试验指导手册 选择简单分布,单击定义,打开子对话框,选择X变量和Y变量,如图5.3所示。 单击ok提交系统运行,结果见图5.4所示。 图5.3 Simple Scatterplot 子对话框 从图上可直观地看出住房支出与年收入之间存在线性相关关系。 图5.4 散点图 (2)简单相关分析 选择【分析】—>【相关】—>【双变量】,打开对话框,将变量“住房支出”与“年 收入”移入variables列表框,点击ok运行,结果如表5.2所示。 表5.2 住房支出与年收入相关系数表 Correlations SPSS 应用软件试验指导手册 住房支出(千美元) 年收入(千美元) 住房支出(千美元) Pearson Correlation 1 .966(**) Sig. (2-tailed) . .000 N 20 20 年收入(千美元) Pearson Correlation .966(**) 1 Sig. (2-tailed) .000 . N 20 20 ** Correlation is significant at the 0.01 level (2-tailed). 从表中可得到两变量之间的皮尔逊相关系数为0.966,双尾检验概率p值尾 0.000<0.05,故变量之间显著相关。根据住房支出与年收入之间的散点图与相关分 析显示,住房支出与年收入之间存在显著的正相关关系。在此前提下进一步进行回 归分析,建立一元线性回归方程。 (3) 线性回归分析 步骤1:选择菜单“【分析】—>【回归】—>【线性】”,打开Linear Regression 对 话框。将变量住房支出y移入Dependent列表框中,将年收入x移入Independents列表 框中。在Method 框中选择Enter 选项,表示所选自变量全部进入回归模型。 图5.5 Linear Regresssion对话框 SPSS 应用软件试验指导手册 步骤2:单击Statistics按钮,如图在Statistics子对话框。该对话框中设置要输出的 统计量。这里选中估计、模型拟合度复选框。 图5.6 Statistics子对话框 ♦ 估计:输出有关回归系数的统计量,包括回归系数、回归系数的标准差、 标准化的回归系数、t统计量及其对应的p值等。 ♦ 置信区间:输出每个回归系数的95%的置信度估计区间。 ♦ 协方差矩阵:输出解释变量的相关系数矩阵和协差阵。 ♦ 模型拟合度:输出可决系数、调整的可决系数、回归方程的标准误差、 回归方程F检验的方差分析。 步骤3:单击绘制按钮,在Plots子对话框中的标准化残差图选项栏中选中正态概 率图复选框,以便对残差的正态性进行分析。 SPSS 应用软件试验指导手册 图5.7 plots子对话框 步骤4:单击保存按钮,在Save子对话框中残差选项栏中选中未标准化复选框, 这样可以在数据文件中生成一个变量名尾res_1 的残差变量,以便对残差进行进一 步分析。 图5.8 Save子对话框 其余保持Spss默认选项。在主对话框中单击ok按钮,执行线性回归命令,其结果 如下: 表5.3给出了回归模型的拟和优度(R Square)、调整的拟和优度(Adjusted R Square)、估计标准差(Std. Error of the Estimate)以及Durbin-Watson统计量。从 结果来看,回归的可决系数和调整的可决系数分别为0.934和0.93,即住房支出的90 %以上的变动都可以被该模型所解释,拟和优度较高。 表5.4给出了回归模型的方差分析表,可以看到,F统计量为252.722,对应的p值 为0,所以,拒绝模型整体不显著的原假设,即该模型的整体是显著的。 SPSS 应用软件试验指导手册 表5.5给出了回归系数、回归系数的标准差、标准化的回归系数值以及各个回归 系数的显著性t检验。从表中可以看到无论是常数项还是解释变量x,其t统计量对应 的p值都小于显著性水平0.05,因此,在0.05的显著性水平下都通过了t检验。变量x 的回归系数为0.237,即年收入每增加1千美元,住房支出就增加0.237千美元。 表5.3 回归模型拟和优度评价及Durbin-Watson检验结果 Model Summary(b) Model R R Square Adjusted R Square Std. Error of the Estimate 1 .966(a) .934 .930 .37302 a Predictors: (Constant),年收入(千美元) b Dependent Variable:住房支出(千美元) 表5.4 方差分析表 ANOVA(b) Model Sum of Squares df Mean Square F Sig. Regression 35.165 1 35.165 252.722 .000(a) Residual 2.505 18 .139 1 Total 37.670 19 a Predictors: (Constant), 年收入(千美元) b Dependent Variable: 住房支出(千美元) 表5.5 回归系数估计及其显著性检验 Coefficients(a) Model Unstandardized Coefficients Standardized Coefficients t Sig. B Std. Error Beta 1 (Constant) .890 .204 4.356 .000 年收入(千美元) .237 .015 .966 15.897 .000 a Dependent Variable: 住房支出(千美元) 为了判断随机扰动项是否服从正态分布,观察图5.9所示的标准化残差的P-P图, 可以发现,各观测的散点基本上都分布在对角线上,据此可以初步判断残差服从正 态分布。 为了判断随机扰动项是否存在异方差,根据被解释变量y与解释变量x的散点图, 如图5.4所示,从图中可以看到,随着解释变量x的增大,被解释变量的波动幅度明 显增大,说明随机扰动项可能存在比较严重的异方差问题,应该利用加权最小二乘 法等方法对模型进行修正。 SPSS 应用软件试验指导手册 0.0 0.2 0.4 0.6 0.8 1.0 Observed Cum Prob 0.0 0.2 0.4 0.6 0.8 1.0 Expected Cum Prob Dependent Variable: 住房支出(千美元) Normal P-P Plot of Regression Standardized Residual 图5.9 标准化残差的P-P图 四、备择试验 现有1987~2003年湖南省全社会固定资产投资总额NINV和GDP两个指标的年度 数据,见下表。试研究全社会固定资产投资总额和GDP的数量关系,并建立全社会 固定资产投资总额和GDP之间的线性回归方程。 湖南省全社会固定资产投资和GDP年度数据 年份 GDP(亿 NINV (亿 年份 GDP (亿 NINV(亿 SPSS 应用软件试验指导手册 元) 元) 元) 元) 1987 509.44 120.38 1995 2195.7 523 1988 614.07 144.71 1996 2647.16 684.14 1989 682.8 114.51 1997 2993 667.39 1990 744.44 121.24 1998 3118.1 796.9 1991 833.3 156.39 1999 3326.8 883.9 1992 997.7 234.4 2000 3691.88 1012.2 1993 1278.28 324.58 2001 3983 1174.3 1994 1694.42 422.18 2002 4140.94 1348 SPSS 应用软件试验指导手册 《管理统计学》导学资料六—— 2χ 检验和方差分析 这一讲的内容包括两个部分开平方检验和方差分析,重点是方差分析,在本章的学习中, 同学们要了解方差分析的用途, 2χ 检验的作用和用途。学会和掌握方差分析表的使用,了解自 由度的计算和 F 检验的作用,记住方差分析表中的五个等式和含义。 本章的关键术语: 方差分析(Analysis of Variance, 常简称为 ANOVA)是用来检验两个以上样本的均值差 异的显著程度,由此判断样本究竟是否抽自具有同一均值总体的方法。 SST-总离差方和(Sum of Square in Total )为各样本观察值与总均值的离差平方和。 SSTR-组间离差方和(Sum of Square Treatment)表示不同的样本组之间,由于因素取不 同的水平所产生的离差平方和。 SSE-组内离差方和(Sum of Square Error)表示同一样本组内,由于随机因素影响所产生 的离差平方和,简称为组内离差平方和。 本章学完后,你应当能够: 1、掌握用 2χ 检验来解决独立性检验和拟合性检验的原理和基本方法,能解决最常见 的这类检验问题。 2、了解和懂得单因素方差分析的原理和基本方法,能应用计算机解决最常见的方差分 析问题。 一、 2χ 检验 2χ 检验的用途是检验两个变量之间的独立性和检验数据是否服从某个概率分布得拟合检 验。 我们经常会遇到受两个或两个以上因素(变量)影响的实验或观察数据,并要求判断 两个变量之间是否存在相互联系的问题。如果两个变量之间没有联系则称作是独立的,否 则就是不独立的。 用 2χ 分布可以检验两个变量之间的独立性问题。此时我们首先将研究对象的观察数 据按两个变量分别进行分类。。例如,按行对第一个变量进行分类,按列对第二个变量进行 分类。按这种方法把所有的试验观察数据排列成的表称为列联表。 2χ 独立性检验的程序和前面介绍的参数假设检验一样,首先也要建立假设,然后计算 检验统计量的值。这次采用的检验统计这次采用的检验统计量就是 2χ ,再根据问题规定 的显著性水平 查 2χ 分布表,得到当原假设成立时检验统计量 允许的最大临界值,与计 算所得的 2χ 值作比较,得出接受或拒绝原假设的结论。具体步骤如下: 1. 提出假设 0H :两个变量是独立的,即相互之间没有影响,    1H :两个变量是不独立的,即相互之间有影响。 检验的结果如果接受原假设 0H  就说明不能推翻两个变量是独立的假设;反之,拒 绝 ,接受 1H SPSS 应用软件试验指导手册 2 将观测数据分类,计算检验统计量 2χ : 我们要将需要检验的变量分类,只作如下的表格: 变量 B 的分类 1 2 ….. m 行总和 1 O11 O12 ….. O1m O1. 2 O21 O22 ….. O2m O2. ….. ….. ….. ….. ….. k Ok1 Ok2 ….. Okm Ok. 变量 A 的 类别 列总和 O.1 O.2 O.m n 这里,Oij 表示具有第 ij 属性的观测的数量,i=1,2,..k,j=1,2,…m, Oi.表示第 i 行的观测书 的总值,O.j 表示第 j 列的观测数的总数。注意,这里 Oij 是实际观测到的数据分类得到的。 我们在后面还要计算在原假设成立的是观测的理论数值。这里 n 是观测的总数。 定义 2χ = 2()Oij Eij Eij −∑∑ ,这里 Oij 是上边分类得到的实际观测数, Eij 是与之相应的 位置上的期望值。 Eij 是根据概率计算的,在原假设下两个变量独立,因而有: 如果两事件独立,则它们的联合概率就等于它们分别概率的乘积,即落入第 i j 格的概率等 于落入第 i 行的概率与落入第 j 列的概率的乘积。由此可得到当总的观察值的和为 n 时, 与观察值 相对应的期望值 可按下式计算得到。 Eij = n ( .Oi n )( .Oj n )= ..Oi O j n   利用上面的公式可以计算出相应的个各个位置上的期望值。如果计算所得到的期望值 过小,则最后得到的检验统计量 就会估计过大,导致原假设被拒绝的概率过高。因此,实 际检验中一般要求所有计算得到的期望值都不小于 5。如果某些位置上的期望值小于 5 就 可以把相邻的类别合并,使得结果计算得到的期望值都不小于 5。     3 计算 2χ 检 验 我们在上边计算的 2χ 值,就是反映两个变量独立性程度的变量。如果 2χ =0,那么这两个 变量独立,当 2χ 不等于 0, 2χ 越大两个变量独立的可能性越小,当 2χ 达到一定的程度时我们 就可以拒绝两个变量独立的假设。 为了确定这个临界值,我们就需要使用 2χ 分布。首先我们需要确定 2χ 的自由度,由于在 计算期望值的时候,每行总数和每列总数的总和是确定的,因此自由度是行数-1 和列数-1 的乘 积。如果第一个分类变量有 r 类,第二个分类变量有 c 类,那么自由度就是: (1)(1)df r c=− −, 这时,我们查自由度为 (1)(1)df r c=− −的 2χ 分布,和前面一样计算 0.95 得分位数,就 得到显著性水平为 5% 的临界值 2 (( 1)( 1))rcαχ − − ,如果我们在第 2 布计算的 2χ > 2 (( 1)( 1))rcαχ −−,那么我们就要拒绝原假设,不能接受两个变量独立。 此外, 2χ 分布也可以用来检验数据是否服从某个分布,如正态分布,泊松分布,二项分 布等。这时的检验也成为拟和优度检验。这种检验的方法也是先将变量分类,计算理论值和观 测值,在计算统计量和自由度。具体的操作办法感兴趣的同学可以参看课本和课件。 SPSS 应用软件试验指导手册 二、方差分析 方差分析主要用来检验两个以上样本的均值差异的显著程度,由此判断样本究竟是否 抽自具有同一均值的总体。方差分析对于比较不同生产工艺或设备条件下产量、质量的差 异,分析不同计划方案效果的好坏和比较不同地区、不同人员有关的数量指标差异是否显 著时是非常有用的。我们在前边的假设检验中,已经说明过了如何检验两个总体的均值是 否相等的各种情况。方差分析的作用就是可以检验多个样本的均值是否相等。 1、问题的提出 例:为了比较三种不同材料对产品寿命的影响,试验人员分别对三种不同材料所制造的一 组产品的寿命进行了测试,所得结果如下表所示 (为简化计算,以各取 4 个样本为例)。         3 三种材料使用寿命的抽样统计表 材料种类 实验 1 实验 2 实验 3 实验 4 A 115 116 98 83 B 103 107 118 116 C 73 89 85 97 现要求根据上述试验结果,在显著性水平为某一特定值的条件下,检验所选用的材料 对最终产品的使用寿命的影响是否显著。从统计的角度看,就是要检验三种不同的材料所 生产的最终产品的使用寿命的均值是否一致。   通常,在方差分析中,我们把对试验结果发生影响和起作用的自变量称为因素。如果 方差分析研究的是一个因素对于试验结果的影响和作用,就称为单因素方差分析。否则就 称为多因素方差分析。这里主要介绍单因素方差分析。   在本例中,因素就是可能影响产品使用寿命的材料。因素的不同选择方案称之为因素 的水平。例中材料有三种不同的选择就说因素有三个水平。因素的水平实际上就是因素的 取值或者是因素的分组,例如,可以在包装、质量、价格和销售区域等方面取不同的值或 分为不同的组,就表示因素选了不同的水平。方差分析要检验的问题就是当因素选不同的 水平时,对结果有无显著的影响。若无显著影响,则随便选择哪一种材料都无所谓。否则 就要选择最终产品寿命最长的一种材料。 一般地,我们假定所检验的结果受某一因素 A 的影响,它可以取 K 个不同的水平: 1,2,3,…K。对于因素的每一个水平 i 都进行 n 次试验,结果分别为 1iX , 2iX ,。。。 inX , 我们把这一组样本记作假定 iX , inX ∼ 2(,iN μ σ )即对于因素的每一个水平,所得到的结 果都服从正态分布,且方差相等。   用统计的语言来表达,要检验的假设就是: 0:H 01..... kμ μμ== =  1:H 不是所有的 iμ 都相等 ( 1,2,3,...iK= )。   由此可见,方差分析是研究一个或多个可分组的变量(称为自变量)与一个连续变量 (因变量)之间的统计关系,并测定自变量在取各种不同水平时对因变量的影响和作用的 一种统计分析方法。方差分析通过比较和检验在因素的不同水平下均值之间是否存在显著 的统计差异的方法来测定因素的不同水平对因变量的影响和作用的差异。 2、方差分析的基本原理和步骤  方差分析的基本思路是一方面确定因素的不同水平下均值之间的方差,把它作为对由 SPSS 应用软件试验指导手册 所有试验数据所组成的全部总体的方差的一个估计值。另一方面,再考虑在同一水平下不 同试验数据对于这一水平均值的方差。由此,计算出对由所有试验数据所组成的全部数据 的总体方差的第二个估计值;最后,比较上述两个估计值。如果这两个方差的估计值比较 接近就说明因素的不同水平下的均值间的差异并不大,就接受零假设。否则,就说明因素 的不同水平下的均值间的差异比较大,就接受备择假设。   根据上述思路我们可以得到方差分析的方法和步骤。 (1). 提出假设: 0:H 01..... kμ μμ== =  1:H 不是所有的 iμ 都相等 ( 1,2,3,...iK= )。 (2). 方差分解   我们先定义总离差平方和为各样本观察值与总均值的离差平方和。 记作 2 11 () Kn kj kj SST x x == =−∑∑ ,,其中 x 时样本平均值, x = 11 Kn kj kj x N == ∑∑ ,这里 NnK= 是全部观 测的总数。 将总离差平方和分解为两部分: 2 11 () Kn kj kj SST x x == =−∑∑ = 2 11 () Kn kj i kj x x == −∑∑ + 2 1 *( ) K k k nx x = −∑ 其中, ix 表示第i 组的变量的平均值 ix = 1 n ij j x N = ∑ ,记 2 11 () Kn kj i kj SSE x x == =−∑∑ 表示不 同的样本组之间,由于因素取不同的水平所产生的离差平方和。记 2 1 *( ) K k k SSTR n x x = =−∑ 表示不同样本组之间由于因素水平不同产生的离差平方和。 因此我们得到 SST SSE SSTR=+ ,对应的自由度分别是 1N − , NK− 和 1K − 。 这样一来,自由度也有关系: 1( )( 1)NNKK− =−+− (3). F 检验 将 SSE 和 SSTR 分别除以各自的自由度,得到相应的各自均方差: 组间均方差: MSTR = 1 SSTR K − ;组内均方差: MSE = SSE NK− ; 统计上可以证明 2()EMSE σ= , 22 1 1() ()1 K i i EMSTR nKσ μμ = =+ −− ∑ SPSS 应用软件试验指导手册 如上所述,当原假设 0:H 成立时, 01..... kμ μμ= == 就有 2()( )E MSE E MSTR σ==。,否则有 2()EMSTR σ> 。当原假设成立时, MSE 和 MSTR 都 是 2σ 的无偏估计。可以构造 F 统计量, F = MSTR MSE ,就服从自由度为 1K − 和 NK− 的 F 分 布。 如上所述,当原假设 0:H 成立时, 01..... kμ μμ= ==此时 较小,F 值也较小。反之 0:H 不成立时,MSTR 较大,F 值也较大。对于给定的显著性水平α ,查 F 分布表得到 (1,)FK N Kα −− 。如果 F> (1,)FK N Kα − − ,则原假设不成立,即 K 个组的总体均值之 间有显著的差异,就拒绝 0:H 。若 F< (1,)FK N Kα − − ,则原假设成立,即 K个组的总 体均值之间没有显著的差异,就接受 0:H 。 (4). 方差分析表   上述方差分析的方法可以用一张标准形式的表格来实现,这种表格称为方差分析表。 它将方差分析的计算方法以简洁的形式进行总结。表格分为五列,第一列表示方差的来源, 第二列表示离差平方和,第三列表示自由度,第四列为均方差,第五列为统计检验量 F。 表格又分为三行。第一行是组间的方差 SSTR 和均方差 MSTR,表示因素的不同水 平的影响所产生的方差,其值作为计算统计检验量 F 时的分子;第二行是组内方差 SSE 和 均方差 MSE,表示随机误差所引起的方差,其值作为计算统计检验量 F 的分母,第三行 是检验行,表示总的方差 SST。 表 6-9 就是一张单因素方差分析表。 由于方差分析表概括了方差分析中的统计量之间的关系,我们在进行方差分析时就可 以直接按照方差分析表来逐行,逐列地计算出有关的统计量,最后得到检验量 F 的值,并 把这一 F 值与查表所得到的一定显著性水平下的 F 检验的临界值进行比较,以得出接受或 拒绝原假设的结论。           表 6-9 单因素方差分析表 方差来源 离差平方和 自由度 均方差 统计检验量 F 组间 SSTR K-1 MSTR 组内 SSE N-K MSE 总方差 SST N-1 F = MSTR MSE    方差分析表里的 5 个关系式:大家牢记这五个关系的计算就可以看懂方差分析表。 列的关系式: SST SSE SSTR=+ , 1( )( 1)NNKK− =−+−. F = MSTR MSE 行的关系式: MSTR = 1 SSTR K − , MSE = SSE NK− 。 3、用 SPSS 解方差分析问题 单因素方差分析用 SPSS 来解时可以通过完全窗口来解决,通过调用 One-Way ANOVA 菜单来实现。具体解法和步骤如下:   在主对话框中按 Analysis →Compared Means→One-Way Anova 的顺序点击,就 可以打开"单因素方差分析"主对话框。在主对话框中先选择因变量。只要在左边的源变量 框中选取所需要的变量,然后按因变量的向右的箭头,即可进入因变量位置。在选好因变 量后再选因素框。同样只要从左边的源变量框中选取所需要的变量,然后按因素的向右的 SPSS 应用软件试验指导手册 箭头,即可进入因素的位置。如果需要指定其它的比较选项再在 Contrast 中指定选项。对 于简单的方差分析只要在主对话框中按 OK,即可得到输出的方差分析结果。 T 检验、F 检验和统计学意义(P 值或 sig 值) 2009-06-06 04:01 1,T 检验和 F 检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们 会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布 (probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结 果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很少、很罕 有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意 义的(用统计学的话讲,就是能够拒绝虚无假设 null hypothesis,Ho)。相反,若比较后 发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也 许是巧合,也许不是,但我们没能确定。 F 值和 t 值就是这些统计检定值,与它们相对应的概率分布,就是 F 分布和 t 分布。统计显著性(sig)就是出现目前样本这结果的机率。 2,统计学意义(P 值或 sig 值) 结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p 值为结果可信程度的一个递减指标,p 值越大,我们越不能认为样本中变量的关联 是总体中各变量关联的可靠指标。p 值是将观察结果认为有效即具有总体代表性的 犯错概率。如 p=0.05 提示样本中变量关联有 5%的可能是由于偶然性造成的。即假 设总体中任意变量间均无关联,我们重复类似实验,会发现约 20 个实验中有一个实 验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量 间存在关联,我们可得到 5%或 95%次数的相同结果,当总体中的变量存在关联, 重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,0.05 的 p 值通常被认为是可接受错误的边界水平。 3,T 检验和 F 检验 至於具体要检定的内容,须看你是在做哪一个统计程序。 SPSS 应用软件试验指导手册 举一个例子,比如,你要检验两独立样本均数差异是否能推论至总体,而行的 t 检验。 两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至 总体,代表总体的情况也是存在著差异呢? 会不会总体中男女生根本没有差别,只不过是你那麼巧抽到这 2 样本的数值不同? 为此,我们进行 t 检定,算出一个 t 检定值。 与统计学家建立的以「总体中没差别」作基础的随机变量 t 分布进行比较,看看在 多少%的机会(亦即显著性 sig 值)下会得到目前的结果。 若显著性 sig 值很少,比如<0.05(少於 5%机率),亦即是说,「如果」总体「真的」 没有差别,那麼就只有在机会很少(5%)、很罕有的情况下,才会出现目前这样本的 情况。虽然还是有 5%机会出错(1-0.05=5%),但我们还是可以「比较有信心」的说: 目前样本中这情况(男女生出现差异的情况)不是巧合,是具统计学意义的,「总体 中男女生不存差异」的虚无假设应予拒绝,简言之,总体应该存在著差异。 每一种统计方法的检定的内容都不相同,同样是 t-检定,可能是上述的检定总 体中是否存在差异,也同能是检定总体中的单一值是否等於 0 或者等於某一个数值。 至於 F-检定,方差分析(或译变异数分析,Analysis of Variance),它的原理大致 也是上面说的,但它是透过检视变量的方差而进行的。它主要用于:均数差别的显 著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方 差齐性(Equality of Variances)检验等情况。 3,T 检验和 F 检验的关系 t 检验过程,是对两样本均数(mean)差别的显著性进行检验。惟 t 检验须知道两 个总体的方差(Variances)是否相等;t 检验值的计算会因方差是否相等而有所不同。 也就是说,t 检验须视乎方差齐性(Equality of Variances)结果。所以,SPSS 在进行 t-test for Equality of Means 的同时,也要做 Levene's Test for Equality of Variances 。 1.在 Levene's Test for Equality of Variances 一栏中 F值为 2.36, Sig.为.128,表示 方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故下面 t 检验的结 果表中要看第一排的数据,亦即方差齐的情况下的 t 检验的结果。 2.在 t-test for Equality of Means 中,第一排(Variances=Equal)的情况:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99 既然 Sig=.000,亦即,两样本均数差别有显著性意义! SPSS 应用软件试验指导手册 3.到底看哪个 Levene's Test for Equality of Variances 一栏中 sig,还是看 t-test for Equality of Means 中那个 Sig. (2-tailed)啊? 答案是:两个都要看。 先看 Levene's Test for Equality of Variances,如果方差齐性检验「没有显著差异」, 即两方差齐(Equal Variances),故接著的 t 检验的结果表中要看第一排的数据,亦即 方差齐的情况下的 t 检验的结果。 反之,如果方差齐性检验「有显著差异」,即两方差不齐(Unequal Variances),故接 著的 t 检验的结果表中要看第二排的数据,亦即方差不齐的情况下的 t 检验的结果。 4.你做的是 T 检验,为什么会有 F 值呢? 就是因为要评估两个总体的方差(Variances)是否相等,要做 Levene's Test for Equality of Variances,要检验方差,故所以就有 F 值。 另一种解释: t 检验有单样本 t 检验,配对 t 检验和两样本 t 检验。 单样本 t 检验:是用样本均数代表的未知总体均数和已知总体均数进行比较, 来观察此组样本与总体的差异性。 配对 t 检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对象分 别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受试对象处 理前后。 F 检验又叫方差齐性检验。在两样本 t 检验中要用到 F 检验。 从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断 两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用 t 检验,若不等, 可采用 t'检验或变量变换或秩和检验等方法。 其中要判断两总体方差是否相等,就可以用 F 检验。 若是单组设计,必须给出一个标准值或总体均值,同时,提供一组定量的观测 结果,应用 t 检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每 对数据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均 取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在 这样的前提下所计算出的 t 统计量才服从 t 分布,而 t 检验正是以 t 分布作为其理论 依据的检验方法。 SPSS 应用软件试验指导手册 简单来说就是实用 T 检验是有条件的,其中之一就是要符合方差齐次性,这点 需要 F 检验来验证。 第五章:SPSS 统计绘图功能详解 5.1 常用统计图 5.1.1 操作界面介绍(条图) 5.1.1.1 条图的通用界面 5.1.1.2 复式条图与分段条图的界面 5.1.2 其他常用统计图 5.1.2.1 散点图 5.1.2.2 线图 5.1.2.3 饼图 5.1.2.4 面积图 5.1.2.5 直方图 5.1.2.6 其他 5.1.3 常用统计图编辑方法详解 5.2 交互式统计图 5.3 统计地图 在常用的统计软件中,SAS 绘制的统计图不太美观;而 SPSS 绘制的统计图较 为美观,可以满足大多数情况下的要求;STATA 绘制的统计图形最为精美,但由于 它采用命令行方式操作,美观的图形需要添加大量选项,普通人不易掌握;而 S-PLUS、MATHLAB 等偏数理统计的软件虽然绘图能力也非常强,但由于自身的 定位问题,并不为大多数人所熟悉。因此,在各种统计软件中,以 SPSS 制作的统 计图应用最为广泛。 EXECL 的统计绘图功能非常的强,我们还有必要学习 SPSS 的绘图功能 吗? 这个问题我的看法是:EXCEL 由于它的纯中文界面和简单而强大的绘图功能,使得 可以用它来直接绘制各种简单的统计图,但是,EXCEL 可以直接绘制的统计图种类 有限,象误差条图、自回归图等它就无能为力,即是它支持的线图、条图等,如果 过于复杂,如叠式条图、累计条图等也无法作出,而这些图在统计中是经常会碰到 的,此时就只有采用统计软件来绘制,SPSS 就是其中的佼佼者。 SPSS 应用软件试验指导手册 §5.1 常用统计图 在 SPSS 10.0 版中,除了生存分析所用的生存曲线图被整合到 ANALYZE 菜单 中外,其他的统计绘图功能均放置在 graph 菜单中。该菜单具体分为以下几部分: Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学者可以 通过它对 SPSS 的绘图能力有一个大致的了解。 Interactive:交互式统计图,这是 SPSS 9.0 版新增的内容。 Map:统计地图,这是 SPSS 10.0 版新增的内容。 市面上所能见到的 SPSS 10.0 D 版由于执照不全,并不能安装统计地图模 块。 • 下方的其他菜单项是我们最为常用的普通统计图,具体来说有: 条图 散点图 线图 直方图 饼图 面积图 箱式图 正态 Q-Q 图 正态 P-P 图 质量控制图 Pareto 图 自回归曲线图 高低图 交互相关图 序列图 频谱图 误差线图 其中后面几种图形用于时间序列分析。我们的讲解将这些常规统计图为主, 对交互式统计图和统计地图只举例介绍,就不再全面讲述了。 我们所用的数据集为 SPSS 自带的 anxiety.sav,本章的大多数例子都将围绕该数 据集展开。 5.1.1 操作界面介绍(条图) 5.1.1.1 条图的通用界面 由于不同图形的绘图对话框有相当强的共性,下面我们通过一个简单的例子来 看看绘图菜单的大致界面是怎么样的,通过这个例子大家可以举一反三。 SPSS 应用软件试验指导手册 例 5.1:在数据集 anxiety.sav 中分不同的 subject 对变量 score 值(之和)绘制条 图。 选择 graphs==>bar 后,系统首先会弹出一个简单的导航对话框如下所示: 绘制简单条图(单式条图) 绘制复式条图 绘制堆积条图(分段条图) 定义统计图中数据的表达类型: 条图反映了同一变量若干条记录的分组汇总 条图反映了不同变量的汇总 条图反映了个体观察值 在该对话框中,SPSS 将条图进行了大致的分类,对话框的上半部分用于选择条 图类型,下半部分的 Data in Chart are 单选框组用于定义条图中数据的表达类型。这 里根据我们所需绘制条图的类型,应该选择简单条图,在表达类型中则应选择 "Summaries for groups of cases"。选好后单击 DEFINE 钮,系统开启正式的条图定义 对话框如下: SPSS 应用软件试验指导手册 对话框左侧为通用的侯选变量列表框,右侧的对话框元素依次解释如下: 【Bars Represent 单选框组】 用于定义条图中直条所代表的含义,可以是样本例数、样本数所占的百分比、 累计样本例数、累计样本数所占的百分比或其余汇总函数,在例 5.1 中我们要对变 量 score 的值绘图,因此选择最后一项"Other summary function",系统开启 summary function 对话框如下所示: SPSS 应用软件试验指导手册 该对话框中列出了更多的统计汇总函数,可以满足绝大多数情况的需要。具体 有: • 上部:包括大多数常用统计汇总函数,如均数、标准差、中位数、方差、众 数、最大、最小值、样本例数、变量值之和、累计变量值。 • 中部:可对各记录按大小进行筛选,如上侧百分之多少,或者只选择小于某 个数值的记录。具体的数值在 value 框中输入。 • 下部:可按数值大小值选择取值在某个范围内的记录,具体的范围在 low 和 high 框中输入。 注意上面的一些函数是和前面重复的,如样本例数。 此外,对话框最下侧还有一个 Values are grouped midpoints 复选框,当选中 median of values 或 percentile 单选框时该框变为可选,选中则表明数据为频数表格 式,所输入的数值为组中值。 根据我们的目的,这里选择 sum of values 单选框,单击 continue 后系统回到上 一个对话框。 【Category Axis 框】 SPSS 应用软件试验指导手册 用于选择所需的分类变量,此处必选。这里根据要求,将 subject 选入,可以见 到此时 OK 已经变黑可用了。 【Template 框】 用于选择绘制条图的模板,一般较少用。 【Titles 钮】 用于输入统计图的标题和脚注,最多可以输入两行主标题,一行副标题,两行 脚注。 【Options 钮】 弹出 Options 对话框,用于定义相关的选项,有: o Confidence Interval 框 输入需要计算的均数差值可信区间范围,默认为 95%。如果是和总体均数为 0 相比,则此处计算的就是样本所在总体均数的 可信区间。 o Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是具体 分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis), 或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。 现在,我们已经完成了绘制该图所需的工作,单击 OK,系统绘出统计图如下: SPSS 应用软件试验指导手册 至于 Data inChart Are 中的另两种情况 Summaries of separate variables 和 Values of individual cases,其对话框界面极为简单,可以说是一目了然,这里不再多讲,只 指出以下几点: • 在 Summaries of separate variables 的对话框中,可以用 Change summary 钮更 改汇总函数。 • 在 Values of individual cases 的对话框中,下方 category labels 的选择并不影 响做出直条的多少,只会影响 X 轴表示的内容,默认是记录号。 5.1.1.2 复式条图与分段条图的界面 复式条图与分段条图的界面并非全新的东西,只是在前面的简单界面上增加了 一些元素,让我们再通过一个例子来看看: 例 5.2:在数据集 anxiety.sav 中分不同的 subject 对变量 score 值(之和)绘制条 图,并且按变量 trial 的不同取值堆积(分段): 由于要按变量 trial 的不同取值分段,因此在导航对话框中就不能选 simple,而 应根据目的选择 stacked,单 击 define 后系统开启的条图定义对话框和我们前面所用 的略有不同,具体来说在 Category Axis 框附近不同,现在 Category Axis 框下面多 了些东西如下所示: 选择 stacks 时的情况 选择 clusters 时的情况 显然,当需要做复式条图时,将所需的分类变量选入 stacks 框中即可,做分段 条图的情况也与此类似。 以例 5.2 为例,其操作步骤如下: 1. Graphs==>bar 2. Clustered:选中 3. Summarizes for groups of variables 单选框:选中 4. 单击 Define 5. Bars repesent 框:选入 score。 6. Other summary function 单选框:选中 7. Variable 框:选入 subject 8. Change summary 钮:单击 SPSS 应用软件试验指导手册 9. Sum of values 单选框:单击 10. 单击 continue 钮 11. Category Axis 框:选入 subject 12. Define stacks by 框:选入 trial 13. 单击 OK 绘出的条图如下所示: 但是,在 Values of individual cases 的对话框中情况有些不同,原先 Bars repersent 框只能选入一个变量,做复式条图和分段条图时该框中可以选入多个变量了,其他 的内容不变。 5.1.2 其他常用统计图 5.1.2.1 散点图 散点图是各种统计图中比较简单的一种,共分为 simple、matrix(以矩阵的形式 显示多个变量间两两的散点图)、overlay(将多个变量间两两的散点图同时做在一 张图上)和 3D(将 X、Y、Z 三个变量间的相关散点图做在一个立体空间中)四种, 其中需要解释的比较特殊的内容有: • Set marks by 框:选入一个标记变量,根据该变量取致的不同对同一个散点 图中的各点标以不同的颜色(或形状),例如在数据 cars 中我们以 horse 和 weight 做图,如果用 orgion 的大小来做 marks,则两次做出的图如下: SPSS 应用软件试验指导手册 没有 mark 变量时的情况 用 orgion 做 mark 变量时的情况 • Label cases 框:当编辑图形在图形选项中选择显示 labels 时,图形默认显示 记录号,如果在这里选择了 label 变量,则显示该变量的取值。 • 做出的 3D 图形可以在编辑时进行三维旋转,从多个角度进行观察。 5.1.2.2 线图 线图实际上和条图是一回事,可以认为它就是条图的变形,条图是用直条的高 低表示多少,而线图是用点的高低来表示,然后又用直线将各点连接而成。 5.1.2.3 饼图 饼图的做法简直太简单了,不值一提! 5.1.2.4 面积图 面积图的做法是和线图、饼图类似的,比如堆积面积图是将各个指标值相加而 成,和分段式条图非常类似。 5.1.2.5 直方图 直方图用于观察某个变量的分布情况,如果选择了 display normal curve 复选框, 则会同时做出一条当前变量理想状况的正态分布曲线来,和该曲线相比,你就可以 知道变量的实际分布究竟差了多远。 SPSS 应用软件试验指导手册 5.1.2.6 其他 P-P 图和 Q-Q 图都是用来观察变量是否服从正态分布的;质量控制图则用来观 察个体值是否有超过正常值范围的情况出现;箱式图的作用和它类似,只是换了一 种表达方式;其余的几种图几乎都是用与时间序列模型的。 5.1.3 常用统计图编辑方法详解 该部分内容请参见 4.5 节:图片编辑方法详解。 §5.2 交互式统计图 交互式统计图是 SPSS 8.0 版新增的绘图类型,包括了交互式条图、线图、面积 图、饼图、散点图、箱式图、误差限图和和直方图共七种类型,那么,这种新的统 计图类型和普通的统计图相比有什么优越性,或者说,它的主要卖点--交互性都体 现在哪里呢? 在我看来,“交互式”这三个字主要体现在以下几个方面: • 对话框的交互。它的对话框全部采用拖方式操作,并且每一个元素的可操作 性都大大强于普通对话框,以前需要两至三层对话框才能完成的工作,现在 在一层对话框中就可以完成了。 • 图形内容的交互。在技术上,普通统计图存储的是图形元素,因此编辑时只 能就图形元素的特征,如颜色、线型等加以修改;而现在的交互式统计图完 SPSS 应用软件试验指导手册 全不同,它存储的是原始数据或者绘图用的中间结果(如均数、标准差等), 因此当图形绘制完毕后仍能对图形进行彻底更改,如加入锌的变量(在散点 图中加入标示变量,甚至二维变三维)、删除某一部分数据、甚至改变所会 图形的基本类型,如将条图改绘为线图等,只要所需信息相同,随你如何转 换!不但如此,由于这个存储特点,现在我们还可以绘出以前无法直接得到 的图形,如将一个数据透视表的内容用图形来表示! 哈哈,统计表,我们要拿你来做图! 这就是做出的交互式统计图 把它转成三维怎么样? • 增强的图形编辑能力。同样由于它的存储特点,现在交互式统计图的图形编 辑能力达到了有恃无恐的地步!几乎任何东西都可以拿来改,也可以往里添 加许多辅助线,如下面所示的一样: SPSS 应用软件试验指导手册 朴素的美 削尖脑袋的模样 墙上长满了爬山虎 太阳照在红墙内外 反客为主的蓝飘带 我没有放倒! 请注意,最后一幅图是在三维实时旋转时截取的(三维实时旋转也是交互式统计 图新增的功能之一),因为如果我不这样做,它可能会那样一直旋转下去,我这样 也算是挽救了他吧! SPSS工具简介··························································································································1 试验 1 数据文件管理 ··············································································································5 一、试验目的与要求 ·······································································································5 二、试验原理 ···················································································································5 三、试验内容与步骤 ·······································································································6 四、备择试验 ·················································································································15 试验 2 描述统计····················································································································17 一、试验目的与要求 ·····································································································17 二、试验原理 ·················································································································17 三、试验内容与步骤 ·····································································································17 四、备择试验 ·················································································································29 试验 3:统计推断 ··················································································································30 一、试验目的与要求 ·····································································································30 二、试验原理 ·················································································································30 三、试验演示内容与步骤······························································································30 四、备择试验 ·················································································································39 试验 4:方差分析 ··················································································································40 一、试验目标与要求 ·····································································································40 二、试验原理 ·················································································································40 三、试验演示内容与步骤······························································································40 四、备择试验 ·················································································································44 试验 5:相关分析与回归分析·······························································································46 一、试验目标与要求 ·····································································································46 二、试验原理 ·················································································································46 三、试验演示内容与步骤······························································································47 四、备择试验 ·················································································································54 第 4 章 SPSS的图形 ············································································································55 1 条形图·······················································································································55 1.1 条形图图形的类型选择·················································································55 1.2 简单条形图个案分组综述方式举例······························································55 1.3 简单条形图变量综述方式举例 ·····································································57 1.4 简单条形图个案综述方式举例 ·····································································58 1.5 复合条形图个案分组综述举例 ·····································································59 1.6 堆栈条形图个案综述方式举例 ·····································································60 2 单线图·······················································································································60 2.1 简单单线图 ····································································································60 2.2 Sample-Summaries for groupes of cases ·························································60 2.3 Multiple charts-Summaries for separae variablies ···········································60 2.4 Drop-line Chart-Values of individual cases ·····················································61 3 其他图形举例 ···········································································································61 3.1 面积图 ············································································································61 3.2 帕累托图(pareto) ·························································································62 3.3 圆图(Pie chart)································································································63 3.4 箱线图 ············································································································63 3.5 误差条图 ········································································································65 4 图形的编辑 ···············································································································66 4.1 基本规定 ········································································································66 4.2 常用快捷操作·································································································67 4.3 主菜单功能 ····································································································68 4.4 用派生坐标作图·····························································································72 77 5 SPSS与microsoft powerpoint转换·············································································75 ANOVA···································································································································77 ANOVA···································································································································83 第4章 SPSS的图形 SPSS 具有非常强大的制图功能,能绘制出许多统计图形,这些图形可以由统计分析过程产生,也可以直 接通过 Graph 产生。本讲主要介绍,通过数据直接绘制统计图过程。通过 SPSS 的 Graph 产生统计图可分为 4 个过程,①建立数据文件或录入、读取数据;②生成统计图的选择;③修饰或编辑生成的统计图;④输出或 打印统计图。 1 条形图 1.1 条形图图形的类型选择 根据条形图的形状或样式有下列 3 个选项。 (1) 简单条形图(Sample) (2) 复合条形图(Clustered) (3) 堆栈条形图(Stacked) 根据统计量综述方式的不同,也有 3 种不同的方式。 (1) 个案分组综述方式(Summaries for groupes of cases)。 (2) 变量分组综述方式(Summaries for separae variablies)。 (3) 个案综述方式(Values of individual cases)。 根据条形图的形状和统计量综述方式的不同,共可生成 9 种不同的类型的条形图。 1.2 简单条形图个案分组综述方式举例 (1) 打开数据美国银行调查数据,选择/graph/bar..../打开 bar charts 对话框,选择/sample/summaries for groupes of cases/。 (2) 打开/Sample/Summaries for groupes of cases 对话框。选择变量/educ/→/category/。/Bars Represent/选择 N of cases,为系统默认选项,OK 生成条形图。该图中 X 轴由 educ 变量的不同取值所决定,条带高度度由 educ 变量的不同取值所对应的个案数决定。输出结果见下左图。 (3) 如果不用缺省设置,打开 DSC 对话框,educ→category,/cum n of cases,将用分类变量的当前取值 与当前取值以前各值对应的个案的累加和作为条形图中条带的长度。输出结果见下右图。 (4) 注意事项,通过选择不同的选项,可能会得到同样的结果。如打开/Sample/Summaries for groupes of cases 对话框,选择/educ/→/category/,不选 cum n of cases,而选择/other summary function/。变量 /jobcat/→/variablies/栏中。单击下面的按钮/chang summary /,打开/ summary function/对话框,见下图,选择 /cumulative sum/选项,单击 contune/OK。生成条形图可以看出与上图相同。但含义有所不同,主要表现 Y 坐 标轴的变量名称不一样。注意区别。 表示各工种人员中具备某一受教育水平的个案数与前面各受教育水平对应的个案数的累加值。各条带从 左到右呈现逐渐递增的趋势,并在最后达到总个案数。打开 DSC 对话框,可以给图形加上标题和图注。 1.3 简单条形图变量综述方式举例 (1) 打开美国银行调查数据,选择/graph/bar..../打开 bar charts 对话框; (2) 选择/sample/e/summaries for separae variablies /选项,打开/sample/summaries for separae variablies/ 对话框,bars represent 输入变量名,系统自动对其数据求均值,也可以通过单击 other summary....在 summary function 的窗口中选综述函数,在 bars represent 窗口输入变量必须在 2 个。变量/salary /, /salbegin /→bars represent,其它按照缺省设置。 template,表示使用模板,是否需要使用来自其他文件里的特殊格式的图形。 (3) 单击 OK,生成条形图,X 轴或不同的条带代表/salary/和/salbegin/,该图中的条带长度代表这两个变 量的平均工资。输出结果见下图。 1.4 简单条形图个案综述方式举例 这种模式是每一观测量对应一个分类变量生成一个条形图。 (1) 打开小李家收入数据,选择/graph/bar/,打开 bar charts 对话框,选择/Sample/Values of individual cases/, 打开对话框; (2) 选择变量奖金→ bars represent,分类标签/case number/,OK,生成条形图,X 轴代表 6 个个案,该图 中的条带长度代表这 6 个个案奖金。输出结果见下图。 (3) 注意事项:如果数据文件的个案较多,首先要定义或选择分类标签或个案数,选择方法如下。打开美 国银行调查数据,选择/data/select case/based on time or case range/range 1 thro 10/OK。此时表示在所有的个案 中只选了前 10 例,为下一步生成个案综述方式条形图作准备。 1.5 复合条形图个案分组综述举例 在 bar charts 对话框中,选 clustere 图例,选复合条形图,根据统计综述方式不同,可以生成 3 种不同的 复合条形图。 (1) 打开美国银行调查数据/graph/bar/打开 bar charts 对话框,/clustere/summaries for groupes of cases/,打 开对话框,添加了一个/define cluster by/窗口。 (2) 将工种变量输入 category/,/sex/→/define cluster by/,其它按照缺省设置/OK。生成条形图,该图中的 条带长度由 educ 变量的不同 sex 取值所对应的个案数决定。 输出结果见图。 1.6 堆栈条形图个案综述方式举例 2 单线图 线图是以线段的上升和下降来说明事物变化情况的一种统计图。主要描述在时间上或顺序上的变化趋势 或两个现象之间的相互关系。 2.1 简单单线图 根据线图类型可分为 3 种,单线图(sample)、多线图(Multiple)和垂线图(Drop-Line)。 统计量描述方式的不同,又有 3 种不同的方式。summaries for groupes of cases;summaries for separae variablies;values of individual cases。 2.2 Sample-Summaries for groupes of cases 美国银行调查数据/graph/line/sample/summaries for groupes of cases/define,enterDSC, educ→category,bars represent→N of case/ok。输出结果见。可以看出,操作步骤同条形图相应方法相同,图的含义相同,不同的是 由线性代替了条形图。 2.3 Multiple charts-Summaries for separae variablies 打开美国银行调查数据,/graph/bar/打开 line charts 对话框,选择 Multiple charts/summaries of separate variables /打开 DMSSV 对话框。工种变量输入 category/,/sex/→/define cluster by/,/current salary , salbegin/→lines represent 其它按照缺省设置/OK。 2.4 Drop-line Chart-Values of individual cases 打开小李家数据/打开 DDVC 对话框,月工资、月奖金和其他收入 →points represent/category labels→case number/ok/。生成垂线图,该图表示位于前 6 个月月工资、月奖金和其他收入 的总合和各自所占的比例。 3 其他图形举例 3.1 面积图 面积图与线形图相比更厚实、深刻,因此它更实用于需要强调数据的某种变化的情况。 Sample area charts-summaries for groupes of case 举例。data 美国银行调查。/Area charts/sample area charts/summaries for groupes of cases/。/difine/打开对话框; 选择/工种→category,Area Pepresents →N of case/ok,性别进入 Define Areas By。生成面积图如下。 3.2 帕累托图(pareto) 又称排列图和主次因素图。 例题(Pareto chart/simple/summaries for separae variablies ) data/xiaolishuju/Graph/pareto chart/simple/summaries for separae variablies/define/open/打开 DSPSSV/月工资、月 奖金和其他收入 →variables/titles/OK。 3.3 圆图(Pie chart) 圆图(Pie chart)是以圆的整体面积代表被研究的对象,按各构成部分的比重、比例、大小割成若干个扇形 表示各部分与总体的比例关系。 (1)例题 1 打开 data/xiaolishuju/Graph/Pie/summaries for groupes of cases/支出→variable/Change Summary/Sum of Values/contune/OK。 如果要改变图形的格式,Edit/Option/Charts/Fill Patterns and Line Styles/Cycle through Colors,then/确定。完 成格式更改。如果要添加数值标注,双击所要编辑的图形,进入编辑状态,Chart/Label/Text,Value,Percents/ok。 (2)例题 2 data/xiaolishuju/Graph/Pie/summaries separae variablies/define/open/打开 DSPSSV/月工资、月奖金、其他收 入 和支出→variables/titles/ok。 如果需要将某一个扇面离开圆图,双击所要编辑的图形,进入编辑状态,选中该扇面,Format/Explod Slice/。 3.4 箱线图 是一种描述数据分布的统计图形,利用箱线图可以从视觉上观察变量的分布情况。箱线图主要表示变量 的中位数、第 25 百分位数、第 75 百分位数等统计量表示变量的 50%的观测值落在这一区域。下面举例说明。 (1) 打开美国银行调查数据; (2) 选择箱线图选项,打开对话框;选择如下。 (3) 单击确定,打开对话框。选择现在工资进入变量,性别进入分类轴,受试者编号进入个案编号标签。 如下图。 (4) 单击 OK 生成箱线图。 (5) 箱线图说明。 中间的矩形框是主体;触须线是中间的纵向直线,上截线是变量值本体最大值,下截线是变量值本体最 小值 。奇异值使用标记/0/,表示其变量值超过了第 75 百分位数与第 25 百分位数差值的 1.5 倍。极值使用标 记/*/,表示其变量值超过了第 75 百分位数与第 25 百分位数差值的 3 倍。 3.5 误差条图 是一组描述数据总体均值和离散程度的统计分布图,利用它可以从视觉上观察变量的均值、置信区间、 标准差和标准误等情况。下面举例说明。 数据文件说明,例题测量了 24 例猕猴上下颌牙齿的长和宽。牙齿的形态见下图,试分析(1)上下颌之 间有无差异;(2)雌雄之间有无差异;(3)左右之间有无差异;(4)能否用牙齿变量建立判别函数来进行性 别之间性差判别,正确判别率是多少?(5)能否找到一个判别函数,使其判别率较高而使用变量较少。 (1) 牙齿形态图如下。 (2) 读取数据如下; (3) 选择误差条状图,打开对话框; (4) 单击确定,打开变量选择对话框; (5) 单击 OK,显示误差图结果。注意在此离散程度选择了标准差,系统默认是选择 95%的置信区间。还 可以选择平均值的标准误。 4 图形的编辑 下面主要讲解一些图形修改和重新编辑的问题。要完成图表,必须经过修改。 4.1 基本规定 4.1.1 图形分类 分类型图形:根据分类型数据生成的图形,如条形图、线形图、面积图、圆图和高低图等。 观测量型图形:根据观测量型数据生成的图形,如散点图、直方图等。 4.1.2 图形组成 图形有图列和图形要素两部分组成,图列是指能表达统计量的一个或几个相关的图;图形要素是指图列 以外的其他部分。其中也包括图列的颜色、线条等因素; 在分类型图形中,坐标轴分别为量度轴和分类轴; 观测量型图形坐标轴分别为 X 轴和 Y 轴;而三维散点图坐标轴分别为 X、Y、Z 轴; 4.1.3 标题及注释 在图形组成中,包括标题及注释:主要有图形标题、图形子题、注释,在量度轴上有主刻度和次刻度及 刻度标注,在量度轴旁有标目,图形右侧有图例,旁有图例标注。 4.2 常用快捷操作 要对当前的图形进行编辑,首先选中要进行编辑的图形,图形出现黑色边框,再在图形边框内双击进入 图形编辑器窗口。该窗口中出现的主菜单和工具图标主要是对当前图形进行编辑用的。见下图。 双击图列,打开当前图形数据对话框;双击图形要素,打开图形要素对话框,双击图形附近,打开图形 选项对话框。通过双击修饰对象或单击功能键,可以打开大多数图形编辑对话框。例如双击图列,打开对话 框。该对话框可以对分类轴的变量进行排序。 4.3 主菜单功能 下面按照主菜单的顺序简单介绍它们的主要功能。 4.3.1 file z save chart template:系统将图形编辑器中的图形保存为图形模板; z export chart:系统将图形编辑器中的图形按照一定的格式输出; z close:退出图形编辑器中. 4.3.2 edit z copy chart:拷贝当前图形。 z options:可以利用该选项的 chart 对图形编辑器中的图形进行基本格式的设置。 z chart template:用于设置是否应用摸板; z chaart aspect :用于设置图形外框的宽高比; z current setting:当不用应用摸板时,用来对新图形进行设置,设置内容包括字型、填充方式和线型, 显示图形内框和外框,显示量度轴和分类轴的网格线。 4.3.3 view z status:显示或取消状态条; z toolbar:利用该对话框可以控制工具条显示、创建和定制新的工具条或工具图标。 4.3.4 gallery 用于相对应的图形之间的相互转换; 规则:简单图形不能转换成复合图形;分类型图形不能转换成观测量型图形,箱线图不能转换成其他图 形;请按照对话框的提示进行操作,图形转换有许多规则。 举例如下:条形图、线形图、面积图之间的转换 组合图转换:组合图转换是根据需要将条形图、线形图、面积图生成在同一个图形内,操作过程, gallery-mixed/mixed chart/replace or new/bar/area display data 对话框,如果图中同时出现三种图形,那么线图最 前,条形图次之,面积图最后。 4.3.5 chart options:根据当前的图形打开不同的对话框,可以对当前的图形进行修改。 当前图形为条形图、线形图、面积图等时,双击鼠标打开 options 对话框,chang scale to 100% ,系统自 动将原来数据的大小绘制各类数据占总量的百分比。 z axis:通过对话框可以对 X、Y 坐标轴进行修改。如轴标签、网格线、坐标轴方向等。 z scale :liner,普通线性标尺 log 以 10 为底的对数标尺; z range/data:min,max:实际数据最大值和最小值;display: min,max:显示范围的最大值和最小值; z major,minor division/increment:主次刻度选项; z ticks,grid:刻度标志和格线标志;bar oringin line:X 坐标轴在 Y 轴上的起始点; z display labels:Y 坐标值显示;display derived axis:显示次生轴选项,打开派生量度轴对话框; z definition/定义栏。 z ratio:scale axis □units equal derved axis □units/分别输入 2 个数字,表示量度轴与派生轴上单位之间的 比例关系;match scale axis□ vlues derived axis epual □ vlues/表示量度轴与派生轴上单位之间的匹配关 系; z major,minor division/increment:主次刻度选项;注意次刻度必须为主刻度的倍数; z label display:显示派生轴上的数值; z decimal places:显示派生轴上的数值的小数点保留位数; z leading charactor:量度刻度标注的第一个数值; z traiding charactor:量度刻度标注的最后一个数值; z 1000s separator :表示对数据进行分节; z scaling:作为刻度换算刻度的比例因子。 z category axis/display labels/ label text/ 可改变 X 轴的数值; 散点图和重叠散点图坐标轴与条形图坐标轴大同小异。 另外可选择分类轴,打开分类轴对话框。进行设置。 z bar spacing...设置各条带之间的距离。 z title:略;footnote:略; z legend:用于修改当前图形的图列,包括图例的显示、题目、题目位置、图例的标注等。见下图。 z annotation:设置图形单元的注释; z reference line:设置参考线; z outer frame and inner frame:设置图形的外框和内框; z refresh:图形恢复为原来大小。 z scale/display axis line/axis title/title justfication:标题的位置; 4.4 用派生坐标作图 (1) 调入 data 美国社区调查; (2) 选择/graph/bar/clustered/values of individual cases/define/;open 对话框; (3) 运行结果显示总人口,中等平均校龄→bars represents/,编号→variable/ok/。open output1-spss viewer/。 运行结果显示如下,至少发现两个问题,一是变量中等学校平均校龄在图上没有显示出来;二是两个变量的 单位不一致,根本无法在一起作图。 (4) 下面要解决这个问题,提示要让变量/中等学校平均校龄/在图中显示出来必须进行变量转换;不同单 位显示在一个图中,需要增加次生坐标轴。下面简述如下。 (5) 建立新变量 (6) 打开/data 美国社区调查/,选择/Transform/compute/,打开计算对话框,增加新变量,命名为校龄。将 变量/中等学校平均校龄/进入右边的选项框,增加 500 倍。运行结果和对话框见下图。 (7) 用新变量作图,作图方法选择如下。 (8) 变量选择对话框如下。 (9) 作图结果如下,经比较发现第一个问题已经解决。下面的问题是要解决次生坐标和单位。双击当前图 形进入图形编辑状态。 (10) 选择/chart/axis/,打开/scale selection 对话框,选择/scale/坐标轴,单击 OK。进入/scale axis/对话框, 见下图。对当前坐标轴使用系统默认选项,在此主要设置次生坐标轴。选择 /display derived axis/,单 击 /derived axis/按钮,打开/derived axis/对话框。 在 Definition 栏中,选择/scale axis/Ration→500 units equal /derived axis/ →1 unit 。表示原来的变量增加了 500 倍,或者说在次生坐标轴上 500 相当于 1。 Match→1200 values(主坐标轴的最大单位) equal 24 (1200/500) valus(相当于次生坐标轴的最大单位) 刻度 increment :主刻度 major→10 ; 次刻度 minor→4/,select ticks/,select labels/,display/decimal places→2/OK。continue。结果见下图。 5 SPSS与microsoft powerpoint转换 附:将 SPSS 上的图输入到 microsoft powerpoint 并通过去组合而转换成可编辑图形。 在 microsoft powerpoint 上去掉 SPSS output fig 的背景,操作步骤如下, copy spss output fig/open powerpoint,/编辑/选择性粘贴/选/图片(增强型图元文件)/,/spss output fig 粘 贴在 powerpoint 上,但此图附有白色背景/选择此图(单击左键)/单击右键/选/组合/,选/取消组合/提示,是 否转换成 microsoft office 图形/是/去掉组合选框/选中图外框/ delete/原图外框的白色背景去掉,再选中图内框/ delete/原图内框的白色背景也去掉/此时背景全部换成 microsoft powerpoint 所选背景/下面就可以用 powerpoint 的菜单来对远 SPSS 的图进行编辑,包括图的颜色、文字、标记、线条颜色、粗细等进行编辑。 表格的转换与图形类似,不再赘述。 其他图形还有,Sequence 时间序列图,Autocorrelations 自相关图形,Cross-Correlations 互相关图形, Spectral 谱系图等。 协方差分析的基本原理 1.协方差分析的提出 无论是单因素方差分析还是多因素方差分析,它们都有一些人为可以控制的控制变量。在实际问题中, 有些随机因素是很难人为控制的,但它们又会对结果产生显著影响。如果忽略这些因素的影响,则有可能得 到不正确的结论。 例如,研究 3 种不同的教学方法的教学效果的好坏。检查教学效果是通过学生的考试成绩来反映的,而 学生现在考试成绩是受到他们自身知识基础的影响,在考察的时候必须排除这种影响。又比如,考查受教育 程度对个人工资是否有显著影响,这时必须考虑工作年限因素。一般情况下,工作年限越长,工资就越高。 在研究此问题时必须排除工作年限因素的影响,才能得出正确的结论。再如,如果要了解接受不同处理的小 白鼠经过一段时间饲养后体重增加量有无差别,已知体重的增加和小白鼠的进食量有关,接受不同处理的小 白鼠其进食量可能不同,这时为了控制进食量对体重增加的影响,可在统计阶段利用协方差分析(Analysis of Covariance),通过统计模型的校正使得各组在“进食量”这个变量的影响上相等,即将进食量作为协变量,然后 分析不同处理对小白鼠体重增加量的影响。 为了更加准确地控制变量不同水平对结果的影响,应该尽量排除其它在实验设计阶段难以控制或者是无 法严格控制的因素对分析结果的影响。利用协方差分析就可以完成这样的功能。协方差分析将那些难以控制 的随机变量作为协变量,在分析中将其排除,然后再分析控制变量对于观察变量的影响,从而实现对控制变 量效果的准确评价。 协方差分析要求协变量应是连续数值型,多个协变量间互相独立,且与控制变量之间没有交互影响。前 面单因素方差分析和多因素方差分析中的控制变量都是一些定性变量,而协方差分析中既包含了定性变量(控 制变量),又包含了定量变量(协变量)。协方差分析在扣除协变量的影响后再对修正后的主效应进行方差分 析,是一种把直线回归或多元线性回归与方差分析结合起来的方法,其中的协变量一般是连续性变量,并假 设协变量与因变量间存在线性关系,且这种线性关系在各组一致,即各组协变量与因变量所建立的回归直线 基本平行。当有一个协变量时,称为一元协方差分析,当有两个或两个以上的协变量时,称为多元协方差分 析。以下将以一元协方差分析为例,讲述协方差分析的基本思想和步骤。 2.协方差分析的计算公式 以单因素协方差分析为例,总的变异平方和表示为: QQ Q Q++总 控制变量 协变量 随机变量= 协方差分析仍然采用 F 检验,其零假设 0H 为多个控制变量的不同水平下,各总体平均值没有显著差异。 F 统计量计算公式为: 2 2 SF S 控制变量 控制变量 随机变量 = , 2 2 SF S 协变量 协变量 随机变量 = 以上 F 统计量服从 F 分布。SPSS 将自动计算 F 值,并根据 F 分布表给出相应的相伴概率值。 如果 F控制变量 的相伴概率小于或等于显著性水平,则控制变量的不同水平对观察变量产生了显著的影响; 如果 F协变量 的相伴概率小于或等于显著性水平,则协变量的不同水平对观察变量产生了显著的影响。 3.协方差分析需要满足的假设条件 (1)自变量是分类变量,协变量是定距变量,因变量是连续变量; (2)对连续变量或定居变量的协变量的测量不能有误差; (3)协变量与因变量之间的关系是线性关系,可以用协变量和因变量的散点图来检验是否违背这一假设; (4)协变量的回归系数是相同的。在分类变量形成的各组中,协变量的回归系数(即各回归线的斜率) 必须是相等的,即各组的回归线是平行线。如果违背了这一假设,就有可能犯第一类错误,即错误地接受虚 无假设。 (5)自变量与协变量是直角关系,即互不相关,它们之间没有交互作用。如果协方差受自变量的影响, 那么协方差分析在检验自变量的效应之前对因变量所作的控制调整将是偏倚的,自变量对因变量的间接效应 就会被排除。 4.协方差分析 SPSS 的示例 在进行新的外语教学方法实验时,往往需要在实验前和实验后对实验组和控制组的学生都进行成绩测试, 以便确定新的教学方法对实验后成绩的影响。显然,实验前成绩与实验后成绩之间会有内在联系,如果要更 准确地确定新的教学方法的效果,有必要考虑实验前成绩对实验后成绩的影响,也就是说可以把前测成绩作 为协变量进行协方差分析。 本例子中的实验研究共有 15 名受试者,将这些受试者随机分为 3 组,各组有 5 人,然后对这三组进行不 同的教学方法实验。其中一组为控制组,实验时不对教学方法进行改变,仍然采用以前的传统教学方法。另 两组为实验组,分别用交际法和沉浸法两种教学方法进行教学方法实验。实验开始前对这三组学生用相同的 试卷进行了英语测试,得出了前测成绩。实验结束后,用新的试卷同时对这三组学生进行了测试,得出了后 测成绩。然后将要分析的数据输入到SPSS中去。见 数据录入表格所示。我们用 1 表示传统教学方法,2 表示 交际法,3 表示沉浸法。 我们先不考虑前测成绩,以“教学方法”为因素变量,“后测成绩”为因变量进行单因素方差分析。从方差分 析结果来看,概率值为 0.463(远远大于 0.05 的显著性水平),说明三种教学方法在后测成绩上似乎没有显著 差异,但如果以前测成绩作为协变量进行方差分析时,分析结果可能就会有差异。以下将以前测成绩作为协 变量进行方差分析,检验三种不同教学方法是否真的没有显著差异。 未作协方差分析之前的单因素方差分析表 ANOVA 后测成绩 Sum of Squares df Mean Square F Sig. Between Groups 213.333 2 106.667 .821 .463 Within Groups 1560.000 12 130.000 Total 1773.333 14 用 SPSS 进行协方差分析,可以分两大步骤进行,首先检验回归斜率相等的假设,然后进行协方差分析。 一、回归斜率相等的假设 1、分组散点图 对于本例,首先应了解三种教学方法的前测成绩与后测成绩的回归线是否平行,即前测考试成绩的影响 在分别采用三种教学法的三个班级中是否相同,这可以用前测成绩与教学法是否存在交互作用来表示。对于 该问题,首先可以作分组散点图,观察三组直线趋势是否近似,然后看交互作用有无统计学意义,当交互作 用无统计学意义时,则进行协方差分析,得出统计结论。 在菜单中选择 Graphs→Scatter/Dot,打开 atter/Dot 对话框,选择 Simple Scatter 选项,按右上角 Define 按 钮,以前测成绩为 X 轴,后测成绩为 Y 轴,教学方法作为(Panel by →Rows),作出散点图,注意在作出散点 图之后,左键双击输出的图形,调出 Chart Editor 对话框,按照菜单 Element→Fit Line at Total,可以得到如下 图所示的散点图,从图中可知三组中前测成绩和后测成绩有明显的直线趋势,且三组中直线趋势的斜率接近, 因此从图形上未发现违反前提条件的迹象,可以进一步作假设检验,检验各组总体斜率是否相等。 如果按照菜单 Graphs→Scatter/Dot,打开 atter/Dot 对话框,选择 Simple Scatter 选项,按右上角 Define 按 钮,以前测成绩为 X 轴,后测成绩为 Y 轴,教学方法作为标记变量(Set markers by),作出散点图,注意在作 出散点图之后,左键双击输出的图形,调出 Chart Editor 对话框,按照菜单 Element→Fit Line at Total,可以得 到如下图所示的散点图,作出散点图,注意在作出散点图之后,左键双击输出的图形,调出 Chart Editor 对话 框,按照菜单 Element→Fit Line at subgroups,可以得到如下图所示的散点图,从图中可知三组中前测成绩和 后测成绩有明显的直线趋势,且三组中直线趋势的斜率接近,因此从图形上未发现违反前提条件的迹象,可 以进一步作假设检验,检验各组总体斜率是否相等。 2、组内回归斜率相同检验 步骤 1:选择协方差分析菜单(与 GLM 单因素方差分析菜单相同)。点击数据编辑界面的 Analyze 命令, 选择 General Linear Model,并打开 Univariate 对话框。 步骤 2:选定因变量、因素变量和协变量。在对话框中左边变量列表中选择“后测成绩”作为因变量,并将 其移入 Dependent Variable 方框中。然后选择“教学方法”作为因素变量,将其移入到 Fixed Factor(s)方框中。再 选择“前测成绩”作为协变量,将其移入 Ccvariate(s)方框中。 步骤 3:确定分析模型。在对话框中单击 Model 命令按钮,进入 Univariate Model 对话框中。该对话框提 供了两种不同形式的模型,完全因素(full factorial)和自定义因素(custom)模型。由于要进行回归斜率相同 的检验,所以本例使用自定义因素模型。点击 Custom 选择按钮后,从左边的变量列表中选择“教学方法”,点 击右向箭头将其移入 Model 方框中。用同样的方法将变量列表中的“前测成绩”移入 Model 方框中。最后在变 量列表中连续点击“教学方法”和“前测成绩”,同时选中它们,再点击右向箭头,Model 方框中会出现“教学方 法*前测成绩”字样,意为进行交互效应分析,即检验回归线斜率相等的假设。点击 Continue 命令按钮回到主 对话框中,并点击 OK 按钮提交程序运行。 组内回归斜率相同检验结果 Tests of Between-Subjects Effects Dependent Variable:后测成绩 Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 1498.531(a) 5 299.706 9.816 .002 Intercept 632.390 1 632.390 20.711 .001 教学方法 84.312 2 42.156 1.381 .300 前测成绩 86.072 1 86.072 2.819 .127 教学方法*前测成绩 166.488 2 83.244 2.726 .119 Error 274.802 9 30.534 Total 47700.000 15 Corrected Total 1773.333 14 a R Squared = .845 (Adjusted R Squared = .759) 上表是组内回归斜率相同检验结果,教学方法与前测成绩的交互效应检验的 F 值为 2.726,概率值为 0.119 (大于 0.05),没有达到显著性水平,表明三组的回归斜率相同,即各组的回归线为平行线,符合了协方差分 析的回归斜率相同的条件。这一结果表明,下面所进行的协方差分析的结果是有效的。 二、协方差分析步骤 步骤1:选择协方差分析菜单(与GLM单因素方差分析菜单相同)。点击数据编辑界面的Analyze命令,选择 General Linear Model,并打开Univariate对话框。 步骤2:选定因变量、因素变量和协变量。在对话框中左边变量列表中选择“后测成绩”作为因变量,并将其移 入Dependent Variable 方框中。然后选择“教学方法”作为因素变量,将其移入到Fixed Factor(s)方框中。再选择“前 测成绩”作为协变量,将其移入Ccvariate(s)方框中。 步骤3:选择组建对比方式和输出结果。由于有了协方差,无法使用主对话框中Post Hoc命令按钮进行组间多 重比较。但是可以按照下面的方法进行。在主对话框中点击Option按钮,进入结果输出选择对话框中,从左边 的因素变量列表中选择“教学方法”将其移入Display Means for方框中,意为输出不同教学方法后测成绩调整后 (考虑了协变量效应之后)的边缘平均值。选择Compare main effects,意为对“教学方法”各组的后测成绩平均 值进行组间比较。在Confidence interval adjustment 下拉菜单中选择LSD,意为进行Tukey LSD事后检验。 选择输出结果时,在 Display 部分选择 Descriptive statistics、Homogeneity tests,分别意味着输出每一组的 描述统计量和方差齐性检验(见下图) 步骤 4:指定模型形式。在主对话框中点击 Model 按钮进入 Univariate:Model 对话框。本例采用完全因 素模型,即点击 Full factorial 按钮(见下图)。完全因素模型包括全部因素变量和协变量的主效应、因素变量 间的交互效应,但不包括与协变量的交互效应。由于本例中只有一个因素变量和一个协变量,没有交互效应, 计算结果只会有主效应。至此为止,所有对话框指定完毕,点击 Continue 按钮回到主对话框,再点击 OK 按 钮提交程序运行即可。 三、协方差分析输出结果及说明 因素变量表 Between-Subjects Factors 传统教学法 5 交际法 5 沉浸法 5 1.00 2.00 3.00 教学 方法 Value Label N 描述统计表 Descriptive Statistics Dependent Variable: 后测成绩 50.0000 12.24745 5 58.0000 14.83240 5 58.0000 4.47214 5 55.3333 11.25463 15 教学方法 传统教学法 交际法 沉浸法 Total Mean Std. Deviation N 方差齐性检验表 下表汇报了方差齐性检验结果,由表可知,F值为0.220,概率值为0.806(大于0.05),说明各组之间的方差基 本相同。这一结果满足了参数检验的另一个条件,因此下面些方差分析结果是有效的。 Levene's Test of Equality of Error Variancesa Dependent Variable: 后测成绩 .220 2 12 .806 F df1 df2 Sig. Tests the null hypothesis that the error variance of the dependent variable is equal across groups. Design: Intercept+前测成绩+教学方法a. 协方差分析表 Tests of Between-Subjects Effects Dependent Variable: 后测成绩 1332.043a 3 444.014 11.068 .001 1426.414 1 1426.414 35.556 .000 1118.710 1 1118.710 27.886 .000 346.429 2 173.214 4.318 .041 441.290 11 40.117 47700.000 15 1773.333 14 Source Corrected Model Intercept 前测成绩 教学方法 Error Total Corrected Total Type III Sum of Squares df Mean Square F Sig. R Squared = .751 (Adjusted R Squared = .683)a. 上表包括了协变量“前测成绩”之后的方差分析结果,由表可知,协变量“前测成绩”的概率值为0.000,说明“前 测成绩”能显著地预示“后测成绩”,也就是说,它对后测成绩产生了显著的影响。因素变量“教学法”也达到了 显著水平(0.041),说明“教学方法”对后测成绩也产生了显著的影响,该结果告诉我们至少有一个教学组与另 一个教学组之间有显著差异,但哪些组之间有差异,必须查看后面的组间多重比较结果。 这里我们不妨把协方差分析结果与没有包括协方差分析结果做一比较,看看它们之间是否有差异。 未作协方差分析之前的单因素方差分析表(表1) ANOVA Sum of Squares df Mean Square F Sig. Between Groups 213.333 2 106.667 .821 .463 Within Groups 1560.000 12 130.000 Total 1773.333 14 协方差分析表(表2) Tests of Between-Subjects Effects Dependent Variable: 后测成绩 1332.043a 3 444.014 11.068 .001 1426.414 1 1426.414 35.556 .000 1118.710 1 1118.710 27.886 .000 346.429 2 173.214 4.318 .041 441.290 11 40.117 47700.000 15 1773.333 14 Source Corrected Model Intercept 前测成绩 教学方法 Error Total Corrected Total Type III Sum of Squares df Mean Square F Sig. R Squared = .751 (Adjusted R Squared = .683)a. (1)表1中,“教学方法”的概率值为0.463,大于0.05的显著性水平,方差分析结果表明,“教学方法”对“后测 成绩”不产生显著影响;而表2中的协方差分析结果表明,“教学方法”达到了显著性水平(0.041),即对“后测 成绩”产生了显著影响。 (2)表1中由组间差异(Between Groups)解释的方差是213.333;表2中而考虑了协方变量之后,模型解释的 方差(Corrected Model)却增加到了1332.043。 (3)表1表明,需要解释的总方差为1773.333,而“教学方法”只解释了213.333个单位,还有1560个单位的方差 未得到解释;表2表明,需要解释的总方差仍然是1773.333,但“教学方法”解释的方差却增加到了346.429,除 掉协变量解释的方差(1118.71),未解释的方差只有441.29。 由上述3个方面可以看出,进行协方差分析能更准确地检验因素变量对因变量的作用。 调整后的后测成绩平均值(Estimates) Estimates Dependent Variable: 后测成绩 51.097a 2.840 44.846 57.348 62.387a 2.952 55.890 68.884 52.516a 3.017 45.876 59.156 教学方法 传统教学法 交际法 沉浸法 Mean Std. Error Lower Bound Upper Bound 95% Confidence Interval Covariates appearing in the model are evaluated at the following values: 前测成绩 = 46.0000. a. 上表给出的不是三个不同教学组的原始后测成绩平均值,而是调整后的各组平均值,即模型的预示平均值, 本利中模型预示的三种教学法的平均成绩分别为51.097、63.387和52.516。从这一结果也可以看出,第一种与 第二种的差异较大,而与第三种教学法的平均值比较接近。 多重组间比较结果 Pairwise Comparisons Dependent Variable: 后测成绩 -11.290* 4.054 .018 -20.213 -2.367 -1.419 4.195 .741 -10.653 7.814 11.290* 4.054 .018 2.367 20.213 9.871* 4.421 .047 .141 19.600 1.419 4.195 .741 -7.814 10.653 -9.871* 4.421 .047 -19.600 -.141 (J) 教学方法 交际法 沉浸法 传统教学法 沉浸法 传统教学法 交际法 (I) 教学方法 传统教学法 交际法 沉浸法 Mean Difference (I-J) Std. Error Sig.a Lower Bound Upper Bound 95% Confidence Interval for Differencea Based on estimated marginal means The mean difference is significant at the .05 level.*. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments). a. 该结果对三个教学组分别进行了比较,由该表可知,传统教学法与交际教学法有显著差异,交际法与沉浸法 之间也有显著差异。从平均值一栏中,还可以看出,交际法的教学效果优于其他两种方法。 多重组间比较方差分析结果 Univariate Tests Dependent Variable: 后测成绩 346.429 2 173.214 4.318 .041 441.290 11 40.117 Contrast Error Sum of Squares df Mean Square F Sig. The F tests the effect of 教学方法. This test is based on the linearly independent pairwise comparisons among the estimated marginal means. 上表给出了方差来源、对比(教学方法)和误差的平方和、自由度、均方、F值和概率值。多重组间比较方差 分析同样表明,不同的教学方法之间的后测成绩有显著差异。 结果汇报 协方差分析产生了大量表格,再研究汇报时不宜一一汇报,可主要汇报描述统计表、些方差分析表以及多重 组间比较结果表。 第五节 方差分析的 SPSS 操作 一、完全随机设计的单因素方差分析 1.数据 采用本章第二节所用的例 1 中的数据,在数据中定义一个 group 变量来表示五个不同的组,变量 math 表 示学生的数学成绩。数据输入格式如图 6-3(为了节省空间,只显示部分数据的输入): 图 6-3 单因素方差分析数据输入 将上述数据文件保存为“6-6-1.sav”。 2.理论分析 要比较不同组学生成绩平均值之间是否存在显著性差异,从上面数据来看,总共分了 5 个组,也就是说 要解决比较多个组(两组以上)的平均数是否有显著的问题。从要分析的数据来看,不同组学生成绩之间可 看作相互独立,学生的成绩可以假设从总体上服从正态分布,在各组方差满足齐性的条件下,可以用单因素 的方差分析来解决这一问题。单因素方差分析不仅可以检验多组均值之间是否存在差异,同时还可进一步采 取多种方法进行多重比较,发现存在差异的究竟是哪些均值。 3.单因素方差分析过程 (1)主效应的检验 假如我们现在想检验五组被试的数学成绩(math)的均值差异是否显著性,可依下列操作进行。 ①单击主菜单 Analyze/Compare Means/One-Way Anova…,进入主对话框,请把 math 选入到因变量表列 (Dependent list)中去,把 group 选入到因素(factor)中去,如图 6-4 所示: 图 6-4:One-Way Anova 主对话框 ②对于方差分析,要求数据服从正态分布和不同组数据方差齐性,对于正态性的假设在后面非参数检验一章 再具体介绍;One-Way Anova 可以对数据进行方差齐性的检验,单击铵钮 Options,进入它的主对话框,在 Homogeneity-of-variance 项上选中即可。设置如下图 6-5 所示: 图 6-5:One-Way Anova 的 Options 对话框 点击 Continue,返回主对话框。 ③在主对话框中点击 OK,得到单因素方差分析结果 4.结果及解释 (1)输出方差齐性检验结果 Test of Homogeneity of Variances MATH Levene Statistic df1 df2 Sig. 1.238 4 35 .313 上表结果显示,Levene 方差齐性检验统计量的值为 1.238,Sig=0.313>0.05,所以五个组的方差满足方差 齐性的前提条件,如果不满足方差齐性的前提条件,后面方差分析计算 F 统计量的方法要稍微复杂,本章我 们只考虑方差齐性条件满足的情况。 (2)输出方差分析主效应检验结果(方差分析表) ANOVA MATH Sum of Squares df Mean Square F Sig. Between Groups 314.400 4 78.600 3.252 .023 Within Groups 846.000 35 24.171 Total 1160.400 39 上面方差分析结果显示:组间平方和为 314.40,组内平方和为 846.00; 组间自由度为 4,组内自由度为 35; 组间均方为 78.60,组内均方为 24.171;F 检验统计量的值为 3.252,对应的概率 P 值为 0.023<0.05,说 明在 0.05 的显著性水平下,在不同班主任的班级中数学成绩有显著差异。 5.单因素方差分析的 Post Hoc 多重比较 上面分析结果显示,五个组的平均值存在显著差异,但是并不能告诉我们究竟是哪些组之间的差异显著。 如果想同时回答存在差异的原因,就需要进行平均数的多重比较。SPSS 可以直接进行平均数差异的多重比较, 具体操作如下: (1)在 One-Way Anova 的主对话窗口,单击按钮 Post Hoc…进入多重比较方法选择对话框(如图 6-6 所 示)。 图 6-6:单样本方差分析多重比较定义窗口 (2)在上面对话框中有两组不同假设下的方法可供选择,上面为方差齐性前提下(Equal Variances Assumed)的方法,下面为没有假定方差齐性时(Equal Variances Not Assumed)的多重比较方法选择。 单因素方差分析的 Post Hoc 提供的多重比较的方法在方差齐性的假设条件下常用的主要有:LSD(最小 显著差法),Duncan(Duncan 多范围检验),S-N-K(Student-Newman-Keuls 检验,有称 q 检验),Tukey(Honestly 显著差异检验),Tukey’s-b(Tukey 的另一种检验方法),Bonferroni (Bonferroni 检验),Scheffe(Scheffe 检验)等,不 同检验方法所依据的检验准则稍有差异,检验结果也不完全相同,这里不具体介绍各种方法的具体检验原理, 感兴趣的读者可以参考有关文献(Miller,1966; Games,1971a,1971b;)。由于在本书中只涉及方差齐性条件满足 的情况,所以关于没有方差齐性假设条件或方差齐性条件不满足时的多重比较方法这里不作介绍。 在上面所举的例子中,不同任课教师担任办主任的班级,其数学成绩存在显著差异,下面我们进一步检 验究竟是那两个组的差异显著。在多重比较窗口,选择 S-N-K 检验,单击 Continue 返回主对话框。 (3)在主对话框点击 OK 按钮运行程序,即可输出结果。 6.多重比较结果及解释 这时的输出结果,除了上面显示的方差齐性的检验结果和方差分析表外,还有多重检验的结果,多重检 验结果为: MATH Student-Newman-Keuls N Subset for alpha = .05 GROUP 1 2 4 8 67.00 3 8 69.50 69.50 2 8 71.50 71.50 5 8 74.00 1 8 74.50 Sig. .175 .195 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 8.000. 上述分析结果表明,在 0.05 的显著性水平下,5 个组可以分成同质的 2 个大组,第一大组包括原来的第 4 组、第 3 组和第 2 组;第 2 大组包括原来的第 3 组、第 2 组、第 5 组和第 1 组。说明第 4 组、第 5 组与第 1 组的数学平均成绩存在差异,而第 4 组与第 2 组和第 3 组的差异不显著,第 1 组、第 5 组和第 2 组和第 3 组 的差异也不显著。 二、随机区组设计的方差分析 在随机区组设计中,每一区组应接受全部实验处理,每种实验处理在每一区组中重复的次数也应该相同。 利用 SPSS 程序可以进行被试之间的差异检验、处理之间的差异检验及各种交互效应的检验。SPSS 中没有提 供可直接用于区组设计的分析程序,但用户可以根据实验设计中具体情况选择普通因素模型(即所有的因素 变量都是被试间因素)或重复测量模型(至少有一个因素变量是被试内因素)。同一区组内的每一个被试如果 接受了全部实验处理,应该选择重复测量模型;如果同一区组内的被试随机接受不同的实验处理,即一个被 试只接受一种处理,则应选择普通因素模型。不同的模型对数据的表现形式会有所不同。普通因素模型要求 实验处理结果即因变量只表现为一个,不同水平下的观测结果用因素变量的变量值加以对应区分。在重复测 量模型中,不同的实验处理结果应表现为不同的变量,不要求因素变量必须存在。下面我们先介绍普通因素 模型。 (一)、随机区组设计的普通因素模型(被试间设计) 1. 数据输入 例 7.为了研究四种夹角(15 度、30 度、45 度和 60 度)条件下,缪勒-莱尔错觉试验错觉量之间的差 异,随机选取 4 组同质被试,每组 8 名,总共 32 名被试。每组同质的 8 名被试再随机分成 4 组,每组 2 人随 机接受一种夹角下的缪勒-莱尔错觉试验,试验结果如下表: 15 度 30 度 45 度 60 度 区组 1 10.5 9.5 10.3 9.4 9.7 8.8 8.8 8.4 区组 2 10.2 9.8 9.8 9.7 9.7 9.5 8.8 9.0 区组 3 10.6 11.2 10.5 11.2 9.7 10.1 9.0 9.4 区组 4 9.5 9.5 9.5 9.2 8.9 9.0 8.3 8.0 分析四种不同夹角条件下,缪勒-莱尔错觉试验的平均错觉量有无显著差异,并进一步说明哪些组存在 差异。 我们在句法窗口(syntax)用语句输入数据,具体语句如下(文件 6-6-2.sps): DATA LIST FREE/ BLOCK COND DELUSION. BEGIN DATA. 1 1 10.5 1 2 10.3 1 3 9.7 1 4 8.8 1 1 9.5 1 2 9.4 1 3 8.8 1 4 8.4 2 1 10.2 2 2 9.8 2 3 9.7 2 4 8.8 2 1 9.8 2 2 9.7 2 3 9.5 2 4 9.0 3 1 10.6 3 2 10.5 3 3 9.7 3 4 9.0 3 1 11.2 3 2 11.2 3 3 10.1 3 4 9.4 4 1 9.5 4 2 9.5 4 3 8.9 4 4 8.9 4 1 9.5 4 2 9.2 4 3 9.0 4 4 8.0 END DATA. 在句法窗口选择菜单 Run/All,得到数据文件,保存为“6-6-2.sav”。 2.理论分析 在上述数据文件中,共有三个变量依次是区组变量 BLOCK ,实验处理的条件 COND,实验结果即错觉 量 DELUSION。其中 BLOCK 与 COND 都是因素变量,并且各有四个水平。上述实验数据的表现是基于如下 假设:样本容量为 32,分 4 个区组,每个区组有 8 名被试,共有 4 种不同的实验处理条件;在实验中,随机 安排同一区组内的两名被试接受同一种实验处理,这样每一区组的被试又被随机分成了 4 组,每一组接受一 种不同的实验处理。 现在我们的目的在于检验四种实验处理条件下错觉量是否有显著性差异,也想检验四个区组之间是否存 在显著性差异。所以从理论上属于区组设计的实验设计。 3.随机区组被试间设计的 SPSS 操作过程 (1)单击主菜单 Analyze/general linear model / Univariate…,打开主对话框。把变量 DELUSION 选入到 因变量(dependent)框中,同时我们假定目前的区组数目及实验处理条件已经全部包括在实验中,所以把 BLOCK 与 COND 都选入到固定因素(fixed factors)框中,如下图 6-7 所示: 图 6-7:一般因素方差分析主对话框 (2)指定分析模型 即指定在方差分析中需要哪些因素主效应或交互效应。单击按钮 Model…,进入模型(Model)设置 对话框。   ①Full factorial 全模型,包括所有因素主效应、交互效应、协变量主效应等。是系统默认的模型。   ②Custom 自定义模型。用户可以选择自己实验中感兴趣的效应。   Build terms 单击向下的小三角可以选择多种不同的效应,如本例中我们选择两个因素的主效应 Main effects。   ③Sum of 提供了四种分解平方和的方法,系统推荐第三种即回归法。   ④Include intercept in model 如果选中该复选框,表明在模型中包括截距。如果你能确定回归线不通过原 点,可以把截距排除在外。   ⑤Factors&框中所列出的是主对话框中所选的因素,一般包括固定因素(变量名后附以 F)、随机因素(变 量名后附以 R)、协变量因素(变量名后附以 C)。在上面定义的模型中只含有固定因素。 本例中我们所感兴趣的是 COND 中四种水平下实验结果的差异性,同时也想检验区组效应,对于区组设 计假设因素与区组间不存在交互作用,所以只选择了两个固定因素的主效应。点击 Continue 返回主对话框。 上述设置如下图 6-8 所示: 图 6-8:模型定义对话框 (2)选择输出图形 单击主对话框按钮 plot…,可进入图形设置对话框。我们在此把 BLOCK 作为横坐标选入到 horizontal axis),把 COND 选入到 Separate lines 框中,然后单击 ADD 按钮。即要求程序为我们在一个图中输出四种处 理条件下的折线图,以便于我们判断处理条件与区组是否存在交互作用。点击 Continue 返回主对话框。上面 设置如下图 6-9 所示: 图 6-9:图形设置对话框 (3)选择多重比较的因素变量及方法 单击 POST HOC…按钮进入定义事后检验的对话框。左边列出了因素变量,如果需要,用户可以把指定 进行多重比较分析的变量选入到右边变量列中,并在下面选择多种比较的方法,请注意,上半部分是方差齐 性假设下的方法,下半部分是方差不齐时的方法。在方差齐性假定满足的条件下,系统推荐使用 Bonferroni 方 法与 Tukey 方法。在本例中,由于我们在 OPTIONS 中进行 COND 各水平的比较,所以在此不再重复选择。 (本例图略,请读者自行操作并查看。)点击 Continue 返回主对话框。 (4)选项按钮的使用 单击 Options…按钮进入到它的对话框如图 6-10 所示,我们可以要求显示指定的因变量各水平的平均数 并比较各水平下的均值差异性。本例中我们指定显示 COND 的各水平下的均值并对之进行多重比较。为此我 们把 COND 选入到右边框中,并选中它下面的要求比较主效应的复选框,系统默认的多重比较的方法是 LSD。 同时,还需要对对 COND 各水平的方差是否齐性进行检验。为此,我们选中 Homogeneity tests。如果需 要观察该变量的残差图,还可以选择 Resual plots,系统会产生分别以残差的观测值、预测值和标准化值为坐 标的图。 最下面一行用来定义显著性水平,系统默认值是 0.05。设置完成后,点击 Continue 返回主对话框。 图 6-10:Options 选择对话框 5)点击 ok,得到输出结果。 4.随机区组被试间设计 SPSS 输出结果及解释 (1) 输出组间因素描述结果。 Between-Subjects Factors N 18 28 38 BLOCK 48 18 28 38 COND 48 上表列出了两个组间因素的水平数及各水平的被试数目,如对于组间因素COND,共有4个不同的处理水平, 接受每种处理的被试为8人。 (2)输出因变量不同组方差的齐性检验结果 Levene's Test of Equality of Error Variances Dependent Variable: DELUSION F df1 df2 Sig. 1.378 15 16 .266 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a Design: Intercept+BLOCK+COND 本例中由于Sig=.266<.05,所以差异不显著,方差齐性。 (3)输出组间因素效应检验结果 Tests of Between-Subjects Effects Dependent Variable: DELUSION Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 13.999 6 2.333 18.269 .000 Intercept 2928.038 1 2928.038 22926.791 .000 BLOCK 5.531 3 1.844 14.436 .000 COND 8.468 3 2.823 22.103 .000 Error 3.193 25 .128 Total 2945.230 32 Corrected Total 17.192 31 a R Squared = .814 (Adjusted R Squared = .770) 上述结果显示:总的平方和(17.192)被分解为处理(此处用变量COND表示)平方和(8.468)、区组平方和 (5.531)和误差平方和(3.193)三个部分。检验结果表明:COND因素主效应显著(F=22.103,P<0.05),BLOCK 因素主效应显著(F=14.436,P<0.05)。 (4)因变量 DELUSION 在 COND 四个水平上的平均值、标准差及置信区间 Estimates Dependent Variable: DELUSION COND Mean Std. Error 95% Confidence Interval Lower Bound Upper Bound 1 10.100 .126 9.840 10.360 2 9.950 .126 9.690 10.210 3 9.425 .126 9.165 9.685 4 8.787 .126 8.527 9.048 上述结果显示,15度夹角条件下,错觉实验得到错觉量的平均值为10.100,标准误为0.126,95%的置信区 间为(9.840,10.360);30度夹角条件下,错觉实验得到错觉量的平均值为9.950,标准误为0.126,95%的置信 区间为(9.690,10.210);45度夹角条件下,错觉实验得到错觉量的平均值为9.425,标准误为0.126,95%的置 信区间为(9.165,9.685);60度夹角条件下,错觉实验得到错觉量的平均值为8.787,标准误为0.126,95%的 置信区间为(8.527,9.048)。 (5)因变量DELUSION在COND 四个水平上的平均数的多重比较表 Pairwise Comparisons Dependent Variable: DELUSION 95% Confidence Interval for Difference (I) COND (J) COND Mean Difference (I-J) Std. Error Sig. Lower Bound Upper Bound 2 .150 .179 .409 -.218 .518 3 .675* .179 .001 .307 1.043 1 4 1.313* .179 .000 .944 1.681 1 -.150 .179 .409 -.518 .218 3 .525* .179.007 .157 .893 2 4 1.163* .179 .000 .794 1.531 1 -.675* .179 .001 -1.043 -.307 2 -.525* .179 .007 -.893 -.157 3 4 .638* .179 .001 .269 1.006 1 -1.313* .179 .000 -1.681 -.944 2 -1.163* .179 .000 -1.531 -.794 4 3 -.638* .179 .001 -1.006 -.269 Based on estimated marginal means * The mean difference is significant at the .05 level. a Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments). 上述多重比较结果显示,第1种条件下错觉量的平均值显著大于第3种(平均数的差为0.675,对应的P<0.05) 和第4种条件下(平均数的差为1.313,对应的P<0.05)的错觉量;第2种条件下错觉量的平均值也显著大于第3种 (平均数的差为0.525,对应的P<0.05)和第4种条件下(平均数的差为1.163,对应的P<0.05)的错觉量;第3种条 件下错觉量的平均值显著大于第4种(平均数的差为0.638,对应的P<0.05)。 (6) 因变量 DELUSION 的边缘平均数显示图(如图 6-11 所示) 图 8-10 通过该图我们可以判断因素变量 COND 与 BLOCK 之间是否存在交互作用。如果图中四条线呈平行状态,那 么两因素没有交互作用存在,如果四条线有相交的情况出现,则说明存在交互作用。现在图中所显示的四条 线都呈平行状态,表明两个因素变量不存在交互作用。 (7)输出残差分析图 Estimated Marginal Means of DELUSION BLOCK 4321 Estimated Marginal Means 11.0 10.5 10.0 9.5 9.0 8.5 8.0 COND 1 2 3 4 图 6-12:残差图 判断方差是否齐性还有一种图形方法,如图 6-12 所示是矩阵散点图。所有行变量都是纵坐标,所有列变 量都是横坐标。如第一行第二列的图是以 Observed 为纵坐标,以 Predicted 为横坐标显示的。如第二行第一列 的图是以 Predicted 为纵坐标,以 Observed 为横坐标显示的。如果在以观测值和期望值为坐标的残差图中,散 点分布接近于一条直线,说明方差齐性的假设成立,当然这样的判断带有一定的主观性,要想确切了解方差 是否齐性最好用上面介绍过的检验方法。 从上面的分析过程可以看出,对于随机区组设计的普通因素模型(被试间),SPSS 实际上是将因素和区组 都看成因素来处理,只是在结果解释时才区分区组和因素。读者可以自行比较这一过程与后面多因素完全随 机试验设计方差分析的区别和联系。 (二)、随机区组设计的重复测量模型 1、数据 例 8:随机选取 18 名被试,按照被试特征分为同质的 3 各组,每组 6 名被试;每个被试分别接受四种不同的 实验处理,试回答四种处理的实验效果是否相同,并回答 3 个区组的实验结果是否存在显著差异。 用 SPSS 的句法 SYTAX 窗口输入数据(6-6-3.sps),语句如下: Data list free/gender block result1 result2 result3 result4. Begin data. 1 11 10 11 10 2 10 10 11 10 3 10 10 10 9 1 9 9 9 9 2 10 10 11 10 3 9 10 11 9 1 9 10 10 9 2 8 9 9 8 3 6 5 7 9 1 10 10 11 9 2 10 9 11 6 3 9 9 10 5 1 5 8 9 11 2 10 6 7 10 3 8 10 9 11 1 6 9 6 10 2 10 12 14 15 Obs erved Pr e dic ted Std. Residual Dependent Variable: DELUSION Model: Intercept + BLOCK + COND 3 12 13 14 15 End data. 执行上述语句,得到数据表现格式如下图6-13所示: 图6-13:重复测量区组设计数据输入 2、 理论分析实验设计 样本容量为 18,分 3 个区组(block),每个区组 6 名被试,4 种不同的实验处理(从 result1 到 result4)。要 求同一区组内的每名被试接受全部实验处理。这种设计可称作重复测量或相关样本设计。现在我们整个实验 设计的变量共有两个被试间因素,一个是 block(有 3 个水平),一个被试内因素,我们不妨把它定义为 RESULT (共有 4 个水平)。 在此请读者自行比较本篇上半部分所阐述完全随机设计的方差分析与区组设计的普通因素模型,就会发 现它们的差异所在。我们也想再一次说明,由于 SPSS 统计软件对数据表现形式的要求比较严格,所以数据 分析与实验设计必须相结合,不同的实验设计必须采用合适的数据录入方式以及合适的分析程序,否则很容 易因机械套用程序命令而导致结果的不准确。 4、SPSS 操作过程 (1)获得工作数据后,从主菜单 Analyze/General Linear Model/Repeated Measures…进行主对话框如图 6-14 所示。把 Within-Subject Factor 后面框中默认的被试内变量的名称 factor1 改为 result,下面的水平数设为 4, 然后单击 Add 按钮,完成设置如图 6-14 中所示。 图 6-14:被试内因素定义对话框 (2)单击 Define 出现重复测量模型定义主对话框(图 6-15)。把左边变量列表中的被试内变量水平 result1 到 relult4 全部选入到右边被试内变量列表(即 Within-Subjects)中去,用鼠标单击 block,再单击相 应的小三角按钮,把它选入到被试间变量列表中去,完成设置后如下图 6-15 所示: 图 6-15:重复测量模型定义主对话框 (3)单击 Contrasts…按钮,打开下面对话框。变量列表中显示了除协变量以外的所有变量名称。如果 需要事前检验,可以从 Contrasts 后面小三角下拉项中选择。下面列出这些检验方法的使用注意事项:   ①None 无事先检验 ②Deviation 只能用于被试间因素,不能用于被试内因素。比较每个水平与总体的效应差异,忽略第一个 或最后一个水平。   ③Simple 只用于被试间因素,不能用于被试内因素。每一水平都与参考水平即第一个或最后一个进行效 应差异检验。   ④Difference 每一个水平的效应都与它前面所有水平的平均效应进行差异检验。   ⑤Helmet 每一水平的效应都与它后面所有水平的平均效应进行差异检验。   ⑥Repeated 对相邻水平进行差异检验。只用于被试间因素,不能用于被试内因素。   ⑦Polynomial 多项式比较。每一级自由度包括线性效应与变量水平的交互效应。第二级包括二次效应…等 等。各水平的效应间距假设相等。 系统对被试内变量的默认设置是多项式比较。如下图 6-16 所示: 图 6-16:事先计划对照定义窗口 (4)单击Options按钮打开的对话框如图6-17所示。假如实验条件可以造成显著性差异,我们需要进行事后 检验,在此我们先强制要求进行多重比较,以便在发现差异后可以马上查看多重比较的结果。所以,我们把result 变量从左边变量列表中选入到右边Display Means for:表中,并选中下面的复选框Compare main effects。同时为 了查看我们整个模型的合适性,我们在最下方的复选项lack of fit test,它可以提供用户所使用的模型的合适性 检验结果。 图6-17:Options窗口 单击Continue按钮回到主话框。 (5)单击OK按钮程序进行计算,得到输出结果。 4.结果及解释 (1)显示被试内因素的水平数及名称 Within-Subjects Factors Measure: MEASURE_1 RESULT Dependent Variable 1 RESULT1 2 RESULT2 3 RESULT3 4 RESULT4 表明被试内因素有四个水平,依次被命名为:result1,result2,result3和result4。 (2)显示被试间因素的水平数及样本容量 Between-Subjects Factors N BLOCK 1.00 6 2.00 6 3.00 6 本例中被试间的区组因素共有3个水平,每个水平被试人数为6人。 (3)显示多元假设检验结果 SPSS提供四种显著性检验结果,四种的判别力相差不大,但一般来说Pillai’s Trace 判别力更强一些,基于它的显著性水平,在违反方差分析假设前提的条件下,在多数情况下也是正确的。 Multivariate Tests Effect Value F Hypothesis df Error df Sig. RESULT Pillai's Trace .376 2.609 3.000 13.000 .096 Wilks' Lambda .624 2.609 3.000 13.000 .096 Hotelling's Trace .602 2.609 3.000 13.000 .096 Roy's Largest Root .602 2.609 3.000 13.000 .096 RESULT * BLOCK Pillai's Trace .208 .540 6.000 28.000 .773 Wilks' Lambda .794 .528 6.000 26.000 .782 Hotelling's Trace .256 .513 6.000 24.000 .793 Roy's Largest Root .246 1.149 3.000 14.000 .364 a Exact statistic b The statistic is an upper bound on F that yields a lower bound on the significance level. c Design: Intercept+BLOCK Within Subjects Design: RESULT 此处所有的Sig均大于0.05,表明所有的变量及变量交互作用效应均不显著。 (4)球形检验 一种假设检验的方法。重复测量的计算并非直接计算平均数之间的差异是否显著,而是先对变 量进行转换。一元方法要求变换变量方差协方差阵的对角线上有恒定方差,非对角线上方差为0。而多元方法 未对方差协方差阵的特征进行假定。在上述条件满足的情况下,一元方法比多元方法更强,更可能检验出它 们之间存在的差异。所以已有建议,在违反假定时,修改一元结果,作校正检验。但校正检验的显著性水平 总是大于未作样校正检验的显著性水平。因此,如果未校正的检验不显著,则没必要计算校正值。为了选择 一元还是多元结果,我们需要进行球形检验。   球形检验零假设:所有变换变量方差相等。   球形检验备择假设:所有变换变量方差不相等。 在0.05 水平上,如果显著性水平小于或等于0.05 ,则拒绝零假设,接受备择假设。 如果零假设不成立,则SPSS自动计算三个Epsilon,使程序在计算F值时校正分子分母。 Mauchly's Test of Sphericity Measure: MEASURE_1 Mauchly's W Approx. Chi-Square df Sig. Epsilon Within Subjects Effect Greenhouse-G eisser Huynh-Feldt Lower-bound RESULT .375 13.446 5 .020 .622 .802 .333 Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables is proportional to an identity matrix. a May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in the Tests of Within-Subjects Effects table. b Design: Intercept+BLOCK Within Subjects Design: RESULT 本实验设计中球形检验结果如下表所示:Sig<0.05,所以不能认为变换变量方差相等。如果要用一元结果,需 要使用校正结果(见后续表格)。 (5)一元检验结果,包括未作校正的与校正过的结果 Sphericity Assumed所在行为未校正的结果,下面其余三 行结果为校正过的结果。 Tests of Within-Subjects Effects Measure: MEASURE_1 Source Type III Sum of Squares df Mean Square F Sig. RESULTSphericity Assumed 10.056 3 3.352 1.479 .233 Greenhouse-Geisser 10.056 1.867 5.387 1.479 .245 Huynh-Feldt 10.056 2.406 4.179 1.479 .240 Lower-bound 10.056 1.000 10.056 1.479 .243 RESULT * BLOCKSphericity Assumed 4.444 6 .741 .327 .919 Greenhouse-Geisser 4.444 3.733 1.190 .327 .846 Huynh-Feldt 4.444 4.812 .924 .327 .888 Lower-bound 4.444 2.000 2.222 .327 .726 Error(RESULT)Sphericity Assumed 102.000 45 2.267 Greenhouse-Geisser 102.000 28.000 3.643 Huynh-Feldt 102.000 36.092 2.826 Lower-bound 102.000 15.000 6.800 注:当多元检验与一元检验两种方法有相近似的结果时,选择何种结果并不重要。但当两者不一样时,应选 用一元检验的结果。 从上表结果可以看出,四种检验结果的显著性水平均大于0.05,所以RESULT四个水平或四种实验处理之间不 存在显著性差异。结果与多元检验结果一致。 (6)正交多项式检验 可以检验是否具有线性趋势、二次趋势及三次趋势的存在。 Tests of Within-Subjects Contrasts Measure: MEASURE_1 Source RESULT Type III Sum of Squares df Mean Square F Sig. RESULT Linear 6.944 1 6.944 1.889 .189 Quadratic 2.000 1 2.000 1.029 .327 Cubic 1.111 1 1.111 .942 .347 RESULT * BLOCK Linear .822 2 .411 .112 .895 Quadratic .333 2 .167 .086 .918 Cubic 3.289 2 1.644 1.394 .279 Error(RESULT) Linear 55.133 15 3.676 Quadratic 29.167 15 1.944 Cubic 17.700 15 1.180 结果显示的显著性水平sig>0.05,表明所检验的变量及变量交互效应都没有明显的趋势存在。 (7)常数项与被试间因素的显著性检验 Tests of Between-Subjects Effects Measure: MEASURE_1 Transformed Variable: Average Source Type III Sum of Squares df Mean Square F Sig. Intercept 6536.056 1 6536.056 550.791 .000 BLOCK 5.444 2 2.722 .229 .798 Error 178.000 15 11.867 这里常数项显著性水平为0,表明常项为0的假设不成立。BLOCK显著性水平大于0.05,表明区组效应均不显 著。 (8)被试内因素各水平的均值、标准差与置信区间。 RESULT Estimates Estimates Measure: MEASURE_1 Mean Std. Error 95% Confidence Interval RESULT Lower Bound Upper Bound 1 9.000 .433 8.077 9.923 2 9.389 .456 8.417 10.361 3 10.000 .515 8.902 11.098 4 9.722 .613 8.415 11.029 上述结果显示,第1种处理下因变量的平均值为9.000,标准误为0.433,95%的置信区间为(8.077,9.923)。同 理可以得出其他处理组的均值、标准误和95%的置信区间。 (9)被试内因素间的多重比较 由于上面所进行的各种差异检验并未发现result各水平间存在显著性差异,所以 忽略对下表的解释。 Pairwise Comparisons Measure: MEASURE_1 Mean Difference (I-J) Std. Error Sig. 95% Confidence Interval for Difference (I) RESULT (J) RESULT Lower Bound Upper Bound 1 2 -.389 .389 .333 -1.218 .440 3 -1.000 .383 .020 -1.817 -.183 4 -.722 .682 .306 -2.175 .731 2 1 .389 .389 .333 -.440 1.218 3 -.611 .273 .041 -1.194 -2.859E-02 4 -.333 .557 .558 -1.520 .853 3 1 1.000 .383 .020 .183 1.817 2 .611 .273 .041 2.859E-02 1.194 4 .278 .603 .652 -1.007 1.563 4 1 .722 .682 .306 -.731 2.175 2 .333 .557 .558 -.853 1.520 3 -.278 .603 .652 -1.563 1.007 Based on estimated marginal means * The mean difference is significant at the .05 level. a Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments). (10)根据估计边缘平均数计算的RESULT多元显著性检验 结果显示也没有显著性差异。 Multivariate Tests Value F Hypothesis df Error df Sig. Pillai's trace .376 2.609 3.000 13.000 .096 Wilks' lambda .624 2.609 3.000 13.000 .096 Hotelling's trace .602 2.609 3.000 13.000 .096 Roy's largest root .602 2.609 3.000 13.000 .096 Each F tests the multivariate effect of RESULT. These tests are based on the linearly independent pairwise comparisons among the estimated marginal means. a Exact statistic 二、完全随机设计的多因素方差分析 上述的单因素方差分析,用于分析只有一个因素的实验设计,但是在实际应用中,经常会遇到几个因素 同时影响实验结果的情况,这时就需要用到多因素的方差分析,下面结合实例简单介绍一下用 SPSS 如何对完 全随机设计的多因素进行方差分析。 采用本章例 6 所用的关于教学方法和教学态度对儿童识字量影响的完全随机试验设计的例子。 1.数据输入 数据可以以下列方式在句法窗口(Syntax)输入(6-6-4.sps): data list free/ a b amount. Begin data 1 1 8 1 1 20 1 1 12 1 1 14 1 1 10 1 2 39 1 2 26 1 2 31 1 2 45 1 2 40 2 1 17 2 1 21 2 1 20 2 1 17 2 1 20 2 2 32 2 2 23 2 2 28 2 2 25 2 2 29 end data. 点击句法窗口主菜单Run/All运行上面的语句,在数据编辑窗口生成所要分析的数据文件(6-6-3.sav)。 2.理论分析 从上面的数据和试验设计过程可以看出,每个被试分别接受一种试验处理,且被试被随机分组,可以看 作是被试间随机设计,有两个因素,每个因素各有两个水平,总共有4中试验处理的组合。 3.方差分析过程 (1) 单击主菜单Analyze/General Linear Model/ Univariate …,进入主对话框,请把amount选入到因变量 (Dependent list)表中去,把a和b选入到Fixed Factor(s)变量表列中去(这里我们考虑的两个因素的固定效应, 如果考虑的是因素的随机效应,则将因素选入Random Factor(s)变量表列中,有关固定效应与随机效应的区别 这里不加介绍,感兴趣的读者可以参考有关实验设计方面的书籍进一步了解),如图6-18所示: 图 6-18:多因素方差分析主对话框 (2)主效应和交互作用的检验 在图 6-18 的主对话框,点击 Options…,在 Options 对话框中,选择 homogeneity test 进行各处理组合方差 齐性的检验,点击 Continue 返回主对话框。 (3)本例中其他选项暂时采用系统默认的设置,点击 OK 得到上面定义方差分析的模型输出结果。 4.结果及解释 (1)显示被试间各因素不同水平的观测值个数 Between-Subjects Factors N A1.0010 2.00 10 B1.0010 2.00 10 上表结果显示,A 因素和 B 因素各有 2 个水平,每个水平下有 10 个观测值。 (2)显示方差齐性的检验结果 Levene's Test of Equality of Error Variances Dependent Variable: AMOUNT F df1 df2 Sig. 3.640 3 16 .036 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a Design: Intercept+A+B+A * B Levene'方差齐性检验的结果表明,在 0.05 的限制性水平下,各组的方差之间存在显著差异,也就是说,不满 足方差齐性的假设条件;在 0.01 的显著性水平下,各组方差之间的差异没有达到显著水平。这里我们为了计 算的简单,现认为方差齐性条件满足,实际上在方差齐性假设严格遭到拒绝时,应采用校正的 F 检验,感兴 趣的读者可以查阅有关实验设计方面的资料进一步了解这一问题。 (3)显示方差分析表 Tests of Between-Subjects Effects Dependent Variable: AMOUNT Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 1553.750 3 517.917 21.876 .000 Intercept 11376.450 1 11376.450 480.526 .000 A 8.450 1 8.450 .357 .559 B 1264.050 1 1264.050 53.392 .000 A * B 281.250 1 281.250 11.880 .003 Error 378.800 16 23.675 Total 13309.000 20 Corrected Total 1932.550 19 a R Squared = .804 (Adjusted R Squared = .767) 上面方差分析结果显示,A 因素主效应的平方和为 8.45,自由度为 1,均方为 8.45; B因素主效应的平方和 为 1264.05,自由度为 1,均方为 1264.05;A 因素与 B 因素的交互作用 A*B 的平方和为 281.25,自由度为 1, 均方为 281.25;误差平方和为 378.80,自由度为 16;F 检验结果表明,A 和 B 的交互作用达到 0.01 的显著水平 (F=11.880,P=0.003<0.01)。从以上方差分析结果可以看出,两因素之间存在非常显著的交互作用,表明集中 识字与分散识字效果的不同是受不同教学态度影响的;同样,不同的教学态度对识字量的影响也受到教学方 式的影响,应该注意在交互作用显著的情况下,即使因素主效应不显著,也不能下结论说这一因素对结果没 有显著影响。 5.因素交互作用的 Post Hoc 检验 上面分析结果告诉我们两个因素之间存在显著的交互作用,但是至于 B 因素的不同水平在 A 因素的哪个 水平上差异显著,或 A 因素的不同水平在 B 因素的哪个水平上差异显著并不清楚。为了进一步回答这一问题, 下面简单介绍交互作用的事后检验。至于主效应的事后检验与前面介绍的随机区组设计的普通因素模型类似, 这里不再重复。 对于交互作用的事后检验,不能通过直接点击 SPSS 菜单命令得到,需要通过在句法(Syntax)窗口定义 语句完成。 对于 B 因素在 A 因素不同水平的简单效应,可用下列语句得到: manova amount by a(1,2) b(1,2) /design /error=within /design=b within a(1) b within a(2). 运行上面的语句,得到输出结果。 6.交互作用事后检验结果及解释 * * * * * * A n a l y s i s o f V a r i a n c e -- design 1 * * * * * * Tests of Significance for AMOUNT using UNIQUE sums of squares Source of Variation SS DF MS F Sig of F WITHIN CELLS 378.80 16 23.68 A 8.45 1 8.45 .36 .559 B 1264.05 1 1264.05 53.39 .000 A BY B 281.25 1 281.25 11.88 .003 (Model) 1553.75 3 517.92 21.88 .000 (Total) 1932.55 19 101.71 R-Squared = .804 Adjusted R-Squared = .767 - - - - - - - - - - - - - - - - - -- - - - - - - - - - - - - - - - - - - * * * * * * A n a l y s i s o f V a r i a n c e -- design 2 * * * * * * Tests of Significance for AMOUNT using UNIQUE sums of squares Source of Variation SS DF MS F Sig of F WITHIN CELLS 378.80 16 23.68 B WITHIN A(1) 1368.90 1 1368.90 57.82 .000 B WITHIN A(2) 176.40 1 176.40 7.45 .015 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 可以看出,输出结果中包含两大部分的信息。首先是“Analysis of variance -- design 1”下面的方差分析部分,这 部分的结果与前面由菜单操作得到的主效应与交互作用分析得到的结果相同。第二部分是在“Analysis of variance -- design 2”下给出的简单效应检验部分,这部分分别给出所要分析简单效应的平方和、自由度、均方、 F 检验统计量的值以及对应的概率 P 值。从上面的分析结果可以看出,在 A 因素的两个水平上,B 因素的效 应都显著,说明不管用那一种教学方法,不同教学态度下的识字结果均存在显著差异。 类似地,用下列程序可以得到 A 因素在 B 因素不同水平上的简单效应。 manova amount by a(1,2) b(1,2) /design /error=within /design=a within b(1) a within b(2). 得到简单效应的分析结果如下: * * * * * * A n a l y s i s o f V a r i a n c e -- design 2(没有这一块) * * * * * * Tests of Significance for AMOUNT using UNIQUE sums of squares Source of Variation SS DF MS F Sig of F WITHIN CELLS 378.80 16 23.68 A WITHIN B(1) 96.10 1 96.10 4.06 .061 A WITHIN B(2) 193.60 1 193.60 8.18 .011 四、协方差分析 1.数据 以第六节例 1 的数据为例,简单说明如何用 SPSS 进行协方差分析。单因素随机分组的协方差包含一个协 变量(学习兴趣 x)、一个因变量(y)和一个处理变量(a),数据输入如下(6-6-4.sav): 单击主菜单 Analyze/General Linear Model/ Univariate …,进入主对话框,请把 y 选入到因变量(Dependent list) 表中,把 a 选到 Fixed Factor(s)变量表列中,将 x 选入 Covariate(s),其他选项的定义类似于多因素方差分析 中的定义,这里我们采用系统默认设置,定义后的窗口显示如下: 点击 OK,得到协方差分析的结果如下: Tests of Between-Subjects Effects Dependent Variable: Y Source Type III Sum of Squares df Mean Square F Sig. Corrected Model 2328.344 3 776.115 68.196 .000 Intercept 980.448 1 980.448 86.150 .000 X 1010.760 1 1010.760 88.813 .000 A 707.219 2 353.609 31.071 .000 Error 227.615 20 11.381 Total 206613.000 24 Corrected Total 2555.958 23 a R Squared = .911 (Adjusted R Squared = .898) 从上面分析的结果可以看出,在调整了协变量对因变量的影响后,三种饲料的增肥效果存在显著差异 (F=31.07)。
还剩127页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

doctor007

贡献于2018-04-02

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf