spss统计分析基础教程pdf


高等学校教材 SPSS统计分析基础教程 主 编 张文彤 闫 洁 高等教育出版社内 容简介 SPSS是最为优秀的统计软件之一,深受各行业 用户的青睐。为满足广大 读者学习统计 学入门知识和 统计 软件入门操作的需求,本书改变了以往 SPSS书籍对统计理论和软件操作“两条主线、各自表述”的编写方式,将 两者完全融合起来。全书共分 15章,以 SPSS12.0为准,针对统计 初学者和 SPSS初 级用户的需求,以统计理论 为主线,详细介绍了在 SPSS中的界面操作、数据管理、统计图表制作、统计描述和常用单因素统计分析方法的原 理与实际操作。其内容覆盖了目前国内大部分专业本科统计 课程的教 学范围,并结 合 SPSS的强大功能做 了很 好的扩展。各章后均附有参考文献和思考练 习题,涉及统计理 论的 章节 还提 供了 本章 小结。全 书内 容深 入浅 出,风格简洁明快,是一本难得的统计理论与 SPSS操作相结合的教材。 本书可用作各专业本科生和研究生的统计学教材,也 可作为 SPSS10~12版的通用 入门教材,可供各 行业 中非统计专业背景的人员以及希望从头学习 SPSS软件的人员使用。   图书在 版编目 (CIP)数据   SPSS统计分 析基础 教程 /张文彤 ,闫洁主 编.— 北京: 高 等教育 出版社 ,2004.9   ISBN7-04-015855-8   Ⅰ.S... Ⅱ.①张...②闫... Ⅲ .统计分 析 -软 件 包 ,SPSS-高等学 校 -教 材 Ⅳ .C819   中国版 本图书 馆 CIP数据核 字(2004)第 087691号 策 划编辑  耿  芳   责任编 辑 欧 阳舟   市场 策划  韩 飞   封 面设计  于文燕 版 式设计  张  岚   责任校 对 朱 惠芳   责任 印制      出版发行 高等教育出版社             购书热线 010-64054588 社  址 北京市西城区德外大街 4号 免费咨询 800-810-0598 邮政编码 100011 网  址 http://www.hep.edu.cn 总  机 010-58581000 http://www.hep.com.cn 经  销 新华书店北京发行所 印  刷 开  本 787×1092 1/16 版  次   年 月第 1版 印  张 24 印  次   年 月第 次印刷 字  数 580000 定  价 32.00元 本书如有缺页、倒页、脱页等质量问题,请到所购图书销售部门联系调换。 版 权所有  侵权 必究 物 料号:15855-00 SPSS统 计 分 析 基 础 教 程 参 编 人 员         主  编  张文彤(复旦大学) 闫 洁(博塔(中国)有限公司) 编  者 (以姓氏笔画为序) 王 莉(天津财经大学) 邝春伟(华东师范大学) 行智国(博塔(中国)有限公司) 邹艳辉(博塔(中国)有限公司) 赵 杨(南京医科大学) 赵新平(复旦大学) 高 峻(复旦大学) 董 伟(博塔(中国)有限公司)序   言 Ⅰ          序     言 知识 经济时 代,数据 成为 宝 贵 的 经济 资源。 在 国 外,电信、医 疗、银 行、证 券、保 险 、制 造、商 业 、科研、教育等 行业已 广泛采 用先进 的统计 分析技 术从数 据中提 取有价 值的信 息和知识 。在国 内 ,随着市 场的蓬 勃发展 ,了解 成熟的 统计分 析产品 ,借鉴成 功的统 计分析 行业应 用经验 ,运用科 学 的统计 分析方 法,从数 据中总 结、归 纳有用 的知识 ,并将知 识用于 市场营 销、运 营决策和 信用风 险 管理等 领域,帮 助企、事业单 位降低 消耗、增 加 效益 ,从而 提 高整 体 运 行效 率 ,已 成为 各行 业中 有 远见的 人士普 遍关注 的问题 。 SPSS软件 是全球 专业统 计分析 软件的 领导者 ,一直 致力于 帮助企 事业 单位 提 高科 学运 用统 计 分析方 法的能 力,20世纪 80年 代 就已 经 被 许多 学 者引 入 中 国市 场 。它包 含 了丰 富 的 统计 分 析 算法,而 且在使 用层面 上更 多 地 考 虑了 客户 在 整 个统 计 分析 过程 中的 应 用 感 受,其 简 洁的 界 面 、完善的 数据准 备功能 和杰出 的图表 输出能 力使得 SPSS软 件 在全 球 有超 过 25万家 的机 构用 户 ,并成为 国内的 主流统 计分析 软件。 随着该 产品在 各行业 应用的 深入以 及 SPSS培训和 认证的 广 泛开展 ,目前国 内已涌 现出 一 大 批应 用 SPSS的 专 家。近 两年,国 内统 计 分 析 市场 如 火 如荼 , SPSS在 产品技 术上也 不断推 陈 出新 ,继 SPSS英文 版 在 国 内成 功应 用之 后,SPSS公 司 在 今年 首 次 推出了 简体中 文版,该 产品更 加符合 中国人 的使用 习惯,一经推 出便受 到各行 业人士的 喜爱。 为了 让中国 的 SPSS软件爱 好 者 更好 地使 用 软 件,我 们 在 经过 两年 的筹 备 后向 市 场 推出 了 SPSS统 计分析 大型丛 书。该 丛书是 一套全 面了解 、认识 和应用 SPSS最 新统计 分析软 件 、掌 握统 计 分析方 法的专 业书籍 ,以统计 分析在 国内的 应 用现 状 为切 入 点,本 着 学以 致 用的 原则 ,在 介绍 统 计理论 及 SPSS软件功 能模块 的同时 ,更侧 重于 统计 分析 在 各项 工 作 中的 实 际应 用,引导 读者 不 仅掌握 SPSS软 件及技 术原理 ,而且 学会运 用统计 方法解 决工作 和学习 中的实 际问题。 该丛 书由业 内权威 专家主 笔编写 ,资料引 用详 实 可 靠,实 例剖 析 切 中肯 綮 ,不 仅融 合了 行业 专 家在统 计应用 领域多 年的研 究成果 ,而且还 融入了 很 多 SPSS软 件 新、老 行 业用 户的 实际 应用 经 验。丛 书总结 了 SPSS软件在 各行业 的实践 应用状 况,并 综合 SPSS最新 行业应 用方案 ,使各行 业 读者能 通过学 习提 高 SPSS软 件 的 运 用能 力,解决 工 作 中 的 实 际 问 题。 在丛 书 编 写 过 程中 , SPSS公 司和博 塔(中国 )有限公 司(SPSS中 国地区 分销商 )的技术 专家还 及时提 供了国 际最 新的 行 业发展 信息和 SPSS最 新产品 和技术 信息,并结合 SPSS的 全球应 用状况 提出了 宝贵意见 。 丛书 将分期 分批出 版相应 的分册 ,其中首 批 面世 的为 通用 教 材《SPSS统 计分 析 基础 教程 》、 《SPSS统 计分析 高级教 程》,均 由复旦 大学张 文彤老 师 主编,全 国多所 高校 的 统计 教师 和统 计专 业 人士参 编。张 文彤老 师长期 以来一 直致力 于积极 推 进统 计 分析 工 具 在国 内 的普 及应 用,他在 2002年编著 的前作 《SPSS11统计分 析教程 》基础篇 和高级 篇因内 容翔实 、风格独 特,受到 了广大 读 者的热 烈欢迎 ,并被多 所高校 列为本 科生或 研 究生 教 材,其 中基 础 篇 一书 已 通过 教育 部评审 , 成 为 2003— 2004年度 教育部 研究生 工作办 公室推 荐 的“研究 生教学 用书”。 他不 仅拥 有丰 富的 教 学经验 ,而且熟 谙统计 分析产 品,本 次全新 编写的 这两册 教材分 别针对 不同读 者群,由 浅入深 、          Ⅱ 序   言 结 合实际 应用全 面介绍 了 SPSS产品和 应用。 全书实 例引用 突 出,分 析 讲解 透 彻,读者 可由 本书 管 窥全套 丛书“应 用为本 ”的特色 。 显然 ,上述两 本书还 不能完 全覆盖 SPSS的所有 应用领 域,因此 ,本套 书从现 在还有数 本分册 正 在组织 编写中 ,包括全 新的行 业应用 分册。 这 里我 们 热忱 邀 请各 行 各业 的 SPSS资深 用户,以 及 各高校 的统计 教师加 入到本 套丛书 的编写 工作中 来 ,以 共 同 推动我 国各 行 业统 计应 用水 平的 迅 速提高 。 希望 本套丛 书能够 让读者 更清晰 地了解 统计分 析,从而 进一步 促进统 计分析 在国内 的普及 。 为 便于读 者交流 和使用 本套丛 书,这里 特公布 相关网 址如下 : SPSS最新 版本的 全模块 试用版 下载:www.spssbj.com.cn 丛书 相关案 例数据 下载:www.spssbj.com.cn、www.MedStatStar.com 读者 答疑、经 验交流 :www.spssclub.com、www.StatStar.com 博 塔(中国 )有限公 司 SPSS丛书编委 会序   言 Ⅰ          前     言 笔者 前作《SPSS11统 计分析 教程》(基础 篇 )和 《SPSS11统计 分 析教 程 》(高级 篇)自 2002 年 中面世 以来,因 其内容 翔实、风格独 特 ,受 到了 广大 读 者 的热 烈 欢迎,这 从读 者用 E-mail请 教 问 题的数 量即可 看出,还 有数位 读者详 细指出 了 书中 的 用字 错 误,可 见 其阅 读 的详 细程 度,在此 笔 者对读 者深表 谢意。 同时,数 所高校 均将其 作为本 科生或 者研究 生教材 ,而基 础篇一书 已通过 教 育部评 审,成为 2003— 2004年度教 育部研 究生工 作办 公 室推荐 “研 究生教 学用 书 ”,这无 疑都 是 对前作 质量的 充分肯 定。 但是 ,再优秀 的作品 也有其 生命周 期,随 着时间 的 推移,上 述著作 的不 足 之处 也逐 渐显 现出 来 。对于 基础篇 而言,突 出表现 为以下 两点: 1.由于在 2002年国 内尚无 系统 、完整介 绍 SPSS统计 功能及 其 操作界 面的书 籍,前作 最终将 风 格定位在操作字典上,使读者能够全面了解 SPSS各 方面的 分析功 能及界 面操作 方法,应 当说前 作 很好地完成了这一任务。 但是现在随 着 SPSS中文版的正 式面 市,软件的界 面操作 已不是 主要问 题 ,再来 编写这 种新华字典式的教材已无必要。读者 自然 希望能 够有一 个更 好的教材体系出现。 2.对于统 计软件 教材而 言,其 本 质应 当 是 统计 教 材,软 件 仅仅是 实现 工 具。前 作 顺 应当 时 的 需要,主 要满足 的是已 学习过 统计理 论知识 ,但不 了解如 何使用 统计软 件来实 现的读者 群的需 求 ,因此书 中并未 详细阐 述 统 计 基 础知 识 。对 于 统 计初 学 者而 言,需要 有一 本 统计 教 材 与之 配 合 。但是 在几年 的使用 后,现在 多所高 校均希 望直接 采用基 础篇进 行本科 生的统 计教学 ,而不需 要 和其他 教材配 合使用 。在软 件工具 已经越 来越易 用 的时 候 ,教材的 最终 归 宿应 当是 以统 计知 识 为主线 ,这无疑 是我们 重新投 入编写 工作的 最大动 力。 综上 ,在充分 考虑了 读者们 的意见 后,笔 者毅然 决 定推 翻 原有 的 框 架,完 全从 头编 写基 础教 程 。这本 新的 基础 教程 以 SPSS12.0为 准,定 位 为统计 软件和 统 计学 入 门书籍 。他 针 对统 计初 学 者和 SPSS初级 用户的 需求,以统计 理论为 主线,严 格按照 本科生 统计学 教材方 式编写 ,内容共 分 三大部 分:第一 部分的 任务是 SPSS操作入 门,讲解 了软件 使用和 数据管 理的操 作知识 ;第二部 分 以统计 理论为 主线,详 细阐述 了如何 在 SPSS中 完成 数据 的 统计 描 述 和参 数 估计,以 及如 何使 用 统计图 表来进 行数据 的完美 呈 现;第三 部分 则 详 细 介绍 了 t检 验、方 差 分析、秩 和 检 验、χ2 检 验 、相关回 归等常 用的基 本统 计 分 析 方法 ,内 容覆 盖了 目 前 国 内大 部分 专业 统 计课 程 的 教学 范 围 ,并结合 SPSS的强大 功能作 了很好 的扩展 。书后 的 附录 根 据初 学 者 的特 点 加以 编制 ,各 章后 均 附有参 考文献 和思考 练习题 ,第三部 分的章 节还专 门提供 了本章 小结,更好地 满足了本 科生教 学 的需要 。另外 ,书中大 部分表 为设计 表格时 自动生 成的。 因此,大部分 表及表 题为英文 。 除作 为教材 外,本书 还适用 于各行 业中非 统计专 业需要 使用统 计方法 的人员 ,以及希 望从头 学 习 SPSS软件的 人员。 我们希 望广大 读者能 一如既 往 地踊 跃 提出自 己使 用 中的 宝贵 意见 和建 议 ,使得本 书再版 的时候 能够更 上一层 楼,更 完美地 满足大 家的学 习和工 作需求 。 张文彤 2004年 7月于复旦公共卫生学院目   录 Ⅰ          目     录 第一部分 数据管理与软件入门 第 章  数据 分析概 述与软 件入门 3⋯ ⋯ ⋯  1.1 SPSS软件概 述 3⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯    1.1.1 软件的基本特点 3⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.1.2 SPSS的 Client/Server结构 4⋯ ⋯ ⋯ ⋯ 1.1.3 SPSS的模块式结构 5⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.1.4 SPSS的安装 6⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  1.2 SPSS操作入 门 8⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.2.1 SPSS软件的启动与退出 8⋯ ⋯ ⋯ ⋯ ⋯ 1.2.2 SPSS的 5个窗口 8⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.2.3 SPSS的 4种运行方式 10⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.2.4 SPSS的 4种结果输出 13⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.2.5 SPSS的帮助系统 16⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  1.3 数 据分析 概述 20⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.3.1 数据分析方法论介绍 20⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.3.2 SPSS系列产品对数据分析流程 的支持 21⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 1.3.3 本书内容介绍 22⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 22⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 22⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章  数据 录入与 数据获 取 23⋯ ⋯ ⋯ ⋯ ⋯  2.1 数 据格式 概述 23⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 2.1.1 统计软件中数据的录入格式 23⋯ ⋯ ⋯ 2.1.2 变量属性介绍 23⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  2.2 数 据的直 接录入 27⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 2.2.1 操作界面说明 27⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 2.2.2 开放题和简单单选题的录入 28⋯ ⋯ ⋯ 2.2.3 多选题的录入 31⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  2.3 外 部数据 的获取 34⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 2.3.1 电子表格数据如何导入 SPSS中 34⋯ 2.3.2 文本数据如何导入 SPSS中 36⋯ ⋯ ⋯ 2.3.3 数据库格式数据如何导入 SPSS中 37⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   2.4  数据的 保存 39⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 2.4.1 存为 SPSS格式 40⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 2.4.2 存为其他数据格式 40⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 41⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 41⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章 数 据管理 42⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   3.1  变量级 别的数 据管理 42⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 3.1.1 计算新变量 42⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 3.1.2 对变量值进行分组合并 45⋯ ⋯ ⋯ ⋯ ⋯ 3.1.3 连续变量的可视化分段 47⋯ ⋯ ⋯ ⋯ ⋯ 3.1.4 将字符变量转换为数值变量 49⋯ ⋯ ⋯ 3.1.5 变量的编秩 50⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 3.1.6 Transform菜单中的其他功能 51⋯ ⋯ ⋯   3.2  文件级 别的数 据管理 (一) 52⋯ ⋯ ⋯ ⋯ 3.2.1 记录排序 52⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 3.2.2 记录拆分 53⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 3.2.3 记录筛选 54⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 3.2.4 记录加权 55⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 3.2.5 数据汇总 56⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   3.3  文件级 别的数 据管理 (二) 57⋯ ⋯ ⋯ ⋯ 3.3.1 数据字典的定义与应用 57⋯ ⋯ ⋯ ⋯ ⋯ 3.3.2 查找重复记录 60⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 3.3.3 数据文件的重新排列与转置 62⋯ ⋯ ⋯ 3.3.4 多个数据文件的合并 68⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 71⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 71⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯          Ⅱ 目   录 第二部分 统计描述与统计图表 第 章  连续 变量的 统计描 述与 参数 估计 75⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  4.1 连 续变量 的统计 描述概 述 75⋯ ⋯ ⋯ ⋯    4.1.1 统计描述中可用的工具 75⋯ ⋯ ⋯ ⋯ ⋯ 4.1.2 连续变量的统计描述指标体系 76⋯ ⋯ 4.1.3 SPSS中的相应功能 77⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  4.2 集 中趋势 的描述 指标 78⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.2.1 算术均数 78⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.2.2 中位数 80⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.2.3 其他集中趋势描述指标 80⋯ ⋯ ⋯ ⋯ ⋯  4.3 离 散趋势 的描述 指标 81⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.3.1 全距 82⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.3.2 方差和标准差 82⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.3.3 百分位数、四分位数与四分位数 间距 83⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.3.4 变异系数 84⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  4.4 连 续变量 统计描 述实例 85⋯ ⋯ ⋯ ⋯ ⋯ 4.4.1 数据背景介绍 85⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.4.2 使用 Explorer过程进行分析 85⋯ ⋯ ⋯ 4.4.3 使用其他过程进行分析 88⋯ ⋯ ⋯ ⋯ ⋯  4.5 连 续变量 的参数 估计 90⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.5.1 正态分布 90⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.5.2 参数的点估计 93⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 4.5.3 参数的区间估计 94⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 96⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 96⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章  分类 变量的 统计描 述与参 数 估计 97⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  5.1 分 类变量 的统计 描述概 述 97⋯ ⋯ ⋯ ⋯ 5.1.1 分类变量的统计描述指标体系 97⋯ ⋯ 5.1.2 分类变量的联合描述 99⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 5.1.3 SPSS中的相应功能 100⋯ ⋯ ⋯ ⋯ ⋯ ⋯  5.2 分 类变量 统计描 述实例 100⋯ ⋯ ⋯ ⋯ 5.2.1 使用 Frequencies过程输出 频数表 100⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 5.2.2 使用 Crosstabs过程输出列联表 101⋯   5.3  多选题 的统计 描述 103⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 5.3.1 多选题的描述指标体系 103⋯ ⋯ ⋯ ⋯ 5.3.2 分析实例 104⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   5.4  分类变 量的参 数估计 107⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 5.4.1 二项分布的参数估计 107⋯ ⋯ ⋯ ⋯ ⋯ 5.4.2 其他分布类型简介 109⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 110⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 111⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章 数 据的报 表呈现 (上) 112⋯ ⋯ ⋯ ⋯   6.1  SPSS报表概 述 112⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 6.1.1 SPSS中的报表功能 112⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 6.1.2 报表的基本绘制步骤 113⋯ ⋯ ⋯ ⋯ ⋯   6.2  表格入 门 114⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 6.2.1 表格的基本框架 114⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 6.2.2 表头、数据区与汇总项 116⋯ ⋯ ⋯ ⋯ ⋯ 6.2.3 单元格的数据类型 116⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 6.2.4 几种基本表格类型 117⋯ ⋯ ⋯ ⋯ ⋯ ⋯   6.3  用 OriginalTables模块 制表 119⋯ ⋯ ⋯ 6.3.1 功能简介 119⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 6.3.2 BasicTables过程 119⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 6.3.3 GeneralTables过程 126⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 130⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 131⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章 数 据的报 表呈现 (下) 132⋯ ⋯ ⋯ ⋯   7.1  用 CustomTable模块自由 制表 132⋯ 7.1.1 操作主界面 132⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 7.1.2 简单分析实例 133⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 7.1.3 其他选项卡功能 138⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   7.2  表格的 编辑 140⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 7.2.1 基本编辑操作 140⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 7.2.2 主要编辑菜单功能介绍 143⋯ ⋯ ⋯ ⋯ 7.2.3 表格属性的详细设置 146⋯ ⋯ ⋯ ⋯ ⋯   7.3  表格高 级应用 技术 147⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 7.3.1 模板技术 147⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 7.3.2 在报告中直接使用 SPSS表格 150⋯ ⋯ 7.3.3 如何解决表格的中文兼容问题 151⋯目   录 Ⅲ          7.3.4 宏技术与 OMS系统简介 152⋯ ⋯ ⋯ ⋯   思考与 练习 154⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 154⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章  数据 的图形 展示(上 ) 156⋯ ⋯ ⋯ ⋯  8.1 统 计图概 述 156⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯    8.1.1 统计图的基本结构 156⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.1.2 统计图的种类 158⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.1.3 SPSS12的常规统计图 功能简介 162⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.1.4 交互式绘图简介 164⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  8.2 直 方图与 茎叶图 166⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.2.1 常规图中的直方图 166⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.2.2 直方图的编辑 167⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.2.3 用交互图绘制累积直方图与直方 图组 172⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.2.4 茎叶图 175⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  8.3 箱 图 177⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.3.1 常规图中的箱图 177⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.3.2 箱图的编辑 179⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  8.4 饼 图 181⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.4.1 常规图中的简单饼图 181⋯ ⋯ ⋯ ⋯ ⋯ 8.4.2 饼图的编辑 182⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.4.3 用交互图绘制复式饼图和散点 饼图 184⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  8.5 条 图 187⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.5.1 简单条图 188⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.5.2 复式条图、分段条图与百分条 图的绘制 189⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.5.3 条图的编辑 190⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 8.5.4 用交互图绘制带误差线的条图 191⋯   思考与 练习 193⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 194⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章 数 据的图 形展示 (下) 195⋯ ⋯ ⋯ ⋯   9.1  线图 195⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.1.1 简单线图 195⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.1.2 多线图、垂线图与对数线图 196⋯ ⋯ ⋯ 9.1.3 线图的编辑 198⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.1.4 交互式点图、线图、条带图与 垂线图 200⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   9.2  散点图 201⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.2.1 简单散点图 201⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.2.2 散点图矩阵与重叠散点图 202⋯ ⋯ ⋯ 9.2.3 三维散点图 203⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.2.4 散点图的编辑 206⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   9.3  其他统 计图 208⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.3.1 P-P图和 Q-Q图 208⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.3.2 ROC曲线 210⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.3.3 面积图 213⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.3.4 Pareto图 213⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.3.5 误差图 214⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.3.6 控制图 215⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.3.7 高低图 217⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.3.8 时间序列分析中使用的图形 218⋯ ⋯   9.4  交互式 统计图 的编辑 218⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.4.1 编辑界面概述 218⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.4.2 图形管理员 220⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.4.3 变量的重新分配 223⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 9.4.4 Utility工具栏的其他选项 223⋯ ⋯ ⋯ ⋯   9.5  SPSS绘图中 的注意 事项 224⋯ ⋯ ⋯ ⋯ 9.5.1 汉字兼容性问题的解决 224⋯ ⋯ ⋯ ⋯ 9.5.2 默认图形格式的更改 224⋯ ⋯ ⋯ ⋯ ⋯ 9.5.3 图形模板的应用 225⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 227⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 227⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第三部分 常用假设检验方法 第 章  分布类 型的检 验 231⋯ ⋯ ⋯ ⋯ ⋯ ⋯  10.1  假设检 验的基 本思想 231⋯ ⋯ ⋯ ⋯ ⋯    10.1.1 问题的提出 231⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 10.1.2 假设检验的基本思想 232⋯ ⋯ ⋯ ⋯ ⋯ 10.1.3 假设检验的两类错误 233⋯ ⋯ ⋯ ⋯ ⋯ 10.1.4 假设检验中的其他问题 235⋯ ⋯ ⋯ ⋯   10.2  正态分 布检验 235⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 10.2.1 K-S检验的原理 235⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯          Ⅳ 目   录 10.2.2 分析实例 236⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  10.3  二项分 布检验 238⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 10.3.1 二项分布检验的原理 238⋯ ⋯ ⋯ ⋯ ⋯ 10.3.2 分析实例 238⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  10.4  游程检 验 239⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯    10.4.1 游程检验的原理 239⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 10.4.2 分析实例 240⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  10.5  本章小 结 243⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 243⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 243⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章  连续变 量的统 计推断 (一)——— t检验 244⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  11.1  t检验基 础 244⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  11.2  样本均 数与总 体均数 的比较 246⋯ 11.2.1 分析实例 246⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 11.2.2 单样本 t检验中的其他问题 248⋯ ⋯  11.3  成组设 计两样 本均数 的比较 248⋯ 11.3.1 方法原理 248⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 11.3.2 分析实例 249⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 11.3.3 适用条件与方差齐性检验 251⋯ ⋯ ⋯  11.4  配对设 计样本 均数的 比较 253⋯ ⋯ ⋯ 11.4.1 方法原理 253⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 11.4.2 分析实例 253⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  11.5  本章小 结 255⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 256⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 256⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章  连续变 量的统 计推断 (二)——— 单因素 方差分 析 257⋯ ⋯ ⋯ ⋯ ⋯ ⋯  12.1  方差分 析入门 257⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 12.1.1 为什么要进行方差分析 257⋯ ⋯ ⋯ ⋯ 12.1.2 方法原理 258⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 12.1.3 单因素方差分析的应用条件 261⋯ ⋯ 12.1.4 单因素方差分析的 SPSS实现 263⋯  12.2  均数间 的多重 比较 266⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 12.2.1 直接校正检验水准 266⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 12.2.2 专用的两两比较方法 267⋯ ⋯ ⋯ ⋯ ⋯ 12.2.3 两两比较方法的选择策略 268⋯ ⋯ ⋯ 12.2.4 多重比较结果出现矛盾时 的解释 269⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 12.2.5 分析实例 269⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   12.3  各组均 数的精 细比较 271⋯ ⋯ ⋯ ⋯ ⋯ 12.3.1 方法原理 271⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 12.3.2 分析实例 272⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 12.3.3 事先计划的比较 274⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   12.4  组间均 数变化 的趋势 检验 275⋯ ⋯ ⋯   12.5  本章小 结 277⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 277⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 278⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章  有序分 类变量 的统计 推断——— 非参数 检验 279⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   13.1  非参数 检验概 述 279⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.1.1 非参数检验的意义 279⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.1.2 非参数检验预备知识 280⋯ ⋯ ⋯ ⋯ ⋯   13.2  两个配 对样本 的非参 数检验 281⋯ 13.2.1 方法原理 281⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.2.2 分析实例 283⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.2.3 确切概率的计算 285⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   13.3  两个独 立样本 的非参 数检验 286⋯ 13.3.1 Mann-WhitneyU检验 286⋯ ⋯ ⋯ ⋯ ⋯ 13.3.2 分析实例 287⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.3.3 其他两样本非参数检验方法 288⋯ ⋯   13.4  多个独 立样本 的非参 数检验 289⋯ 13.4.1 方法原理 289⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.4.2 分析实例 290⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.4.3 多个样本的两两比较 291⋯ ⋯ ⋯ ⋯ ⋯   13.5  多个相 关样本 的非参 数检验 292⋯ 13.5.1 Friedman检验 292⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.5.2 分析实例 293⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.5.3 Kendall协和系数检验与 Cochran 检验 294⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   13.6  秩变换 分析方 法 296⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.6.1 原理简介 296⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 13.6.2 应用实例 296⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   13.7  本章小 结 299⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 299⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 300⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯目   录 Ⅴ          第 章  无序分 类变量 的统计 推断——— χ2 检 验 302⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  14.1  χ2 检验 基础 302⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 14.1.1 χ2 检验原理 302⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 14.1.2 χ2 值的计算与意义 303⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 14.1.3 χ2 分布 303⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  14.2  拟合问 题——— 样本率 与已知 总体率 的比较 304⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯    14.2.1 分析实例 304⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 14.2.2 检验方法的 SPSS实现 306⋯ ⋯ ⋯ ⋯ 14.2.3 单样本 χ2 检验的其他话题 307⋯ ⋯  14.3  相关问 题——— 两(多)个 率或 构成比 的比较 308⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 14.3.1 分析实例 309⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 14.3.2 检验方法的 SPSS实现 311⋯ ⋯ ⋯ ⋯ 14.3.3 多样本 χ2 检验的其他话题 312⋯ ⋯  14.4  两分类 变量间 关联程 度的 度量 314⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 14.4.1 相对危险度与优势比 314⋯ ⋯ ⋯ ⋯ ⋯ 14.4.2 分析实例 315⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  14.5  一致性 检验与 配对 χ2 检验 317⋯ ⋯ 14.5.1 Kappa一致性检验 317⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 14.5.2 配对 χ2 检验 318⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  14.6  分层 χ2 检验 319⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯  14.7  本章小 结 322⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 323⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 324⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 第 章  相关分 析与回 归分析 325⋯ ⋯ ⋯ ⋯   15.1  相关分 析简介 325⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.1.1 相关分析的指标体系 325⋯ ⋯ ⋯ ⋯ ⋯ 15.1.2 一些基本概念 328⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.1.3 SPSS中的相应功能 328⋯ ⋯ ⋯ ⋯ ⋯ ⋯   15.2  简单相 关分析 329⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.2.1 方法原理 329⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.2.2 分析实例 332⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.2.3 秩相关系数 334⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.2.4 Kendall�s等级相关系数 335⋯ ⋯ ⋯ ⋯   15.3  偏相关 分析 335⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.3.1 方法原理 335⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.3.2 分析实例 336⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   15.4  Distances过程 338⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.4.1 距离测量与相似性测量的指标 体系 338⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.4.2 分析实例 340⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   15.5  简单回 归分析 341⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.5.1 方法原理 341⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.5.2 分析实例 344⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 15.5.3 相关与回归分析的联系和 区别 346⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   15.6  本章小 结 346⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   思考与 练习 346⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯   参考文 献 347⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 附 录 1 SPSS13版新增 功能介 绍 348⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 附 录 2 SPSS函数 一览表 350⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 附 录 3 各种 情形下 最常用 统计检 验方法 索引 359⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 附 录 4 统计 术语英 汉名词 对照表 361⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ SPSS产品 简介 367⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯          Ⅳ 目   录 第一部分 数据管理与软件入门1.1 SPSS软件 概述 3               第 章 数据分析概述与软件入门 1.1 SPSS软件概述 SPSS公司 总部位 于 美 国 芝 加 哥,创 立 于 1975年,一 直 以 经 营 统 计 软 件 产 品 开 发为 主 业 。 1994— 1998年间,SPSS公 司 得 到 了 很 大 的 发 展 ,陆 续 购 并 了 SYSTAT公 司 、BMDP软 件 公 司 、 Quantum公司 、ISL公司 等,并 将各公 司的主 打产品 收纳 SPSS旗下 ,从而使 SPSS公司由原 来的单 一 统计产 品开发 与销售 转向为 企业、教 育科研 及政府 机构提 供全面 信息统 计决策 支持服 务,成为 最 新的“数 据仓库 ”和“数据 挖掘”领 域前沿 的一家 综合统 计软件 公司。 SPSS软件 是 SPSS公司 赖以起 家的产 品,目前 也仍然 是该公 司的主 打产品 之一,目 前的 最新 版 本为 12.0本书 也均以 12.0版 本为 准 进 行讲 解 。SPSS的 英 文 名 称 原 为 StatisticalPackagefor SocialSciences,意 为社会 科学统 计 软件 包 。后 来 随 着 SPSS产 品服 务领 域的 扩 大和 服 务 深度 的 增 加,SPSS公 司已于 2002年 将英文 全称更 改为 StatisticalProductandServiceSolutions,意 为统计 产 品与服 务解决 方案。 在近 30年的发 展中,虽然竞 争对手 不断出 现,但 SPSS却 始终以其 鲜明的 特 色鼎立 于统计 学软件 之中,现 在和 SAS(另 一种统 计 分析软 件)被并 称 为当 今 最权威 的两 大统 计 软件。 1.1.1 软件的基本特点 SPSS得到 用户广 泛欢迎 的原因 在于 SPSS强大 的统计 分 析 与数 据准备 功 能,方 便 的 图表 展 示 功能,以 及广阔 的兼容 性、界 面的友 好性满 足了广 大 用户 的 需求,深 受广 大 应用 统计 分析 人员 的 喜爱。 1.功能强 大 (1)囊括了 各种成 熟的统 计方法 与模型 ,为统计 分析用 户提供 了全方 位的统 计学算 法,为各 种 研究提 供了相 应的统 计学方 法。如 方差分 析、回归 分析、多元统 计分析 方法、生 存分析 方法等 , 方 法体系 覆盖全 面。 (2)提供了 各种数 据准备 与数据 整理技 术。如 利 用值 标 签来 快 捷 地录 入 数据,从 而为 数据 审 核与分 析提供 了便利 条件。 生成新 的变量 ,对连续 性变量 进行离 散性转 换;将 几个小类 别合并 为 一个大 类别等 。利用 SPSS强 大的数 据整理 技术,可使数 据结构 、内容更 易于分 析。 (3)包括自 由灵活 的表格 功 能。特 别是在 SPSS11.5版 本 中新 增 的自 定 义 表格 模 块 (Cus- tom Table),使得制 表变得 更加简 单和直 接。 (4)提供了 各种常 用的统 计学图 形,如条 图、线 图、饼图 、直方 图、散点 图等多 种图形 ,并且可          4     第 1章  数据 分析概 述与软 件入门 将 表格图 形直接 拷贝到 Word文档 、幻灯 片中,直 接进行 结果的 展现。 2.兼容性 好 (1)在数据 方面,不 仅可在 SPSS中 作数 据 录入 工作 ,还 可将 日常 工 作 中 常用 的 Excel表 格 数 据、文本 格式数 据导入 SPSS中进行 分析,不 仅节省 了相当 大的工 作量,并且避 免了因拷 贝粘贴 可 能引起 的错误 。 (2)在结 果方 面,SPSS的 表格、图 形结 果可 直接导 出为 Word、文 本、网 页 、Excel格 式 等,也 可 以将表 格、交互 式图形 作为对 象选择 性粘贴 到 Word、PowerPoint等中,并 在其中 再利用 SPSS对 它 们进行 编辑。 3.易用性 强 SPSS之所 以有广 大的用 户群,不仅因 为 它 是一 种 权威 的 统计 学 工 具,提 供 了强 大 的 统计 功 能 ,也因为 它是一 种非常 简单易 用的软 件。人 机 界面 的 友好 、操作 的 简 单,使 得各 位统 计分 析人 员 对它青 睐不已 。另外 ,SPSS也向 一些 高级 用 户提 供了编 程 功 能,使 分析 工 作 变得 更 加 节省 时 间 和精力 。 1.1.2 SPSS的 Client/Server结构 SPSS软件 自 10.0版本 以来,已发展 为 Client/Server的 结构体 系。用 户可以 选择只购 买单机 版 ,也可以 选择购 买服务 器和单 机版。 对于大 数据量 客户,可以利 用 SPSSServer来解 决 速度慢 、 网 络阻塞 等由于 数据量 大而引 起的问 题。 在分 析中使 用 SPSSServer的好 处在于 : (1)更快的 分析速 度。由 于服务 器端往 往与数 据仓库 的物理 距离 更近 ,而 SPSSServer也对 计 算进行 了优化 ,加之应 用服务 器的 硬 件配 置也 远高于 单机 端(客 户端 ),因 此 对于 进 行 大数 据 量 分析的 客户,SPSSServer可以 使速度 提高很 多。 (2)缓解网 络阻塞 。由于 数据不 需要全 部传送 到 单机 端 ,所以网 络上 的 数据 传输 量大 大减 少 ,从而缓 解了网 络阻塞 问题。 在使 用时调 用 Server的具 体做法 是:在应 用服务 器端安 装 SPSSServer,在单 机端安装 相同版 本 的 SPSSClient(参 见 图 1.1)。 在 单 机 端 打 开 SPSSforWindows时 ,选 择 菜 单 File→ Switch Server,在 如图 1.2(a)所示的 对话框 中指 定要 连接 的 SPSSServer所 在服 务 器 地 址,如 果 是第 一 次 使用,则 单击“Add”按钮,出 现如图 1.2(b)所示 对 话框,输 入服 务 器 名 或 IP地址 、端 口 号,单 击 “OK”按 钮,在 服务器 列表中 出现相 应的 Server地 址 ,然后 输 入用 户 名、密 码 、域名,单 击 “OK” 按 钮,即可 登录到 SPSSServer。 此时,在 SPSSforWindows下方的 状态栏 中,就 会显示 “SPSSPro- cessoron‘服务 器名’:‘'端 口号’isready”,表示 连接已 经建立 。 当然 对于数 据量不 大 的 客 户 ,只 用 SPSSClient就 可 以 了。 现 在 国内 绝 大 多 数 用户 所 说 的 SPSS,实际 上就是 指的单 机版。1.1 SPSS软件 概述 5               图 1.1 SPSS软件的 Client/Server体系                 (a)                             (b) 图 1.2 SPSSClient调用 SPSSServer的对话框设置 1.1.3 SPSS的模块式结构 无论 是 SPSSClient还 是 SPSSServer,均是 模块 式结构 ,即 它把 自己 的所 有 功能 分 放 在多 个 模 块上。 用户可 以根据 分析中 可能用 到的数 据处理 和 统计 分 析方 法 ,自己 选 择适 当的 模块 进行 购 买,而不 必花更 多的钱 购买所 有模块 。 SPSS12共由 11个模 块 构成 ,它们 分 别 是:SPSSBase、SPSSAdvanced、SPSSCategories、SPSS ComplexSample、SPSSConjoint、SPSSExactTest、SPSSMaps、SPSSMissingValueAnalysis、SPSSRe- gression、SPSSTables和 SPSSTrends。其 中 SPSSBase是必 需的,因 为 SPSS软 件 的整 个 框 架、基 本 的数据 获取、数 据准备 等基本 功能都 被集中 在这个 模 块上 ,其他模 块必须 在 SPSSBase搭 建的 平 台上才 能工作 。其他 模块的 功能分 别如表 1.1所 示。 SPSS软件 通过其 License来控 制模块 是否安 装。一 个模块 安装上 之 后,在 SPSSforWindows 的 菜单中 就会出 现相应 的菜单 项 ,所以 不 同客 户 的 SPSSforWindows的 菜单 可能 有所 不 同。如 果 没有购 买 SPSSTrends模 块,软件 中就 不会 有这 样 一 个 菜单 :Analyze→ Trends;如 果 没 有购 买 SPSSMaps模 块,软 件中就 不会有 菜单:Graph→ Maps。          6     第 1章  数据 分析概 述与软 件入门 表 1.1 SPSS模块与功能对应表 SPSS附加模块 功  能 SPSSAdvanced 一般线性模型、混合线性模型、对数线性模型、生存分析等 SPSSCategories 对应分析、感知图、Proxscal等 SPSSComplexSample 多阶段复杂抽样技术等 SPSSConjoint 正交设计、联合分析等,适用于市场研究 SPSSExactTest 精确 P值计算、随机抽样 P值计算等 SPSSMaps 在地图上展示数据等 SPSSMissingValueAnalysis 缺失数据的报告与填补等 SPSSRegression Logistic回归、非线性回归、Probit回归等 SPSSTables 交互式创建各种表格(如堆积表、嵌套表、分层表等) SPSSTrends Arima模型、指数平滑、自回归等 随着 版本的 提升,SPSS的各个 模块在 功能和 性能上 也会有 一 定的改 进。例 如,SPSSBase从 11.5版本开 始,提供 了将结 果直接 导入 Word、Excel文 档 的功 能,而在 12版 本 中,变量 名也 不再 有 8字符 的位数 限制。 又比如 SPSSTables在 11.5版 本时发 生了 重 大 变化,提供 了所 见即 所得 的 表格制 作功能 ,详见本 书第 7章。SPSSComplexSample模块 则 是 12.0版本 新增 加的 内容,详 见 本丛书 的《SPSS与市 场研究 》中的相 关内容 。 最后 有一点 需要澄 清:国内 许多 SPSS书 籍因对 SPSS的 功能讲 解不全 ,总是 在前言中 声明所 使 用的是 SPSS标 准版。 实际上 SPSS软件,不 存在所 谓的标 准版和 专业版 之分,即使安装 全部的 11个 模块,软 件也仍 然是标 准版。 这些 书 籍 中 所谓 的“标准 版 ”,其 实 质 只 是 SPSSBase模块 的 相 应功能 而已。 1.1.4 SPSS的安装 SPSS的安 装非常 简单,跟随安 装向 导即 可将 SPSS轻松 安装 到自 己 的本 机。下 面 分 别简 要 介 绍一下 SPSSServer和 SPSSClient的 安装过 程。 1.SPSSServer的 安装 SPSSServer支 持的 操 作 平 台有 AIX UNIX,HPUNIX,Linux,WindowsNT等,根 据 不 同的 版 本 ,支持平 台略有 不同。 具体安 装步骤 如下: (1)将 SPSSServer安 装光 盘插 入计 算 机光 驱后,出 现 如图 1.3(a)所示 的界 面。 选 中 “In- stallSPSSServer”即进 入安装 向导。 (2)跟随向 导,接受 License协议 ,并选择 安装目 录,出 现图 1.3(b)图 所示界 面。 (3)键入 SPSS公司 提供的 License,单 击“Update”按 钮,即 出现 该 License允许安 装 的模块 , 单 击“Next”按钮 。1.1 SPSS软件 概述 7               (4)设定该 应用服 务器 的 IP地 址 和 应用 端 口,再单 击“Next”按钮,即 开 始 安 装 ,最 后单 击 “Finish”按钮 结束安 装。                (a)                             (b) 图 1.3 SPSSServer安装过程中的几个视图 2.SPSSClient的安装 SPSSClient支持的 操 作平 台 为 WindowsNT4.0,Windows95、98、2000、XP等。 安 装 要求 约 100MB~120MB硬 盘(视 其版本 和模块 而不同 ),内存要 求为 64MB以上 。具体 安装步 骤如下 : (1)将 SPSSClient安 装光盘 放入计 算机光 驱后,出现如 图 1.4(a)所 示的界 面。选 中“Install SPSS”即进 入安装 向导。 (2)跟随向 导,首先 “接受 License协议”,并 选择安 装 目录 ,在随 后 的界面 中键入名 称、公司 和 SPSS公 司提供 的序列 号。 (3)当要求 输入 License时 ,如图 1.4(b),键入 SPSS公司 提 供 的 License,单 击 “Update”按 钮 ,即出现 该 License允 许安装 的模块 ,单 击 “Next”按 钮 ,即开 始 安 装,最 后 单 击 “Finish”按钮 结 束 安装。                 (a)                           (b) 图 1.4 SPSSClient安装过程中的几个视图          8     第 1章  数据 分析概 述与软 件入门 1.2 SPSS操作入门 1.2.1 SPSS软件的启动与退出 在 Windows开 始菜单 上选择 开始 → 程 序 →SPSSforWindows→ SPSSforWindows,就 启动 了 SPSS,如图 1.5所 示。 图 1.5 SPSS的启动示意图 如果 要关闭 该软件 ,则选择 菜单 File→ Exit,或 者直接 关闭窗 口,即可 退出 SPSS。 1.2.2 SPSS的 5个窗口 SPSS运行 时使用 的窗口 种类最 多共有 5个:数 据 编辑 窗 口、结 果 管理 窗 口、语法 编 辑 窗口 、 脚 本窗口 和草稿 结果窗 口。 其中 数据 编 辑 窗 口和 结果 管理 窗口 是 最 常 用到 的两 个窗 口。实 际 上 ,这 5个 窗口分 别用于 打开 5种格式 的 SPSS文件 :以“sav”为扩 展名的 是 SPSS的数据 文件;以 “sps”为扩 展名的 是 SPSS的语 法文件 ;以“spo”为 扩展 名的 是 SPSS的 结果 文件 ;以“sbs”为 扩展 名 的是 SPSS的脚 本文件 ;以“rtf”为扩展 名的是 SPSS的 草稿结 果文件 。 (1)数据编 辑窗口 (SPSSDataEditor):此 窗口类 似于 Excel窗口 ,SPSS处理 数据的主 要工作 全 在此窗 口进行 。它分 为两个 视图:如 图 1.6(a)所 示 的数据 视图 用 于 显示具 体的 数据 ,一 行代 表 一个观 测个体 (SPSS中称为 Record),一列 代表一 个属性 (SPSS中称为 Variable);如图 1.6(b) 所 示的变 量视图 则专门 显示有 关变量 的信息 :变量名 称、变 量的类 型、变量 的格式 等,关于 变量信1.2 SPSS操作 入门 9               息 中各术 语的详 细解释 ,可参阅 第 2章 。               (a)                             (b) 图 1.6 数据编辑窗口的数据视图和变量视图 (2)结果管 理窗口 (SPSSOutputViewer):又 称结 果 视图,此 窗口 用 于 存 放 分析 结 果,如 图 1.7(a)所示 。类似 于 Windows的 资源 管 理 器,整 个 窗 口分 两个 区:左 边为 目 录 区,是 SPSS分 析 结 果的一 个目录 ;右边是 内容区 ,是与 目录一 一对应 的内容 。 (3)草稿结 果窗口 (SPSSDraftViewer):草稿结 果是结 果的一 种简化 文本格 式。实际 上就是 Word所 兼容的 rtf超 文本格 式,因此 可以在 没有安 装 SPSS的 PC机 上使用 文字编 辑软件 打开,窗 口 形式如 图 1.7(b)所 示。               (a)                             (b) 图 1.7 结果管理窗口和草稿结果窗口 (4)语法编 辑窗口 (SPSSSyntaxEditor):SPSS最大 的 优 势在 于 其 简 单 易 用性,即 菜 单 -对 话 框式的 操作,窗 口形式 如图 1.8(a)所示。 除此之 外,SPSS还 提 供了 语法 方式 或 程序 方式 进行 分 析。该 方法既 是对菜 单功能 的一个 补充,也 可以使 繁琐的 工作得 到简化 ,尤其 适用于高 级分析 人 员。 (5)脚本窗 口(SPSSScriptEditor):SPSS脚 本是 用 SaxBasic语 言写 的 程 序,窗 口 形 式如 图 1.8(b)所示 。脚本 可以像 SPSS宏 一样构 建和运 行 SPSS命令,而 且脚 本可 以在 命 令中 利用 当前          10    第 1章  数据 分析概 述与软 件入门 数 据文件 的变量 信息,还 可以对 结果进 行编辑 或者构 建 一些 新 的自 定 义 的对 话 框。脚 本可 用于 使 SPSS内 部操作 自动化 ,使结 果格式 自定义 化,实现 SPSS新 功能 以 及将 SPSS与 VB和 VBA兼 容 应用程 序连接 。               (a)                             (b) 图 1.8 语法编辑窗口和脚本编辑窗口 启动 SPSS时 ,即打开 了数 据编 辑窗口 。 其他 窗 口可 以 通 过 File→ New/Open→ 相 应 的窗 口 名 称而打 开。 1.2.3 SPSS的 4种运行方式 SPSS提供 了菜单 -对话 框方式 的操 作 环境,这 是最 简单 和 最常 用的 运行 方法。 此 外,SPSS 还 提供了 程序运 行方法 、Include命 令方法 、ProductionFacility方法 。这几 种方法 是菜单 -对 话框 方 式的有 益补充 。下面 就以 SPSS自 带文 件 Employeedata.sav中 的 数 据对 变量 “jobcat”进行 频 数 分析为 例说明 这 4种 运行方 法。 1.菜单对 话框方 式 首先 打开 SPSS软件 ,然后 选择 菜单 File→OpenFile,如 图 1.9所 示,在 SPSS安 装 目 录下 打 开 数据“Employeedata.sav”。 图 1.9 SPSS打开数据示意图1.2 SPSS操作 入门 11              然后 ,利用 菜 单 Analyze→ DescriptiveStatistics→Frequencies,如 图 1.10所 示,选 中 “jobcat”, 单 击“OK”按钮。 结果管 理窗口 会出现 如表 1.2所示 结果。 图 1.10 利用对话框方式进行频数表分析 表 1.2 EmploymentCategory 这里 使用到 了 SPSS中的对 话框,现在以 图 1.10所示的 对话框 为例对 其作一 简要介 绍: (1)列表框 :上面共 有两个 ,左边 列表为 待选变 量 (包含当 前数据 文 件中 的 可分析 变量 或指 定 变量集 )列表,右 边列表 为 分析 变 量 列表 。 为 变 量 移 动 按 钮,用 于将 变 量 在 “待选 ”和 “分 析 ”列表中 移动。 (2)5个 标准按 钮:几乎 在任何 对话框 中均可 见到,OK、Cancel、Help的含 义非 常明 确,不再 赘 述;Reset会将 对话框 恢复为 默认状 态;Paste则 会将对 话框中 的 选择 自动 转化 为 相应 的程 序语 句 ,详述参 见后面 相关章 节。 (3)其他按 钮和选 项:根据 具体功 能,不 同的对 话 框还 会 出现 一 些 特殊 的 按钮,如 本例 中最 下 方有三 个按钮 ,单击“Statistic”按 钮会 弹出 有关 “统 计 量”指定 的子 对话 框,单 击 “Charts”按 钮 弹 出有关 “图形”指 定的子 对 话 框,单 击“Format”按 钮 则会 弹 出 有 关 “表 格格 式 ”指 定 的 子对 话 框 。 2.程序方 式 上文 中提到 对话框 中有一 个“Paste”按 钮,可 以将相 应的操 作 转化 为所 对应 的 SPSS程序,事 实 上,对话 框可以 被看成 是对后 台 SPSS程序 的打包 调用,如 果将上 文所做 的分析 使用 SPSS程序 方 式来分 析,则应 当在 Syntax编 辑窗口 中键入 以下程 序:    getfile= C:\program files\spss\employeedata.sav.    frequenciesvariables = jobcat/Order= Analysis. 只需 要选择 菜单 Run→All,运行该 程序也 一样会 出现相 同的分 析结果 。          12    第 1章  数据 分析概 述与软 件入门 对于 数据不 断更新 而 分 析工 作 基 本相 同 的分 析 人 员,将 常 用 的 分 析 过 程 保 存 为 Syntax文 件 ,在日后 ,只要 在 Run和 All之间轻 点鼠标 ,即可 轻松完 成繁琐 的工作 。无疑 ,这 是一 个一 劳永 逸 的办法 。 3.Include命令 方式 当编 写 Syntax程序时 ,如果 发现将 要 编 写的 程序 语 句 正 好是 另 一 个 Syntax文件 的 内 容;或 者 发现所 需的程 序语句 其实是 几个 Syntax文件 的总和 时,除了 可 以通 过 “Copy”、“Paste”的 方法 来 利用原 有的资 源,生成 一个新 的 Syntax文件 外,还有 一种更 简单的 办法,那就是 使用 Include命 令 。例如 ,上面的 程序如 果 把它 保 存 为文 件:C:\syntaxsample.sps,则 以后 使 用 时只 需 要 用下 面 的 一句命 令即可 等同于 上面的 整个文 件:    Include C:\syntaxsample.sps. 在 Syntax编辑 窗口中 键入上 面所示 的 Include语 句,运行 后的结 果和前 面相同 。 4.SPSSProductionFacility方 式 在 Windows的 程序菜 单中,SPSS菜单 组 除了有 “SPSSforWindows”项之 外,还有 一 个“SPSS ProductionFacility”。这是 SPSS提供的 运行分 析的另 一种 方法 ,实际 上 是对 SPSS作了 一个 简单 的 开发,让 相应的 SPSS程序在 系统后 台运行 ,直至运 行完毕 后才提 示用户 阅读结 束,用户 在这期 间 可同步 进行其 他工作 ,从而提 高了 工 作 效率。 它利 用 的 机制 实 质上 也是 SPSSSyntax,但除 此 之 外,它还 可以通 过 SPSS宏而 更改 SPSSSyntax中 的文件 名和变 量名或 其他参 数,使得 Syntax的 应 用更加 灵活。 例如 现在希 望 使用这 种方式 分析上 面 的问题 ,则需 要 利用 文 件 syntaxsample.sps来 进行,打 开 SPSSProductionFacility,如图 1.11所 示,随 后的步 骤如下 : 图 1.11 “SPSSProductionFacility”的操作界面1.2 SPSS操作 入门 13              (1)单击 Syntax框下 方的“Add”按钮,到 C盘根 目录下 打开“syntaxsample.sps”。 (2)单击“Edit”按 钮,对 该 程 序 进 行 编 辑。 用 @ file代 替 C:\program files\spss\Employee data.sav,用@var代替 jobcat,保 存后关 闭。 (3)单击右 下角的 “UserPrompts”按钮,添加对 程序的 交互分 析界面 ,如图 1.12所 示。 图 1.12 “UserPrompts”对话框的设定 (4)单击“Browse”按钮指 定结果 保存路 径,单击 “ExportOptions”按钮 还 可以 指定 结果 保存 格 式。 这样 便完成 了 一 个 小 工 程 的 设 定。 可 以 单 击 File→ Save,保 存 该 工 程 为 SPSSJobsample. spp。    下面 来运行 该工程 。单击 Run→ ProductionJob,即出 现如图 1.13所 示的对 话框。 可以 按默 认 的指定 去运行 该工程 ,直接单 击“OK”按钮 ,则相应 程序会 自动转 入系统 后台运 行,运行 完毕后 会 在 指定路 径下 生 成 结果文 件 SPSSJobsample.spo。 当然 也 可 以重新 指定 文 件和 变量 名来 运行 该 工程,这 样就可 以实现 对任何 数据中 任何变 量的频 数分析 了。 图 1.13 SPSSProduction运行时弹出的对话框 1.2.4 SPSS的 4种结果输出 作为 功能强 大的统 计分析 工具,为 了能够 使得分 析结果 更为美 观易读 ,更好 地满足用 户的需          14    第 1章  数据 分析概 述与软 件入门 求 ,SPSS一共 提供了 4种格 式的统 计分析 结果:表 格、文 本、标准 图和交 互图。 1.表格格 式 SPSS可以 绘制表 格用于 表述数 据,除 此之外 ,大部分 分析结 果也 都 以专用 表格的 形 式展示 , 如 图 1.14所 示。 这 些 表 可 能 是 二 维表 ,也 可 能 是 多 维 表。 二维 表、多 维 表都 可 以 作 为 “SPSS PivotTable”对象而 粘贴到 其他应 用 程序 (如 Word、PowerPoint、Excel)中,并 且 依然 利 用 SPSS对 这 些表格 进行编 辑。SPSS的 制表功 能非常 强大,能 很好地 满 足 用户 各种情 况 下 的需 求 ,详见 第 6、7两 章。 图 1.14 SPSS结果格式之一——— 表格格式 图 1.15 SPSS结果格式之一——— 文本格式 2.文本格 式 对于 一些不 便于用 表格和 图形表 达 的结 果 ,SPSS提供 了 文 本 格 式 的结 果 ,如 图 1.15所示 。 随 着版本 的增加 ,SPSS中的 文本输 出 已经越 来越 少 了,例如 在 12版 本 中,现 在 只有 对 数 线性 模 型 和 Arima模型 进行变 量筛选 时还使 用文本 输出。 实际上 ,这里 的文本 输出并 非简单 的 纯文本 ,1.2 SPSS操作 入门 15              而 是与 Office家 族软件 完全兼 容的 rtf格式 ,这些 文字可 以随意 进行拷 贝粘贴 、格式设 定等操 作。 3.标准图 与交互 图 利用 图形来 展示数 据,也是 在数据 分析中 必不可 少的。 SPSS提供 了 两种类 型的图 形。 一种 是 普通图 ,在 SPSS的手册 中称为 “标准图 ”如 图 1.16所示 ;另 一种 为 “交互图 ”如图 1.17所示 。 标 准图是 在 Graphs菜 单下直 接单 击 图 形生 成 的,而交 互图 是 在 Graphs→ Interactive下 单 击图 形 生 成的。 与交互 图相比 ,标准图 生成速 度快,已经可 以 满足 大 部分 统 计 绘图 的 需求,但 可编 辑能 力 要弱于 交互图 ;而交互 图对系 统硬件 环境要 求更高 ,但可 绘制的 图形种 类更多 ,编辑功 能更强 , 尤 其值得 指出的 是,交互 图可以 生成实 时旋转 的动态 三维图 。所以 标准图 适用于 理解数 据,而交 互 图更适 合在报 告演示 中应用 。对交 互图和 标准图 的详细 介绍参 见本书 第 8、9章。 图 1.16 SPSS结果格式之一——— 标准图格式 图 1.17 SPSS结果格式之一——— 交互图格式          16    第 1章  数据 分析概 述与软 件入门 4.结果的 保存和 导出 SPSS的分 析结果 可以保 存为 SPSS自 身的格 式:“.spo”格式 (从 结果编 辑窗口 的“File”直接 点 击“Save”即可 ),但除此 之外,还可 以使 用导 出 功 能存 为 另外 几种 常用 的 格 式,具 体 有 以下 几 种 格式可 供选择 :HTML格式 、Word格式 、Excel格式和 Text格式 。具体 操作是 :在 结果 窗口 选择 菜 单 File→ExportOutput,出现 如图 1.18所 示的 对 话框。 对 话 框最 上 方的 Export下拉 列表 用于 选 择导出 的内容 ;右下角 的 FileType下拉 列表则 用于选 择导出 格式(ExportFormat),为上 述 4种 格 式;中部 的 File框用于 设定导 出文件 的路径 和 名称 ;而左 下 角 的 ExportWhat框 组则 用于 选择 希 望导出 的内容 。另外 ,对于标 准图或 交互图 可以保 存为常 见的图 形格式 ,如 bmp、jpg等常 见格 式 。只需 要在 ExportOutput对话 框中选 择 Export:Chartsonly,在 FileType中选择 图形格 式即可 。 图 1.18 SPSS结果的导出选项 如果 只想保 存或导 出部分 结果,只 要先选 中该结 果,然 后在图 1.18的 ExportWhat框中 选择 “SelectedObjects”即 可。 除了 可以保 存结果 之外,还 可以将 结果 直 接通 过 “Copy”、“Paste”应 用到 其 他软 件 中。 对于 SPSS表 格、交 互图,还 可以将 它们作 为“Object”粘贴到 其 他应 用程序 中 。这 样 做有 一个 好处:粘 贴 后仍可 利用 SPSS提供 的功能 进行编 辑。具 体 操作 是:在“开 始 ”菜单 “运 行”程 序 文 件:object- on.bat(此文件 在 SPSS安装 目录下 )。随后 在应用 程序中 粘贴图 表时均 使用“选 择性粘贴 — SPSS PivotTable控 件或 SPSSInteractiveGraph控件 ”即可。 1.2.5 SPSS的帮助系统 SPSS提供 了无处 不在的 “帮助”功 能,可 以随时 随地为 不同层 次的用 户提供 帮助。 其帮 助功 能 主要包 括学习 向导、帮 助 菜 单、对 话框 帮 助 和语 法 手 册 四 大类 。 事 实 上 ,国 内 有 相当 一 部 分 SPSS教 材都是 在翻译 或引用 SPSS完整而 详细的 帮助内 容,那么 绕过这 些翻译 ,直 接来 见识 一下 原 汁原味 的“帮助 ”功能吧 。1.2 SPSS操作 入门 17              1.学习向 导 SPSS为初 学者提 供了非 常完整 和 系统 的自学 向 导,它 相 当于 一 个 手把 手 的 教练 ,浅 显易 懂 地 告诉用 户各种 基本的 统计分 析 问题 在 SPSS中 是 如何 实 现的。 SPSS中 的学 习向导 有 几 种,分 述 如下: (1)StatisticsCoach:对 于需要 新手紧 急完成 的一 些 常用 统计 分析 操 作,SPSS提供 了统 计教 练 功能,它 可以告 诉用户 为达到 分析目 的应选 择什么 统计方 法,并 一步步 地指导 用户如何 进行统 计 分析。 该模块 实际上 是 一个 编 译 好 的交 互式 网 页 ,使 用起 来 非常 舒 服。StatisticsCoach位 于 Help菜单中 ,选择 Help→StatisticsCoach即 可进入 ,图 1.19即为 统计教 练的一 个界面 。 图 1.19 统计教练的界面 (2)Tutorial:同样为 初学者 提供,是 关于某 个主题 的一步 步指导 。 以示 例 化、图形 化的 方式 告 诉用户 如何使 用这个 软件。 初学者 可 以 通过 该教 程掌 握 SPSS的 几乎 全 部常 用 操 作 (数据 的 输 入、分析 和绘图 )。Tutorial模块位 于 Help菜 单中 ,选 择 Help→ Tutorial即 可 进 入,起 始 界面 为 一 个目录 列表,即 所有教 程内容 的索引 ,用户 可在里 面选择 需要阅 读的主 题,如果 对 SPSS完全不 熟 悉,则可 以从最 上面 的 Introduction开 始,它 提 供了 使 用 SPSS的 一 些 最 基 本 的 操 作 教程。 图 1.20为 Tutorial在 演示如 何编辑 表格。 图 1.20 Tutorial在演示如何编辑表格          18    第 1章  数据 分析概 述与软 件入门 (3)ResultsCoach:是 关于结 果的解 释(参见 图 1.21)。 在结果 窗口中 ,只要 对相应的 输出含 义 不太清 楚,即可 选中该 输出,并 右 击鼠 标,右键 菜 单上 会 有 ResultsCoach选 项,它 可 以 链接 到 相 应的向 导界面 ,详细地 对该过 程的功 能和结 果加以 讲解。 但需要 注意的 是,对 于少数统 计上比 较 复杂,难 以解释 清楚的 方法,SPSS没有提 供。 图 1.21 ResultCoach在解释频数表 (4)CaseStudies:上 述三个 向导多 少都 有一 些 入门 和救急 的 味 道,对 于希 望 系 统 学习 SPSS 中 统计功 能的用 户而言 ,就可以 使用 CaseStudies这 一 详 细 的案 例 向 导。 用 户选 择 菜 单 项 Help → CaseStudies即可进 入,如 图 1.22所示,它为 中级 用户提 供了 SPSS各 模块 的 主要 分 析 方法 的 基 本操作 和结果 解释。 其讲解 方式也 是示例 化、图形 化 的。 只 要大家 的英 文 水平 和统 计功 底尚 可 ,实际上 可以通 过 该向 导 掌握 绝 大多 数 的 SPSS基 本 操 作,从 而 避 免了 到 处 寻 找 一本 优 秀 的 SPSS入 门教材 的痛苦 。 图 1.22 CaseStudy在演示 Means过程 2.帮助菜 单 SPSS的帮 助文件 就是一 个标准 的 Windows帮 助文件 ,在菜 单 上选择 Help→Topics进 入。在 使 用上没 有太多 特殊的 地方,主 要也是 通过目 录和索 引两种 方式查 找所需 的内容 。1.2 SPSS操作 入门 19              (1)目录树 方式:目 录树像 一本电 子书的 目录一 样,将 所 有主 题 分 成了 一 个树 状结 构,如图 1.23所示。 只要循 着该目 录的各 级分支 ,最终总 能找到 所需的 内容。 用户可 以在“目 录”表 中浏 览 用户手 册从而 学习 SPSS的使 用。从 左边选 择一个 主 题,如 “HowtoreadExcel5orlater?”,右 边 内容区 即显示 此部分 内容。 图 1.23 SPSS帮助主题 (2)索引方 式:目录 树的结 构比较 完整,但使用 上 要求 用 户首 先 要 熟悉 分 类,而且 要一 层层 找 下去,如 果知道 希望查 找的关 键词,用户就 可以在 “索引”表 中 键入 关 键词,系 统 会在 其左 边的 索 引栏中 寻找与 键入词 完全匹 配的内 容。如 在索引 栏中键 入“Frequency”,左边 的 索引 栏的 第一 行 即显示 “Frequency”,双击 并选择 其中 一个 表,即可 出 现内 容。而 当 关键 词 不 确定 时 也 可以 通 过 “搜索”表 查询相 关内容 。在“搜 索”栏中 键 入待 搜 索内容 ,单击 “列 出主题 ”,下 边即 列出 包含 该 搜索内 容的所 有主题 。 3.对话框 帮助 SPSS的界 面做得 非常友 好,对 话框 界面 中 到处 都是帮 助 功 能。 首先,在 所 有主 对 话 框或 子 对 话框中 都会 有 Help按 钮,单击 Help后系统 会 弹出相 应 的帮 助 内容 ,用于解 释各个选 项、框组 的 作用是 什么。 除这种 标准的 帮助以 外,任何 时候如 果对某 个选项 的功能 不太熟 悉,则可 以直接 在 该选项 框上方 单击鼠 标右键 ,就会立 刻弹 出 相 应的 解 释(见图 1.24),注 意 此处 的帮 助内 容并 非 Help菜单中 相应内 容的重 复,一般 来说要 更详细 些。 图 1.24 SPSS中的对话框帮助          20    第 1章  数据 分析概 述与软 件入门 4.语法手 册 当大 家对 SPSS的熟 悉达到 一定程 度时,就会发 现 许多 操 作使 用 对 话框 来 做非 常麻 烦,甚至 无 法用对 话框来 实现。 实际上 ,至 少有 20% 的高级 功能 是 必须 使用 程序 方 式 才 能实 现 的,而 且 使 用编程 方式来 完成相 同的工 作时,操 作效率 也要高 得多。 由于目 前国内 几乎没 有对 SPSS编程 加 以深入 讲解的 资料,此 时可以 直接参 考 SPSS附带的 语法指 南。 在 SPSS的 安装 文件 中都 附送 了 所有模 块语法 指南书 的 PDF格式 文档,这是 SPSS官方 提供的 最为 权 威的使 用指导,学会 如何 使 用它,是 最有效 的 学 习 SPSS的 方 法。语 法 指 南 的调 用 非 常 简 单,只 要 选 择 Help→ Command SyntaxReference,就会 自动打 开相应 的 PDF文 档。该 文档自 带一个 目录树 ,通过 它就可以 查找到 希 望学习 的 SPSS过程名 称,从 而进行 深入的 学习。 1.3 数据分析概述 1.3.1 数据分析方法论介绍 任何 一个数 据分析 项目,如 果按照 整个分 析过程 的流程 结构来 看,都 可以被 分解为大 致 7个 阶 段:计划 阶段、数据收 集、数据 获取、数据准 备、数据 分析、结果报 告和模 型发布 阶段。下 面就来 对 这 7个 阶段做 一下简 单的探 讨。 (1)计划阶 段。在 分析项 目的初 始阶段 ,需要花 费大量 的时间 来设计 分析计 划,以减 少盲目 分 析,避免 资源浪 费。在 该阶段 ,要对 数据分 析的各 个 行动 步 骤作 好 规 划,主 要任 务是 弄清 楚以 下 几个问 题: ① 确定研 究问题 。从研 究分析 开始,就确立 明确的 分析目 标是非 常 重要的 。 它可 以帮 助用 户 合理地 计划人 员、时间 、资源 分配,并 能指导 用户集 中精力 于研究 性分析 。 ② 建立项 目预算 。 ③ 确定研 究范围 即确定 研究总 体和个 体。 ④ 确定样 本的抽 取方法 。 ⑤ 分析评 估所需 样本量 。 ⑥ 确定数 据收集 方式。 ⑦ 确定与 研究问 题相关 的数据 即确定 应该收 集个体 的哪些 数据。 ⑧ 确定研 究问题 的分析 方法和 分析工 具。 (2)数据收 集阶段 。如果 手头已 经有现 成的数 据 ,就可 以 不必 再 进 行数 据 收集。 数据 收集 的 目标、方 式完全 取决于 在 上 一 步 中所 制 定 的计 划 。数 据 收集 方式 有很 多 种,可以 是 电 话式 访 问 ,可以是 面谈式 收集,也可以 是拦截 式访问 。如果 是 从头 进 行数 据 收 集,则 应当 有一 份标 准问 卷 ,问题的 设计不 仅要相 关,还 要能够 从中得 出有意 义的结 论。 (3)数据获 取阶段 。该阶 段的目 的是将 分散的 、原始格 式各不 相同的 数据读 入分析 工具中 ,1.3 数 据分析 概述 21              使 分析工 具可以 对数据 进行分 析。 (4)数据准 备阶段 。该阶 段的主 要任务 是: ① 清理数 据以保 证数据 的准确 性。数 据准确 性是数 据分析 结果正 确的最 基本的 前提条 件。 ② 对数据 进行必 要的转 换。如 生成 一 些 新的 字 段以 供 分 析;将 连续 字段 离散化 ;将 字符 型 字 段数值 化等。 目的是 将数据 结构转 换成合 适的形 式。 ③ 填充缺 失数据 。对各 种缺失 字段,利用适 当的方 法进行 填补。 ④ 对数据 进行合 并、汇 总等。 将数据 文件进 行合并 ,将个体 数据进 行汇总 ,生成 各组数据 。 (5)数据分 析阶段 。利用 各种数 据分析 方法对 数 据 进行 分析,得 出 结论 。数 据分 析阶 段又 可 以分为 几个部 分: ① 预分析 :包 括概 括 性统 计描 述和 探索 性 统计 推 断两部 分 ,前者 是使 用统 计 图和 统计 表对 数 据进行 更好地 理解,而 后者则 基于对 数据的 理解开 始尝试 进行分 析,以 寻找最 终分析模 型的雏 形 。具体 使用的 方法可 以是单 因素分 析,也可 以是简 单的多 因素分 析。 ② 精确分 析:基 于上一 步得到 的各种 信息,开 始尝试 拟合最 佳的统 计模型 ,以 寻求 对数 据中 所 蕴含信 息最完 美的解 释。完 成这一 部分的 工作往 往 需要 统 计知 识 和 专业 知 识互 相补 充,而所 使 用的统 计方法 一般都 是多变 量方法 ,甚至是 多元统 计分析 方法。 (6)结果报 告阶段 。结果 报告的 目的是 将整个 数据分 析项目 的结果 以一种 非学术化 的方式 表 达出来 ,使得决 策者(报 告的阅 读者 )能 够 快速 理 解,并 基 于此 分 析 结 果做 出决 策。 报 告可 以 是 文本文 档、表格 、图形 或者是 网页。 (7)模型发 布阶段 。结果 报告仅 仅是对 基于历 史 数据 所 建立 的 模 型加 以 阐述,当 需要 利用 该 模型进 行预测 时,具体 的做法 可以是 在分析 软件中 加以预 测,也 可以将 生成的 模型编译 成单独 运 行的控 件或程 序,将其 模型整 合到应 用平台 中去。 该阶段 的目标 是将分 析阶段 得到的 模型、信 息 和知识 带给机 构决策 者以便 他们能 为机构 做出更 好的未 来规划 。 在大 多数分 析过程 中,不一 定会经 历所有 的这 7步。例 如 ,根 据 分 析的 目 的,所需 的数 据仅 是 日常工 作产生 的交易 数据,那 么就不 必再经 历 “数 据 收 集”阶 段 ,而是 直 接 进入 “数 据 获取 ”阶 段 。另外 ,各阶段 之间可 能交叉 进行。 例如,有 时在 对 原 始 数据 进 行 分析 之 后,即 进 入了 “数 据 分 析”阶段 ,突然发 现其他 数据 也 是 分析 必 需的,所 以不 得 不重 新 返 回“数 据 收集 ”阶段 。 又如 , 在 “数据分 析”阶段 中发现 某个字 段因其 格式不 能参与 分析,所 以就需 要再进 行“数 据 准备”阶段 所 做的工 作。 在一 个数据 分析项 目结束 后,可能 因该项 目中的 新发现 和对数 据的新 的理解 ,从而引 发一个 新 数据分 析项目 。 1.3.2 SPSS系列产品对数据分析流程的支持 作为 一家信 息统计 决策支 持服务 的提供 商,SPSS公 司在以 上涉及 的各 个数 据 分析 阶段 均有 相 应的 产品 与 其对 应 。 例如 ,在计 划 阶 段 可 以 用 SamplePower来计 算 样 本量 ,用 SPSSComplex Sample模块 设定样 本抽取 计划,甚至直 接 抽取 样 本;数据 收集 阶段 可 以用 SPSSDataEntry来 进 行 问卷设 计及 数据 网络 录 入工 作 ;数 据准 备 阶段 可以 用 SPSSBase和 MissingValue等 对数 据进 行 必要的 整理和 修补工 作;数据 分析阶 段是 SPSS产品 的核心 功 能,多 个 SPSS模块 和 SPSS独立          22    第 1章  数据 分析概 述与软 件入门 软 件为数 据分析 提供了 各种统 计分析 方法和 数据挖 掘方法 。而 SPSS软件 提供的 统计图 、统计报 表 功能和 结果输 出功能 则可以 很好地 支持结 果报 告阶 段 的需 求。总 之,以 上 提到 的各 阶段 均可 以 从 SPSS公司的 产品线 中获得 支持。 而 SPSS软件本 身 则作 为 一个 核 心平 台 ,在 整个 数据 分析 流 程中起 着关键 的作用 。 1.3.3 本书内容介绍 本书 将以上 述数据 分析的 7个阶 段为主 线来组 织内容 。在本 书的第 2章详 细介绍了 各种格 式 的数据 如何读 入 SPSS中,即 数据获 取阶段 的内 容;第 3章 介 绍了 数 据 转换 、合并、汇 总等 各种 数 据准备 问题;第 4、5章 介绍了 数据分 析的最 初 阶段 ,即描 述 性 统计 分 析;第 6章 ~第 9章 介绍 了 各种表 格、图形 的制作 ,而表 格、图形 正是分 析报告 阶段的 必需品 ;第 10章 ~第 15章 讲述 数据 分 析的初 级 内 容,即 推 断 性 统 计 分 析 的 部 分 方 法。 更 复 杂 的 统 计 分 析 方 法 将 在 本 套 丛 书 的 《SPSS统 计分析 高级教 程》中讲 解。至 于计划 阶段、数 据收集 阶段、结 果发 布 阶段 等往 往因 为会 涉 及具体 的行业 应用,不 应当是 统计教 程的讲 解内容 ,所以 在基础 教程和 高级教 程中都不 会有太 多 介绍,但 将会在 本丛书 的其他 行业应 用分册 中涉及 ,感兴 趣的读 者可参 考这些 分册中的 相关内 容 。 思考与练习 1.试检查 自己的 SPSS软 件共有 几个模 块,其 中包括 了哪些 功能,并 思考平 时 的统 计分 析究 竟 要哪些 模块才 能够满 足需求 。 2.尝试使 用本章 所介绍 的 4种 方 法来使 用 SPSS进行书 中 例题的 分析,并 体会 这 4种 方法 各 自的优 缺点。 参考文献 1 TheBasics:SPSSforWindows10.0.SPSSInc.Chicago,Illinois,1999 2 Programmingwith SPSSSyntaxandMacros(v10.0Revised).SPSSInc.Chicago,Illinois, 1999 3 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,20022.1 数 据格式 概述 23              第 章 数据录入与数据获取 数据 是统计 研究的 基础,如 果没有 数据,分析也 就 无 从谈 起。用 于 分析 的 数据 资料 有两种 , 一 种是原 始资料 ,如调查 问卷中 的数据 需要将 它们录 入进 SPSS软 件,建立 数据文 件;另一 种是已 经 被录入 为其他 数据格 式的资 料,需要 将其内 容直接 读入 SPSS中 。 针对 上述的 两种情 况,这一 章将主 要介绍 两 个问 题,即如 何将 数 据 录入进 SPSS中 以及 如何 将 其他格 式的数 据读进 SPSS中 。对于 第一个 问题,根据问 题类型 的不同 ,将会从 开放题 、单选题 和 多选题 的 录 入方 式为例 进 行 介绍 ;对 于第 二 个问 题 ,则重 点 介绍 如 何 用 SPSS直接 读 取 Excel 类 型和文 本格式 的数据 ,以及如 何通过 ODBC接口读 取数据 库文件 。良好 的开始 是成功 的一半 , 录 入或者 读入数 据是数 据分析 的第一 步工作 ,其重要 性是不 言而喻 的。 2.1 数据格式概述 2.1.1 统计软件中数据的录入格式 统计 软件中 数据的 录入格 式和大 家平时 记录数 据用的 格式不 太 相同,SPSS所 使用 的数 据格 式 也遵守 这些基 本的格 式要求 ,大致的 原则如 下: (1)不同观 察对象 的数据 不能在 同一条 记录中 出现,即 同一观 测数据 应当独 占一行 。 (2)每一个 测量指 标或影 响因素 只能占 据一列 的 位置,即 同一个 指标 的 测量 数值 都应 当录 入 到同一 个变量 中去。 有时 分析方 法会对 数据格 式有特 别的要 求,此 时 可能 会 违反“一 个 观测 占 一行,一 个变 量占 一 列”的原 则。这 种 情况 在 配对 数 据 和 重 复测 量 数 据中 最 多见 。 这是 因 为 根据 分 析模 型 的 要 求 ,需要将 同一个 观察对 象的某 个观察 指标的 不同次 测量看 成不同 的指标 ,因此 被录入成 了不同 的 变量,这 是允许 的。但 对于统 计的初 学者而 言,最 好能够 严格遵 守以上 规则。 而且无论 表现格 式 怎样,最 终的数 据集都 应当能 够包含 原始数 据的所 有信息 。 2.1.2 变量属性介绍 数据 录入就 是要把 每个被 访者的 每个指 标值录 入 到 软件 中。在 录 入数 据 时,大致 可归 纳为 “数 据录入 三步曲 ”:定义各 变量 名 ,即给 每 个指 标 起 个名字 ;指 定每 个变 量 的 各 种属 性 ,即对 每 个 指标的 一些统 计特性 做出指 定;录入 数据,即把每 个被访 者的各 指标取 值录入 为电子格 式。因 此 这里首 先介绍 一下变 量的各 种属性 问题。          24    第 2章  数据 录入与 数据获 取 任何 一个变 量显然 都应当 有变量 名与之 对应,但 为了进 一步满 足统计 分析的 需要,除 变量名 外 ,统计软 件中还 往 往 对 每 一 个变 量 定 义许 多 附加 的 变量 属 性 ,如 变 量 类 型 (Type)、变量 宽 度 (Width)、小 数位(Decimal)等。 在上 一 章 所讲 解 的数 据 管理 窗 口 的变 量 视 图中 ,可 以 看到 SPSS 会 为每一 个变量 指定 10种变量 属性,但这里 将重点 介 绍变 量 类型 和 测 量尺 度 这两 个属 性,对于 其 他的一 些属性 ,比如变 量标签 和缺失 值等,会给出 简单介 绍,至于 像变量 列格式 、变量对 齐方式 这 样的属 性,不用 说,根 据字面 意思,大 家也能 理解其 内涵。 1.变量的 存储类 型 SPSS中,变量有 三种基 本的类 型,分别 是:数 值型、字 符型和 日 期型 。根据 不同的 显 示方式 , 图 2.1 变量类型对话框 数 值型又 被细 分为 了 5种 ,所以 SPSS中的 变量类 型 共有 8种。 Type项用于 设 定变 量 类 型,选 择 Type单元 格时 右侧 会 出 现 形 如 的按钮 ,单击 会弹 出变量 类型对 话框,如 图 2.1所示。 在以 上三大 类 变量 类 型 中,数 值 型 是 SPSS中 最 常 用 的 变 量 类型。 数值 型的 数 据是 由 0~9的阿 拉 伯数字 和 其他 特 殊符 号 ,如美元 符 号、逗 号或 圆 点 组 成 的。 如 工 资 、年 龄、成 绩 等 变 量 都可定 义为数 值型数 据。数 值型数 据根据 内容和 显 示方式 的不同 ,又可 分 为标准 数值 型(Nu- meric)、逗号数 值型(Comma)、圆点数 值型(Dot)、科 学计数 法型(ScientificNotation)、美 元数 值型 (Dollar)、用 户自定 义型(CustomCurrency)共 6种不 同的表 示方法 。每种 方法的 用法根据 名称的 字 面含义 也可以 猜得出 来,这里 不再赘 述。 字符 型数据 类型也 是 SPSS较常用 的数据 类型,字 符型 数 据 的默 认 显示 宽 度为 8个 字符位 , 它 区分大 小写字 母,并且 不能进 行数学 运算。 字 符型 数 据在 SPSS的 数据处 理 过程(如 在计 算生 成 新变量 时)中是 用一对 引号引 起 来的。 需要 注 意 的 是,在 输 入 数 据 时不 应 输 入引 号 ,否 则,双 引 号将会 作为字 符型数 据的一 部分。 日期 型数据 是用来 表示日 期或时 间的。 日期型 数据的 显示格 式 有很多 ,SPSS以菜 单的 方式 列 出日期 型数据 的显示 格式以 供用户 选择。 但事实 上,SPSS中 的日期 型变 量存 储 的是 该时 间与 1582年 10月 14日 零点相 差的秒 数,如 1582年 10月 15日存 储的 就是 60×60×24=86400,大 家 将变量 类型变 换为数 值型就 可以看 到。但 是这里 只能存 储正数 ,即 1582年 10月 14日及 更早 时 间在 SPSS中是 无效的 。日期 型数据 主要在 时间序 列分析 中比较 有用,在较为 简单的分 析问题 中 完全可 以用普 通数值 型数据 来代替 。 2.变量的 测量尺 度 如果 只使用 变量类 型 ,很 多时 候 并 不能 准 确地 说 明变 量 的 含义 和 属 性。 比 如 说,变 量 “性 别 ”,用 1代 表男,2代 表女。 在这里 ,1和 2只 是一个 符号,没 有任何 数 字意 义。2并不 比 1大,1 也 并不比 2小。 变量“足 球的喜 欢 程 度”,用 1表示 “非 常 喜 欢”,2表 示 “喜 欢 ”,3表 示“一 般 ” 等 ,1和 2虽 然也是 符号,但 这里有 顺序之 分了,1就 是比 2喜欢的 程度更 高。如 果以更 喜欢 为高 分 ,那么 1就比 2大。大 多少? 不知道 ,无法 衡量。 再有一 个变量 “薪水”,1和 2就是 有 区别的 , 2就是 比 1多 ,多多 少?多 1。 同样都 是 1和 2,都是 数值型 变量,但 是它们 的含义 不同,适 用的统2.1 数 据格式 概述 25              计 方法也 不同。 如果只 以变量 类型来 说明这 个变量 的 属性,就 不能区 分出 这 三 个变量 的值 1和 2彼此 的区别 。为了 区分这 三类数 字,就有 了变量 测量尺 度这个 属性。 在 SPSS中使 用 Measure属性对 变量的 测量尺 度进行 定义。 在统计 学中,按 照 对事 物描 述的 精 确程度 ,将所采 用的测 量尺度 从低级 到高级 分为 4个层次 :定类 尺度、定 序尺度 、定距尺 度和定 比 尺度。 (1)定类尺 度(NominalMeasurement):定 类尺度 是对事 物的类 别或属 性的一 种测度 ,按照事 物 的某种 属性对 其进行 分类或 分组。 定类变 量的特 点 是其 值 仅代 表 了 事物 的 类别 和属 性,仅能 测 度类别 差异,不 能比较 各类之 间的大 小,所 以各类 之间没 有顺序 或等级 。通常 定类尺度 的变量 又 被称为 无序分 类变量 ,如性别 可取值 为“男”、“女”,就是 一个定 类尺度 的变量 。 对定 类尺 度的 变 量只能 计算频 数和频 率,如在 所有客 户中,男性有 多少人 ,占总人 数的百 分率是 多少。 在 SPSS中,能使用 定类尺 度的数 据可以 是数 值型 ,也可 以 是字 符 型 变量 。使 用定 类变 量对 事 物进行 分类时 ,必须符 合穷尽 和互斥 的原则 。穷 尽 的原 则 就 是指每 个个 体 都必 须能 归为 一个 类 别,互斥 的原则 是指每 个个体 都只能 归为一 个类别 。 (2)定序尺 度(OrdinalMeasurement):定序 尺度是 对 事物 之间 等级 或 顺序 差别 的一 种测度 , 可 以比较 优劣或 排序。 定序变 量又被 称为有 序分类 变量,它 比定类 变量的 信息量 多一些 ,不仅含 有 类别的 信息,还 包含了 次序的 信息;但是由 于定序 变 量只 是 测度 类 别 之间 的 顺序,无 法测 出类 别 之间的 准确差 值,即测 量数值 不代表 绝对的 数 量大 小,所 以 其计 量 结 果只 能 排序,不 能进 行算 术 运算。 定序变 量同定 类变量 一样,其 数据可 以是数 值型,也可以 是字符 型变量 。定序变 量除可 以 计算频 率之外 ,还可 以 计 算 累计 频率。 如 足 球喜 欢程 度 这 一变 量 的取 值 有 :1——— 非 常 喜欢 , 2— —— 喜欢 ,3——— 无所谓 ,4——— 不喜欢 ,5——— 非常不 喜欢,这是一 个定序 尺度的 变量。 对它 就可 以 计算累 计频数 和累计 频率。 如对 “足球 喜欢程 度”,不 仅 可以 计算 喜欢 的 人 数 和比 例 有 多少 , 还 可以计 算喜欢 及非常 喜欢的 累计人 数和比 例有多 少。 (3)定距尺 度(IntervalMeasurement):定 距尺 度是 对事 物类 别 或 次 序之 间间 距的 测 度。定 距 变量的 特点是 其不仅 能将事 物区分 为不同 类型并 进 行排 序 ,而且可 准确 指 出类 别之 间的 差距 是 多少;定 距变量 通常以 自然或 物理单 位为计 量 尺度 ,因此 测 量结 果 往 往表 现 为数 值,所以 计量 结 果可以 进行加 减运算 。 (4)定比尺 度(ScaleMeasurement):定 比尺 度 是能 够测 算两 个 测度 值之 间 比值 的 一 种计 量 尺 度,它的 测量结 果同定 距变量 一样也 表现为 数值,如 职 工月 收入,企 业 销售 额 等。其 与定 距变 量 的差别 在于有 一固定 的绝对 “零点”,而 定距 变 量则没 有,定距 变量 中 的“0”并不 表示 “没有 ”, 仅 仅是一 个测量 值,而定 比变量 中的“0”就 真正表 示“没有 ”。 比如 温 度,0℃ 只是 一个 普通 的温 度 ,并非没 有温度 ,因此 它只是 定距变 量,而体 重 则是 真 正的 定 比变 量 。定 比 变量 是测 量尺 度的 最 高水平 ,它除了 具有其 他三种 测量尺 度的全 部特点 外,还 具有可 计算两 个测度 值之间比 值的特 点 ,因此它 可进行 加、减 、乘、除 运算,而 定距变 量只可 进行加 减运算 。 SPSS中默 认的变 量测量 尺度就 是定比 尺度。 但 由于 后 两 种测 量 尺度 在 绝 大多 数 统 计分 析 中 没有本 质上的 差别,在 SPSS中就将 其合并 为一类 ,统称为 “Scale”测 量。 这三 种尺度 在许多 统计书 籍中会 有更为 通俗的 称呼:无 序分类 变量、有序分 类变量和 连续性 变 量。从 实用的 角度出 发,本书 将同时 采用这 两种命 名体系 。 在这 4种测 量尺度 之间,按 照信息 量的高 低,可 将高层 次测量 尺度的 测量结 果转换为 低层次          26    第 2章  数据 录入与 数据获 取 测 量尺度 的测量 结果,但 这样会 损失一 部分信 息。不 能将 低 层 次的测 量尺 度 转换 为高 层次 测量 尺 度的结 果,这样 可能会 引入错 误的信 息。 3.变量名 与变量 值标签 除了 上边介 绍的变 量类型 和测量 尺度外 ,变 量的 其 他属 性 是不 是 就 没用 了 呢?回 答当 然是 图 2.2 变量值标签对话框 否 定的。 其他的 属性仍 然 很重要 ,比如,Label项 用 于定 义 变量 名 标签,对 变量 名 的 含义 进 行进 一 步 解 释 说明 ,该 标 签 会 在 结 果 中输出 以方便 阅读,增 强变 量 名 的可视 性和 统 计分 析结 果的 可 读性。 另外,Values项也是 一个不 得不提 的选项 ,用于定 义变 量 值标签 (见图 2.2),变 量 值标 签 是对 变 量取 值 含 义的 解 释说 明 信息。 例如对 于性别 数 据,假 设 用 1表 示男,用 2表示 女,如 果 在录入 数据时 数据集 中没有 设定变 量值标 签,其他 人就很 难弄清 楚是 1表示男 还是 2表示男 。 因 此,变量 值标签 对于定 序变量 (如职称 )和 定类 变 量(如民 族、性别 )来说,是 必不 可少 的,它不 但 使定类 和定序 变量的 数据录 入变得 更加方 便,且明 确了数 据的含 义,也 同样增 强了分析 结果的 可 读性。 变量 值标签 对话框 上部的 两个文 本框分 别为变 量 值输 入 框和 变 量 值标 签 输入 框,分别 在其 中 输入“1”和 “男”,此 时下方 的 Add按 钮变黑 ,单 击它 ,该变 量 值标签 就会 被 加入 下方 的标 签框 内 。与此 类似定 义变量 值“2”为“女 ”,最后 单击 OK按 钮,变量 值标签 就 设置完 成。此 时做 任何 分 析,在结 果中都 有相应 的标 签 出 现。 如 果现 在 就 想 看效 果,切换 回 DataView界面 ,然 后选 择 菜 单 View→ ValueLabels,就会 看到上 述结果 。 另外 ,SPSS在 12.0版本 以前,对于变 量名有 一个限 制,即要 求 变量 名限 制 在 8个 字 符之内 。 但 令人欣 喜的是 ,从 12.0版本 开始,此 限制已 经被取 消,变 量名最 多可以 有 64个 字符。 当然,出 于 兼容性 的考虑 ,变量名 的定义 还有一 些限制 ,即不 能以数 字开头 ,中间不 能有空 格,一个 数据文 件 中不能 有相同 的变量 名等。 读者只 要在使 用中尝 试即可 ,不必记 那么多 规则。 4.缺失值 Missing项 是一个 重要而 且容易 被忽视 的选项 ,它用 于定义 变量缺 失值。 SPSS中缺失 值有用 户 自定义 缺失值 和系统 缺失值 两大 类。 对于 数 值 型变 量 的 数据 ,系 统缺 失值 用 一 个 圆点 “.”表 示 ,而字符 型变量 默认就 是空字 符串。 如果在 问 卷调 查 中,有 些数 据 项 漏填 了 ,则 数据 录入 时只 能 跳过,相 应的数 据单元 格就会 被系统 自动当 作缺失 值来处 理。 另外 一类缺 失值是 用户自 定义缺 失值,这 往往出 现在一 些设计 较严格 的大型 调查中 ,在一些 图 2.3 缺失值对话框 题 项处会 给出一 个选项 :不知 道 或 拒答。 相应 的 代 码 可能 用 9或 者 99来 表示。 显然,这 里的 99不是 一 个真 实 的 答案 ,仅 仅是 缺 失值 代 码 ,需要告 知 SPSS这个 特 定的标 记数 据 ,以 在进 行 统 计分 析时 区 别 对 待缺失 值和正 常 的分 析 数 据。具 体做 法 为 单击 相 应 变 量 Missing 框 右侧的 省略号 ,会 弹 出缺 失 值 对 话 框如 图 2.3所 示,利 用 该 对 话 框 ,用户可 以自定 义缺失 值。界 面上有 一列三 个单选 钮,默 认 值为 最 上 方的“无 自定义 缺失值 ”;第二项 指定离 散的缺 失值(DiscreteMissingValues),最 多可 以定 义 32.2 数据 的直接 录入 27              个 值;最后 一项,指定缺 失值所 在的区 间范围 ,并可同 时指定 一个离 散值。 其他 的变量 属性,即 使不作 讲解,大家也 可以根 据 SPSS界面的 提示做 出正确 的选择 ,这里就 不 再详述 了。但 是有一 点要强 调的是 ,就数据 录入这 部分内 容而言 ,变量 属性的 设置是最 重要的 一 部分工 作,属性 的设置 不仅涉 及对错 ,而且 还有一 个设置 好坏的 问题,属 性设置 得好,会 简化后 边 的数据 分析工 作,所以 读者不 可小看 这部分 工作。 2.2 数据的直接录入 在 SPSS中,新建一 个数据 文件非 常容易 。只要 打开 SPSS,系统就 已经 生成 了 一个 空数 据文 件 ,用户只 要按自 己的需 要定义 变量、输入数 据,然后 保存即 可。 2.2.1 操作界面说明 初次 进入 SPSS系统 时会出 现一 个导 航对 话 框,单击 右 下方 的 Cancel按钮 ,即可 进 入 SPSS 的 主界面 ,如图 2.4所示 。从窗 口顶部 的“SPSSDataEditor”可 以看 出 ,现在所 看到 的是 SPSS的 数 据编辑 窗口。 这个窗 口是一 个典型 的 Windows软件 界 面,第 一次 使 用 SPSS也会 觉得 很亲切 , 从 中可以 看到菜 单栏、工 具栏,在 SPSS的工具 栏下方 的是数 据栏,数据栏 下方则 是数据编 辑窗口 的 主界面 。该界 面由若 干行和 列组成 ,每行对 应一条 记录,每列对 应一个 变量。 由于现在 没有输 入 任何数 据,所以 行、列 的标号 都是灰 色的。 注意第 一 行第 一 列的 单 元 格边 框 为深 色,表明 该数 据 单元格 为当前 单元格 。 图 2.4 SPSS的数据编辑窗口 在这 个界面 的左下 角,可 以 看 到“DataView”和 “VariableView”的标 签 ,现 在图 中 显 示的 是 数 据视图 ,如果点 击右边 的“VariableView”,就进 入变量 视图。 前面提 到的 变量 属 性的 设置 都在 变 量视图 中进行 ,而数据 的录入 工作则 应当在 数据视 图中直 接通过 键盘完 成。          28    第 2章  数据 录入与 数据获 取 2.2.2 开放题和简单单选题的录入 根据 调查问 卷中设 计问题 的类型 的不同 ,定 义变 量 的方 式 也不 同 。通 常 调查 问卷 中的 问题 包 括单选 题、多选 题和开 放题等 几种,所以,下 文将分 别就这 三种类 型题目 的录入 方式加 以介绍 。 为 了更好 地对此 加以说 明,这里 以这样 一份简 单的问 卷来做 例子。   1.序 号: 2.性 别:     1男    2女 3.姓 名: 4.家 庭月收 入:.3000以下  b.3000~4999  c.5000~6999 d.7000~9999  e.10000及以 上 5.出 生年月 日(mm/dd/yyyy): 6.婚 姻状况 :a.未婚  b.已婚  c.丧 偶 d.离异 7.你 在选择 购物商 场的时 候,关 注以下 哪些因 素: a.交 通条件  b.促销活 动 c.购 物环境  d.服务质 量 e.其他 8.请 问你购 物的打 折信息 主要来 自以下 哪些渠 道(限选 3项): a.报 纸 b.杂志  c.电视   d.收 音 机  e.网络   f.朋友 介 绍  g.手机 短 信   h.其 他,请指 出 9.每 天上网 的小时 数: 小时 在这 份问卷 中,包含 了开放 题、单 选题和 多选题 ,其中第 1、3、5、9是开 放题,题 1、9是数 值型 开 放题,3是字 符型,5是 日期型 ;第 2、4、6题 是单选 题,第 7、8题 是多选 题。其 中,第 8题有 一些 特 殊,将在 后文中 说明。 下文将 分别就 这三种 类型题 目的录 入方式 加以介 绍。 1.在 SPSS中 定义变 量 由前 文可知 ,录入数 据的第 一步是 定义变 量属性 ,随后 才能进 行数据 录入。 虽然在空 白的变 量 列中直 接输入 数据,SPSS会自动 给该 列给 定一 个 变量 名,但是 这样 往 往不 能完全 满 足 用户 的 需 要,所以 还是首 先来定 义需要 使用的 变量吧 。 定义 变量属 性,首先 要定义 变量名 ,变量 名是变 量的唯 一标识 ,前边已 经讨论 过相关 的知识 , 这 里不再 重复,在 前 4行 的 Name列 中直接 输入变 量名——— “id”、“name”、“born”、“net”,大 家同 时 可以看 到 SPSS会在变 量类型 等列自 动填入 默认值 。 在绝 大多数 情况下 ,SPSS给出 的默认 数 据 类型 和 数据 精 度可 以 满 足需 要 ,如果 默 认 值满 足 分 析的需 要,变量 定义到 此就可 以结束 了,否 则就需 要 对不 满 足条 件 的 选项 进 行进 一步 的设置 。 在 本例中 ,变量“id”是被 访者的 记录 号 ,它的 测 量 尺度 应 该是 定 类尺 度 ——— “Nominal”。但 值得 指 出的是 ,因为变 量“id”只是方 便检查 和核对 问卷,不参与 后边的 数据分 析工作 ,所以,要求 不严 格 的情况 下,此处 的变量 类型可 采用默 认形式 不做修 改。此 外,变 量“name”是 被访者 姓 名,应是 字 符型变 量,这里 应当将 “Type”中的“Numeric”改成“String”。 同理,变 量“born”代 表出 生日期 , 应 当更改 为日期 型数值 “Date”。在对 变量类 型作修 改 的同 时 可以 看 到,变 量 的其 他属 性也 会自2.2 数据 的直接 录入 29              动 进行相 应的修 改,如图 2.5所 示。 图 2.5 变量定义 引例 中的开 放题的 定义是 比较简 单的,但 是大多 时候,开放题 的答案 可能是 一个句子 或者一 段 话,此时 要更改 该变量 的 Width,因为 默认的 8个字 符的宽 度只能 存放 4个汉字 ,要根据 该变量 可 能出现 的最大 字符长 度来确 定 Width(最 大不超 过 256个字 符)。 现在 切换回 数据视 图,数据 编辑窗 口如图 2.6所 示。可 见前 4列的名 称均为 深色显 示,就是 刚 才定义 的内容 ,表明这 4列已 经被定 义为变 量,其 余各列 的名称 仍为灰 色的“var”,表 示尚 未使 用 。同样 地,各行 的标号 也为灰 色,表 明现在 还未输 入 过 数据 ,即该 数 据 集内 没 有记 录 。在 变量 定 义完毕 后,就可 以向这 个文件 中录入 数据了 。 图 2.6 定义好变量的数据编辑窗口 2.开放题 的录入 单选 题和开 放题的 录入方 式很相 似,在本 部分内 容中,将首先 以问卷 中的 1、3、5、9为例 来介 绍 开放题 的录入 方式,然 后说明 单选题 的录入 方式,最后总 结二者 的区别 。 现在 开始录 入数据 ,首先来 输入变 量 id的值 ,首先确 认一行 一列 单 元格为 当前单 元 格,弃鼠 标 而用键 盘,输入 数据 1,此 时界面 显示如 图 2.7所示。 图 2.7 录入数据过程(一)          30    第 2章  数据 录入与 数据获 取 注意 :在回车 之前,输入的 数据在 数据单 元格内 左 对齐 显 示,表示 该单 元 格为 第一 次录 入数 据 ,同时数 据栏内 同步显 示出输 入的数 值。现 在回车 ,界面 如图 2.8所示 。 图 2.8 录入数据过程(二) 图 2.8和前 面的图 形相比 ,发生了 以下变 化。 首 先,当前 单元 格 下 移,变 成了 二行 一列 单元 格 ,而一行 一列单 元格的 内容则 被替换 成了 1.00。出现 两位小 数 是因 为数 值型 变 量默 认为 两位 小 数(由于 序号只 会是整 数,可以 将 Decimal设为 “0”);其次,第一行 的 标号 变 黑,表明 该行 已输 入 了数据 ;第三,一行二 列单元 格(字符型 变量)因 为 没有输 入数 据 ,显示 为 空 ,一行 三 列 和四 列 单 元格(数 值型变 量)因为 没有输 入过数 据,显示 为“.”,这 代表该 数据为 缺失值 。 用类 似的 输入 方 式将数 据录入 完毕,此 时数据 编辑窗 口如图 2.9所 示。 图 2.9 数据录入完毕的窗口 此外 ,有一 点 不 得不提 醒大 家 ,在数据 录入 过程 中,要随 时 注意 保存,如 果突然 断 电 或者 死 机 ,辛苦工 作的成 果将付 之东流 。 3.单选题 的录入 单选 题的录 入方式 与开放 题类似 ,不同的 是,单 选 题中 可 以定 义 变 量值 标 签,通过 这种 方式 既 可以减 少数据 录入的 工作量 ,还方便 了后边 的数据 分析工 作。具 体而言 ,单选 题的录入 可以采 用 字符直 接录入 、字符代 码 +值 标签、数值代 码 +值 标 签 三种 方式。 对 应这 三 种录 入方 式,变量 “gender”定义 后的界 面参见 图 2.10。 对于 这三种 录入方 式,原则 上都是 可以 选 择 的;但 是第 三种 录入 方 式 “数 值 代 码 +值标 签 ” (参 见图 2.11)方便了 后边的 分析工 作,推荐 读者使 用第三 种录入 方式。 再来 看一下 对于“收 入”的定 义,变量 “income”为定 序 型变 量,值标 签中 对 变量 取 值 的含 义 进 行了说 明,参见 图 2.11。2.2 数据 的直接 录入 31              图 2.10 单选题的三种录入方式说明 图 2.11 “数值 +值标签”录入方式 如果 问卷数 据中有 含“其他 ,请指 出 ”选项的 单 选 题,则 在 录入 时可 以使 用 两个 变 量 对其 进 行 定义,在 第一个 变量中 ,“其他 ,请指 出 ”作 为选项 中的 一 个可 进行 选择;第 二 个变 量将 “其他 , 请 指出”看 作一个 独立的 开放题 ,按照开 放题的 录 入方 式 进行 数据 录入 ,将没 有 选择该 选项 的被 访 者作为 缺失值 处理。 2.2.3 多选题的录入 多选 题,又被 称为多 重应答 (MultipleResponse),是在 社 会 调查和 市场 调 研中 极为 常见 的一 种 数据记 录类型 。通常 ,问卷中 的一个 单选题 问题对 一个被 访者只 能取一 个值。 多选题 ,顾名思 义 ,就是对 应一个 被访者 ,一个 问题可 以取多 个值,比 如引例 中的第 7、8题 如下:   7.你 在选择 购物商 场的时 候,关 注以下 哪些因 素: a.交 通条件  b.促销活 动 c.购 物环境  d.服务质 量 e.其他 8.请 问你购 物的打 折信息 主要来 自以下 哪些渠 道(限选 3项) a.报 纸 b.杂志  c.电视   d.收 音 机  e.网络   f.朋友 介 绍  g.手机 短 信   h.其 他,请指 出 这是 两个典 型的多 选题,被 访者可 以选择 一个 因 素,也 可 以选 择 两 个或 者 多个,虽 然在 问卷 中 这只是 一个问 题,但实 际上答 案可以 是多个 。由 于 在多 选 题 中每道 题都 可 能有 一个 以上 的答          32    第 2章  数据 录入与 数据获 取 案 ,因此多 选题不 能被直 接编 码 ,需要 使 用 几 个变 量来 进行 记 录。 在 SPSS中,常见 的 方 法有 两 种 ,多重二 分法(MultipleDichotomyMethod)和多 重分类 法(MultipleCategoryMethod)。下 文将进 行 详细说 明。 1.多重二 分法 所谓 多重二 分法,是 指在编 码的时 候,对 应每一 个 选项 都 要定 义 一 个变 量 ,有 几个 选项 就有 几 个变量 ,这些变 量均为 二分类 (二分类 变量是 指 该变 量 只有 两个 取值 ,此例 中 这些变 量只 有两 个 取值:“选 中”与“未 选”),它 们各自 代表对 一个选 项的选 择结果 。 在 SPSS中对 多选题 进行数 据录入 与单选 题的录 入程序 相同,均是首 先在变 量视窗进 行变量 定 义,然后 直接录 入数据 ,多选 题所不 同的是 变量的 定 义 方式 不 同,而 且,数 据 录入 完毕 ,在 分析 之 前,还需 定义多 选题集 。 首先 来定义 变量。 每个选 项对应 一个变 量,比如 上文的 例子,对应第 7题选 择商场的 5个因 素 ,定义 5个变量 ,因为 SPSS12已经 取消了 对“变 量 名只 能 8个 字 符 长”的 限 制,所以 可以 根据 自 己的习 惯和偏 好选择 是取一 个长而 详细的 变量名 ,还是取 个简短 的名字 ,然后 在变量标 签中对 变 量的含 义进行 说明。 很显然 本例选 择了后 者,见图 2.12。 还有 一点要 说明的 是,变量 值标签 的定义 应 该一 致,即 这 5个 变 量 的编 码 方式 应该 相同,在 这 个例子 中,“1”和 “0”所代表 的含义 应该一 致。比 如这个 例子,对应选 择商 场 的 5个 因 素,定义 5个变 量,每个 变量都 是 二分 类,1代 表 选 择,0代表 未 选 。将数 据 录入 SPSS中,格 式如 图 2.12 所 示。 图 2.12 多重二分法数据录入格式 从图 2.12可 以很明 显地看 出,每 个变量 都对应 一 个选 项 ,第一个 被访 者 在这 道题 的选 项中 选 择了“交 通条件 ”和“促销 活 动”两项 ,第 二个 被 访者 选 择 了“购物 环 境”和 “服 务 质量 ”两项 。 那 么如果 选项过 多,比如 20个 选项,要 求被访 者 选出 最 关注 的 5个,显 然,绝 大部 分被 选中 的频 率 都会较 低,使用 多重二 分法录 入,则 大部分 数据都 是 0,不仅增 加了 数 据录入 的工作,而且 不利 于 进行分 析,这时 不适合 使用二 分法进 行数据 录入,需使用 下文将 要介绍 的多重 分类法。 2.多重分 类法 多重 分类法 ,也是利 用多个 变量来 对一个 多选 题 的 答案 进 行定 义 ,应该 用 多少 个变 量,由被 访 者实际 可能给 出的最 多答 案数 而 定。 而 且,这 些 变量 须 为数 值型 变量,利 用 值标 签 将 答案 标 出 ,所有变 量采用 一套值 标签。 之所以 称它为 多 重分 类 法,是 因为 每 个 变量 都 是多 分类 的,每个2.2 数据 的直接 录入 33              变 量代表 被访者 的一次 选择。 多重分 类 法 适合 问题 的 选 项 较多 的 情 况,尤 其适 合 于 “请 在下 列 图 2.13 多重分类法的数据格式 选 项中选 出您最 喜欢的 几个选 项”一类 的问题 。例如 在问 卷的 第 8题中 ,研究者 希望了 解目标 人群主 要 通过 什 么渠 道得 到消 费 信息,在 问卷 中列 出 了 8个选 项,让被访 者 从 中选 择他认 为 最 主要的 几个。 此时 一 般 都 会采 用 多 重分 类 法的 格 式 来记 录 数 据,如图 2.13所示。 图 中 共有 三个 变 量 ,均 为 多 分 类,各 代 表 被访者 的一次 选择,即 记录的 是被选 中渠道 的代码 。注 意图 中 第 6条 记录只 填入了 两个渠 道,也就 是 说该 被 访者 只选 出了 两 种渠道 。显然 ,这种“数 据缺失 ”的现象 在多重 分类法 中其实 是 一种正 常情况 。 3.多选题 录入在 SPSS中的 实现 在进 行多选 题录入 时,只需 要将相 应的变 量设定 好即可 进行操 作,但 是录入 完毕后对 多选题 进 行分析 前,首先 需要定 义多 选 题 集,然 后才 可以 把多 选 题 的 全部 变量 当作 一 道题 目 来 进行 分 析 。在 SPSS中提 供了专 门的菜 单用来 对付多 选题,Tables模 块和 MultipleResponse菜 单都 可以 用 来设定 多选题 变量集 。所不 同的是 ,MultipleResponse菜单 中的 DefineSets过 程定义多 选题变 量 集的信 息不能 在 SPSS数据文 件中保 存,关 闭数据 文件后 相应信 息就会 丢失,如 果再次 使用,则 必 须重新 加以定 义;而 Tables模 块可以 保存定 义 的信 息。所 幸 的是这 两个 过 程的 操作 是基 本相 同 的,现在 就以 DefineSets过 程为 例来 看 一下是 如何定 义 多选题 集的。 在 SPSS中 选择 Analyze → MultipleResponse→ DefineSets,打 开定义 多选题 集 的对 话 框,界 面 如图 2.14所 示。 在 该对 话 框 中,需要 注意以 下几点 : 图 2.14 定义多选题变量集 (1)VariablesinSet框 :选入 需要加 入同一 个多选 题 变量 集的 变量 列 表,对 于多重 二分 类法 录 入的多 选题,这 些变量 必须为 二 分类 ,并 按照 相同的 方 式 来编 码(如都 用 1代 表选 中)。对 于          34    第 2章  数据 录入与 数据获 取 多 重多分 类法录 入的多 选题,这 些变量 须为多 分类,并共用 一套值 和值标 签。 (2)VariablesAreCodedAs单选 框组:选 择变 量 的编 码方 式。Dichotomics即为 多 重 二分 法 编 码方式 ,countedvalue是 指用哪 个数值 表示选 中。Categories指变 量为多 重分类 法编码 方式,此 时 需要设 定取值 范围,在 该范围 内的记 录值将 纳入分 析。 (3)Name框 :键入 多选题 变量集 的名 称,在此 定义 的变量 集名 为 ques7,当 然在 SPSS12中 也 可以定 义很长 的中文 变 量名。 下 方的 Label框可 以 为 相应 的 多 选 题 变 量 集 定义 一 个 名称 标 签 ,如同本 例中所 见。 另外 ,对于形 如问题 8一样 的多选 题,即含 有“其 他 ,请 指出 ”答 案的 附 加 内 容的 问 题,也 是 先 把其他 算作一 个答案 选项,而 用另一 个变量 来表示 其 他的 内 容。在 数据 录 入完 毕后 再对 附加 内 容根据 频次高 低进行 编码,以 进行更 为深入 的分析 。 2.3 外部数据的获取 对于 SPSS格 式的数 据,只 要点击 File→ Open→ Data,选 择文 件 路 径 和文 件名 打开 即 可。但 如 果数据 不是 SPSS格 式 的,是 否 可 以 直 接 读 入 SPSS,用 SPSS进 行 分 析 呢? 回 答 是 肯 定 的 。 SPSS可 以读 入 许多非 SPSS默 认类型 的 数据文 件,方式 主要 有 三种:直 接 打开 ,利用文 本向 导读 入 文本数 据以及 利用数 据库 ODBC接口 读取数 据。对 这 三 种方 法,下 文 将 以常 见 的 Excel格 式 的 数据、文 本数据 和 Access数据为 例,介 绍 SPSS获取数 据的功 能。 2.3.1 电子表格数据如何导入 SPSS中 SPSS中可 以直接 读入许 多常用 格式的 数据文 件,选 择菜单 File→ Open→ Data或直 接单 击快 捷 工具栏 上的 快捷按 钮,系 统就会 弹出 OpenFile对话 框 ,单 击“文 件 类型 ”列表 框,在里 面能 看 到可以 直接打 开的数 据文件 格式,包 括如表 2.1所 示的 16种类 型。 表 2.1 SPSS可以直接打开的数据类型 数 据 标 识 数 据 类 型 SPSS(*.sav) SPSS数据文件(6.0版 ~12.0版) SPSS/PC+(*.sys) SPSS4.0版数据文件 Systat(*.syd) *.syd格式的 Systat数据文件 Systat(*.sys) *.sys格式的 Systat数据文件 SPSSPortable(*.por) SPSS便携格式的数据文件 Excel(*.xls) Excel数据文件(5.0版 ~2000版) Lotus(*.w*) Lotus数据文件 SYLK(*.slk) SYLK数据文件 dBase(*.dbf) dBase系列数据文件(dBaseⅡ ~Ⅳ)2.3 外部 数据的 获取 35              续表 数 据 标 识 数 据 类 型 SASLongFileName(*.sas7bdat) SAS7~8版长文件名类型数据文件 SASShortFileName(*.sd7) SAS7~8版短文件名类型数据文件 SASv6forWindows(*.sd2) SAS6版(forWindows)数据文件 SASv6forUNIX(*.ssd01) SAS6版(forUNIX)数据文件 SASTransport(*.xpt) SAS便携格式的数据文件 Text(*.txt) 纯文本格式的数据文件 Data(*.dat) 纯文本格式的数据文件 选择 所需的 文件类 型,然后 选中需 要打开 的文件 ,SPSS就会 按照 要 求打开 相应的 数 据文件 , 并 自动转 换为 SPSS格式 。 下面 以 SPSS自 带 的 文 件 demo.xls为 例,来 看 SPSS如何 直 接 读 取 这个 文 件 ,该 文 件 位 于 SPSS目 录下的 Tutorial\sample_files子 目录 中。首 先 在 Excel中 打开 demo.xls,了解 一 下 这个 文 件 的结构 ,重点需 要了解 这样几 项内容 :第一 ,该 文件 中 包含 几 个数 据 表,具 体 应当 打开 哪个表 ; 第 二,如果 不需要 该 表的 所 有数 据 ,而 只 需 读 入 一 部 分,这时 需 要 了 解要 读 入 的 数 据的 精 确 位 置 ——— 如 单元格 A2:F5。第三 ,此部分 数据的 第一行 是否是 变量名 。在这 个文件 中,很 明显 可以 看 出,第一 行是变 量名,该文件 只有一 个表,要 读取的 是该表 单中的 全部数 据。 第一 步,在 OpenFile对话 框中,选 择路 径 (此 例 中为 SPSS\Tutorial\Samplefiles),选 择文 件 类 型“Excel(.xls)”,文件列 表中 出 现 所有 的 Excel文 件,点 击 文件 demo.xls。 第 二步 ,弹 出对 话 框 ,如图 2.15所 示 。Worksheet框 中指 定 哪张 表 ;Range框 中 指定 读 取 的数 据 具 体位 置 ,用单 元 格 的起(左 上角 单元 格名 称 ,如 A2)止(右 下 角单元 格 名称,如 F5)位置来 表 示,中 间用 冒号 “:” 隔 开;“Readvariablenamesfrom thefirstrow ofdata?”意 为 “该 单元 格 范 围 的 第 一 行 是 变 量 名 吗 ?”。指定 完毕,点击“OK”按钮 之后,数据顺 利地读 入了 SPSS。 图 2.15 打开 Excel数据文件对话框          36    第 2章  数据 录入与 数据获 取 这种 直接读 取的方 法要优 于“拷贝 +粘 贴”,它 不 仅可 以顺 利地 进行 变 量 名 的转 化 ,最重 要 的 是,它可 以直接 读取字 符 型 变 量,若用 “拷 贝 +粘 贴 ”的 方法,字 符 型 变 量 就 全部 变 成 缺失 值 了 。并且 操作简 单,不容 易出错 ,就和 读取 SPSS自己 的文件 一样方 便。 在上 面的例 子中只 需要读 取一个 表 单 的数 据,如 果 需 要将 两 个 或者 多 个 Sheet放 在 一个 数 据 文件中 ,是否仍 然像读 取单 个 Sheet文件 那样 轻 松 方便 呢 ?回 答 是 肯 定的 。 有两 种 方 式可 以 实 现这一 要求,第 一种是 打开两 个 SPSS窗口 ,分别读 取两个 Sheet,然后 使用 Merge命 令(详 见第 3章)对 两个文 件进行 合并;第二种 方式是 使用前 文的 方式 ,首先 读取 其中 的 一个 Sheet,并保存 , 然 后直接 从该文 件读取 另一个 Sheet,实现 SPSS和 Excel的合 并。 2.3.2 文本数据如何导入 SPSS中 SPSS可以 通过两 种菜单 操作方 式读取 文本数 据,一 种是,选 择菜 单 File→ReadTextData;另 一 种是,选 择 File→Open→Data,这 两种情 况是一 样的,系统会 弹出 OpenFile对话 框,只是 前者文 件 类型自 动跳到 了 Text(*.txt),后 者需 要 在 文件 类型 下拉 菜单 中 作 选 择。 之 所以 在 菜 单上 保 留 “ReadTextData”条 目有两 个原因 :① 读 入纯文 本的情 况非常 普遍,放 在这里 更 加 醒目 ;② 为 了 和 SPSS老版本 在菜单 上保持 兼容。 这里 以系统 自带的 文件“demo.txt”为 例来说 明如何 将文本 数 据导入 SPSS中 。与 读 取 Excel 数 据一样 ,首先打 开该数 据,观 察这个 数据的 基本结 构,如变 量间是 固定宽 度,还 是用某种 分隔符 区 分,第一 行是否 为变量 名等。 然后关 掉这 个 文 本文 件 ,打开 SPSS软 件 。首先 ,在 OpenFile对 话 框选中 相应的 文件名 并单击 “确定”,系 统会自 动启动 文本导 入向导 对话框 如图 2.16(a)所示 , 从 对话框 标题可 以看到 该向导 共分 6步,下面 一步步 地讲解 。              (a)                           (b) 图 2.16 文本导入向导的第一、二个对话框 第 1步:中部 为一对 单选钮 ,问题 为 “你的 文 本 文 件和 预定 义 格 式相 一 致吗?”,下 方 为按 预 定 义格式 读入的 数据文 件的预 览。显 然,SPSS的 预定义 格式并 没有正 确 识别该 文件。 因此 选择 “No”并 单击“下 一步”按 钮。2.3 外部 数据的 获取 37              第 2步:最上 方的问 题是“变 量是 如 何排 列的 ?”,下面 的 选项 分 别为 Delimited(用 某 种字 符 区 分)和 FixedWidth(固定宽 度),一 般都是 Delimited,该数 据也是 ;第二 个问题 是“变量名 包括在 文 件最前 面了吗 ?”,选“Yes”,然后 单击“下 一步”按 钮,如图 2.16(b)所 示。 第 3步:最 上 方的句 子意为 “第一条 记录从 第 几行开 始?”,右 侧 可以 输入行 数。由 于 所用数 据 的第一 行为变 量名,因 此这里 输入 2。下 面的问 题是“你的记 录是怎 样存储 在文 件中 的?”。可 以 是“每一 行代表 一条记 录 ”,或者 “每 * *个 变 量 代 表 一 条记 录 ”,数 据一 般都 是 第 一 种 情况 。 下 一个问 题是“你 想导入 多少条 记录?”,可以是 “所有记 录”、“前 * * 条”或 “随 机导 入 * *%的 记 录”。一 般也选 前者,如 图 2.17(a)所示。 第 4步:左上 方的问 题为“变 量 间用 的是 哪 种 分 隔符 ?”,可选 的 有 Tab键 、空格 、逗 号、分 号 或 自行定 义的其 他符号 。本数 据采用 的是 Tab键,可 见系统 已经自 动识别 并选择 了 Tab键,而下 方 的数据 预览窗 口显示 出了正 确的数 据读入 情况。 右 上方的 问题意 为 “数据 中 采用的 是什 么文 本 限定符 ?”,提供 了无、单 引号、双引号 和自定 义 4种 选 择。如 果数 据 中的 字 符串 变量 使用 了限 定 符进行 分隔,则 需在此 处指定 ,如图 2.17(b)所示 。               (a)                             (b) 图 2.17 文本导入向导的第三、四个对话框 第 5步:上方 的提示 为“定义 在 数据 预览窗 口 中 所选 择的 变 量 ”。顾 名 思 义,在 这 个 对话 框 中 用户可 以在数 据预览 窗口中 选择某 一列变 量,然后 更改其 变量名 和类型 。这里 不需要 做更改 , 可 以直接 单击“下 一步”按 钮,如图 2.18(a)所 示。 第 6步:如图 2.18(b)所 示最 上面 的 问题 为“你 愿意 保存这 次的 文件 (读入 )格 式 设 置以 备 下 次使用 吗?”,第 二个问 题为“你 是 否愿 意 将以 上 操 作粘贴 为 SPSS语句 吗 ?”,这里 使 用 默认 选 项 ,单击“完 成”按钮 ,可以 看到 SPSS成功 地读入 了该文 本数据 。 2.3.3 数据库格式数据如何导入 SPSS中 SPSS可以 直接读 取很多 类型的 数据文 件,对 于不能 直 接打 开 的数 据 格 式,SPSS提 供了 利用 通 用的数 据库 ODBC接 口读取 数据的 方法。 这里以 SPSS系 统自带 的文 件 demo.mdb为 例,来看          38    第 2章  数据 录入与 数据获 取               (a)                             (b) 图 2.18 文本导入向导的第五、六个对话框 一 下如何 使用数 据库查 询方法 读取这 个文件 。首先 ,选择菜 单 File→ OpenDatabase→NewQuery, 系 统会弹 出数据 库向导 的第一 个窗口 ,其中会 列出本 机上已 安装的 所有数 据源,如图 2.19(a)所 示 。可见 里面列 出了需 要的 MSAccessDatabase数据源 ,但该 数 据源 不 能直接 使用,需 要先 进行 定 义:单击 下方的 AddDataSource,系 统会弹 出 ODBC数据管 理器窗 口如图 2.19(b)所示 。在用 户 数据源 列表中 选中 MSAccessDatabase,单击配 置按钮 ,会弹出 该数据 源的安 装界面 ,如图 2.20 所 示,单击 其中的 “数据库 :选择 ”按 钮,在 弹 出的 文 件 打开 对 话 框 中找 到 demo.mdb并单 击 “确 定 ”按钮,数 据源名 可以任 意指定 ,此处 使用 “MSAccessDatabase”,此 时安 装 界面 上相 应位 置就 会 列出所 指向的 数据库 名。            (a)                       (b) 图 2.19 向导初始对话框中的数据源列表和系统的 ODBC数据源管理器 单击 两次“确 定 ”按 钮后 回到 最 初的数 据 库向 导 界面,此 时 即可 选中 MSAccessDatabase数 据 源并单 击下一 步,系统 就会 进 入 向 导的 第二 个 窗 口,采 用 拖 放式 操作 将所 需 变量 引 入 右侧 框 中 ,见图 2.21。向导 的第 3步 ~第 5步 适 用于 数据 的选 择 性读 入、字符 值到 数 值与 值 标 签的 转 换 等操作 。第 6步则提 供了将 生成的 SQL语句 保存为 文件以 供 再次 使 用,将前 面 的操 作粘 贴成2.4  数据的 保存 39              图 2.20 MSAccess驱动程序安装界面 Syntax语句等 功能。 如 果 不 需 要 这 些 设 置,则 可 在 第 2步 时 直 接 单 击 完 成,数 据 就 被 成 功 读 入 了。 图 2.21 数据库向导的第二个对话框 由于 SPSS现 在可以 直接打 开许多 常用格 式的数 据文件 ,因此 数据库 查询接 口的用处 不是很 大 。但是 使用 ODBC接 口可以 直接和 绝大多 数流行 的数据 库进行 数据交 换,如 SQLServer、DB2、 Oracle等,这是 直接打 开方式 无法做 到 的。 其 次,在 例行 工作 中,比如 每 月都 要读入 相 同 的数 据 库 ,可以将 所使用 的 SQL语 句存储 起来,每 次只 要 调用 SQL语 句即 可 。这 一 方法 也可 用来 解决 一 些需要 对动态 数据库 进行统 计分析 的问题 。数据 仅 仅是 在 需要 分 析 时临 时 读入,从 而可 以保 证 数据始 终是最 新的。 2.4 数据的保存 数据 录入过 程中,要 随时注 意保存 ,以防 出现意 外情况 ,导 致信 息丢 失 。SPSS不仅 能将 数据 保 存为自 己的数 据 格 式 (*.sav文 件 ),而 且 还 可 以 将 数 据 保 存 为 其 他 类 型 ,如 DBF、FoxPro、 Excel、Access等,下 边将给 出简单 介绍。          40    第 2章  数据 录入与 数据获 取 2.4.1 存为 SPSS格式 无论 是数据 录入过 程还是 对数据 做了修 改,随时 保 存数 据 文件 是 必 不可 少 的工 作 之 一。选 择 File→Save,如果 数据文 件曾 经 存 储 过,则 系 统会 自 动 按原 文 件名 保 存 数 据;否 则 ,就 会 弹 出 SaveDataAs对话 框(见图 2.22)。此 时为所 要保存 的文件 指定文 件名和 保存的 路径就可 以了。 另外 ,有些时 候分析 者会在 分析过 程中生 成一 些 临 时变 量 ,如 果 不 希望 保 存全 部变 量,那么 就 可以使 用 SaveDataAs对话 框中的 Variables按钮来 指定 需 要保 存的 变量。 图 2.23就是 在保 存 文件 input.sav时 Variables子 对话框 的内容 ,可见 在 每个 变 量的 最 左 侧都 有 一个 复选 框,表明 它 们是否 会被保 存在文 件中。 对不需 要的变 量,单击 相应复 选框去 除选择 ,则该 变量就不 会出现 在 新保存 的数据 文件中 。 图 2.22 SaveDataAs主对话框 图 2.23 Variables子对话框 2.4.2 存为其他数据格式 SPSS的开 放和友 好之处 不仅在 于可以 读取 非 SPSS类 型 的 数据 ,而且 它 还 允许 将 数 据存 为 很 多种非 SPSS格 式的数 据。在 SaveDataAs对话 框中可 以 看到,最下 方有 一个“保 存”列表框 ,参考 文献 41              单 击后可 以看到 SPSS能 够保存 的各 种 数 据 类型 ,有 dbf、Excel、SAS各版 本 的 各 种数 据 格 式、纯 文 本格式 等,用户 只需要 选择合 适的类 型,然 后确定 就可以 了。不 过,将数 据存为 SPSS以 外的其 他 类型,有 些设置 可能会 丢失,如标签 和缺失 值等。 虽然在 保 存为 SAS等 数据 格式 时 SPSS会提 示 将标签 等另行 存储为 一个 SAS程 序文 件 ,但这 样 毕竟 不 太方 便,因此 除非 确 实需 要 和 其他 软 件 交换数 据,否则 在决定 保存为 其他类 型的数 据的时 候,一 定要慎 重行事 。 思考与练习 针对 SPSS自 带文件 demo.xls,进 行以下 练习: 1.将该文 件读入 SPSS中 ,仅包 含以下 变量:年 龄、婚 姻状况 、家庭住 址、收 入。 2.对变量 Marital(婚姻状 况)设置 值标签 ,1代表已 婚,0代表 未婚。 参考文献 1 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002 2 SPSS�Base12.0User�sGuide.SPSSInc.Chicago,Illinois,2003          42    第 3章  数据 管理 第 章 数据管理 不言 而喻,一 切统计 分析都 是以数 据为基 础的,在 数据 文 件建 立 好 之后,还需 要对 数据 进行 必 要的加 工处理 。对同 一个数 据往往 要从各 种不同 的 侧面 进 行研 究 ,采取 多 种统 计方 法进 行分 析 ,而不同 的统计 方法对 数据文 件结构 的要求 不尽相 同,这 就需要 对数据 文件的 结构进行 重新调 整 或转换 ,以便适 合于相 应的统 计方法 ,这项 工作称 为数据 管理。 数据管 理直接 关系到数 据分析 的 结果,因 此是统 计分析 工作中 不可缺 少的一 个关键 步骤。 本章 主要介 绍 SPSS提供的 数据管 理方面 的一 些 基本 功能 。在 SPSS中,数据 文件 的管 理功 能 基本上 都集中 在 Data和 Transform菜单 上,其 中前者 主要实 现 变量 级 别的数 据管理,如计 算新 变 量、变量 取值重 编码等 ,而后 者 的 功能 主 要是 实 现 文件 级 别 的 数 据 管理,如 变 量排 序 、文件 合 并 、拆分等 ,下面 将具体 介绍这 些功能 。 3.1 变量级别的数据管理 对变 量进行 操作的 内容主 要 集中于 Transform 菜 单(参见图 3.1),包括 新 变 量的 生 成、记 录 的 排序、对 变量进 行计数 等。在 12.0版中,SPSS这一菜 单的项 目可被 分为以 下几类 : 图 3.1 Transform菜单 � 计算新 变量:实际上 就是指 最上面 的 Compute过 程,这是 该 菜 单中最 为常用 和重要 的过程 。 � 变 量转 换 :包 括 Recode、VisualBander、Count、RankCases、 AutomaticRecode这 5个 过 程,它 们 实 际 上 都 可以 被 看 成 是 Com- pute过程 在某一 方面功 能 的强 化 和 打 包 ,其中 第 二 个 过程 为 12.0 版 新增。 � 专用过 程:包 括建立 时间序 列、缺失 值替代 和设定 随机种 子 三 个过程 ,其中前 两个过 程实际 上 专用 于 时间 序列 模型 ,对 它们 的 讲 解请参 见本 丛书 中 的 《统 计 预 测 与时 间 序 列 模 型》一 书 相 关 内 容 。设定 随机种 子的 功能 则主 要 影 响 伪随 机 函 数的 使 用,详 述 见 后 面相关 章节。 � RunPendingTransforms:用于执 行编程 中被挂 起(Pending)的数据 整理操 作。属于 控制命 令 ,本书对 此不作 讲解。 3.1.1 计算新变量 计算 新变量 的功能 就是在 原有 SPSS数据 文件的 基础之 上,根 据用户 的要求 ,使用 SPSS算术 表 达式及 函数,对 所有记 录或满 足 SPSS条件 表达式 的记录 ,计算出 一个新 结果,并将结果 存入一3.1 变 量级别 的数据 管理 43              个 用户指 定的变 量中。 这个指 定的变 量可以 是一个 新变量 ,也可以 是一个 已经存 在的变 量。 1.常用基 本概念 在新 变量生 成 中,涉 及 了 SPSS算 术表 达式、SPSS函 数、SPSS条 件表 达式 等 基本 概 念,因 此 首 先简单 讨论这 些概念 。 (1)SPSS算术表 达式:在变量 转换的 过程中 ,应根据 实际需 要,指 出按 照什 么 方法 进行 变量 转 换。这 里的方 法一般 以 SPSS算术表 达式的 形式给 出。SPSS算术表 达式 (NumericExpression) 是 由常量 、SPSS变量 名、SPSS的 算术运 算符、圆 括号等 组成的 式子。 (2)SPSS函数:SPSS提供了 多达 70余种 的系统 函数。 根据函 数功能 和处理 对象的 不同,可 以 将 SPSS函数分 成八大 类,它 们分别 是:算术 函数、统计函 数、分布 函数、逻辑函 数、字符 串函数 、 日 期时间 函数、缺 失值函 数和其 他函数 。 函数 具体的 书写形 式为:函 数 名(参 数)。这 里 ,函 数名 是系 统 已 经 规定 好的。 圆 括 号中 的 参 数有时 是一个 ,也可以 是多个 ;而参 数的类 型有时 是常量 (字 符型常 量应用 单 引号 引 起来),也 可 以是变 量名或 SPSS的 算术表 达式。 此外,函数中 如 果有 多 个参 数 ,各参 数 之间 要用 单字 符逗 号 “,”隔开。 SPSS函数 一般也 会与 SPSS的 算术 表达 式混 合 出现,用 于完 成更 加 复杂 的计 算。 各 种函 数 的 释义可 参考附 录。 (3)SPSS的条件 表达式 :通过 SPSS的 算术表 达式和 函数可 以对所 有记录 计算出 一 个结果 , 如 果仅希 望对部 分记录 进行计 算,则应 当利用 SPSS的条件 表达式 指定对 哪些记 录进行计 算。根 据 实际需 要构造 出条件 表达式 之 后,SPSS会 从所 有 记录 中自 动挑选 出满 足该 条件的 记 录,然 后 再 对它们 进行计 算处理 。 因此 ,如果用 户在给 出 SPSS算术 表达式 和函数 的 同 时,又 给出 了 一 个条 件 表达 式 ,那么,系 统 就会根 据要求 仅对满 足一定 条件的 记录进 行计算 处理。 2.Compute过程的 分析实 例 了解 了 SPSS算术表 达式、SPSS函数和 SPSS的条件 表达式 之后,现 在来看 看如何 通过 Trans- form命令 实现新 变量的 生成。 这里以 数据 transform.sav为 例,来 介绍变 量转换 的操作步 骤。 例 3.1  数据 transform.sav是 某年级 学生 的 数 学、英 语 、语 文三 门课 程 的 成 绩,现 在 需要 统 计 英语成 绩在 60分以上 的学生 的语文 和数学 的平均 成绩。 来看 看怎么 通过 Compute命令轻 松地完 成这一 任务。 选择菜 单项 Transform→ Compute,出现 如 图 3.2所示的 窗口。 该对话 框看起 来非常 复杂,但 实际上 内容排 列很整 齐,左 上角为需 要计算 的 变量名 ,右上方 的算术 表达 式 (NumericExpression)框 用 于给 目标 变量 赋 值,对话 框 中 部是 类 似 计算器 的软键 盘,可以 用鼠标 按键输 入数字 和 符号 ,软键 盘 右侧 为 函 数窗 口 ,可 以在 这里 找到 并 使用所 需的 SPSS函数 。 现在 开 始具 体 的设 定 操 作,在 TargetVariable框 中 输入 存 放计 算 结 果的 变 量名。 该变量 可 以 是一个 新变量 ,也可以 是已经 存在的 变量。 新变量 的变量 类型默 认为数 值型,用户可以 根据需 要 ,点击 Type&Label按钮来 修改变 量的类 型,或对 新变量 加变量 名标签 信息。 如果 指定存 放计算 结果的 变量为 新变量 ,系 统会 自 动在 数 据编 辑 窗 口中 创 建该 变 量。 如果          44    第 3章  数据 管理 指 定产生 的变量 名已经 存在,则 会以 计 算 出的新 值覆 盖 旧 值。本 例 中命 名新变 量 为 score,变 量 标 签和变 量类型 采用默 认,不做 更改。 图 3.2 SPSS变量转换窗口 如果 要对全 部学生 计算平 均成绩 ,则直接 在主对 话框中 操作即 可,但 现在仅 希望对符 合一定 条 件的记 录进行 变量转 换,所以 按 If钮 ,出现如 图 3.3所 示的窗 口。 点 击 Includeifcasesatisfies condition选项,然后通 过手工 输入或 按动 屏 幕 中的按 钮和 函 数 下拉菜 单来 实 现条 件表 达式 的输 入 工作。 在本例 中,单击 “Includeifcasesatisfiescondition”选 项以后 ,将左 边 的变量 english通过 黑 色的小 箭头,使 之进入 右边的 框中。 然后利 用软键 盘输入 “english>=60”,这 意味着 仅对 英语 成 绩在 60分以上 的学生 进行统 计分析 。单击 “Continue”按钮 之后,回 到 Transform的主窗 口。 图 3.3 If按钮子对话框 最后 ,在 NumericExpression框给 出 SPSS算术表 达式和 函数。 可以手 工输入 ,也可 以按 动数 字 键盘中 的按钮 以及函 数下拉 菜单来 完成表 达式、函 数的输 入工作 。3.1 变 量级别 的数据 管理 45              在本 例中,NumericExpression框给 出 了 MEAN(chinese,math)函 数 表 达 式,单 击 “OK”按 钮 即 可,如图 3.4所 示。 图 3.4 设置完毕的 Transform窗口 如果 对 全部 人 群 生成 一 个新 变 量,但 不 同人 群 采 用不同 的算 术 表 达式,可以 通过 多次 调用 ComputeVariable来实 现。例 如,要 根据每 个人的 调整后 工资计 算其应 缴的“个 人所得税 ”。根据 个 人所得 税法规 定:对于 调整后 工资额 小于 1200元的人 ,他应 交的个 人所得 税为 0;对于 调整后 工 资额大 于 1200元且 小于 1700元 的 人,他 应 缴 的个 人所 得 税 为 (调 整后 工资 额 -1200)× 0.05;对于 调整后 工资额 大于 1700元且 小于 3200元的人 ,他应 缴的个 人所得 税为(调整 后工资 额 -1200)×0.1-25;对于 调整后 工资额 大于 3200元且小 于 6200元 的人,他 应缴的 个人 所得 税 为(调整 后工资 额 -1200)×0.15-125;等等。 像这样 一个问 题,依然 可以利 用 ComputeVari- able来计 算。具 体做法 是,第 一次用 ComputeVariable来计 算满足 条件“调 整后工 资额小 于 1200 元 ”的人的 个人所 得税 为“0”;第 二次 用 ComputeVariable来 计算 满足 条 件 “调 整后 工 资 额大 于 1200元 且小于 1700元”的 人的个 人所得 税为 “(调 整 后工 资 额 -1200)×0.05”,点 击 “OK”后 会 出现“ChangeExistingVariable”,点击“确 定”;依次 下去即 可。这 里的操 作看似 复杂,实际 上直 接 写程序 时,代码 是很简 单的,读者可 以利用 Paste按 钮粘贴 出程序 自行练 习。 3.1.2 对变量值进行分组合并 数据 分析中 ,将连续 变量转 换为等 级变量 ,或者 将分类 变量不 同的变 量等级 进行合并 是常见 的 工作。 而 Recode过程 可 以很 好 地完 成这 一类 任务。 RecodeintoSameVariable是对 原始 变量 的 取值进 行修改 ;而 RecodeintoDifferentVariable是 根据原 始变量 的取值 生成一 个新变量 来表示 分 组情况 。但为 了保存 原始信 息的完 整性,一 般选后 者。 1.对连续 变量进 行分组 在 SPSS中可 以将连 续变量 转换为 离散 (等级 或定序 )变量,按 照某 种一 一 对应 的 关 系生 成          46    第 3章  数据 管理 新 变量值 ,可以将 新值赋 给原 变 量,也可 以生 成 一 个新 变 量。 Recode过 程和 VisualBander过 程 都 可以完 成这一 任务,但 前者 更 为简 单 和 常用。 现 在来 看看下 边 这 个例 子,SPSS易 学 易 用的 特 点 将会再 一次被 证明。 例 3.2  在 transform.sav中生 成新变 量 grade,当 英语成 绩小 于 60时取 值为 “不 及 格”,大于 等 于 60且 小于 70为“及 格”,大于 等于 70且小 于 80为“较好 ”,大于等 于 80为“优秀 ”。 选择 菜单 Transform→ Record→IntoDifferentVariables,将英 语成绩 (English)选入 InputVaria- ble→ OutputVariable框 ,此 时 OutputVariable框 变 黑,在 Name框 键 入 新 变 量 名 grade并 单 击 “Change”按 钮,可 见原来 的 english- >? 变成了 english- >grade如 图 3.5所示。 图 3.5 Recode对话框 现在 单击“OldandNewValues”,系统弹 出变量 值定义 对话框 如图 3.6所示 。许多 东西 和前 面 类似,但 要注意 所有的 范围都 是包含 了端点 的,而 前 面设 定 的变 换 会 优于 后 面的 变换 ,所 以为 了 能得到 正确结 果,应当 将相应 界值的 变换设 定放在 最后面 。另外 ,由于 这里要 生成的变 量是字 符 型变量 ,需要选 择相应 的复选 框,否 则将无 法录入 变量值 。 图 3.6 变量值定义对话框3.1 变 量级别 的数据 管理 47              这里 的操作 比较复 杂,因此 采用操 作表格 叙述如 下: Outputvariablesarestrings OldValue: Range:80throughhighest|NewValue: Value:优 秀:Add OldValue: Range:70through80|NewValue: Value:良好:Add OldValue: Range:60through70|NewValue: Value:及格:Add OldValue: Range:Lowestthrough60|NewValue: Value:不及 格:Add Continue Recode可以将 连续变 量转化 成数值 型或者 字符型 离散变 量 ,也 可 将数值 型 字符 变 量转 化成 数 值变量 ,只需选 中选项 “Convertnumericstringstonumbers”即 可,轻轻 一点,一切尽 在掌握中 。 2.分类变 量类别 的合并 Recode过程也 常用于 合 并 某个 分 类变 量 的 几个 水 平为 一 个 水 平,仍 然 举 个 例 子来 说 明 问 题 :将前文 在数据 transform.sav中产 生的变 量 grade中 的优 秀 、良好和 及格 三 个等 级合 并为 一个 等 级“PASS”,将 grade的 等级“不 及格”转 化为“NOPASS”。 界面 在前文 已经熟 悉,现在 来看看 如何进 行相应 操作: Transform→ Record→IntoDifferentVariables Numericvariable:grade|Outputvariable:Name:grade1:Change OldandNewvalues:   Outputvariablesarestrings  OldValue: value:不 及格 |NewValue: Value:NOPASS:Add  OldValue: Allothervalues|NewValue: Value:PASS:Add   Continue OK 该程 序运行 之后,就 可 以 看 到 变 量 grade1将 变 量 grade中 前 三 个 水 平 合 并 为 了 一 个 水 平 “PASS”。 3.1.3 连续变量的可视化分段 Recode过程提 供了精 确分组 的功能 ,但是 如 果 希望 进 行的 分组 是较 有 规 律 的,比 如 等距 分 组 ,或者等 样本量 分组,使用 Recode过程进 行 操作 就 显得 非 常 麻烦,且 可视化 程度 不高 ,此 时可 以 考虑使 用 VisualBander过程进 行可视 化分段 。VisualBander过程 是 SPSS12.0中新 增的 用于 将 连续变 量进行 分段的 过程,该 过程使 用百分 位数、标准差 范围或 者等间 距方式 将连续变 量划分          48    第 3章  数据 管理 为 若干组 段,并采 用图形 化操作 的方式 ,非常 直观好 用。 这里 仍以数 据文件 transform.sav为例,假设现 在希 望按 变量 math将 学 生 分为 5组,60分以 下 为第一 组,60分以 上的按 照等间 距的 方 式分 4组 ,则选 择 菜 单 Transform→ VisualBander,首先 会 弹出变 量选择 界面,要 求选择 希望进 行 分段 (组)的变 量,这里 选入 math,单 击“Continue”后即 弹 出主界 面如图 3.7所 示。界 面左上 角列出 的是需 要 进行 分 组的 变 量,选 中 后则 会在 右侧 以直 方 图的形 式给出 变量的 分布特 征,同时 在上方 还会指 出最大 、最小 值和缺 失值情 况。界面 最上方 的 Current行给出 的是原 变量的 信息,而 Banded行 给出的 则是生 成的分 组变量 的信息,可以 自行 定 义和更 改。 图 3.7 可视化分段对话框 整个 界面的 中下部 均用于 定义分 组规则 ,Grid框 组用于 显示定 义好的 规则,更改规则 可以在 该 界面上 直接进 行,但更 方便的 方式是 使用 MakeCutpoints子 对话 框设 定 分段 规则,用 MakeLa- bels按 钮自动 填充值 标签。 以前者 为例,它 可以选 择使用 等间距 (EqualWidthInter)、等比例 (等 样 本量,EqualPercentilesBasedonScannedCases)或者 按照指 定的标 准差范 围(CutpointsatMean andSelectedStandardDeviationsBasedonScannedCases)三种方 式进行 分段,如图 3.8(a)所示,其 中 第三种 方式显 然可以 用来在 数据分 析或质 量控 制中 筛 选异 常值。 本 例中 为 第一 种方 式,即在 对 话框中 依次定 义好分 组的起 点、组段 数或组 距,相 应的分 组定义 即可完 成。 在单 击“Apply”按钮 回到主 界面后 ,就会发 现变 量 math的 直方图 自动 显 示出 了所 定义 的分 组 界限,如 图 3.8(b)所 示,此 时可以 通过拖 拉分隔 线的方 式来修 改分组 界限值 。显然,可视 化分 段 过程在 操作上 要比 Recode过程赋 予用户 对数据 更多的 控制能 力。本 例完整 的操作步 骤如下 :3.1 变 量级别 的数据 管理 49              Transform→ VisualBander VariablestoBander:math Continue  选 中 math:  Banded:Name:mathcls  UpperEndpoints:Excluded(<)   MakeCutpoints:FirstCutpoint:60|Numberof:5|Width:10:Apply   MakeLabels OK                (a)                           (b) 图 3.8 MakeCutpoints子对话框以及设置完毕的可视化分段对话框 3.1.4 将字符变量转换为数值变量 在数 据分析 中,将字 符变量 转换为 数值变 量是非 常实用 的一个 功能。 除了 使 用 Recode过程 手 工设定 转换规 则外,在 SPSS中还可 以使用 AutomaticRecode过 程自 动按 原变 量 值的 大小 或者 字 母排序 生成新 变量,而 变量值 就是原 值的大 小次序 。 例 3.3  在 transform.sav数据 中,将 字符型 变量 city转化 为数值 变量 newcity。 由于 AutomaticRecode过程的 操作界 面非常 简单,这里就 不 再详 述 操作过 程,直接 给出 相应 的 界面和 结果如 图 3.9所示。 AutomaticRecode的 排序功 能和 RankCases类似 ,所不同 的是,AutomaticRecode可以 用于字 符 型变量 。          50    第 3章  数据 管理                     (a)                             (b) 图 3.9 AutomaticRecode对话框以及所生成变量 newcity的值标签定义 3.1.5 变量的编秩 所谓 编秩,其 实就是 对记录 按照 某 个变 量 值 的大小 来排 序 。RankCases过程 就是 用来 排序 的 一个专 用过程 。具体 来说,它 根 据某 变 量的 大 小来 排 出 次序 (秩 次 ),然后 将 秩次 结 果 存储 到 一 个新变 量中去 。这样 做有什 么用处 呢?在 许多时 候 参数 检 验的 条 件 不被 满 足,此时 不得 不使 用 非参数 方法,而 稍微复 杂些的 非参数 方法就 无法直 接用对 话框来 完成了 ,需要 先计算秩 次再进 行 分析(详 见非参 数检验 一章)。 例 3.4  试根据 性别分 组计算 数学成 绩的秩 次。 解:选择 菜单 Transform→ RankCases,弹出 RankCases对话 框如图 3.10所示。                (a)                             (b) 图 3.10 RankCases对话框 在 RankCases对话框 中: (1)AssignRank1to单选 框组:用于选 择将秩 次 1赋 给最小 值或最 大值。 (2) Displaysummarytables:用于 确定是 否在结 果窗口 内输出 结果报 表。3.1 变 量级别 的数据 管理 51              (3)RankTypes按 钮:用于 定义秩 次类型 ,默认 为最常 用的 Rank(秩 分数),另有其他 几种选 择 ,单击“More”按钮 ,还会 有更多 的设置 。由于 除了 秩 分数以 外 的方 法 很少被 用到,这 里不 再详 述 ,有兴趣 的朋友 可参见 用户手 册。 (4)Ties按 钮:用 于定义 对相同 值观测 量的处 理方式 ,可以是 取平均 秩次、最小秩 次 、最 大秩 次 或当作 一个记 录处理 ,默认值 为取平 均秩次 。 这里 将变量 math选入 Variable框,分 组变量 gender选 入 By框 ,单击 “OK”按 钮即可 ,其 他一 些 设置使 用默认 。系统 会建立 一 个新 变 量 Rmath(即 原 变 量名 前 加 R表 示 Rank之 意 ),其取 值 为 math分组的 秩次。 在前 面讲解 的操作 全部结 束后,数 据集 transform.sav中的数 据如图 3.11所 示。 图 3.11 变换后的 transform.sav中的数据 3.1.6 Transform 菜单中的其他功能 (1)Count过 程:该过 程用于 表 示某 个 变量 的 取 值中 是 否 出 现 某 个值,可 以 是单 个 数 值,也 可 以指定 区间,并 且可以 仅给出 条件,而不必 对整个 数据集 进行操 作。该 过程的 功能可以 直接使 用 Recode过程 来实现 。 (2)Random NumberSeed过 程:用于 设定伪 随机函 数的 随 机种子 。 默认 情况 下随 机种 子随 着 时间在 不停改 变,这样 所计 算 出 的 随机 数值 无 法 重复,这 在 临床 试验 等情 况 中是 不 符 合要 求 的 。此时 可用 Random NumberSeed过程人 为指定 一个种 子,以后 所有的 伪随机 函 数在 计算 时都 会 以该种 子开始 计算,即 结果可 重现。 但它对 真随机 函数没 有任何 影响。          52    第 3章  数据 管理 3.2 文件级别的数据管理(一) Transform菜单 提供的 数据管 理功能 虽 然很 强 ,但基 本 上仅 限于 变量 级 别,有时 候 需 要对 整 图 3.12 Data菜单 个 数据文 件进行 加工整 理,而不 仅仅是 对变量 进 行操 作。 在 SPSS中 , 这 部分功 能主要 集中在 Data菜单(参 见图 3.12)下。根 据各自 的功能 特 点,该菜 单中的 所有项 目可分 为以下 几类: ① 简单命 令:包 括 插入 变 量、插 入 记 录 和到 达 某 条记 录,它 们 的 功 能实际 上都可 以使用 鼠标在 数据表 界面上 直接完 成,很 少 会使用 菜 单 来调用 ,本书不 对其进 行讲解 。 ② 常用的 简单过 程:包 括排序 、拆分文 件、选择 记录和 加 权 记录 , 这 几个过 程并不 复杂,但 使用得 极为频 繁,是 大家必 须掌握 的内容 。 ③ 变量与 数据文 件 属性 向 导:是 11.5版新 增 的 两个 向 导,用 于 定 义数据 字典,或 者将预 定义 的 数 据字 典 直 接 引入 当前 数 据 文件,对 于 大型或 者连续 性的数 据分析 项目而 言,这是 一个非 常有用 的功能 。 ④ 数据重 构向导 :用于 进行数 据 转置,或者对 重 复 测量 数 据进 行 长 型、宽型 记录格 式间的 转换,详述见 后面相 关章节 。 ⑤ 文件合 并过程 :将几 个数据 文件合 并为一 个大的 SPSS数 据文件 ,含横向 合 并和 纵向 合并 两 种情况 ,详述见 后面相 关章节 。 ⑥ 正交设 计过程 :实际 上是联 合分析 模块的 一部分 ,用于生 成实施 联合分 析所需 的 设计,由 于 这一分 析方法 是市场 研究中 的专用 工具,对 它的讲 解可参 见本丛 书中的 《SPSS与市 场研究 》一 书 相关内 容。 ⑦ 其他过 程:包 括定义 日期变 量 过 程、数 据汇 总 过 程和 查 找重 复 记录 向 导。 前者 用 于时 间 序 列数据 的分析 ,将在时 间序列 一书中 讲解,后两个 过 程将 在 下文 加 以 讲解,其中 查找 重复 记录 向 导为 12.0版新 增功能 。 本节 将首先 讲解非 常重要 的几个 简单过 程,下 一 节将 重 点 讲述文 件级 别 数据 管理 中一 些比 较 复杂的 功能。 3.2.1 记录排序 数据 编辑窗 口中记 录的前 后次序 是随机 的,由录 入时的 先后顺 序决定 。实际 工作中 ,有时用 户 希望按 某种顺 序来观 察一批 数据,例 如,在 销售报 表中,希 望按销 售额从 低到高 的顺序 ,或者按 销 售时间 从早到 晚的顺 序来浏 览数据 。观察 排序后 的记录 数据,会 方便用 户了解 数据。 SPSS中的 记录排 序就是 将数据 编辑窗 口中的 数据,按照用 户指定 的某 一个 或 多个 变量 值的 升 序或降 序重新 排列,这 里用户 所指定 的变量 称为排 序变量 。当对 所有记 录进行 排序时 ,可按照 排 序变量 取值的 大小次 序对记 录数据 重新整 理后显 示。当 对记录 进行分 组排序 时,在每 个组内 , 按 照排序 变量取 值的大 小次序 对记录 数据进 行排序 。3.2 文件 级别的 数据管 理(一) 53              对于 单变量 排序,SPSS提供了 一种简 易操作 方法,就 是在数 据表 格 的变量 名处单 击 右键,弹 出 的右键 菜单其 最后两 项就是 “SortAscending”和“SortDescending”。 但是,对 于多变量 排序,则 需 要使用 这里讲 述的 SortCases过程来 进行。 由于该 对 话框并 不复杂 ,因此 这 里不 再详 细讲解 , 仅 给出一 个示意 图,如图 3.13所示。 图 3.13 SortCases对话框 图 3.13显示 的是将 数据按 照 city升 序,gender降序 的 方 式进 行 排 列 的操 作。其 中 ,比较 特 殊 的是 city和 gender后面 分别跟 着 Ascending和 Descending,表明 前者按 升序,后 者按降 序排列 , 如 果要改 变升降 序,则选 中相应 变量,然 后直 接 在 SortOrder单 选框 组中 修 改 选 择即 可 ,同时 需 要 说明以 下几点 : (1)在多重 排序中 ,指定排 序变量 名的次 序是很 关键的 ,先指 定的变 量在排 序时必然 优先于 后 指定的 变量。 即记录 首先按 第一个 变量进 行排序 ,对于 与 第 一变量 取值 相 同的 记录 考虑 按第 二 个变量 排序,以 此类推 。 (2)可以指 定按某 变量值 升序排 序的同 时按另 一变量 值降序 排序,或 相反。 (3)排序以 后,原来 记录数 据的排 列次序 将被打 乱。因 此 ,在 时 间 序列 的 数据 中,如果 数据 中 没有存 放记录 标志的 变量,如 年份等 ,则应 注意保 存原数 据的排 列顺序 ,以免数 据混乱 。 3.2.2 记录拆分 用于 将数据 文件分 组进行 处理。 如果希 望分组 进 行相 应 的统 计 分 析,或 者只 分析 其中 的一 部 分数据 ,则可以 通过拆 分数据 集来加 以实现 。SplitFile过程用 于实现 这一功 能,其界 面非 常简 单 ,如图 3.14所 示。 这里 介绍一 下各个 对话框 元素的 用途: (1) Analyzeallcases:和 下面的 两个单 选框为 一组,选 中本框 不拆分 文件。 (2) Comparegroups:按所 选变量 拆分文 件,各 组分析 结果放 在一起 便于比 较。 (3) Organizeoutputbygroups:按 所选变 量拆分 文件,各 组分析 结果单 独放置 。 (4)GroupsBasedon框:用 于选择 拆分数 据文件 的变量 。 (5) Sortthefilebygroupingvariables:和下 面 的 Fileisalreadysorted为 一组,要 求拆 分时 将 数据按 所用的 拆分变 量排序 。 (6) Fileisalreadysorted:如果 数据集 很大,而 所用的 拆分变 量已经 排过序 了,可使 用该单          54    第 3章  数据 管理 图 3.14 SplitFile过程主对话框 选 框以节 省运行 时间,但 实际上 较少用 到。 当对 数据集 进行拆 分后,可 以看到 状态栏 右侧会 出现 SplitOn的提 示,表明 所 做的 拆分 正在 生 效,它将 在以后 的分析 中一直 有效,而且会 被存储 在数据 集中,直 到再次 进行设 定为止 。 3.2.3 记录筛选 很多 时候用 户不需 要分析 全部的 数据,而 是按要 求分析 其中的 一部分 ,比如 只分析职 位是经 理 的人的 年薪,或 者只对 接受教 育年限 在 12年以上 的人进 行分析 ,这时使 用 SelectCases过 程可 以 大大简 化用户 的工作 。对话 框界面 如图 3.15所示 。 图 3.15 SelectCases过程主对话框3.2 文件 级别的 数据管 理(一) 55              (1)主要的 对话框 元素为 Select单选框 组,用 于确定 选择方 式。 � Allcases:分析所 有的记 录。 � Ifconditionissatisfied:只 分析满 足条件 的 记录 ,单击 下 方的 If按 钮后 弹出 If对话框 , 用 于定义 筛选条 件。 � Random sampleofcases:从 原数据 中按某 种条件 抽样,使用 下方 的 Sample按 钮进 行具 体 设定,可 以按百 分比抽 取记录 ,或者 精确设 定从前 若干个 记录中 抽取多 少个记 录。 � Basedontimeorcaserange:基于 时间或 记录序 号来选 择记录 ,使 用下 方 的 Range按钮 设 定记录 序号范 围。 � Usefiltervariable:使 用筛选 指示变 量来选 择记录 ,必须在 下面选 入一个 筛选指 示变量 , 该 变量取 值为非 0的记 录将被 选中,进 入以后 的分析 。 (2)最下方 的 UnselectedCasesAre单选框 组用于 选择对 没有选 中的记 录的处 理方式 。 � Filtered:表示未 被选中 的记录 只是被 隔离,这 些记录 的 记录 号 上会 被加 上斜 杠以 示区 别 ;同时系 统会自 动产生 一个名 为 filter $ 的筛选 指示变 量,被 选中的 记录该 变量取 值为 1,反之 则 为 0。 � Deleted:未被选 中的记 录将被 删除,一般不 要使用 ,以免误 删数据 。 当对 数据集 做出筛 选后,可 以看到 状态栏 右侧会 出现“FilterOn”的 提示,表 明 所做 的筛 选正 在 生效,筛 选功能 将在以 后的分 析中一 直有效 ,而且 会 被存 储 在数 据 集 中,直 到再 次改 变选 择条 件 为止。 3.2.4 记录加权 在默 认情况 下,每一 行 就是 一条 记录 ,这 在 多 数 情况 下 没 有什 么 问题,但 有时 却 非 常 麻烦 。 图 3.16 频数格式录入数据 如 图 3.16所示的 数据表 ,如果 每一行 就是一 条记录 ,则需要 输入 121行 。这时 候,一 般 使用 频 数 格 式 录 入 数 据,即 相同 取 值的 观 测 只录入 一次,另 加一个 频数变 量用于 记录该 数值共 出现了 多少 次 。这样 就需要 在分析 时用到 WeightCases过程 (参 见图 3.17) 将 数据指 定为该 种格式 。该过 程的使 用极为 简单,对 话框界 面上 有 两个单 选按钮 ,分别 是 不 按权 重 记录 和 按某 变 量 权重 记 录,如 果 选择后 者,则需 要选中 一个权 重变量 。 图 3.17 WeightCases过程主对话框          56    第 3章  数据 管理 进行 权重 记录 以后,SPSS界 面 右 下 角 会出 现 “WeightOn”的 字 样,且可 以被 存 储 到 数据 集 中 ,直到用 户取消 加权,否则一 直按加 权对数 据进行 处理。 3.2.5 数据汇总 所谓 分类汇 总就是 按指定 的分类 变量对 观测值 进 行分 组 ,对每组 记录 的 各变 量求 指定 的描 述 统计量 ,结果可 以存入 新数据 文件,也可以 替换当 前数据 文件。 对数据 文件进 行分类汇 总是实 际 工作中 经常遇 到的事 情。例 如,对于 学生基 本情况 的数据 ,现希 望了解 不同性 别学生的 平均分 数 情况。 这就需 要首先 对数据 按不同 性别分 类,然后 再 分别 求 出各 类 学 生的 分 数平 均 值。 这个 过 程本质 就是一 个数据 的分类 汇总的 过程。 在 SPSS中,实 现 数 据 文 件 的 分 类 汇 总 是 经 过 三 大 步 骤 完 成 的 。 首 先 ,要 指 定 分 类 变 量 (BreakVariable(s))和汇总 变量(AggregateVariable(s));然后 ,SPSS自 动根 据 分类 变 量 的取 值 将 记录数 据分成 若干类 ,并对每 类记录 分别计 算 汇总 变 量的 描 述统 计 量;最 后 ,将 分类 汇总 的计 算 结果保 存到一 个 SPSS数据文 件中。 为更 清楚地 了解 SPSS分类 汇总的 过程和 结果,这里以 数据 transform.sav为 例来加 以演示 。 例 3.5  根据数 据 transform.sav中学 生的性 别变量 对英语 的平均 成绩进 行汇总 。 首先 ,选择菜 单:Data→ Aggregate,出 现 如图 3.18所 示的窗 口。然 后 ,指定 分类变量 到 Break Variable(s)框中 ,指定 汇总变 量到 AggregateVariable(s)框中。 使 用 Function按 钮 指定 对汇 总变 量 计算哪 些描述 统计量 ,此处共 提供了 5组函 数,分 别 为 常用 汇 总函 数 、特定 值、记 录数 、百 分比 和 百分片 断(Fraction)。以最 常用的 第一组 为例,可 选的函 数有均 数、中 位数、总 和、标 准 差 4种 。 SPSS默 认对各 类分别 计算汇 总变量 的均值 ,见图 3.18。 图 3.18 Aggregate过程的主对话框 另外 ,也可以 指定分 类汇总 的结果 保存到 何处。 有两种 选择:第一,Createnewdatafile:表示3.3 文件 级别的 数据管 理(二) 57              将 结果生 成到系 统默认 的名为 aggr.sav的 SPSS数据 文件中 ,可以 按 File按钮重 新指定结 果文件 路 径和文 件名。 第二,Replaceworkingdatafile:表 示以分 类汇总 后的结 果覆 盖 SPSS当 前 数据编 辑 窗口中 的数据 。一般 采用前 一种方 式较好 。 如果 希望在 结果数 据文件 中保存 分类组 的记录 数,则选 择 Savenumberofcaseinbreakgroup 图 3.19 保存分类组的记录数 asvariable选项。 于是 SPSS便 在 结 果数 据 文 件 中自 动生 成 一 个默认 名为 N BREAK的 变量,见 图 3.19。 分类 汇总产 生的 SPSS数据 文件的 记录数 取决于 分 类变 量 的取值 个数。 这里,分 类 变量 性 别 有两 种 取 值,则 按性 别 分 类汇总 后的数 据就有 两条。 还需 要说明 的是:分 类汇总 中的分 类变量 可以指 定多个 ,称为 多重分 类汇总 。此时汇 总数据 文 件的记 录数等 于各分 类变量 类别数 的乘积 。 如分类 变量 为 性 别(男、女 )和 班级 (一、二、三 ), 则 汇总数 据文件 中会有 6(2×3)条记 录。第 一个 指 定 的分类 变量 为 主 分类变 量,其他 的依 次为 第 二、第三 分类变 量。 3.3 文件级别的数据管理(二) 在上 一节中 讲解了 最为基 本和常 用的数 据管理 功能,对 于一般 的数据 分析任 务,这些 已经足 够 。但是 在较复 杂的数 据分析 项 目 中,往 往会 在 数 据管 理 中涉 及格 式化 数 据、发现 重 复 录入 记 录 ,拼接多 个数据 集和转 换存储 格式等 复杂功 能,涉 及 的数 据 文件 也 不 止一 个 ,本 节的 任务 就是 为 大家讲 解这些 较为复 杂的文 件级别 数据管 理功能 。 3.3.1 数据字典的定义与应用 在大 型的数 据分析 项目中 ,数据管 理是非 常重 要 的 一个 环 节,为 了 保证 工 作质 量,数据 处理 人 员往往 会事先 定义好 一个非 常详细 的数据 格式,包 括变量 格式、变量标 签、值标 签、缺失 值定义 等 ,这被称 为数据 字典。 从 11.5版起 ,SPSS新增 了两个 数据管 理向导 ,专门用 于定义 数 据字典 , 或 者将预 定义的 数据字 典直接 引入当 前数据 文件。 对 于大 型 或者 连 续 性的 数 据分 析项 目而言 , 这 是一个 非常有 用的功 能,可以 大大减 轻数据 处理人 员的工 作负担 。 1.变量属 性定义 向导 变量 属性定 义向导 即 DefineVariableProperties过 程,用 于 对数据 集中 已 存在 的变 量进 一步 定 义其属 性。具 体说来 ,可以列 出所选 变量的 所 有取 值;分 辨 没有 值 标 签的 值 ,并 且提 供自 动给 出 值标签 的功能 ;可以将 另一个 变量的 属性拷 贝到所 选的变 量,也 可以将 所选变 量的属性 拷贝到 其 他变量 。虽然 该向导 的绝大 多数功 能都可 以在变 量 视图 中 实现,但 对于 复 杂的 数据 管理 项目 而 言,它的 可视化 能力可 以大大 提高工 作效率 ,并且 对 初学 者 而言,使 用该 向 导进 行变 量的 设置 也 是非常 好的选 择。 这里 仍以数 据集 transform.sav为 例对该 向导加 以说明 。假设 现在希 望对变 量 gender进行属          58    第 3章  数据 管理 性 设定,则 选择 Data→DefineVariableProperties,此时 会弹出 预定义 对话框 ,要求 选择希望 进行设 定 的变量 ,可 以选 择多个 ,SPSS将 会 对选入 的变量 都 进行扫 描。这 里 只选 入 gender,则 进 入向导 的 主界面 如图 3.20所示 。 图 3.20 DefineVariableProperties对话框 主界 面的左 侧会列 出所有 被选择 或扫描 的变量 ,选中相 应的变 量名称 ,则右 侧会显示 出相应 的 设定,并 供用户 加以更 改:上 部用于 设定测 量尺度 、存储格 式、变 量 名标签 等,如果 单击 Suggest 按 钮,则 系 统会 根 据扫描 到 的数据 给出建 议的测 量 尺度;中部的 ValueLabel网 格会 列 出该 变量 所 有 取 值 的 频 数、当 前 值 标 签和 缺 失 值 设 定 等,这 里 可 以更 改 标 签 和 缺 失 值 的 设 定 。下 部 的 CopyProperties按 钮组用 于将另 一个被 扫描变 量的属 性拷贝 到所选 的变量 ,也可 以将所选 变量的 属 性拷贝 到其他 被扫描 变量,这 里由于 只选择 了一个 变量,因此实 际上没 有用到 该按钮组 。右下 方 的 AutomaticLabels按钮用 于自动 生成值 标签,实 际上就 是将所 有的变 量值均 赋给值 标签。 如图 3.20所 示,此 时已经 对 gender的属性 进行了 更改,读 者可以 看到 在 这一 个界 面中 就完 成 了对变 量的所 有属性 定义,而 且可以 一次性 定义多 个变量 ,并且 由系统 帮助扫 描出全部 取值范 围 ,这显然 要比在 变量视 图中进 行操作 要容易 得多,可以大 大方便 数据字 典的定 义工作。 2.复制数 据文件 属性向 导 CopyDataProperties过 程用 于 将 定义 好 的数 据 字 典直接 应用 到 当 前文件 中,在操 作时 不仅 可 以将一 个外部 的数据 文件相 关属性 拷贝到 当前数 据文件 中,还可 以进行 自定义 ,只选择 某些变 量 ,或者某 些属性 进行拷 贝,这 无疑大 大提高 了连续 性项目 对原有 资源的 利用程 度。对于 一些特 殊 的文件 属性,如 多选题 变量集 、普通 变量集 、权重变 量的设 定等,使用该 向导进 行复制会 减少许 多 重复工 作。 例 3.6  将数据 集 transform.sav中 相关的 变量属 性作为 数据字 典应用 到另一 个数据 集 trans- form2.sav中。 各位 读者可 以首先 分别打 开这两 个文件 ,比较一 下它们 之间的 区别,可以发 现对于相 同的变3.3 文件 级别的 数据管 理(二) 59              量 ,transform.sav中 均设置 了标签 ,且列宽 、测量 尺度 等 的设 置均 不相 同 。下面 开 始进行 操作,首 先 打开文 件 transform2.sav,然后选 择 Data→CopyDataProperties,系统 会首 先 弹出 向导 的第 一个 对 话框,要 求指定 希望复 制的属 性是来 自于当 前 文件 ,还是 另 一个 外 部 数据 文 件,本例 中指 定为 transform.sav所在位 置。单 击“下一 步”按钮 后出现 如图 3.21所 示的对 话框,该 界 面用 于设 定希 望 复制的 属性 种 类 ,有 三 种 选 择,分 别 为 选 择 同 名 同 类 型 同 长 度变 量 的 属 性 进 行 复 制 (Apply propertiesfrom selectedsourcefilevariablestomatchingworkingfile)、选 择 一个变 量的属 性 进行复 制 (Applypropertiesfromasinglesourcevariabletoselectedworkingfilevariable)和 仅复制文 件属性 (Applydatasetpropertiesonly-novariableselection)如多选 题集定 义、权 重 设定等 。 这里 选择 第一 项 ,需注意 性别变 量由于 在两个 文件中 的名称 不同,因此未 出现在 下方的 列表中 。然后选 中源文 件 变量列 表中的 全部变 量,单击 “下一步 ”按钮,随后 的对 话 框(见 图 3.22)会 要求 用户 详细 指定 希 望复制 的变量 属性,共 有 7种 之多,并且可 以选择 是替换 原有属 性,还是 和原属 性进行 合并。 图 3.21 CopyDataProperties对话框 1 在如 图 3.21,图 3.22所示的 两个对 话框出 现时,使 用者其 实就可 以单击 “完成 ”按 钮结 束向 导 了,此后 出现的 界面分 别用于 选择希 望复 制 的文件 属性,以 及 是否 生 成 相应 的 SPSS程 序。运 行 完毕后 ,大家就 会看到 ,除了 未加设 定的变 量 sex外,其 余各变 量的属 性都套 用了 transform.sav 中 的相应 设置。 最后 ,总结一 下如何 应用上 述两个 向导来 完 成数 据 管理 任 务。如 果有 事 先定 义的 数据 字典 格 式,则可 以先生 成一个 没有记 录的空 数据文 件,将 全 部的 数 据字 典 设 定好,将来 在数 据录 入完 毕 后使用 复制文 件属性 向导套 用字典 即可;如 果没有 事先定 义的数 据字典 格式,则可以在 录入工          60    第 3章  数据 管理 图 3.22 CopyDataProperties对话框 2 作 进行了 一段时 间以后 先使用 变量属 性定义 向导完 成 数据 字 典的 设 定 工作,然后 随着 录入 工作 的 进行经 常扫描 数据的 情况,及 时更新 字典,最后在 录 入工 作 完毕 后 ,使用 复 制文 件属 性向 导应 用 字典的 最终版 本。现 在大家 知道了 这两个 向导并 不是多 余的,而 是非常 重要和 实用的 。当然 , 如 果数据 管理任 务不太 复杂,则 也可以 直接在 数据字 典中录 入数据 ,或者 直接在 变量视图 中修改 属 性。但 是在真 正的大 型数据 管理项 目中,单 独建立 和维护 数据字 典是非 常关键 的一环 ,此时这 两 个向导 的作用 就不可 忽视了 。 3.3.2 查找重复记录 在大 型 的数 据 管 理或 者 复杂 的 数 据变 换 工作 中 ,重复 记 录的 发 现 是经 常 需要 完成 的任务 。 IdentifyingDuplicateCases是 SPSS12.0新增 的功能 ,通过简 单的菜 单操作 ,可以 迅速地发 现个别 变 量值重 复,或者 所有数 值完全 重复的 记录。 下面 用数据 company rongyu.sav来进 行示 例。 该数 据 是 一份 对 几 个公 司的 统计 表。但 由 于 有的公 司提交 了数次 ,因而在 这个数 据文件 中出现 了 不止 一 次。在 作统 计 工作 时必 须把 这些 重 复数据 删掉。 数据量 少时排 序后逐 个删除 当然是 没有问 题的,但 数据量 较大时 ,这将是 一个非 常 庞大的 工作。 SPSS提供了 这种识 别重复 记录(IdentifyDuplicateCases)的 程 序,下面 看一 下如 何 用它来 简 化工 作 。选择 Data→IdentifyDuplicateCases,弹出 如 图 3.23所示 的对话 框 ,上方 的 Definematchingcasesby框用 于选入 希望查 找重复 值的变 量 (组),这 里 将企 业 名称、企 业所 在地3.3 文件 级别的 数据管 理(二) 61              区 两个变 量选入 ;下方的 Sort框 组用于 设定对 于重复 的记录 按照哪 个变量 的取值 排序,操 作方式 和 Sort对话 框基本 相同,此处选 入 id;整 个对话 框的 下 方实际 上不会 影 响重 复 记录 的查 找,只是 影 响相应 记录的 显示和 排列方 式,Indicator框组用 于设定 是将第 一个,还是 最后 一 个重 复记 录设 为 主记录 (相应的 ,其余记 录就成 为了“重 复”的记 录),而 Sequential框用 于选择 是否要 求为 重复 记 录编制 流水号。 图 3.23 IdentifyDuplicateCases对话框 在操 作完毕 后,得到 的结果 如图 3.24所 示,可 见 变量 PrimaryLast等于 0表示 相应 记录 为重 复 记录,本 例中共 发现 2、4、7三 条重复 记录。 而重 复 的 记录 间 又是 按 照 ID号 的大 小进 行排序 , 这 正是原 本所设 定的情 形。 图 3.24 操作结束后的数据界面 最后 ,结果窗 口中还 会给出 本次操 作的汇 总信息 ,如表 3.1和 表 3.2所示。          62    第 3章  数据 管理 表 3.1 Statistics 表 3.2 IndicatorofeachlastmatchingcaseasPrimary 3.3.3 数据文件的重新排列与转置 数据 文件的 重新排 列,是数 据分析 中经常 用到的 一个功 能。数 据录入 的格式 ,未必能 一步到 位 地满足 用户分 析时的 要求,很 多时候 用户 要 根据 分 析 的要求 改变 数 据 的排列 格式,Restructure 过 程是一 个图形 化界面 的数据 重构向 导,直观 地实现 了这一 功能。 1.数据的 长型与 宽型格 式 长型 格式和 宽型格 式指的 是重复 测量数 据的两 种 不同 的 排列 方 式,由 于 重复 测量 模型 可以 使 用不同 的统计 模型加 以分析 ,因此,根据模 型的要 求进行 长型格 式和宽 型格式 之间的互 转是数 据 分析中 经常要 遇到的 问题。 这里 以 SPSS的自 带 文件 Anxiety.sav和 Anxiety2.sav来 说明 这两 种 数据 排列 格式 的特点 。 这 两个文 件记录 的都是 12名精 神病患 者在接 受治疗 后的 4个时间 点的精 神状态 评分,其中 变量 subject为 病人的 id号 ,score为评 分,trial为 测 量时 的时 间点 编 号,anxiety和 tension记 录 了病 人 在 治疗前 有无焦 虑和紧 张。Anxiety.sav文件 是长型 格式,以 每次测 量作为 一条记 录,用变 量 sub- ject和 trial来 区分是 哪位病 人的第 几次测 量,anxiety和 tension作为 携 带变 量 在相 同病 人的 记录 中 重复出 现,这样 12个 病人共 形成了 48条记 录;而 Anxiety2.sav是 宽 型格 式 ,每 位病 人作 为一 条 记录,4次测 量分别 用 trial1~trial4这 4个 变量来 分别记 录,原 先用于 区分测 量次数 的 变量 tri- al不再需 要,同一 个病人 的 subject、anxiety和 tension也只 出现一 次。从 图 3.25中 可以 更清 楚地 理 解这两 种数据 格式的 特点。 事实 上,在学 习了第 2章后 ,大家 应当能 够明白 长型格 式才是 符合统 计分析 要求的标 准记录 格 式,但是 由于重 复测量 数据会 使用特 殊的重 复测量 模型来 进行分 析,此 时就需 要将数据 变换为 宽 型格式 ,该模型 的详情 参见本 丛书的 高级教 程相关 章节。 2.长型格 式转换 为宽型 格式 现在 来看看 如何使 用 Restructure过程实 现数据 结构的 重建。 例 3.7  将 SPSS自带文 件 Anxiety.sav转 换为 Anxiety2.sav的格 式。3.3 文件 级别的 数据管 理(二) 63              图 3.25 数据集 Anxiety.sav和 Anxiety2.sav的内容 解:选择 Data→Restructure,系统 会弹出 Restructure向 导的第 一个界 面如图 3.26所 示,从图 中 可以看 出,在向 导中共 提供了 三种数 据重排 功 能,分 别是 长 型与 宽 型 格式 的 互换 和行 列转置 。 根 据要求 ,在这个 例子中 要使用 的是 第 二 种功 能 ,选择 Restructureselectedcasesintovariables单 选 框,单击 “下一步 ”按钮后 显示向 导的第 二个界 面,见 图 3.27。 图 3.26 Restructure向导第一步 图 3.27 Restructure向导第二步          64    第 3章  数据 管理 根据 要求可 知,用户 指定被 重复测 量个体 的 id标识 变量和 用于反 映测量 次别的 Index变量 , 此 处分别 为 subject和 trial,将它 们分别 选入 IdentifierVariables框和 IndexVariables框后 单击“下 一 步”按钮 ,向导会 进一步 询问是 否根据 id变量和 Index变量 对数据 进行排 序,见 图 3.28。 图 3.28 Restructure向导第三步图 系统 默认为 “Yes”,此 时不做 更改可 以继续 单击“下 一 步”按钮 ,也 可以 单击“完 成”按钮,系 统 会自动 判断所 需的内 容。单 击“下一 步”按钮 ,看看下 边 会有 些 什么内 容,从 图 3.29中可 以看 出 ,这一步 是对重 新排列 以后的 数据文 件的结 构进行 设置,给出产 生一条 新记录 的原记录 的数目 以 及选择 是否需 要标识 变量。 即使用 户对这 个界面 的功能 不了解 ,根据向 导的简 短说明 ,也可以 判 断出此 步骤的 意图,这 也是 SPSS友好 的人 机 界 面 的一 个展 示。 在 这一 步 不做 更 改,单 击 “下 一 步”按 钮,最 后一 个 对 话框 用 于 选 择 是 直接 得 到 结果 ,还是 生成 相 应的 SPSS程序 ,默 认为 前 者 。直接 单击“完 成”按钮 ,就可 以 得 到 相应 的转 换后 的数 据 集 ,将该 结 果 与 数 据 Anxiety2.sav 进 行比较 ,可以看 出除变 量名和 标签不 同外,两个文 件 的 内容 实际上 是 一 致的 。另 外,也可 以看 看 系统在 结果窗 口中的 汇总输 出,如表 3.3和 表 3.4所示,这常被 用来检 查是否 操作有 误。 图 3.29 Restructure向导第四步3.3 文件 级别的 数据管 理(二) 65              表 3.3 GeneratedVariables 表 3.4 ProcessingStatistics 最后 还有一 个非常 有趣的 问题:本 例 中没 有 说明 哪 个 变量 需 要转 换 ,但最 后 程序 只将 score 转 换为了 宽型格 式,anxiety和 tension则直接 携带 了 过来,未 加转 换。 这是 因 为 程序 会 自 动扫 描 需 要转换 的变量 ,如果该 变量在 相同个 体内取 值 均不 变,则 会 被自 动 携 带过 来 而不 加转 换,本例 中 的 anxiety和 tension正 属于这 种情况 。显然 ,SPSS的这 种设计 大大方 便了用 户的使 用。 3.宽型格 式转换 为长型 格式 下面 来看看 如何将 宽型格 式的数 据转换 为长型 格式,有 了前面 的基础 ,这一 部分内容 大家应 当 很容易 理解了 。假设 此处的 任务是 将 Anxiety2.sav转换为 如 Anxiety.sav的 长型格 式 ,则 在第 一 个向导 界面上 选择第 一项,单 击“下一 步”按钮 后弹出 界面如 图 3.30(a)所示,询问共有 几组重 复 测量变 量需要 转换,此 处只有 一个,单击“下 一步”按 钮后进 入最重 要的 变量 选择 界 面(参 见图 3.30(b)):CaseGroupIdentifyication框 用于设 定重 复测 量个体 的 id标识 变 量 ,此处 设 定 为变 量 Subject;中部的 VariablestobeTransposed框组 则用于 设定被 转换的 变量组 ,首先 将变量组 名称改 为 trial,随后在 下方的 列表中 将 Trial1~4选 入。如 果有多 组变量 需要转 换,则依 次设定 即可;最 下 方的 FixedVariable(s)框 则用于 选入携 带变量 ,此处 为 Anxiety和 Tension。          66    第 3章  数据 管理 图 3.30 转换向导的第二、三个界面    在正 确设定 了变量 选择界 面 之 后,下 面的 工 作 就非 常 简单 了 ,随后 的 CreateIndexVariables 界 面(参见 图 3.31(a))用 于设定 重复测 量指示 变量(如 同本例 中的变 量 trial),而 CreateOneIn- dexVariable界 面(参见 图 3.31(b))则具体 设定该 变量的 数值。 实际上 现在就 可以直接 单击“完3.3 文件 级别的 数据管 理(二) 67              图 3.31 转换向导的第四、五个界面 成 ”按钮结 束本向 导了,如 果希望 更详细 地 加以 设 定,则 最 后还 有两 个界 面 用 于 选择 缺 失 值、未 选 中变量 的处理 方式以 及是直 接执行 ,还是生 成相应 的程序 。 在本 向导全 部运行 完毕后 ,数据就 会被转 换成长 型格式 ,同时 结果窗 口中会 给出操作 的汇总 表 格如表 3.5和 表 3.6所示。 表 3.5 GeneratedVariables 表 3.6 ProcessingStatistics 4.数据转 置 下面 看看 Transpose过程 ,也就 是 数 据重 构 向导 的第 三 个功 能 。Transpose过程 用 于 对数 据 进 行行列 转置,数 据文件 的转置 就是将 数据编 辑 窗口 中 数据 的 行列 互 换,即 将 记录 转为 变量,将 变 量转为 记录后 ,重新显 示在数 据编辑 窗口中 ,如图 3.32所 示。 图 3.32 转置前的数据集和转置后的数据集          68    第 3章  数据 管理 Transpose过程 的对话 框也非 常简单 (见图 3.33),左侧为 候选 变 量框;右 上 方为 Variable(s) 框 ,用于选 入需要 转置的 变量,一般应 选入除 名称变 量外的 所有其 他变量 ,如果有 变量未 选入,则 转 置时会 被自动 丢弃;右 下方为 NameVariable框,用 于指 定 原 数据文 件中 记 录转 置后 变量 名的 字 符变量 ,但不是 必需的 ,此时 系统会 将新变 量自动 按 var001、var002、⋯ 的顺 序命名 。 图 3.33 Transpose对话框 对统 计分析 的初学 者而言 ,可能无 法想像 这个功 能有什 么用处 。实际 上,数 据转置主 要是用 于 编程,进 行矩阵 运算时 的矩阵 转置操 作,对 于只需 要 调用 现 成的 分 析 程序,不需 要自 行编 写算 法 的用户 而言,转 置功能 的确没 有多少 实际用 途。 3.3.4 多个数据文件的合并 进行 统计分 析的第 一步工 作就是 将待分 析的数 据录入 到 SPSS中。在 数据量 较大时 ,经常需 要 把一份 大的数 据分成 几个小 部分,然 后再分 别由不 同的录 入员进 行录入 ,以缩 短数据录 入的时 间 。这样 就会出 现一份 大数据 分别存 储在几 个不同 的 数 据文 件中的 现 象。 因 此,将这 若干 个小 的 数据文 件合并 成一个 大的数 据文件 是进行 数据分 析的前 提。除 此以外 ,如果数 据有多 个来源 , 则 可能会 使变量 分散在 几个文 件中,需 要按照 某种规 则加以 合并后 才能进 行分析 。 SPSS数据 文件的 合并方 式有两 种:纵 向连接 和横向 合并,它 们分 别 对应了 上述的 两 种情况 。 数 据集的 纵向连 接指的 是几个 数据集 中的数 据纵向 相加,组 成一个 新的数 据集,新数据集 中的记 录 数是原 来几个 数据集 中记录 数的总 和。横 向合并 指 的是 按 照记 录 的 次序,或者 某个 关键 变量 的 数值,将 不同数 据集中 的不同 变量合 并为一 个数据 集,新 数据集 中的变 量数是 所有原数 据集中 不 重名变 量的总 和。 在 SPSS中,进行合 并的文 件必须 都存储 为 SPSS数据格 式。如 果是用 程序方 式,则可 以一次 实 现多个 数据文 件的合 并,但是 ,如果 使用对 话框方 式,则一 次只能 进行两 个 SPSS数据文 件的合 并 ,且其中 一个必 须是已 被打开 的当前 数据文 件。 1.数据文 件的纵 向连接 SPSS数据 文件的 纵向连 接或合 并就是 将数据 编辑窗 口中的 数据与 一个 SPSS数据 文件 中的 数 据进行 首尾对 接,即将 一个 SPSS数 据文件 的内容 追加到 数据编 辑窗口 中当前 数据的后 面。纵 向 合并实 质就是 将两个 数据文 件的变 量列,按 照各个 变量名 的含义 ,一一 对应进 行首尾连 接。3.3 文件 级别的 数据管 理(二) 69              实现 SPSS数 据文件 的纵向 合并应 遵循两 个条件 :第一,两 个待 合 并的 SPSS数 据文 件,其内 容 合并是 有实际 意义的 ;第二,为方便 SPSS数 据文件 的合并 ,在不 同 数 据文 件 中,数据 含义 相同 的 列,最好 起相同 的名字 ,变量 类型和 变量长 度也要 尽量相 同。这 样,将方 便 SPSS对变量 的自动 对 应和匹 配。 例 3.8  将数据 transform2.sav中的 记录添 加到 transform.sav中 ,注意 在 transform2.sav中的 变 量 sex对应 了 transform.sav中的 gender。 首先 ,在数据 编辑窗 口中打 开数据 文 件 transform.sav,然后 选 择菜 单 Data→ MergeFile→ Add Cases,并选择 待合并 的文件 transform2.sav,出现如 图 3.34所示的 界面。 图 3.34 SPSS数据文件纵向合并窗口 在该 窗口中 ,两个待 合并的 数据文 件中共 有的变 量名会 被自动 对应匹 配,并 出现在 Variables inNewWorkingDataFile框 中。SPSS默 认它们 具有相 同的 数 据含 义 ,自动 成 为合 并后 新数 据文 件 中的变 量。如 果需要 修改默 认设置 ,可以将 它们剔 除到 UnpairedVariables框中。 在 UnpairedVariables框中,变 量名后 面有 * 或 +号。 * 表示该 变量名 是当前 数据编辑 窗口中 的 变量,+表示该 变量名 是待合 并文件 中的变 量。可 见,UnpairedVariables框中 的 变量 名不 是待 合 并的两 个文件 所共有 的,是无 法被自 动对应 匹配的 ,SPSS默认 它们 不 具有相 同的数 据 含义,不 自 动成为 合并后 新数据 文件中 的变量 。同样 地,用户 可以修 改这种 默认设 置,可 以手工选 择两个 变 量名,点 击“Pair”按 钮强行 配对,表示 它们 具 有相 同的数 据 含 义,并 将 其选 入 VariablesinNew WorkingDataFile框中。 或者先 点击“Rename”按钮 改 名后 再 指 定配 对 。当然 ,也 可以 指定 某变 量 不经任 何对应 匹配,强 行进入 VariablesinNewWorkingDataFile框中,但这种 方式显然 会造成 缺 失数据 。 如果 希望在 合并后 的数据 文 件 中看 出哪 些 记 录 来自 合 并 前的 哪 个 SPSS数 据文 件 ,可以 选 Indicatecasesourceasvariable项。于 是,在 合 并后 的 数 据文 件 中将 自 动 出现 名 为 source01的 变 量 ,取值为 0或 1。 0表 示该记 录来自 第一个 数据文 件,1表示 该记录 来自第 二个数 据文件。 2.数据文 件的横 向合并 SPSS数据 文件的 横向合 并是将 已有的 一个 SPSS数 据文件 中的若 干个 变量 加 到当 前数 据编          70    第 3章  数据 管理 辑 窗口的 数据中 ,即将一 个 SPSS数据 文件的 内容 接到 数据 编 辑窗 口 中 当前 数 据的 右边 ,然 后将 合 并后的 数据重 新显示 在数据 编辑窗 口中。 横向合 并 的实 质 就是 将 两 个数 据 文件 的记 录,按照 记 录对应 ,一一进 行左右 对接。 实现 SPSS数 据文件 的横向 合并应 遵循三 个条件 ,第一,如 果不是 按照 记 录号 对应 的规 则进 行 合并,则 两个数 据文件 必须至 少有一 个变量 名相同 的公共 变量,这个变 量是两 个数据文 件横向 对 应合并 的依据 ,称为关 键变量 。如学 号、贵 宾卡号 等 ,关键 变 量可 以 是 多个 ;第二,如 果是 使用 关 键变量 进行合 并的对 应,则两 个数据 文件都 必 须事 先 按关 键 变量 进 行 升序 排 列;第三 ,为 方便 SPSS数 据文件 的合并 ,在不 同数据 文件中 ,数据含 义不相 同的列 ,变量 名不应 取相同 的名称。 例 3.9  将数据 transform3.sav中的 变量添 加到 transform.sav中。通 过这个 例子可以 直观理 解 数据文 件的横 向合并 。 首先 ,在数据 编辑窗 口中打 开数据 文 件 transform.sav,然后 选 择菜 单 Data→ MergeFile→ Add Variables,并 选择待 合并的 文件 transform3.sav,出现 如图 3.35所 示界面 。可以 看出,和 纵向 合并 的 操作窗 口类似 ,两个待 合并数 据文件 中的所 有变量 名出现 在 NewWorkingDataFile框 中,外部 数 据中与 当前数 据重复 的变量 ,为免于 重复而 被列入 ExcludedVariables(即这些 变量是两 个文件 共 有的变 量,关键 变量的 名字一 定在这 个列 表 中 可以 找 到)。变 量名后 面有 * 或 +号。 * 表 示该 变 量名是 当前数 据编辑 窗口中 的变量 ,+表示 该变量 为待合 并 文件 中的 变 量。SPSS默 认仍 以原 变 量名取 名,成为 合并后 新数据 文件中 的变量 。同样 地,用 户也可 以做更 改。 图 3.35 SPSS数据文件的横向合并 如果 两个待 合并的 数据文 件中的 记录数 据是横 向顺序 一一对 应的,可 单击“OK”按钮 完成合 并 工作。 否则,两 个 待 合 并 的 数 据 文 件 中 的 共 有变 量 名 出 现 在 ExcludedVariables框 中。点 选 Matchcasesonkeyvariablesinsortedfiles项 ,并从 ExcludedVariables框中 选出一 个或多个 变量作 为 关键变 量送到 KeyVariables框 中。 关于 合并后 的数据 文件中 的数据 按哪种 方式提 供,SPSS有 三个选 项可供 选择: � Bothfilesprovidecases:是 SPSS默 认的方 式 ,指合 并 后 的数 据由 原来 的 两个 数 据 文件 共 同 提供,即 由原来 两个数 据文 件 中 的 记录 共同 组 成 合并 后 的数 据文 件,当两 个 数据 是 逐 条对 应参考 文献 71              时 ,用此选 项。 � Externalfileiskeyedtable:指在 当前已 打开数 据基础 之上,合并第 二个数 据文件中 的变量 数 据,即合 并后数 据文件 的记录 仅包括 当前数 据编辑 窗 口中 的 记录。 当外 部 数据 根据 关键 变量 是 无重复 记录,而 当前数 据根据 关键变 量是有 重复记 录时,用此选 项。 � WorkingDataFileiskeyedtable:指在第 二个数 据文 件 的基 础 之 上,合 并数 据编 辑窗 口中 的 变量数 据,即合 并后数 据文件 的记录 仅包括 第二个 数据文 件中的 记录,当当前 数据根据 关键变 量 是无重 复记录 ,而外部 数据根 据关键 变量是 有重复 记录时 ,用此 选项。 另外 ,如果希 望在合 并后的 数据文 件中看 出 哪些 记 录来 自 合并 前 的哪 个 SPSS数据 文件,可 以 选 Indicatecasesourceasvariable项。 于是,在 合并 后 的 数据 文 件中 将 自 动出 现 名为 source01 的 变量,取 值为 0或 1。0表示 该记录 来自第 一个数 据文件 ,1表示该 记录来 自第二 个数据文 件。 最后 再次提 醒大家 ,使用关 键变量 进行横 向合 并 前,数 据 文件 必 须 按照 关 键变 量排 序,否则 相 应的合 并操作 将会失 败。 思考与练习 针对 数据 Employeedata.sav进行以 下练习 : 1.试根据 变量 bdate生成 一个新 变量“年 龄”(提示 :可以使 用函数 :XDATE.YEAR())。 2.试根据 jobcat分组 计算 salary的秩次 。 3.试根据 雇员的 性别变 量对 salary的平均 值进行 汇总。 4.在 Employeedata.sav中生成 新变量 grade,当 salary小 于 20000时 取值为 d,当 取值 范围 为 等于 20000或 20000~50000时 为 c,等 于 50000或 50000~100000时 为 b,大 于 等 于 100000时为 a。 参考文献 1 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002 2 SPSS�Base12User�sGuide.SPSSInc.Chicago,Illinois,2003第二部分 统计描述与统计图表4.1  连续变 量的统 计描述 概述 75              第 章  续变量的统计描述与 参数估计    统计 分析的 目的是 研究总 体特征 。但是 ,由于各 种各样 的原因 ,研究 者能够 得到的往 往只能 是 从总体 中随机 抽取的 一部分 观察对 象,它们 构成了 样本。 只有通 过对样 本的研 究,才能 对总体 的 实际情 况做出 可能的 推断。 因此,在 数据收 集、整 理完毕 后,进行 深入分 析之前 ,首要的 工作就 是 去了解 这个数 据的整 体情况 ,通过数 据来掌 握一定 的行业 背景,随后才 能考虑 作深入的 推断。 用少 量数字 (即描述 指标)概 括大量 原始数 字,对数 据 进行 描 述的 统计 方法 即 为描 述性 统计 分 析。所 谓描述 性统计 分析,是 针对统 计学的 另一大 类——— 推断性 统计分 析而言 的,后者 指从样 本 信息来 回推总 体特征 。在第 二章中 介绍了 变量 按其 测量 类 型可 以 分为:Nominal变 量(即 名义 型 )、Ordinal变 量 (即 定 序 型 )和 Scale变 量 (即 定 距型 )。针 对 不 同 测 量类 型 的 变 量 (属 性、字 段 ),有不同 的描述 指标体 系和统 计图 形 与 之对应 。 本章 将讲 述 Scale变 量 ,或 者说 连 续 变量 的 统 计描述 ,而下一 章将讲 述 Nominal变量和 Ordinal变量 以及多 选题的 统计描 述。 4.1 连续变量的统计描述概述 当数 据量较 少时,如 只有 5个人的 身高,或者 7个 人的 性 别资 料 时,研 究 者可 以通 过直 接观 察 原始数 据来了 解几乎 所有的 信息。 但是,接 触到的 数据量 往往要 远大于 人脑可 以直接 处理、记 忆 的容量 。这时 就必须 借助于 各种统 计指标 来辅助 完成对 数据的 描述工 作了。 而为了方 便统计 指 标的应 用,又以 此为基 础衍生 出了各 种描述 用 工具 ,最终 再 使用 各 种 统计 软 件来 加以 实现,而 SPSS就 是最常 用的一 种。 4.1.1 统计描述中可用的工具 首先 ,在统计 描述中 最基本 的工具 就是列 表进行 原始数 据的频 数描述 ,特别 是对于分 类数据 而 言,频数 表仍然 是现在 最常用 的描述 工具。 但是,当数据 量较大 时,原始 频数表 显得过 于冗长 , 如 果希望 深入发 掘数据 中蕴含 的信息 ,则需要 对数据 加以浓 缩汇总 。 (1)各种初 步汇总 描述方 法:最直 接的汇 总描述 方法 就 是 将原始 数据 按 照其 大小 进行 分组 汇 总,计算 各组段 的频数 大小,最终汇 总成相 应的分 组 频数 表 或相 应 的 分组 直 方图,汇 总频 数表 可 以反映 出数据 的大致 趋势。 除分段 汇总以 外,百分 位数也 能够对 数据的 分布特 征进行 刻画,多 个 百分位 数组合 起来,也 能够反 映出数 据的分 布特征 来。 但 是 分组汇 总和 百 分位 数对 信息 的利 用 仍然比 较粗糙 ,均只能 反映比 较基础 的信息 ,如果 希 望对 数 据的 分 布 特征 描 述得 更为 简练,还 需 要更进 一步。 (2)各种统 计描述 指标:这 实际上 是更复 杂的各 种描述 工具的 基础,是针对 数据的某 种特征          76    第 4章  连续 变量的 统计描 述与参 数估计 进 行精确 的数字 呈现的 一系列 指标。 对于样 本而言 ,这 些统 计 描述 指 标 也可 被 称为 统 计 量。常 用 的统计 描述指 标在连 续变量 中 有均 数 、标准 差 、四 分位 数 间 距 等 ,而在 分 类 变 量中 则 有 比、率 等 。 (3)统计表 :当数据 比较复 杂,所 计算的 统计指 标较多 时,直接 观察计 算出的 数值比 较困难 , 为 此人们 又会按 照一定 的排列 方式将 统计指 标组织 为一张 表格,以 方便使 用,这 就是所谓 的统计 表 。在一 张统计 表中可 以同时 呈现多 种统计 指标,并 进行复 杂的样 本分组 、合并 计算,因 此,统计 表 是统计 描述中 常用的 工具之 一。 (4)统计图 :统计表 虽然能 非常精 确、详 细地对 统计指 标进行 陈列,但 是不够 直观,如 果希望 结 果更为 直观一 些,则可 以按照 统计指 标的大 小将其 绘制为 一张图 形,这 就是所 谓的统计 图。例 如 对于连 续变量 数据,常 用直方 图、箱 图等工 具加以 展 示,而 对 于分 类 变 量,则 常用 条图 、饼 图等 加 以展示 。 显然 ,统计表 和统计 图都是 建立在 各种统 计描述 指标的 基础上 的,因 此本章 和下一章 将对统 计 描述指 标体系 做详细 的讲解 ,而 第 6、7两章 将 进 一步 讲 解如 何利 用统 计 指 标 制作 统 计 表,第 8、9两 章则会 讲解统 计图的 绘制 方 法。对 于 在 本章 和 下一 章 中可 能 会 提前 涉 及 到的 统 计 图形 , 文 中将仅 作简单 解释,不 详细讨 论,请 大家参 阅随后 各章的 相应内 容。 4.1.2 连续变量的统计描述指标体系 图 4.1是对 某人群 体重分 布情况 绘制的 直方图 ,这种图 形是描 述连续 性变量 最常用 的工具 , 它 实际上 就是按 照数据 的大小 将数值 分成若 干个组 段,然后 计算每 个组段 内的频 数,最终 用直条 图 4.1 体重的直方图 的 高低反 映出来 ,它可以 直观地 反应数 据的分 布状况 。通过 对这张 图形的 观察,可以发现 如果要 使 用统计 指标对 该数据 加以描 述,则主 要是表 现以下 几个趋 势:4.1  连续变 量的统 计描述 概述 77              (1)集中趋 势(CentralTendency):该 人群的 平均体 重 是多 少?这 可能是 人 们希望 了解 的最 基 本的汇 总信息 。人们 常说美 国人比 中国人 高,这并 不是说 美国人 比中国 人都高 ,比如姚 明就要 高 于绝大 多数美 国人,这 种说法 实际上 省略 了“平 均起 来 ”这 个定 语 。或 者 说,它实 际 上 是关 于 数 据的“中 心位置 ”的某种 表述。 在统 计学 中,相应 的用于 描述 集中 趋势,或 者 说数 据 分 布的 中 心 位置的 统计量 就被称 为位置 统计量 (LocationStatistic)。 常用的 位置统 计量有 均数、中 位数等 , 其 中均数 适用于 正态分 布和对 称分布 资料,中 位数则 适用于 所有分 布类型 的资料 ,详述后 面相关 章 节。 (2)离散趋 势(DispersionTendency):显 然,仅 仅反映 数 据的 集 中趋势 是远远 不 够的,图 4.1 中 还反映 出体重 在该人 群中的 分 散状 况 ,最轻的 不到 40kg,而最 重的 大 约在 90kg上 下。应 当 有 某种指 标可以 反映数 据波动 范围的 大小,这 被称为 数 据的 离 散趋 势 。比 如 人们 常说 的某 国的 贫 富分化 严重,或 者某国 卫生资 源分配 的公平 性很差 ,偏远 地区还 缺医少 药的时 候,大城 市的 CT 等 大型医 疗设备 却大量 闲置,占 用了大 量资源 。这些 实际上 都是在 讨论数 据的离 散趋势 ,而描述 该 趋势的 统计量 就被称 为尺度 统计量 (ScaleStatistic)。 常 用的 尺 度统 计量 有标 准 差、方 差、四分 位 数间距 等,其中 标准差 、方差 只适用 于正态 分布资 料,而 四 分 位数间 距则 适 用于 各种 分布 类型 的 资料。 (3)分布特 征(DistributionTendency):除以上 两大基 本趋势 外,随着 对数据 特征了 解的 逐渐 深 入,研究 者常常 会提出 假设,认为该 数据所 在的总 体 应 当是 服从某 种 分 布的 。那 么,针对 每一 种 分布类 型,都可 以由一 系列的 指标来 描述数 据偏离 分布的 程度。 例如对 于正态 分布而 言,偏度 系 数、峰度 系数就 可以用 来反映 当前数 据偏离 正态分 布的 严重 程 度。 当 然,相 对而 言,这些 分布 指 标使用 得较少 。 (4)其他趋 势:统计 描述中 还会用 于许多 其他指 标,如 可同时 反映集 中趋势 和离散趋 势的百 分 位数指 标(Percentile),描述数 据是呈 单峰还 是双峰 分 布,数 据的 分布 是对 称 的还 是偏 态的,专 门 针对存 在异常 值的数 据进行 描述的 M统 计量(M-Estimators)、极端 值(Outlier)列 表等,详 后。 4.1.3 SPSS中的相应功能 SPSS的许 多模块 均可完 成统计 描述的 任务,除各种 用于统 计推断 的过 程会 附 带进 行相 关的 统 计描述 外,SPSS还 专门提 供 了 几个 用于 连续 变 量统 计 描述 的 过 程,它们 均 集 中在 Descriptive Statistics子菜 单中: (1)Frequencies过 程:其特 色是产 生原始 数据的 频数表 ,并能 计 算各种 百分位 数。由图 4.2 (a)可 见,它 所提供 的统计 描述功 能非 常全 面,且 对 话 框布 置很 有规 律,基本 上 按照 数 据 的集 中 趋 势、离散 趋势、百分位 数和分 布指标 四大块 将各描 述 指 标进 行了归 类 。有 了 上面 的基 础,读者 使 用它应 当不存 在任何 的困难 。 除统 计指标 外,Frequencies过程还 可以为 数据直 接绘制 相应的 统计图 ,如用 于连续性 变量的 直 方图,用 于分类 变量的 饼图和 条图等 。 (2)Descriptives过 程:该过 程用于 进行一 般性的 统计描 述,相对 于 Frequencies过程 而言,它 不 能绘制 统计图 ,所能计 算的统 计量也 较少,但使用 频 率 却是 最 高的 。 实际上 从图 4.2(b)所示 的 统计选 项可以 看出,该 过程适 用于对 服从正 态分布 的连续 性变量 进行描 述。          78    第 4章  连续 变量的 统计描 述与参 数估计  (a)                              (b) 图 4.2 Frequencies过程和 Descriptives过程的统计选项子对话框 (3)Explore过程 :顾名 思义,该 过程用 于对连 续性资 料分布 状况 不 清楚时 的探索 性 分析,它 可 以计算 许多描 述统计 量,给出 各种统 计图,并进行 简单的 参数估 计。本 章最后 的分析实 例将以 该 过程为 主加以 讲解。 (4)Ratio过程:功能比 较特殊 ,用于对 两个连 续性变 量计算 相对比 指标,它 可 以计 算出 一系 列 非常专 业的相 对比描 述指标 ,相对而 言使用 面 比较 窄,因 此 本书 将 不 对它 做 过多 介绍 ,对 此感 兴 趣的朋 友请参 见笔者 前作《SPSS11统 计分析 教程》(基 础篇)。 4.2 集中趋势的描述指标 怎样 将一个 变量的 所有个 体的值 汇总为 一个数 字,使 这 个 数字代 表原 数 据的 中心 趋势 或平 均 水平? 统计学 家提供 了多种 统计量 来代表 原始数 据的中 心趋势 ,如平均 值、中 位数和众 数等。 4.2.1 算术均数 平均 数用于 反映一 组数值 的平均 水平,包 括算术 均数、几何均 数、调和 均数等 ,但是以 算术均 数 最为常 用,往往 也直接 将算术 均数简 称均数 。 算术 均数(ArithmeticMean)是 最 常 用 的 描 述 数 据 分 布 的 集 中 趋 势 的 统 计 量 。 总 体 均 数 (PopulationMean)用 希腊字 母 μ表示 ,样本 均数常 用 珔X表示 。 1.算术平 均数的 定义和 性质 实际 上,大家 从小学 起就已 经学习 了相关 的知识 ,对一 组数据 X1,⋯ ,Xn 而言 ,其均数 的算法 为 各数据 直接相 加,再除 以总例 数 n,即:4.2 集 中趋势 的描述 指标 79              珔X =X1 +X2 +⋯ +Xn n = 6 Xi n 显然 ,有各个 变量值 与均数 离差之 和等于 零。即 : 6 (Xi -珔X)=0 算术 平均数 的这条 数学性 质说明 ,均数的 实质是 把总体 各单位 的差异 全部抽 象化,采 用取长 补 短的方 法把变 量值小 于平均 数的负 离差全 部用大 于平均 数的正 离差抵 消补齐 。 除上 面的性 质外,各 个变量 值与平 均数离 差平方 之和为 最小值 。即: 6 (Xi -珔X)2 < 6 (Xi -a)2(a≠ 珔X) 算术 平均数 的这条 数学性 质说明 ,以任意 不为 平 均数 的 数 值为中 心计 算 的离 差平 方和 大于 以 平均数 为中心 的离差 平方和 ,因此,算术平 均数是 误差最 小的总 体代表 值。 2.均数的 意义 任何 一个平 均数首 先是同 类现象 的平均 数,这是 平 均数 的 同质 性 。任 何 一个 平均 数总 是一 个 平衡点 。在这 个平衡 点的两 边有多 有少、有 大有小 、有高 有低、有 胖有瘦 。而且 总是多 少相等 , 大 小相同 ,高低适 中,胖 瘦相抵 。这就 是说,用 平均 数 作为 观 测 数据的 代表 在 整体 上是 没有 误差 的 ,而且数 学上可 以证明 ,平均 数的误 差平方 和也比 其 他任 何 一个数 都小。 统计 学中 著名的 “最 小 二乘法 ”就是根 据这个 结论建 立起来 的。但 是,由于 平均 数 只是 一个 平衡 点 ,如 果两 边加 上或 去 掉相同 的砝码 ,而不管 砝码是 多少这 杆天平 总能保 持平衡 。 平均 数 最重 要 的 意义 在 于它 高 度 浓缩 了 数据,使 大量 的 观测 数 据 转变 为 一个 代表 性数值 。 用 平均数 作为变 量的集 中值不 仅考虑 到变量 值的频 次、次序 ,而且 还考虑 到它的 大小。数 据资料 中 任何频 次、次序 和数值 大小的 变化,都会引 起平均 数 的 改变 。因 此 它 是灵 敏 的,也是 对资 料所 提 供信息 运用得 最为充 分的。 但平 均数在 高度概 括观测 数据从 而使问 题简单 化的同 时,却丢 失了某 些有用 的信息 ,一方面 它 把各个 观测数 据之间 的差异 性掩盖 了起来 ,另一方 面由于 平均数 对个别 极端值 反应比 较灵敏 , 因 而平均 数在某 些情况 下可能 具有一 定的欺 骗性,这 时它就 有可能 传递不 准确的 信息。 3.均数的 适用范 围 虽然 平均数 对资料 的信 息利 用 最充 分 ,但对 严 重 偏 态 的 分布,会 失去 它 应 有 的代 表 性。例 如 ,一个国 家会因 某些富 翁的存 在,使 平均收 入变 得很 高。假 设 某单 位 有 6个 人,5个员工 ,1个 经 理。员 工的月 收入分 别 是:360元 、380元、400元 、420元、440元 ,经理 的月 收入 为 40000元 , 他 们的平 均月收 入为 7000元。显 然 这时用 平均 数 就不 能很 贴切 地 反映 他们 收入的 一 般 水平 。 所 以,平均 数的一 个主要 缺点是 容易受 极端值 的影响 。 因此 ,对于 偏 态 的分 布 ,应 使用 中位 数作 为 集中趋 势的统 计量。 只有单 峰和基 本对称 的分布 情 况下,使 用平均 数作 为 集中 趋势 描述 的统 计 量才是 合理的 。由于 在统计 技术中 ,发展更 多的是 平均 数,而不是 中 位 数或 众 数等。 因此,应 该 设法更 多地使 用平均 数,必要 时可以 考虑对 数据进 行变量 变换,以达到 对称分 布的要求 。 严格 地讲平 均数只 适用于 定距变 量。但 有时对 于定序 变量,求 平均等 级也可 以使用 平均数 。 对 于定类 变量,如 果人为 地把每 一类赋 予一个 数值,如用 1代表男 ,2代 表女,那 么 男性 在总 体中          80    第 4章  连续 变量的 统计描 述与参 数估计 所 占的比 例,实际 就是一 种特殊 的平均 数。 4.2.2 中位数 中位 数(Median)是将 总体各 单 位 的 标 志值 按 大 小顺 序 排列,处 于中 间 位 置 的那 个 标 志值 。 它 把全部 标志值 分成两 部分,一 半标志 值比它 小,一 半标志 值比它 大。 1.中位数 的定义 对于 未分组 的原始 资料,首 先必须 将标志 值按大 小排序 。设排 序的结 果为: X1≤ X2 ≤ X3≤ ⋯ ≤ Xn 则 中位数 就可以 按下面 的方式 确定: M=X(n + 1) /2 , M=(Xn/2 +Xn/2 +1)/2,   当 n为奇 数时 当 n为偶 数时 中位 数作为 分布数 列中处 于中等 水平的 代表值 ,能够 将 全 部总体 单位 按 标志 值的 大小 等分 为 两个部 分,所以 中位数 又称为 二分位 数。 对于 按照频 数方式 分组录 入的资 料,其中 位数的 确定方 式相对 复杂一 些,感 兴趣的读 者可以 参 看专业 统计书 籍。 2.中位数 的适用 范围 中位 数是位 置平均 数,因此 它不受 极端值 的影响 ,在具 有个别 极大或 极小标 志值的分 布数列 中 ,中位数 比算术 平均数 更具有 代表性 。例如 上面 员 工 收入的 例子,其 中位数 就是 410元,显然 要 比均数 更能够 代表数 据的集 中趋势 。 中位 数适用 于任意 分布类 型的资 料,不过 ,由于 中 位数 只 考虑 居 中 位置,其他 变量 值比 中位 数 大多少 或小多 少,它是 无法反 映出来 的。所 以,用 中位数 来描述 连续变 量会损 失很多信 息。当 样 本量较 小时,中 位数会 不太稳 定,并 不是一 个好的 选择。 因此,对 于对称 分布的 资料,分 析者往 往 优先考 虑使用 均数,仅 仅是对 均数不 能使用 的情况 下才用 中位数 加以描 述。 中位 数对于 定序变 量、连续 变量都 可以使 用。对 于定序 变量来 说,虽 然有众 数和中位 数两种 统 计量可 供选择 ,但是,由于众 数不考 虑变量 的次序 关 系,用 众 数来描 述定 序 变量 会损 失很 多信 息 。因此 ,对于定 序变量 ,应采 用中位 数来反 映更多 、更准确 的信息 。 4.2.3 其他集中趋势描述指标 除上 述最常 用的两 种指标 外,在 SPSS中 还可以 计 算一 些 更为 复 杂 和专 业 的统 计描 述指标 , 这 里简介 如下: 1.截尾均 数 由于 均数较 易受极 端值的 影响,因 此可以 考虑将 数据进 行排序 后,按 照一定 比例去掉 最两端4.3 离 散趋势 的描述 指标 81              的 数据,只 使用中 部的数 据来求 均数。 如果截 尾均数 和原均 数相差 不大,则说明 数据不存 在极端 值 ,或者两 侧极端 值的影 响正好 抵消;反之,则 说明数 据中有 极端值 ,此时 截尾均 数能更好 地反映 数 据的集 中趋势 。 常用 的截尾 均数有 5% 截尾均 数,即 两端各 去掉 5%的 数据。 在 SPSS中 Explore过程 可以自 动 计算 5%截 尾均数 。 2.几何均 数 几何均数适 用于 原始数 据分布 不对 称,但经 过对数 转换后 呈对称 分布的 资料。如医学 中的血 清 滴度资料就常用几何均数 描述其分布 的集中 趋势 。样本 几何均数常用 G表示,其计算公式是: G= n X1 X2⋯ Xn 利用 对数的 性质,上 述公式 可表达 为: G =lg-1 6 lgXi n 可以 发现,几 何均数 实际上 就是对 数转换 后的数 据 lgX的 算术均 数的反 对数。 在 SPSS中,几何均 数可以 在 Report子菜单 中的 4个报表 过程中 计算输 出。 3.众数(Mode) 众数 指的是 样本数 据中出 现频次 最大的 那个数 字 ,众数 容 易理 解 ,也不 受 极端 值影 响,但不 易 确定,且 没有太 明确的 统计特 性。 众数 适用于 任何层 次的变 量,特别 适用于 单峰对 称的情 况,是 比较两 个分布 是否相近 首先要 考 虑的参 数。但 是,由于 众数仅 使用了 资料中 最大频 次这一 信息,所以它 对资料 的使用是 不完全 的 ,提供的 信息有 限,用 它来反 映连续 变量会 损失很 多 信 息。 对于 多 峰 的图 形 分布,一 般也 不用 它 来描述 。因此 ,这里不 做详细 介绍。 在 SPSS中 ,众数 可以在 Report子菜单和 Tables子菜单的 全部报表过程和制表过程中 计算输出。 4.调和均 数 调和 均数用 符号 H表 示,现在 已经很 少使用 ,它实 际上是 观察值 X倒数之 均数的 倒 数,常用 于 完成的 工作量 相等而 所用时 间不同 的情况 ,主要用 来求平 均速度 。实际 上,中 学物理中 学习过 的 并联电 路的总 电阻就 是各分 电 路 电阻 的 调和 均 数,各 原 始数 据的 大小 相 差 越 悬殊 ,该 均数 的 “调 和”作用 就越明 显。 在 SPSS中,调和均 数可以 在 Report子菜单 中的 4个报表 过程中 计算输 出。 4.3 离散趋势的描述指标 和集 中趋势 一 样,离 散 趋 势 也 有 一 系 列 的 描 述 指 标,本 节 将 就 一 些 常 用 的 指 标 一 一 加 以 讲 解。          82    第 4章  连续 变量的 统计描 述与参 数估计 4.3.1 全距 全距 (Range)又 称为 极 差,是 一 组 数 据中 最大 值 (Maximum)与最 小 值 (Minimum)之 差。它 是 最简单 的变异 指标: R=Xm ax -Xmin 极差 反映的 是变量 分布的 变异范 围或离 散幅度 ,在总体 中,任 何两个 标志值 之差都不 可能超 过 极差。 极差计 算简单 ,含义直 观,运 用方便 。但存 在 两点 不 足:一是 它仅 仅 取决 于两 个极 端值 的 水平,不 能反映 其间的 变量分 布情况 ,提供 的信息 太少;二 是它容 易受个 别极端 值的影 响,不符 合 稳健性 的要求 。 一般 情况下 ,全距只 用于预 备性检 查,目 的是大 体 上了 解 数据 的 分 布范 围 ,以 便确 定随 后分 析 的方法 。 4.3.2 方差和标准差 1.方差(Variance)和标 准差(StandardDeviation)的定义 相对 而言,方 差和标 准差的 计算比 较复杂 ,因此 这 里 将从 其计算 原 理 开始 谈 起。首 先,对于 每 个数据 而言,其 离散程 度的大 小就是 和均数 的 差值 ,简称 离 均差,它 可以 用 来描 述个 体的 变异 大 小。那 么,离均 差之和 能否表 示整个 样本的 离散程 度大小 呢?答 案是否 定的,因为根据 均数的 性 质,所有 数据的 离均差 之和应 当正好 为 0,这是 由于大 于均数 和 小于 均数 的离 均 差正 好能 够完 全 抵消。 为此,可 以考虑 先将离 均差取 绝对值 ,然后 再求和 ,这样就 不会出 现正负 抵消的 情况了 。 显 然,离均 差绝对 值之和 可以表 示数据 离散程 度的大 小。 但是 ,使用离 均差绝 对值之 和来表 示离散 程度仍 有不便 之处,大家都 知道绝 对值符号 在数学 推 导中是 非常难 处理的 ,该指标 很难用 来进行 后续的 统计推 断,因 此人们 又改用 将各离均 差先平 方 再求和 ,这样仍 然可以 解决符 号的问 题,同 时又可 以 进行 后 续的 数 学 推导,该指 标被 称为 离均 差 平方和 (Sum ofSquaresofDeviationsfrom Mean,SS)。 离均 差平方 和在使 用上比 绝对值 要方便 一些,但 是,它 的 大小 显 然 是和 样 本量 有关 的,观察 单 位越多 ,该指标 就会越 大,因 此 如 果 要 客 观反 映 变 异程 度 的大 小 ,就应 当 去 除 样本 量 的 影响 。 为 此将离 均差平 方和除 以观察 例数 N所 得,这就 是方差 : σ2 =6 (Xi -珔X)2 N 方差 相当于 平均了 每个数 据的离 均差的 平方值 ,从而 克 服 了离均 差平 方 和受 样本 含量 影响 的 缺点。 故方差 可用于 不同含 量样本 数据分 布离散 程 度 的比 较。方 差 越大,数据 分布 离散 程度 越 大。 对于 样本数 据而言 ,方差的 计算公 式有所 不同:4.3 离 散趋势 的描述 指标 83              S2 =6 (Xi -珔X)2 n-1 其中 的 n-1被称为 自由度 (DegreeofFreedom),它 描述了 当 珔X选定 时 n个 X中能自 由变动 的 X(变量 值)的个 数,由 于公式 中需要 使用均 数,这 是 一个限 制条件 ,因此 样 本量 为 n的样 本实 际 上只有 n-1个 可以自 由取值 ,最后 一个数 值可以 通过均 数算出 来。自 由度在 统计学中 也是一 个 非常重 要的概 念,后面 还会反 复遇到 。 最后 ,方差在 使用上 还有一 点小小 的不便 ,就是 量纲不 合常理 ,以身高 为例,原始数据 的量纲 为 米,则方 差的量 纲就是 其平方 ,即平 方米,这 显然很 别扭。 为此又 将方差 开平方 ,这就是 所谓的 标 准差,总 体和样 本的标 准差分 别用 σ和 S来表 示 。标准 差度 量了 偏离 平 均 数 的大 小 ,相当 于 平 均偏差 ,可以直 接地、概括地 、平均地 描述数 据变异 的大小 。对于 同性质 的数据 来说,标 准差越 小 ,表明数 据的变 异程度 越小,即数据 越整齐 ,数 据的 分 布范 围 越集 中 ;标准 差 越大,表 明数 据的 变 异程度 越大,即 数据越 参差不 齐,分 布越分 散。 2.方差和 标准差 的适用 范围 由于 标准差 和方差 的计算 涉及每 一个变 量值,所 以它们 反映的 信息在 离散指 标中是 最全面 、 最 可靠的 变异描 述指标 。方差 还具有 可加性 ,能够参 与进一 步的统 计运算 。不过 ,也正是 由于标 准 差和方 差的计 算涉及 每一个 变量值 ,所以,它们也 会 受到 极 端值 的 影 响,当 数据 中有 较明 显的 极 端值时 不宜使 用。另 外,它们 在计算 中实际 上都使 用了均 数,因 此实际 上只有 均数能反 映集中 趋 势时才 能使用 方差和 标准差 来反映 离散趋 势。因 此,实 际 上 方差和 标准 差 的适 用范 围应 当是 正 态分布 。 4.3.3 百分位数、四分位数与四分位数间距 全距 的数据 最不可 靠,因为 全距只 由数据 中的 两 个 极端 数 据来 决 定,其 余 数据 均不 起作用 。 为 了尽量 减少全 距缺点 ,人们又 使用了 分位差 。分位 差是对 极差指 标的一 种改进 ,是从变 量数列 中 剔除了 一部分 极端值 之后重 新计算 的类似 于极 差的 指 标。 常用 的 分 位差 有 四分 位差 、十 分位 差 以及百 分位差 。这里 以四分 位差为 例加以 说明。 1.百分位 数、四 分位数 与四分 位数间 距的定 义 百分 位数(Percentile)是一种 位置指 标,用 Px 表 示 。一个 百 分位 数 Px 将 一组 观察 值分 为两 部 分,理论 上有 x% 的观察 值比它 小,(100-x)% 的观察 值比它 大。前 面所 学习 过 的中 位数 实际 上 就是一 个特定 的百分 位数,即 P50。 除中 位数外 ,常用的 百分位 数还有 四分位 数,它 实际上 是三个 数值的 总 称,分 别是 P25、P50和 P75分位 数。这 三个分 位数正 好是能 够将 全 部总 体单 位按 标 志值 的大 小等分 为四 部分 的三个 数 值 ,符号分 别记为 Q1 、Q2 和 Q3。 在 许 多 统 计 书籍 中,也将 第 一 个 四 分 位 数 P25 称 为 “下 四 分 位 数 ”;第三个 四分位 数 P75称为“上 四分位 数”,分别 用符号 QL 和 QU 表示。 上、下 四分位数 的差值 被 称为四 分位数 间距:          84    第 4章  连续 变量的 统计描 述与参 数估计 Q· R=Q3 -Q1 显然 ,P25 和 P75这 两个分 位数间 包括了 中间 50% 的观察 值,因 此四分 位数间 距既排除 了两段 极 端值的 影响,又 能够反 映较多 数据的 离散程 度,是 当 方差、标 准差不 适用 时 较好 的离 散程 度描 述 指标。 同样 的道理 ,还可以 计算十 分位差 、百分 位差等 。它们 的作用 都是排 除少数 极端值对 分布变 异 范围的 异常影 响。分 位的程 度 越 高,分 位差 所 排 除的 极 端值 的比 例就 越 小,保留 的 信 息就 越 多 。分位 的程度 越低,分 位差所 排除的 极端值 的比例 就越 大,保留的 信 息 就越 少。 实际 分析时 , 需 要根据 具体情 况和要 求选择 使用。 2.四分位 数与四 分位数 间距的 适用范 围 计算 四分位 差的直 接目的 是排除 部分极 端值对 变 异指 标 的影 响 ,其计 算 可以 看成 是首 先从 总 体分布 中剔除 最大和 最小各 1/4的 单 位,再 对 剩下 的 总 体 半数 单位 计 算 “全 距”。 因 此,四 分 位 数间距 可以适 用于任 意分布 类 型的资 料,它与 全距(极 差)的区别 在于 计 算 范 围较 窄 ,反映 的 是 处于分 布中间 半数单 位的变 异幅度 。 百分 位数并 非由全 部观察 值总和 计算而 来,因此 它不如 均数和 标准差 精确,然而中间 部分的 百 分位数 因不受 极端数 据的影 响,具有 较好的 稳定性 。但是 ,靠近 两端的 百分位 数只有在 样本含 量 足够大 的时候 才比较 稳定,如 当样本 量为 100例时 ,比 P95大 的 数值 只 有 5个 ,换 言之 ,这 5个 数 字就决 定了 P95 的大小 。显然 ,此时 P95是很 不稳定 的。 因此 ,当样 本 量较 小 时,不宜 取太 接近 两 端的百 分位数 。而当 样本含 量很少 时,“百分 ”位数已 名不副 实,就 更加不 用考虑 了。 最后 需要指 出的是 ,严格地 讲百分 位数并 不应 当 被 仅限 于 描述 离 散 程度 ,显然,它 也可 以对 数 据的集 中趋势 等其他 特征进 行描述 ,而多个 百分位 数联合 起来,实际上 就可以 完整地反 映整个 数 据的分 布规律 。这一 点在本 章第一 节已有 所提及 ,这里再 次强调 一下。 4.3.4 变异系数 当需 要比较 两组数 据离散 程度大 小的时 候,往往 直 接使 用 标准 差 来 进行 比 较并 不 合 适。这 可 以被分 为两种 情况: (1)测量尺 度相差 太大:例 如,希 望比较 蚂蚁和 大象的 体重变 异,蚂蚁 的体重 以克计 ,而大象 的 体重以 吨计,如 果直接 比较,显然永 远都是 大象的 体重变 异更大 ,但这显 然是不 合理的 ,因为体 重 相差 1kg对 大象的 体重而 言根本 就算不 了什么 ,而蚂 蚁则永 远也做 不到。 (2)数据量 纲不同 :例如 希 望 比较 身 高 和 体重 的变 异 程 度,两 者 的 量纲 分别 是 m和 kg,那 么 ,究竟是 1m大,还 是 2kg大?根 本就没 法比较 ,完全 是一笔 糊涂账 。 在以 上情形 中,就应 当消除 测量尺 度和量 纲的影 响,而 变异系 数(CoefficientofVariation),可 简 记为 CV就 可以做 到这一 点,它 是标准 差与其 平均数 的比率 。样本 变异系 数计算 公式为 : CV=S/珔X 计算 出的 CV没 有量纲 ,同时 又按照 其均数 大小进 行了标 化,这样 就可以 进行客 观的比 较。4.4 连续 变量统 计描述 实例 85              4.4 连续变量统计描述实例 在系 统学习 了连续 变量的 统计描 述指标 体系后 ,下面 将 用 一个具 体的 分 析实 例来 看一 下各 种 描述指 标在 SPSS中的 实现方 法。 4.4.1 数据背景介绍 本例 是 一次 实 际 调查 的 部分 问 卷数 据 ,调查 对 象 为上海 部分 大 专 院校的 大学 生,文件 名为 student.sav。主要 调查内 容和封 闭型题 目的选 项代 码如 下:性 别 (1男 、2女 ),出生 年 、月、日 (具 体 数字),身 高(cm),体 重(kg),血型(A、AB、B、O),血型代 码(1A、2AB、3B、4O),教 育背景 (1 重 点大学 本科、2普通 大学本 科、3大专 、4中 专 /职 校),学科 (1文史、2理工 、3其他),男 、女身高 级 别(1低、2中等、3高,但两者 的划分 标准不 一样),男 、女 体 重级别 (1轻、2中等 、3重 ,两 者的 划 分标准 不一样 )和季度 (具体数 字)。 需要 说明的 是,后面 的 5个 变 量:男 生 身 高级 别 (hm)、女 生 身 高 级 别 (hf)、男 生体 重 级 别 (wm)、女 生体重 级别(wf)和季度 (quarter),是 通 过 SPSS的 Recode过 程,从 前 面的 相应 变量中 , 经 过 IntoDifferentVariables...变 换而来 。 4.4.2 使用 Explorer过程进行分析 1.分析操 作 这里 以 student.sav数 据为例 ,对男 性和女 性身高 数据分 别进行 描述,具 体步骤 如下: Analyze→DescriptiveStatistics→ Explore DependentVariables框:height FactorList框:sex Plots...:  Descriptive: Histogram   Continue OK Explore主 对话框 如图 4.3所 示 ,DependentList框 用 于 选入 需要 分 析 的 变量 ,下 方 的 Factor List框 用于选 入分组 变 量,从 而 将 希 望 描 述 的 变 量 按 该因 素 的 取 值 分 组 分 析,本 例 中为 性 别 。 Explore过程中 的 Statistics和 Plots子对话 框如图 4.4所示。          86    第 4章  连续 变量的 统计描 述与参 数估计 图 4.3 对连续变量进行描述性分析的 Explore过程主对话框 (a)                         (b)       图 4.4 Explore过程的 Statistics和 Plots子对话框 2.基本的 分析结 果 分析 结果中 首先会 给出标 题“Explore”,表明 随后的 输出都 属于 Explore过程。 表 4.1 CaseProcessingSummary 首先 是例行 的处理 记录缺 失值情 况报告 (见 表 4.1),可 见 对于身 高而 言 ,男性、女 性两 组均 存 在缺失 值,其中 男性 3例,女 性 1例 ,最终进 入分析 的各为 69和 146例 有效值 。4.4 连续 变量统 计描述 实例 87              表 4.2 Descriptives 记录 汇 总报 告 之 后给 出 的就 是 身高 的 统 计描 述 表格,因 本例 中 的 结果输 出较 长,为便 于解 释 ,这里仅 给出表 格上半 部男性 的分析 结 果(见 表 4.2)。可 见 Explore过程的 输出 结果 较 多,这 里 依次解 释如下 : (1)集中趋 势指标 :首先可 以看到 69名 男性学 生 的 平均 身高为 174.71cm(Mean),去 掉两 侧 各 5%的极 端值后 ,截尾均 数 为 174.70cm(5% TrimmedMean),中 位 数 为 175cm(Median)。 对 于对称 分布,且 不存在 极端值 的数据 而言,均数、截 尾均数 和中位 数应当 基本相 同,显然 本例符 合 这种情 况,因此 从上述 指标及 可推测 出数据 应当是 对称分 布的。 (2)离散 趋 势 指 标:身 高 的 方 差 为 31.062 cm(Variance),其 平 方 根 即 标 准 差,大 小 为 5.573cm(Std.Deviation)。全部男生中 最矮的为 159cm(Minimum),最 高的为 188cm(Maximum)。 两者之差即为全距 29cm(Range),中 间一半 的男生 的身高 差即为 四分位 数间距 8cm(Interquartile Range)。 (3)分布特 征指标 :表 4.2最下方 还会给 出表 示 数据 偏 离 正态分 布程 度 的偏 度系 数和 峰度 系 数,及其 各自的 标准误 ,关于 它们的 详细解 释,请参 阅 4.5节。 (4)参数估 计:以上 结果实 际 上 还会 给出 总 体 均数 的 参数 估计 结果,可 见 均数 的 标 准误 为 0.671cm,相应的 总体均 数 95%可 信区间 为 173.37~176.05cm,关于可 信区间 的 详细 解释 详见 4.5节 。 女生 身高情 况请大 家自己 分析,这 里不再 详述。 在统 计描述 表格之 后,Explore过程 还 会 给出身 高分 性 别的 茎叶 图和 箱 图 ,从图 形 分 布上 可 以 看出,分 性别的 升高基 本上呈 对称的 分布状 态。对 这两种 图形的 介绍请 读者参 见第 8、9两章 , 这 里不再 详述。          88    第 4章  连续 变量的 统计描 述与参 数估计 3.输出百 分位数 和极端 值列表 除默 认的统 计量输 出 外,Explore过 程 中 还 可 以 计 算 一 些 更 深 入 的 描 述 统 计 指 标,如 选 中 Statistic子对话 框的 Outliers复 选框后 ,即可输 出如表 4.3所示的 极端值 列表。 表 4.3 ExtremeValues 这里 同样只 给出了 男性的 情况,表 格中会 输出 5个最 大 值 与 5个 最小 值 以及 这些 数值 所对 应 的记录 号,从两 侧极值 的大小 可见,在最大 、最小两 个方向 上并没 有特别 明显的 异常值 ,该结果 同 样支持 前面得 出的数 据分布 基本对 称的结 论。 如果 选择 Percentiles复 选框,则 会输出 如表 4.4所示 的百分 位数表 。 表 4.4 Percentiles 上表 会输出 第 5%、10%、25% 、50% 、75%、90%、95%分 位 数,并 分 别采 用 了两 种算 法,当数 据 量较大 ,且基本 无重复 值时,两法的 结果相 同,反之 ,则加 权 平均 法 会 对数 据 进行 内插 ,两 种方 法 的结果 会略有 区别。 4.4.3 使用其他过程进行分析 上面 使用 Explore过 程对数 据 进行 了 分 析,下 面来 演 示 一 下另 外两 个过 程 的分 析 结 果。但 是 ,由于另 两个过 程不能 直接对 身高进 行分组 描 述,因 此这 里 仅给 出 不 分性 别 的分 析结 果,希望4.4 连续 变量统 计描述 实例 89              给 出分组 描述的 读者可 以先采 用第 3章介绍 过的 SelectCases过 程进行 数据拆 分。 1.Descriptive过 程的结 果 该过 程 的操 作 非 常简 单,只 需 要 将希 望 描述 的 变 量选入 即可,本 例中 身 高的 分析 结果 如表 4.5所 示。 表 4.5 DescriptiveStatistics 由于 这里的 大部分 内容都 在上一 节见过 ,因此就 不再多 解释了 。 2.Frequencies过程 的结果 Frequencies过程默 认值给 出原始 频数表 ,如果希 望得到 各种统 计量,则需要 分析者自 行加以 指 定。例 如,在上 述的分 析中,已经得 到了描 述集中 趋势的 均值、中 位数等 ,以及 描述离散 趋势的 方 差、标准 差、极 差等统 计量。 如果还 希望知 道身高 的 具体四 分位 数 及 P5 、P95 百分 位数 是多少 , 则 可以利 用 Frequencies过程 来得到 。具体 步骤如 下: Analyze→DescriptiveStatistics→ Frequencies Variables框 :height Statistics:  PercentileValue: Quartiles  PercentileValue: Percentiles:5:Add| Percentiles:95:Add   Continue OK 表 4.6 Statistics 从表 4.6中 可知,所 有学生 身高的 四分位 数为 160cm、165cm和 172cm。意 味着,有 1/4的 学 生身高 矮于 160cm,1/2的学 生身高 较 165cm矮 ,1/4的学 生身高 高 于 172cm。另外 ,90%的          90    第 4章  连续 变量的 统计描 述与参 数估计 学 生身高 在 155.8~180cm之 间。 4.5 连续变量的参数估计 通过 统计描 述,研究 者已经 可以对 样本数 据的情 况有详 细的了 解。但 是,研 究的真正 目的是 考 察样本 所代表 的总体 情况如 何,这里 必然会 涉及到 如何将 样本信 息用来 推断总 体特征 的问题 , 如 总体的 集中趋 势、离散 趋势究 竟如何 ?这种 根据 样 本数 据 对 总体的 客观 规 律性 作出 合理 估计 的 过程被 称为统 计推断 (StatisticalInference),它又可 以被分 为参数 估计和 假设检 验两大 类,而这 里 涉及到 的用样 本信息 来推断 总体特 征的推 断就被 称为总 体的参 数估计 。本节 将介绍如 何进行 连 续变量 的参数 估计。 4.5.1 正态分布 在进 行总体 数据的 描述时 ,人们往 往会对 该 总体 的 分布 规 律作 一 定 的假 定 。比如 假定 身高 服 从正态 分布。 这些模 型假定 基本上 是根据 经验而 得 ,所以 仅 仅是 对 现 实世 界 的一 个 近 似。由 于 分布是 由参数 确定的 ,这样就 可 以将 总体 描述 的 任 务 归 结对 几 个 参数 的 估计 (此 即 参 数估 计 名 称的由 来)。而 且,如果 能确认 变量符 合或大 致 符合 某种 分 布的 话,就 可以 选择 有针 对性 的研 究 方法对 该数据 进行正 确和精 确的分 析。 常见 的连续 分布有 正态分 布、均匀 分布、χ2 分 布、t分 布 和 F分 布 等。 这 里仅 介绍 统计 学中 最 为重要 的正态 分布。 正态分 布又称 高 斯 分布 ,虽 然 当 初 它是 数 学 家高 斯 作为 描 述 误差 (如 测 量 误差)分 布规律 的模型 提出来 的,并将 其用于 天文研 究。但 令人 惊讶 的是,最终 这条 曲线 竟为 描 述来自 不同领 域的数 据分布 规律提 供了一 个完美 的模型 。 正态 分布是 概率统 计中最 重要的 一种分 布,其重 要性可 以从以 下两方 面来理 解:在自 然现象 和 社会现 象中,大 量的随 机变量 都服从 或近似 服 从正 态 分布 ,如测 量 的 偶然 误 差、炮弹 落点 距目 标 的偏差 、一个地 区男性 成人的 身高及 体重、海洋波 浪的高 度、电子 管噪声 电流、工业产品 的尺寸 (直 径、长度 、宽度 等)、某地 区的每 日用水 量及用 电量等 都可看 作服从 或 近似服 从正态 分 布。一 般 说来,若 某一随 机变量 是受多 种相互 独立的 随机因 素的影 响,而 每一种 随机因 素所起的 作用又 是 极其微 小的,那 么该随 机变量 就近似 服从正 态分布 。正态 分布具 有许多 良好的 性质,很 多分布 可 以用正 态分布 来近似 描述,另 外一些 分布又 可以通 过 正态 分 布来 导 出。 所 以正 态分 布在 理论 与 实践中 都占有 重要的 地位。 1.正态分 布的定 义 若连 续性随 机变量 X的概率 分布密 度函数 为 f(X)= 1 σ 2π e- (X -μ)2 2σ2 其 中,μ为平 均 数,σ2 为方 差 ,则 称随 机 变 量 X服 从正 态分 布 (NormalDistribution),记 为 X~N4.5 连 续变量 的参数 估计 91              (μ,σ2 )。不同 的 μ、不同 的 σ,对应于 不同的 正态分 布。 图 4.5即为 正态分 布图,正 态分布 的密 度 曲线 (横 轴 为 值,纵 轴 为频 率 )是 一个 对 称 的钟 形 曲 线(最高 点在均 值处)。 显然,正 态分 布 是 一族分 布,其曲 线依 均 值 和 标准 差而 略有 区 别。该 连 续变量 落在某 个 区 间 的 概 率 就 等 于 在 这 个 区 间 上,该 曲 线 下 的 面 积 ,而 曲 线 下 的 总 面 积 为 100%,代 表概率 总和为 100%。 图 4.5 不同均数 μ、不同标准差 σ的正态分布示意图 2.正态分 布的特 征 从正 态分布 曲线,可 以总结 出其分 布特征 如下: (1)正态分 布曲线 是一条 对称曲 线,关于 均数对 称,因 此均数 被称为 正态分 布的位置 参数。 (2)曲线是 单峰,在 均值处 达到最 高点。 (3)正态分 布曲线 峰的矮 阔与尖 峭与标 准差有 关。标 准差越 大,个体 差异越 大,正态 曲线也 越 矮阔;反 之,标 准差越 小,个体 差异越 小,正 态曲线 也越尖 峭。因 此标准 差被称 为正态分 布的尺 度 参数。 (4)曲线无 论向左 或向右 延伸,都 越来越 接近横 轴,但 不会与 横轴相 交,以横 轴为渐 进线。 除此 以外,正 态曲线 下的面 积也有 一定的 分布规 律,根 据经验 法则,有 : (1)约 68%的 个体的 取值与 平均数 的距离 在 1个 标准差 (μ±σ)之内 ,或者 说一个标 准差范 围 内的曲 线下面 积为 68% 。 (2)约 95%的个 体的取 值与平 均数的 距离在 1.96个标准 差(μ±1.96σ)之内 。 (3)99%个 体的取 值与平 均数的 距离在 2.58个 标准差 (μ±2.58σ)之内 。 根据 上述规 律,可以 做 出一 些 相应 的 总 体推 断 。例 如 ,某单 位 所 有 男性 员工 的 平 均 身高 为 175cm,身 高的标 准差为 5cm,在 身高服 从正态 分 布 的前 提 下,可 以 得到 这 样的 推 断:约 68% 的 男 性员工 的身高 在 170cm ~180cm之间 ,约 95%的 男性员 工的身 高在 165cm ~185cm之间 。 3.标准正 态分布 统计 分析中 经常需 要求曲 线下面 积,但这 就需要 为每个 不同的 分布单 独计算 面积分 布规律 。 为 了制一 张可供 不同的 μ、σ共同 使用的 表,可以 考虑引 进以下 变换:          92    第 4章  连续 变量的 统计描 述与参 数估计 u=X-μ σ 这样 做相当 于将分 布的位 置参数 移动到 0处,使 曲线沿 y轴对 称,并 且将分 布的尺 度参 数固 定 为 1。从而 将原来 的正态 分布 N(μ,σ2),变换成 了均数 为 0、标准 差为 1的正态 分布,该 分布被 称 为标准 正态分 布(StandardNormalDistribution),而上述 变换则 被 称为 标准 化 变换。在 国外,标 准 正态分 布被称 为 u分 布或者 z分布 ,因此 变换也 被称为 u变换 或者 z变换。 标准 化变换 和标准 正态分 布的意 义非常 重大,因 为这 样 只 需要知 道标 准 正态 曲线 下面 积的 分 布规律 ,就可以 解决所 有正 态 分 布 的曲 线下 面 积 计算 问 题了,只 需将 其进 行 标准 正 态 变换 即 可 。 在 SPSS中的 Descriptive过 程可以 将原变 量变换 为标准 正态分 布下的 得分,只需要 选中 主对 话 框左下 角的 Savestandardizedvaluesasvariables复选框 即可。 4.偏度和 峰度 上文 直接引 出了正 态分布 ,并指出 许多生 活中的 数据均 服从该 分布。 但是,如果数据 实际上 不 服从该 分布,则 随后基 于正态 分布的 一切 估 计和 检 验都 要被 推翻。 如 何来 确 认这 一 点 呢?对 于 一个具 体的连 续变量 是否近 似于某 种类型 的分 布,通常 是通 过 P-P概率 图 及非 参数 检验 法的 帮 助来鉴 别判定 的。此 处介绍 两个有 关正态 分布的 专用统 计指标 :偏度和 峰度。 (1)偏度(Skewness):偏 度是用 来描述 变量取 值分布 形态的 统计量 ,指分布 不对称 的方 向和 程 度。样 本的偏 度系数 记为 α: α=1 n6 n i= 1 (xi -珋x)3 /s3 式中 s为样 本标准 差。这 是根据 矩法(详 见 4.5.2节 )测定分 布偏度 的计算 公式。测 定分布 偏 度的其 他方法 还有分 位数 法和 Pearson规 则等 ,这 里不 做 介绍,读 者可 以 参 考 有关 专 业 书籍 。 偏 度是与 正态分 布相比 较而言 的统计 量。α>0分 布为正 偏或右 偏,即 长 尾巴在 右边,峰 尖偏左 ; α<0分 布为负 偏或左 偏,即 长尾巴 在左边 ,峰尖偏 右;α=0分 布为对 称。 需要 特别提 醒的是 ,偏态的 方向指 的应当 是长尾 的方 向,而不是 高 峰 的位 置。 和左 、右 偏态 的 称呼相 对应的 术语还 有正、负 偏态,这里的 正负是 指 资料 的 算术 均 数 与众 数 之差 的符 号,对于 右 偏态分 布的资 料,此时 算术均 数大于 众数,称之为 正 偏 态;同 理称 左 偏 态为 负 偏态。 国内 的不 少 统计书 籍对左 、右偏态 的理解 有误,往往正 好弄颠 倒。 (2)峰度(Kurtosis):峰度 是用来 描述 变 量取 值 分 布形态 陡缓 程 度 的统计 量,是指 分布 图形 的 尖峭程 度或峰 凸程度 。样本 的峰度 系数记 为 β: β=1 n6 n i=1 (Xi -珔X)4 /S4 -3 同样 ,式中 S为样本 标准差 。这也 是根据 矩法测 定 分布 峰 度的 计 算 公式 。测 定分 布峰 度的 方 法还有 分位数 法(略)。 峰度也 是与正 态分布 相比较 而言的 统计量 。β>0分布 为高峰 度的,即 比 正态分 布峰要 陡峭,峰 的形状 比较尖 ;β<0分布为 低 峰度的 ,即 形状 比正 态 分布 的峰 要平坦 ; β=0则分 布为正 态峰。 Explore过 程的结 果输出 中默认 就会给 出峰度 系数与 偏度系 数,这 在前 面的 分 析实 例中 已经4.5 连 续变量 的参数 估计 93              见 到过了 。 4.5.2 参数的点估计 在确 定了总 体的分 布类型 后,只需 要确定 总体分 布的几 个关键 参数,就可以 精确的对 其中心 位 置、集中 趋势等 进行描 述。但 是总体 参数一 般 都是 未 知的 ,需要 进 行 参数 估 计,也就 是要 用样 本 统计量 来估计 总体参 数(及其 估计误 差)。显 然,均数 、中位 数 、标准 误等 总体 参 数都 可以 进行 参 数估计 ,但平时 遇到的 主要是 用均数 进行参 数估计 。参数 估计分 为点估 计和区 间估计 ,这里先 来 讨论前 者。 参数 的点估 计就是 选定一 个适当 的样本 统计量 作 为 参数 的估计 量 ,并计 算 出估 计 值。 如选 样 本均数 作为总 体均数 的估计 量,将其 大小作 为总体 均 数的 点 估计 值 。对 于 所选 统计 量是 否适 于 作参数 估计量 ,有无偏 性、一 致性和 有效性 三个评 选标准 。无偏 性是指 虽然估 计量的值 不全等 于 参数,但 应当在 真实值 附近摆 动;一 致性是 指样本 量越大 ,估计值 离真实 值的差 异应当 越小;有 效 性则是 指如果 有两个 统计量 都符合 上述要 求,则应 当 选取 误 差更 小 的 一个 作 为估 计 值。 如前 述 的均数 和中位 数,两者 在反映 正态分 布的集 中 趋势 时,在 无 偏性 和 一 致性 方 面效 果都 较好,但 中 位数的 误差更 大,所以 前面会 有应当 尽量使 用样本 均数来 反映正 态分布 集中趋 势的结 论。 参数 点估计 时可用 的方法 有矩法 和极大 似然估 计法两 种,这里 分别介 绍一下 。 1.矩法 矩法 的名称 比较专 业,实际 上含义 非常简 单,它 指 的是 在 许多 情 况 下,样 本统 计量 本身 往往 就 是相应 的总体 参数的 最佳估 计值,此 时就可 以 直接 取相 应 的 样本统 计量 作 为总 体参 数的 点估 计 值。例 如,样本 均数、方差、标 准差都 是相应 总体均 数、方差 、标准 差 的 矩估 计 量。对 于常 用的 正 态分布 而言,矩 法几乎 可以满 足全部 参数的 点估计 需求,所以平 常教科 书上所 说的点估 计实际 上 就是用 的矩法 。 2.极大似 然估计 法 极大 似然估 计法是 另一种 更好的 参数估 计方法 ,其优点 在于估 计量常 能满足 一致性 、有效性 等 要求,且 具有不 变性,不变性 是指当 原始数 据进行 某 种函 数 变换 后 ,相应 估 计量 的同 一函 数变 换 值仍是 新样本 的极大 似然估 计量。 该方 法的原 理是在 已知总 体的分 布,但未 知其参 数值时 ,在待 估参数 的可能 取值范围 内进行 搜 索,使似 然函数 值(在参 数所确 定的总 体中获 得现有 样本 的 概率 )最 大的 那个 数 值即 为极 大似 然 估计值 。 因极 大似然 估计法 已超过 本书读 者需要 了解的 范畴,这 里将不 再深入 讨论,读者只需 要知道 还 有这样 一个点 估计的 方法即 可。 3.稳健估 计值 矩法 和极大 似然法 虽然能 够很好 的满足 点估计 的需要 ,但它们 也有很 明显的 缺陷,就 是估计 值 受异常 值的影 响十分 显著,或 因数据 分布 的 偏 离而 使 估计 值 产生 较 大 变化。 在 20世 纪 50年          94    第 4章  连续 变量的 统计描 述与参 数估计 代 前后,基 于正态 分布理 论的统 计方法 的不稳 定性引 起了统 计 学家的 广 泛关 注。尤 伯(P.J.Hu- ber)于 1964年 创立的 渐进极 小极 大 理 论,以 及汉 甫(F.R.Hampel)于 20世 纪 60年 代 末 提出 的 崩 溃点等 概念和 有界影 响方法 最终奠 定了稳 健统计 的理论 基础。 稳健 统计研 究的是 具有稳 定性的 统计方 法。即 当 观测 数 据符 合 假 定模 型 ,甚 至与 假定 模型 有 偏离时 ,性质都 较好或 至少性 质不会 很坏的 统计方 法。 而 稳 健估计 指的 就 是该 统计 量具 有稳 健 性,当数 据存在 异常值 时受影 响 较小 ,而 且对 大部 分 的 分 布而 言 都 很好 (当 然,这 同 时 意味 着 它 不会对 每个分 布都是 最佳的 )。 稳健 估计有 M估 计、R估计等 不同 方 法,前 者 是稳 健 估 计 常用 的方 法。 M 估计 最 早 是由 尤 伯 提出,其 实是“极 大似然 型估计 ”的简称 ,即该 方法的 核心仍 然 是极 大 似然估 计法,但 是在 估计 时 它首先 构 造一个 Ψ 函 数,该 函数能 够 减小异 常值的 影响,而 且对 所 考虑的 分 布集 合 中的 每个 分 布都是 好的估 计量。 随后再 对 Ψ 函数的 集中趋 势进行 参数的 极大 似 然估计 ,因 此相 应的 估计 值 受异常 值的影 响要小 得多。 SPSS的 Explore过 程能 够 直 接输 出 M 估计 的结 果,在 Statistic子 对话 框 中 选择 M-Estimator 复 选框,相 应的输 出如表 4.7所 示。 表 4.7 M-Estimators 表 4.7即为 输 出的 M 估计 量 的结 果,SPSS中输 出 的 M 估 计 量 有 4种,它们 分 别 是 Huber、 Andrews、Hampel和 Tukey所提出 的,实际 上就 是 所 用的 Ψ 函 数 不 同。 一 般 而 言 ,Huber法适 用 于 数据接 近正态 分布的 情况,另 外三种 则适用 于数据 中有许 多异 常 值的情 况。如 果 M 估计 量离 平 均数和 中位数 较远,则 数据中 可能 存 在 异常值 。 此时 ,应该 用 M 估 计 量替 代平均 数 以 反映 集 中 趋势。 从输出 结果可 见,男、女性的 4个 M估计 量离均 数都很 近,这 就可 以反 证 数据 中应 当不 存 在明显 的异常 值。 4.5.3 参数的区间估计 显然 ,仅仅有 参数的 点估计 是不够 的,比 如打靶 ,打了 2枪,平 均 9环 ;打了 100枪,平均 也是 9环,显 然人们 更相信 后者的 确是个 好的枪 手,而 对前者 的水平 却产生 很 大的怀 疑。这 就涉 及到 了 参数的 估计值 究竟有 多大的 误差的 问题。 1.标准误 标准 误就是 用来描 述参 数估 计值 可 能 离 真实 值究 竟有 多 远的 统 计 量。 先 考虑 这 样 一种 情 形 :假设现 在已知 一个正 态分布 的总体 N(μ,σ2),从中 进行抽 样 研究,每次 抽样 的 样本 量固 定为4.5 连 续变量 的参数 估计 95              n,这样对 每一个 样本均 可以计 算出其 均数 珔X。由 于 这 种抽样 可以 进 行 无限多 次,这些 样本 均数 就 会构成 一个新 的分布 总体。 统 计学 家 发现,该 分布 正 好就 是正 态分 布 N((μ,σ2 /n)。也就 是 说 ,样本均 数所在 分布的 中心位 置和原 数据分 布中心 位置相 同,而 其标准 差(记为 σ珔X)则为 σ珔X = σ/n。为了 区分样 本所在 总体的 标 准差,通常 称样 本均数 的标 准差 为 样本 均数 的标 准 误(简 称 均 数标准 误 ,有 的书 上也 称 之 为标 准 误差);而 且,即使 是 从 偏态 总体 随 机 抽 样,当 n足 够大 时 (如 n>50),珔X也近似 正态分 布。这 一规律 就是数 理统计 中的中 心极限 定 理(CentralLimitTheo- rem)。 图 4.6 均数的抽样分布示意图 图 4.6就是 从均数 为 0的 一个正 态分布 总体中 进 行抽 样 的示 意 图,可 见 样本 均数 的分 布仍 然 是以 0为均数 ,但是标 准差要 比原分 布小一 些。实 际上就 是一个 倍数关 系。 标准 误就是 一般用 来表示 参数估 计值准 确程度 的统计 量,标准 误越大 ,则说 明相应参 数的点 估 计值越 不可信 。 2.区间估 计的计 算 结合 样本统 计量和 标准误 可以确 定一个 具有较 大 的可 信 度(如 95% 或 99%)包含 总体 参数 的 区间,该 区间称 为总体 参数的 1-α可 信区间 或置信 区间(ConfidenceInterval)。 下面 来看一 下可信 区间是 如何求 取的,显 然,由 于样本 均数 珔X的 分布 规律 为 正态 分布 N(μ, σ2 /n),现在 只需要 进行如 下的标 准化变 换: U=珔X-μ σ/n 得到 的 U将服 从标准 正态分 布 N(0,1)。也 就是说 ,若资料 服从正 态分布 N(μ,σ2 ),样 本含 量 为 n的 样本均 数 珔X出现 在(μ±1.96σ/n)之 中的概 率为 0.95,即按 照 95%的 可信度,应当有 : -1.96<珔X-μ S/n <1.96 对上 式进行 变换后 即得: 珔X-1.96S/n<μ<珔X+1.96S/n          96    第 4章  连续 变量的 统计描 述与参 数估计 这就 是按照 95%可信 度计算 出 的总 体 均数 可 信 区间。 照此 类 推,对 于 任 意 可信 度 的 情况 , 总 体均值 μ的 100(1-α)%可 信区间 为: 珔X-uα /2 S/n<μ<珔X+uα /2 S/n α值一般 取 0.05或 0.01,故 1-α为 0.95或 0.99。 上面计 算的 是 双侧可 信区间,特殊 情况 下 还会使 用单侧 的可信 区间,这 里不再 详述。 非常 有 意思 的 是,可 信 度的 概 念 往往 会 引起 误 解,它 仅 仅 是大量 重复 抽 样时 的一 个渐 近概 念 。认为 “95%的 可信区 间包括 真实参 数值的 概 率为 0.95”是 个错 误 的 理解 。这 里得 到的 区间 是 固定的 ,而总体 参数值 也是固 定的。 因此只 有 两种 可 能:包 含或 者 不 包含,这当 中没 有任 何概 率 可言。95%的 可信度 只是说 如果能 够大量 重复试 验 的 话,则 平均 下 来 所计 算 的每 100个 可信 区 间中,会 有大约 95个 覆盖真 实值。 SPSS的 Explore过程会 直接输 出标准 误 和可 信 区 间的 大 小,例 如 在上面 的 例子 中 男 生的 身 高 标准误 为 0.671cm,相应 的总体 均数 95% 可信区 间为 173.37~176.05cm。但 是,如果 大家直 接 按照上 面的公 式利用 标准误 来计算 区间的 话,会发 现和统 计软件 的结果 略有差 异,为什 么会这 样 呢?需 要特别 指出的 是,以 上 计 算 公式 实际 上 仅 仅适 用 于大 样本 ,或 者已 知 总体 标 准 差的 情 形 ,如果样 本量小 ,且只 知道样 本标准 差,则样 本均数 所在总 体服从 的 是 t分布 ,相 应的 可信 区间 计 算也应 当使用 t分 布来进 行,关于 t分 布的知 识将在 第 11章中继 续学习 。 思考与练习 1.请就 student.sav数据 ,分析学 生的体 质量分 布情况 ,尝试 分性别 和合并 描述。 2.使用 Descriptive过 程,对 student.sav中的身 高和年 龄变 量进 行标 准 正 态 变换 ,对 变换 后 的 变量进 行统计 描述。 参考文献 1 吴 喜之主 编.统 计学基 本概念 和方法 .北京:高等教 育出版 社,2003 2 杨 树勤主 编.中 国医学 百科全 书· 医 学统计 学分册 .上海:上海科 学技术 出版社,1982 3 杨 树勤主 编.卫 生统计 学.第三 版.北 京:人民 卫生出 版社,1995 4 方 积乾主 编.卫 生统计 学.第五 版.北 京:人民 卫生出 版社,2003 5 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,20025.1  分类变 量的统 计描述 概述 97              第 章  类变量的统计描述与 参数估计    在第 4章中 ,已经学 习了连 续变量 的统计 描述,本章将 继续学 习分类 变量的 统计描述 及参数 估 计方法 。 首先 复习一 下分类 变量的 概念。 统计学 上把取 值范围 是有限 个值或 者是一 个数列构 成的变 量 称为离 散变量 ,其中表 示分类 情况的 离散变 量又称 为分类 变量。 根据类 别的有 序性,分 类变量 又 可分为 有序分 类变量 (OrdinalVariable)和 无序分 类 变 量(NominalVariable)两 类。但 是,这 两 类 变量在 统计描 述上几 乎没有 什么差 异,因此 本章将 它们放 在一起 讲解。 5.1 分类变量的统计描述概述 5.1.1 分类变量的统计描述指标体系 相对 于连续 变量而 言,分类 变量的 统计描 述 体系 非 常简 单 。由于 分类 变 量不 能进 行四 则运 算 ,因此对 变量中 包括的 几个类 型(调查 题目中 的选项 )进 行各 自 频数 的统 计以 及 它们 在所 有类 型 中所占 的比例 ,就变得 非常重 要了。 1.频数分 布情况 的描述 对于 分类变 量,首先 希望了 解各种 类别的 样本 数 有 多少 ,除此 之 外,还 会 对相 对数 量比 较感 兴 趣,如每 个类别 的人数 占总人 数的比 例各为 多少。 这些信 息往往 会被整 理在同 一张频 数表中 , 各 个类别 的样本 数和所 占比例 分别被 称为频 数(绝对 频数)和 百分比 (构成比 ),前 者是 指本 类别 出 现的次 数,百分 比则是 指本类 别出现 的次数 占总次 数的 百分 比,即 本 类 别出 现 次数 /总次 数 × 100%。如 在一项 “最受欢 迎的软 饮料是 什么”的 调查 中 ,调 查者 提 供了 5个答 案可供 选 择:Coke Classic,DietCoke,Dr.Pepper,Pepsi-Coke,Sprite。50名被调 查 者 都会 给 出一 个 答 案,统 计 5种 软 饮 料的每 一种在 数据集 中出现 的次数 ,CokeClassic出现 19次,即 19人 最喜 欢 CokeClassic;Diet Coke出 现 8次,即 8人最喜 欢 DietCoke;5人最 喜 欢 Dr.Pepper;13人 最 喜 欢 Pepsi-Coke;5人 最 喜 欢 Sprite。这些 数字即 为每一 种饮料 的频数 。但是 ,如果不 知道总 人数 为 50,或 者希 望和 其他 更 大 /更小 人群的 调查结 果相比 较时,就无法 确认 19这个数 字到底 有多大 ,因而 又提出了 百分比 这 个概念 。如 CokeClassic出 现 的比 例 为 38% (19/50),即 38% 的 人最 喜 欢 CokeClassic;Diet Coke出 现的比 例为 16% (8/50),即 16% 的人 最 喜欢 DietCoke;依此 类 推 ;10% 的 人 最 喜欢 Dr. Pepper;26% 的人 最喜 欢 Pepsi-Coke;10%的 人 最喜欢 Sprite。 这 些百分 比数字 ,即为 每 一种 饮料 的 相对频 数(或称 百分比 )。从 38% 等这些 百分数 字,研究 者就可 以了解 到各种 饮料为 人们 所偏          98    第 5章  分类 变量的 统计描 述与参 数估计 好 的程度 。 在对 有序分 类变量 进行描 述时,除 给出分 各个类 别的频 数和百 分比外 ,研究 者往往还 对累积 频 数和累 积频率 感兴趣 。累积 频数是 指本类 别及较 低 类别 出 现的 次 数 之和,累计 百分 比则 是指 本 类别及 较低类 别出现 的次数 之和占 总 次 数的 百分 比,即 (本类 别 出现 次数 +较低 类 别 出现 次 数 )/总次数 ×100%。比 如,在一 项 员工 学 历的 调 查 中,希 望了 解每 个员 工 的 文 化程 度 ,分别 为 1— —— 高中 及以下 ,2——— 大 专,3——— 大 学,4——— 研究 生 及以 上。 此时,调 查 人 员 不 仅希 望 了 解 “高 中及以 下”、“大专 ”、“大学 ”、“研究生 及以 上 ”各类 别员 工 的人 数及 比例 ,还希 望 了 解“大专 及 以下”、“大 学及以 下”的人 数及所 占比例 ,此时 显然就 需要使 用累积 指标了 。 当然 ,出于一 些特殊 的分析 目的,累计频 数和累 积 百分 比 也可 能 被 用于 无 序分 类变 量,如希 望 知道各 少数民 族占总 人数的 比例情 况等。 但需要 注 意的 是 ,统计软 件一 般 都只 按类 别编 码从 小 到大进 行频数 和百分 比的累 计,如果 编码不 符合要 求,则 研究者 只能手 工加以 统计。 2.集中趋 势的描 述 除原 始频数 外 ,研究 者 如果希 望 哪一 个类 别 的频 数最 多,还 可 以使用 众 数(Mode)来描 述它 的 集中趋 势。所 谓众数 ,是指出 现次数 最多的 那个数 。显然 ,众数 有时可 以多于 一个。如 果只有 一 个众数 称为单 众数,多 于一个 的称为 复众数 。在实 际工作 中,有 时利用 众数来 说明社会 经济现 象 的一般 水平。 例如,为 了说明 职工的 技术等 级、商 品销售 中卖得 最多的 服装、鞋 的号码 等,都可 以 利用众 数来反 映其一 般水平 。但是 ,众数只 反映频 数最多 的类别 的情况 ,而浪 费了所有 其他信 息 ,如另一 个类别 的频数 仅少一 例,使 用众数 描述的 话就会 被完全 忽视掉 ,因此,只有集中 趋势显 著 时,才能用 众数作 为总体 的代表 值。实 际上,当 分类变 量的类 别数不 多时,原 始 频数 表的 观察 并 不复杂 ,此时众 数的使 用价值 并不高 。 可能 这里有 的朋友 会觉得 奇怪,为 什么本 章只提 到对分 类数据 描述其 集中趋 势,而忽 略掉了 离 散趋势 呢?这 是因为 对于分 类数据 而言,其 数据的 离散程 度实际 上是和 集中趋 势有关 联的,它 们 往往受 相同参 数的控 制,因此 不需要 分别描 述,对 此请参 见本章 最后一 节。 3.使用相 对数进 行深入 描述 除以 上比较 简单的 频数、比 例外,研究者 还经常 为分类 数据计 算一些 原始频 数的相对 指标用 于 统计描 述,这些 指标被 称为相 对数,这里简 单介绍 一下常 用的三 种相对 数: (1)比(Ratio):比指的 是两个 有关指 标之比 A/B,用 于反映 这 两个 指标 在 数量 /频 数上 的大 小 关系。 其中 A、B可 以 是性质 相同的 两 个指 标,如两 个地区 相 同时期 内交通 事 故数之 比;也可 以 是性质 不相同 的两个 指标之 比,如某 地区一 周内交 通事故 数与交 通车辆 数之比 。事实 上,比还 可 以被拓 展到连 续变量 的范畴 内,如销 售人员 属于本 月销售 额之比 等。 (2)构成比 (Proportion):分观 察对象 为 k个部 分(A1,A2,⋯ ,Ak ),其 中某 一个 /多 个 部分 的 例 数占总 例数的 比例称 为构成 比,它描 述某个 事物内 部各构 成部分 所占的 比重,构成比的 计算公 式 为: 构成比 =某一 组成部 分的样 本数 总样 本数 可见 构成比 的分子 必须是 分母的 一 部 分,所 以其 取 值 为 0~1。 实际 上 ,前 面提 到 的 百分 比5.1  分类变 量的统 计描述 概述 99              就 是一个 标准的 构成比 ,而累积 频率则 是构成 比概念 的直接 延伸。 (3)率(Rate):率是 一个具 有时间 概念,或者说 具有速 度、强度 含义的 指标,用于说明 某个时 期 内某个 事件发 生的频 率或强 度,其计 算公式 为: 某事件 的发生 率 =观 察期内 发生某 事件的 对象数 该 时期开 始时的 观察对 象数 准确 的讲,率 应当是 一个时 间点上 的强度 测量,但 这在 实 际工 作 中 很难 做 到,因此 一般 都按 一 个时段 来进行 测量。 从而它 的分子 往往是 一个时 期的累 计数。 以上 相对数 在使用 时应当 注意适 用条件 ,如样本 量较大 时相对 数才会 比较稳 定,基数 不同的 相 对数不 能直接 相加求 和等。 5.1.2 分类变量的联合描述 频数 表可以 描述一 个分类 变量的 数值分 布情况 ,但是 研 究 者往往 希望 对 两个 甚至 多个 分类 变 量的频 数分布 进行联 合观察 ,如希望 考察一 下不同 的血型 在各民 族间的 频数分 布,甚至 于构成 比 状况如 何。此 时就需 要将这 些分类 变量的 类别交 叉 起来,分 别统计 各种 类 别组 合下 的频 数大 小 。当一 共有两 个分类 变量时 ,这种因 分类变 量的 各 类别 交 叉 而成的 复合 频 数表 被称 为行 ×列 表 ,也称列 联表。 更多分 类变量 的交叉 表格和 两个变 量时的 交叉表 格其实 没有本 质区别 ,只是更 为 复杂而 已。在 多个分 类变量 的联合 分析中 ,列 联表 提 供了 清 楚明 白 的 分析 结 果,非常 直观,容 易 进行比 较。在 一般的 调查报 告中,经 常看到 作者应 用列联 表进行 变量的 交叉分 析,它也 是调查 报 告中显 示分析 结果的 主要方 式之一 。 以二 维的 r×c列 联表为 例。假 设有 n个 个体 根 据 两个 属 性 A和 B进 行分 类 。属 性 A有 r 类 :A1,A2 ,⋯ ,Ar,属性 B有 c类:B1,B2,⋯ ,Bc。n个个体 中既属 于 Ai 类 又属 于 Bj 类 的有 nij个 。 那 么可用 如表 5.1所示 的一个 二维的 r×c列联 表表示 。 表 5.1 二维的 r×c列联表 B1 B2 ⋯ Bc 合 计 A1 n11 n12 ⋯ n1c n1· A2 n21 n22 ⋯ n2c n2· ⋯ ⋯ ⋯ ⋯ ⋯ Ar nr1 nr2 ⋯ nrc nr· 合 计 n· 1 n· 2 ⋯ n· c n 表 5.1中,除 合计栏 外的每 一个单 元格反 映了 A、B两 属性 在某 种类 别 交 叉 下的 频 数 情况 , 而 合计栏 则分别 反映了 A、B两属 性各自 的类别 频数情 况,且表 格中的 数据有 如下的 换算关 系: ni· =6 j nij,n· j =6 i nij,n=6 i ni· =6 j n· j 除给 出原始 频数外 ,各单元 格内还 可能给 出行 百 分 比、列 百分 比 和 总百 分 比等,分 别用 于反 映 该单元 格频数 占所在 行、列、总样本 的构成 比情况 。          100   第 5章  分类 变量的 统计描 述与参 数估计 5.1.3 SPSS中的相应功能 作为 比较基 本的功 能,SPSS的 许多分 析 过 程均 可 完成 分 类变 量 统 计描 述 的 任务 ,但 专门 用 于 分类变 量统计 描述的 过程有 两个,它 们均集 中在 DescriptiveStatistics子菜 单中。 (1)Frequencies过 程:在上 一章中 已经学 习过 了 ,它主要 针对 单 个 分类变 量输 出频 数 表,从 而 得到“频 数”、“百分 比”和“累 积百分 比”的统 计 量。 除原始 频数表 外 ,还 可 给出 描述 集中 趋势 的 众数,以 及直接 绘制用 于分类 变量的 条图和 饼图等 。 (2)Crosstabs过程 :其强项 在于两 个或多 个分类 变量的 联合描 述,可 以产生 二维至 n维 列联 表 ,并计算 相应的 行、列 、合计百 分比和 行、列 汇总指 标 等。 除 强大 的 描 述功 能 外,该过 程也 具备 了 完善的 分类资 料统计 推断功 能,详见 第 14章。 此外 ,针对比 较特殊 的多选 题统计 描述问 题,SPSS也 为其提 供了 专 门的模 块支持,详见 本章 第 3节。 5.2 分类变量统计描述实例 这里 仍以上 一章中 使用过 的 student.sav为 例 ,来学 习 一 下分 类 变量 的 统 计描 述 在 SPSS中 的 具体实 现方法 。 5.2.1 使用 Frequencies过程输出频数表 如果 研究者 希望了 解一下 共有多 少学生 ,男生 和 女 生各 自 为多 少 ;各种 血 型的 人数 有多少 , 则 可以使 用 Frequencies过程 输出这 两个变 量的频 数表,具体操 作如下 : Analyze→DescriptiveStatistics→ Frequencies Variables框 :sex、blood_t OK 相应 的分析 结果如 下: 表 5.2 Statistics 首先 给出的 是统计 量列表 (见表 5.2),因这里 没有选 择输出 任何统 计量,所 以只会 给出 有效 样 本量。 可见一 共有 219名学 生的数 据。这 219名 学 生的性 别和 血 型 数据都 是完 整的 ,没 有缺 失 值。5.2 分类 变量统 计描述 实例 101             表 5.3 性别 表 5.3给 出了 性别的 频数 表,Frequency为 频数,Percent为各 组 频 数占 总例数 的 百 分比 (包 括 缺失记 录在内 ),ValidPercent为 各 组 频数 占总 例数 的 有效 百 分 比,CumulativePercent为各 组 频 数占总 例数的 累积百 分比。 可见在 219人 中,男性 72人,女 性 147人两 类 人群 的累 积百 分比 正 好就是 100%。由 于不存 在缺失 值,因 此这里 的 Percent和 ValidPercent完全相 同。 表 5.4 血型 表 5.4给出 的是血 型的分 析结果 ,请读者 自行分 析,这 里不再 详述。 5.2.2 使用 Crosstabs过程输出列联表 如果 研 究者 希 望 知道 性 别和 血 型的 交 叉 频数 分 布,以及 各种 百 分 比的情 况,又该 如何 操作 呢 ?Crosstabs过 程可以 帮研究 者完成 这个任 务,具体 操作如 下: Analyze→DescriptiveStatistics→ Crosstabs Row(s)框 :sex|Column(s)框 :blood_t Cells:  Percentages: Row、 Column、 Total   Continue OK 操作 中用到 的对话 框如图 5.1(a)所示 ,主 对话 框 中的 Rows框 、Columns框分 别用 于选 择行 ×列表 中的 行、列 变 量。 而 下 方的 Layer框 组则 用 于选 入 更 多的 分 类 变 量 ,这里 被 称 为 层变 量 (详 见第 6章关于 表格结 构的介 绍)。如 图 5.1(b)所 示的 Cell子 对话 框用 于定 义 列联 表单 元格 中 需要显 示的指 标。这 里要求 输出三 种百分 比。 本例 相应的 输出如 下:          102   第 5章  分类 变量的 统计描 述与参 数估计    (a)                             (b) 图 5.1 Crosstabs过程的对话框 表 5.5 CaseProcessingSummary 首先是 处理记 录缺失 值情况 报告(见 表 5.5),可 见 219例均为 有效值 。 表 5.6 性别 * 血型 Crosstabulation5.3  多选题 的统计 描述 103             表 5.6就是 性别和 血型的 交叉表 ,行变量 是性 别 ,列变 量 是血 型 ,由于 系 统默 认为 升序 排列 (Ascending)。 所以 4列血型 依次的 排列是 A、AB、B和 O。 可以 看 出,在 总 共 72名 男 性 被调 查 者 中,A型 血有 16名,AB型血 有 8名 ,B型 血有 17名,O型血 有 31名。同 样,在总 共 147名女性 被 调查者 中,A型血有 51名,AB型血 有 22名,B型血有 20名,O型血 有 54名。 然而 ,由于在 被调查 中男女 的数量 不同,调查者 很难从 表 5.6中看出 诸如某 一个血型 男女的 比 例是不 是一样 ,或有什 么差异 。不过 ,每个 单元格 内 已经 输 出了 行 百 分比、列百 分比 和合 计百 分 比。这 里以 A型 血和男 性交叉 的单元 格 为 例加 以 说明 ,该单 元格 内自 上 而 下 依次 为 :第一 个 数 16为该 单元格 的实际 频数。 第 二个 数 22.2%为 行百分 比,它与 它右边 的 男 性和 AB、B、O交 叉 的单元 格中的 相应 百分 比 11.1% 、23.6% 和 43.1% 相 加正好 为 100%;第三个 数 23.9% 为列 百 分比,它 与它下 边的 A型 血和女 性交叉 的单元 格中的 相应百 分比 76.1%相 加正好 为 100%;第 四 个数 7.3% 为合计 百分比 ,它是 该单元 格频数 16在所 有交叉 单元格 中 所占的 总百分 比。 与其 余 单元格 相应的 百分比 相加也 正好为 100%。 这样 就可以 进行一 些有意 义的比 较了。 比如,在 男性 被 调查者 中 ,A型 血的男 性占 22.2% 。 在 女性被 调查 者中 ,A型 血 的女 性 占 34.7% 。因此 调查者 会 考虑:是否男 性 A型血 的 人较 女性 A型血的 人少(假 设调查 是随机 抽样,总体男 女数量 相同)。 同样的 道理,男 性 AB型血 的人 较女 性 AB型血的 人少。 男性 B型 血的人 较女性 B型血的 人多。 男 性 O型血 的人 较女 性 O型 血的 人 多。不 过,这样 的结果 也可能 是由于 抽样的 偶 然误 差 导致 的 ,必 须 要 经过 假 设检 验,才能 对以 上 的猜测 加以确 定。 5.3 多选题的统计描述 多 选 题 是 调 查 问 卷 中极 为 常 见 的 调 查 题 目 类 型 ,在 第 2章 中 已 对 其 录 入 方 式 进 行 了 讲 解 ,由 于 它 所 收 集 的 数 据 也属 于 分 类 数 据 ,因 此 本 章 将 继 续 讲 解 对 于 这 类 多 选 题 如 何 进 行 描 述 分析 。 5.3.1 多选题的描述指标体系 如 何 对 多 选 题 进 行 分 析 呢? 当 然 ,可 以 对 每 一 个 单 独 的 题 项 来 进 行 统 计 描 述 ,但 这 样 做 是 不全 面 的 ,因 为 这 些 变量 实 际 上 回 答 的 是 一 个 大 问 题 ,将 问 题 割 裂 开 来 可 能 会 导 致 不 正 确 的分 析 结 果 ,而 且 无 法计 算 一 些 汇 总指 标 。 在 多 选 题 分 析 中 比 较 特 别 的 描 述 指 标 有 以 下 4个 : (1)应答人 数:是指 选择了 本选项 的 人数 ,或 者说 就 是 原始 频数,比 如 说在 200人 中有 178 人 选择了 调理饮 食以控 制高血 压。 (2)应答人 数百分 比(PercentofCases):选择 该项的 人占 总 人数的 比例,比 如 200个受 访者 中 共有 178人 选 择 了 调 理 饮 食 以 控 制 高 血 压,则 调 理 饮 食 的 应 答 人 数 百 分 比 为 178/200= 89.00%。应答人 数百分 比可以 反映该 选项在 人群中 的受欢 迎程度 。 (3)应 答 人 次 :是 指 选 择 本 选 项 的 人 次 ,一 般 情 况 下 ,应 答 人 次 和 应 答 人 数 是 相 同 的 ,          104   第 5章  分类 变量的 统计描 述与参 数估计 但 是 在有 的 时 候 是 不同 的 。 例 如 ,您 最 近 买 的 几 管 牙 膏 的 品 牌 各 是 什 么 ? 这 种 问 题 ,就 可 能 同 一个 人 回 答 同 一个 答 案 多 次 因为 同 一 个 品 牌 他 买 了 两 管 。 因 此 ,此 类 多 选 题 就 会 有 可 能 出 现选 择 某 答 案 的人 数 不 等 于 选择 某 答 案 的 次 数 的 情 况,因 而 Count与 Response就 有 可 能 不 等。 (4)应答次 数百分 比(PercentofResponses):在做 出的所 有选择 中 ,选 择 该项 的次 数占 总次 数 (总反应 数)的比 例,比如 200受 访者对 4种 高血压 控制方 式分别 选择了 178、120、134、160次 , 则 总的应 答次数 为 178+120+134+160=592人 次,而调 理饮食 的应答 次数百 分比应 为 178/592 =30.07% 。应答 次数百 分比可 以用于 不同选 项受欢 迎程度 的比较 。 使用 以上几 种指标 ,就可以 对多选 题进行 比较完 善的描 述了。 和 录入 时 相同 ,SPSS的Tables 模 块和 MultipleResponse菜 单都可 以对多 选 题变 量 集 进行 统 计描 述 ,但前者 生 成的 是 标 准的 结 果 表格,可 以进行 各种复 杂编辑 ,而后 者生成 的是纯 文 本 表格 ,功能 上 也 要简 单 一些。 本章 将以 Base模块中 的 MultipleResponse菜单 为主加 以讲 述,Tables模 块中 的相 应功 能请 参 见 第 6、7两 章 。 5.3.2 分析实例 这里 使 用的 是 一次 市 场 调查 的 具体 数 据 multiplecategory.sav,文件 中 性 别(d1)变 量的 代码 是 1男,2女。 其中的 第 7题 (q7)为多 项选择 题,具体 的题目 是:    q7.请问促 使您买 保健品 的主要 原因是 (可多选 ): 1.广 告宣传    2.自己需 要    3.家人需 要 4.看 望亲友    5.朋友推 荐    6.其他(请 注明): 对 于 多 选 题 的 录 入 和在 SPSS中 多 选 题 的 定 义 ,在 第 2章 中 已 经 讲 过 了 ,本 题 是 采 用 多 重 分 类法 进 行 录 入 ,考 虑 到最 多 可 能 答 案为 6个 ,所 以 共 有 6个 变 量 (q7_1~q7_6)。 此 时 应 当 将这 6个 变 量 定 义 为 一 个 多 选 题,该 多 选 题 的 名 称 为 q7,标 签 为 “促 使 购 买 保 健品 的 主 要 原 因”。 1.多选题 的频数 列表 如果 希望给 出各答 案的频 数分布 情况,则 操作步 骤如下 : Analyze→MultipleResponse→Frequencies Table(s)for框:促 使购买 保健品 的主要 原因[$q7] OK 所使 用的 MultipleResponseFrequencies对话框 内容非 常简单 ,如图 5.2所 示,这里 不再 详细 解 释。只 是指出 下方的 MissingValues复选框 组用于 选择对 缺失值 的处理 方式,两个复选 框分别 对 应了两 种编码 的对应 方式,不 能交错 使用。 相应 的结果 输出如 下:5.3  多选题 的统计 描述 105             图 5.2 MultipleResponse:Frequencies过程的对话框 Group$q7 促 使购买 保健品 的主要 原因 Pctof Pctof Categorylabel Code Count Responses Cases 广 告宣传 1 14 2.2 3.1 自 己需要 2 299 47.6 66.7 家 人需要 3 197 31.4 44.0 看 望亲友 4 93 14.8 20.8 朋 友推荐 5 17 2.7 3.8 其 他 6 8 1.3 1.8 -- --- - --- -- -- --- Totalresponses 628 100.0 140.2 0missingcases;448validcases 上面 的结果 提供的 信息是 :在 448个有效 的 被调 查者中 ,各 种原 因 一 共被 选 择了 628次,其 中 “广告宣 传”被选 择了 14次,“自 己需要 ”被选择 了 299次,“家 人需要 ”被选择 了 197次,“看望 朋 友”被选 择了 93次,“朋 友推荐 ”被选择 了 17次 ,“其他 ”原因被 选择了 8次。 右边 的两个 百分数 是多项 选择题 比较重 要 的输 出 :PctofResponses计 算 的是 选择 次数 占总 选 择次数 的比例 ,比如,这 448位被调 查者一 共进行 了 628次 选择,其 中有 14人 选择 了“广 告宣 传 ”,该选择 次数所 占的比 例为 14/628=2.2%;PctofCases计 算的则 是所 有 被调 查者 中选 择相 应 分析方 法 者占 总 人 数的 比 例 ,例 如,有 14人 选 择了 “广告 宣 传”,他 们 占 总人 数 的 14/448= 3.1%。在 调查报 告中,研 究人员 经常使 用的是 PctofCases栏中的 百分数 。它所 表 明的 意义 人们 比 较容易 理解,虽 然各个 百分数 的和大 于 100% 。 2.多选题 的列联 表分析 上面 直接给 出了多 选题的 频数表 ,但有的 时候还 希望能 够对不 同的人 群分别 描述,即 将多选 题 变量集 和其他 分类变 量进行 交叉描 述。如 在本例 中希望 分性别 进行考 察,则操 作如下 :          106   第 5章  分类 变量的 统计描 述与参 数估计 Analyze→MultipleResponse→Crosstabs Row(s)框 :d1 选中 d1:DefineRanges:  Minimum 框:1|Maximum 框:2   Continue Column(s)框:促 使购买 保健品 的主要 原因[$q7] OK 用到 的操作 界面如 图 5.3(a)所 示 ,可见 多 选 题的 Crosstabs主 对 话框 和 普通 Crosstabs过 程 的 主对话 框非常 相似,只 是下方 多了 DefineRanges钮,用 于为相 应的变 量设置 取值范 围。其 Op- tions子对话 框(见图 5.3(b))中也 可以定 义输出 行百分 比、列百 分比 和 总百分 比指标,以及 控制 缺 失值的 处理方 式。   (a)                                (b) 图 5.3 MultipleResponse:Crosstabs过程的对话框 本例 的分析 结果如 下页框 图所示 。 交叉 表中分 性别给 出了对 各种购 买原因 的选择 情 况。 在 男性 被 调 查者 中 ,购 买保 健品 的原 因 选择如 下:广告 宣传 3人,自 己需要 133人 ,家人 需 要 87人 ,看望亲 友 49人 ,朋 友推 荐 6人和 其 他 3人 。同样 ,在女性 被 调 查者 中,购买 保 健 品 的 原 因 选 择 如 下:广 告 宣 传 11人 ,自 己 需 要 166人 ,家人 需要 110人,看 望亲友 44人 ,朋友推 荐 11人和 其他 5人。 在 448位被 调查 者中,男 性 206人 ,占 46%,女性 242人,占 54%。 由于 设置的 关系,在 系统输 出的交 叉表的 单元 格 里,只 显 示了 频 数 的多 少 ,这 样看 起来 比较 清 楚,美观 。但是 由于在 被调查 者中男 性与女 性 的数 量 不同 ,仅仅 从 这 个交 叉 表中 的频 数中,很 难 看出性 别之间 的差异 ,在一些 指标上 缺乏可 比性。 如果在 本分析 过程 Options的 CellPercenta- ges复选框 组中选 择显示 变量的 行百分 比、列 百分比 和 总百 分 比,就可 以更 详 细的 进行 性别 间的 比 较了,对 此请读 者朋友 们自行 操作,这里不 再详述 。5.4 分 类变量 的参数 估计 107             5.4 分类变量的参数估计 对于 分类变 量而言 ,由于只 能取若 干个离 散的值 ,因此 这里在 讨论参 数估计 时往往关 心的就 是 各类别 在总体 中的比 例是多 少,或者 当从中 进 行一 次 抽样 时 ,抽 得 相 应类 别 的概 率是 多少,且 对 于所有 可能的 类别,其 概率之 和应当 等于 1。 5.4.1 二项分布的参数估计 二项 分布是 分类变 量最为 常见的 分布类 型,下面 将讨论 一下二 项分布 的参数 估计问 题。 1.Bernoulli试验与 Bernoulli试 验序列 在许 多问题 中,人们 仅对试 验中某 事件是 否发生 感兴 趣。 例如,掷 硬币 试 验中,关 心的 是出 现 正面还 是出现 反面;产 品抽样 检查中 ,注意 抽取的 产品是 好产品 还是废 品;射击 试验中 ,命中还 是 不命中 ;比赛中 ,胜还 是负⋯ ⋯ 在这 类问题 中,试验 的 可能 结果 只 有两 个,或 者事 件 A 发生,或 者 事件 A不 发生即 珚A发生,这 种只有 两个可 能结果 的试验 称为贝 努利(Bernoulli)试 验。 现在 开始重 复进行 n次独 立的贝 努利试 验。“重 复”的 意思 是指 各 次试验 的条件 是 相同的 , 它 意味着 各次试 验中事 件 A发生 的概率 保持不 变,设都 是 p(从而 珚A的 概率也 保持不变 ,设 都是 q,q=1-p);“独立 ”的意思 是指各 次试验 的结果 是相互 独立的 。 这种 试验 所对 应 的数 学模 型称          108   第 5章  分类 变量的 统计描 述与参 数估计 为 贝努利 概型,有 时为了 突出试 验次数 n,也称为 n次贝 努利概 型或 n重贝努 利试验 。 进行 n次独 立重复 的贝努 利试验 ,每次试 验事件 A发生的 概率为 p,若以 ξ表示 n次独 立重 复 的贝努 利试验 中事件 A发生的 次数,那 么容易 求得 ξ的分 布列是 Pn (ξ=k)=Ck npkqn - k k=0,1,2,⋯ ,n 其 中:P(A)=p,P(珚A)=q=1-p 满足 以下三 个条件 的 n次 试验构 成的序 列被称 为是 Bernoulli试 验序列 。 (1)每次试 验结果 ,只能是 两个互 斥的结 果之一 (A或 非 A)。 (2)每次试 验的条 件不变 。即每 次试验 中,结果 A发生的 概率不 变,均 为 π。 (3)各次试 验独立 。即一 次试验 出现什 么样的 结果与 前面已 出现的 结果无 关。 2.二项分 布的函 数式 一般 地,在 Bernoulli试验序 列的 n次试验 中,事件 A出现的 次数 X具有概 率 P(X=k)=(n k)πk(1-π)n - k  k=0,1,⋯ ,n 由于 (n k)πk(1-π)n- k是二项 式[π+(1-π)]n 展开 式 中的 各 项,故 称 此 分 布为 二 项 分布 。 显 然,对于 不同的 n,不同的 π有不同 的二项 分布。 因此,n、π是 二项分 布的两 个参数。 推而 广之,若 有一个 随机变 量 X,它的可 能取值 是 0,1,⋯ ,n且 相应的 取值概 率是 P(X=k)=(n k)πk (1-π)n - k 则 称此随 机变量 X服从以 n、π为参 数的二 项分布 ,记为 X~B(n,π)。 对于该 变量而 言 ,有 均数 μX =nπ,方差 σ2 X =nπ(1-π),标 准差 σX = nπ(1-π)。 显然,对 于样本 量 n确 定的情 形,均数 和 标准差 间存在 着明确 的换算 关系,它 们都 只受 π 的影 响 ,这 也是 为什 么前 文 不对 离 散 趋势 加 以 描述的 理论依 据。 3.二项分 布与正 态分布 的关系 若已 知 n与 π,则按 上述二 项式可 计算不 同 X取 值时的 概率,然 后以 X为 横轴,概率 P为纵 轴 ,可绘制 二项分 布的图 形(参见 图 5.4)。 显然,二 项分布 图的形 状取决 于 n,π的 取值。 当 π= 0.5时 ,图形 对称;当 π≠0.5时,图形 呈偏态 ,但随 n的增 大,图形 逐渐对 称。 由数 理统计 学的中 心极限 定理可 得,当 n较大、π不接 近 0也不 接近 1时(一 般认 为这 个界 限 是 n>40,且 np和 nq均 大 于 5),二 项 分 布 B(n,π)已 经 非 常 近 似 于 正 态 分 布 N(nπ, nπ(1-π))。正 态分布 是许多 统计方 法的应 用基础 ,二项分 布 的正 态近 似 拓宽 了二 项分 布的 应 用范围 。 4.二项分 布的参 数估计 在实 际问题 中,对于 一个二 项分布 的总体 而言,其试 验次 数 n是 可 以人 为 确定 和控 制的,因 此 只需要 对参数 π加以估 计,就可 以 明确 整个分 布的 情况 。前面 已经知 道,当 n较大、π也 不太 极 端时,二 项分布 B(n,π)近 似正态 分布,这样就 可以系 统的利 用 正态 分布 中的 相 应成 果来 进行 参 数估计 了。 一般 地,从一 个阳性 率为 π的 总体中 ,随机 抽取含 量为 n的样本 ,则样 本 中的 阳 性数 X服从5.4 分 类变量 的参数 估计 109             n=10,π=0.3           n=30,π=0.3 图 5.4 不同参数的二项分布示意图 二 项分布 B(n,π),且 样本阳 性率 p的概 率 P(X)=(n x )πx (1-π)n - x 其 中,样本 率 p的 总体均 数 μp =π,总 体标 准 差 (也 就是 标准 误 )σp =σX /n。 相 应的 样 本 率就 是 总 体均数 的点估 计值,如 果 样 本 足 够 大,则 可 以 利用 正 态 近 似 计 算 可 信 区 间 ,相 应 的 100(1- α)% 可信区 间为:P±1.96 P(1-P)/n。 当不 满足正 态近似 的条件 时,则可 以直接 利用 二 项分 布 的 概率分 布规 律 计算 相应 的可 信区 间 ,此处略 。 5.4.2 其他分布类型简介 除二 项分布 外,在 分 类 资 料 的 描 述 中 偶 尔 还 会 遇 到 一 些 其 他 的 分 布 类 型,这 里 简 单 介 绍 一 下。 1.多项分 布 二项 分布用 于描述 只有两 种可能 结局事 件的概 率分布 规律,对 于有多 种可能 结果的 事件,则 需 要使用 多项分 布(MultinomialDistribution)加以 描 述。 比 如在 掷筛 子的 时 候,每个 面 都 会以 一 定 的概率 向上,假 定这些 概率为 p1 ~p6。显 然这些 概率的 和 为 1,而人 们关心 的 就是在 n次 试验 中 各种结 局分别 出现 k1 ~k6 次的 概率,且 有 k1 +k2 +k3 +k4 +k5 +k6 =n。 如果 用 p(m1,⋯ ,mk )代表多 项分布 k种结 束在 n次 试 验中 分 别出 现 m1,m2 ,⋯ ,mk 次 的概 率 ,而 p1,p2,⋯ ,pk 为一 次试验 时各种 可能结 束出现 的概率 。则应 当有: p(m1,m2,⋯ ,mk)= n m1,m2,⋯ ,mk pm 1 1 pm 2 2 ⋯ pmk k ,6 k i= 1 mi =n,6 k i=1 pi =1 ① 本 部分内容属 拓展 知识面,难度较 高,跳过此 节,不会 影响 以后各章的阅 读。          110   第 5章  分类 变量的 统计描 述与参 数估计 这里 n m1,m2,⋯ ,mk = n! m1!m2!⋯ mk!为多 项 式系 数 ,整 个多 项分 布 可 以 用符 号 M(n;p1, p2 ,⋯ ,pk)来表 示。 2.超几何 分布 在质 量检查 中,往往 一次抽 取若干 物品,每检查 一 个之 后 并不 放 回,这 时 一个 产品 不会 被重 复 检查。 而如果 发现次 品数超 过标准 ,就会将 整批产 品评价 为不合 格,那 么这种 结局的概 率是多 少 呢? 如果 是“放回 式抽样 ”,也就是 每检查 一个 就把 它放 回 。这 样再 抽取 时 ,检 查过 的 物 品还 有 可 能被抽 上。这 时每次 抽样时 得到次 品的概 率是服 从 二 项分 布的,概 率 等于 次 品的 比 例。 但是 在 上述问 题中,采 用 的 是“不 放 回 抽 样 ”,此 时 概 率 就 满足 超 几 何 分 布 (HypergeometricDistribu- tion)。 显然 ,超 几何 分布 和排 列 组合 密切相 关 ,仍以 质 量 检查 为 例,在 一 批 n个 产品中 ,如 果 有 m 个 不合格 产品(即 有 n-m个 合格 产 品 ),那 么 在 不放回 抽取 t个 产品 中 有 x个 不合 格 产 品的 概 率 为: p(x)= m x n-m t-x n t   x=0,1,⋯ ,t 3.Poisson分布 Poisson分布也 是一种 离散随 机变量 的分布 ,主要用 于描述 在单位 时间(空 间)中某 种事 件的 发 生数。 如放射 性物质 在单位 时间内 的放射 次数;在 单位容 积充分 摇匀的 水中的 细菌数 ;野外单 位 空间中 的某种 昆虫数 等。 满足 以下三 个条件 的随机 变量服 从 Poisson分 布:X的取 值 与观察 单 位的 位置 无关 ,只 与观 察 单位的 大小有 关;在某 个观察 单位上 X的取 值 与前 面 各 观察 单 位上 X的 取值独 立(无 关);在 充 分小的 观察单 位上 X的 取值最 多为 1。 X服 从以 μ为参数 的 Poisson分 布可记 为 X~P(μ)。如果 随 机变 量 X服 从 Poisson分布,则 X的取值 范围为 非负整 数,而 每种情 形下相 应取值 概率为 : P(X=k)=μk k!e- μ 式中 e为自 然对数 的底 2.7182;μ是 大于 0的常数 ,被称为 Poisson分布 的参 数 。Poisson分 布 只有一 个参数 μ。 这个参 数既是 Poisson分布 的 总体 均数 ,又 是分 布 的总 体方 差,不 同的 μ对 应 于不同 的 Poisson分 布。 思考与练习 1.请就 SPSS自带 数据 Employeedata.sav,分 析员 工 的性别 、受教育 程度、少数民族 、职 位类 别 的分布 情况,并 尝试分 析这些 属性之 间的关 系以及 这些属 性和工 资之间 的关系 。 2.请就 SPSS自带 数据 1991U.S.GeneralSocialSurvey.sav,分 析 健康 问题 (对应 的变 量为参考 文献 111             hlth1~hlth9,为多 选题)的 分布情 况。 参考文献 1 吴 喜之主 编.统 计学基 本概念 和方法 .北京:高等教 育出版 社,2003 2 杨 树勤主 编.中 国医学 百科全 书· 医 学统计 学分册 .上海:上海科 学技术 出版社,1982 3 杨 树勤主 编.卫 生统计 学.第三 版.北 京:人民 卫生出 版社,1995 4 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002          112   第 6章  数据 的报表 呈现(上 ) 第 章 数据的报表呈现(上) 6.1 SPSS报表概述 6.1.1 SPSS中的报表功能 通过 前面第 4、5章 中对变 量统计 描述的 学习,大 家已 经 能 够对任 意类 型 的资 料自 由地 进行 汇 总描述 了。但 是,这只 是说大 家已经 懂得了 如何将 所需要 的统计 指标计 算出来 ,在最终 的分析 报 告中,相 应的描 述指标 往往是 用排列 整齐的 统计表 格加以 呈现的 。如何 能高效 、快捷地 将数据 内 涵呈现 出来已 经成为 分析工 作中非 常重要 的一个 环节。 统计分 析共分 统计描 述和统计 推断两 大 部分,其 中统计 推断完 成的是 深层次 的工作 ,挖掘 的是数 据内在 的联系 。但人 们需要将 军也需 要 士兵,许 多时候 简单明 确、按 照相应 的要求 对数据 进 行 列表 描述也 是 非 常重 要 的。正 因如此 , 几 乎所有 的电子 表格软 件、数据 库软件 和统计 软件都 提 供了 强大 的 报表 功能 ,如 Excel宏中 的报 告 管理器 、FoxPro中的水 晶报表 等。作 为功 能 非 常完善 的统 计 软 件,SPSS也 提 供了 非 常 强大 的 统 计报表 功能,目 前在 SPSS的 各个模 块中,除 Base已 具有非 常完 善 的 统计报 表功 能外 ,还 提供 了 OriginalTables和 Custom Tables这 两个模 块用于 生成更 为专业 的统计 报表。 1.Base模块 SPSS的 Base模 块已经 为用户 提供了 非常 完 善 的统 计 报表 功能 ,除 涉及 到 统计 描 述 的多 个 过 程可以 生成各 种描述 统计量 的基本 报表外 ,还在 Reports子菜 单和 MultipleResponse子菜 单中 提 供了专 用的统 计报表 功能。 (1)Reports子菜 单:主 要针对 定量资 料产生 记录报 表,同时 可计 算 一些简 单的描 述 统计量 , 其 中的 OLAP过 程可以 为数据 库生成 数据立 方体,进行全 方位的 数据透 视。CaseSummaries过程 则 主要对 记录进 行汇总 ,它不仅 可以 分 组 计算 描 述 统计 量 ,还 可以 给出 详 细 的 记录 列表;Report SummariesinRows/Columns过 程 可 以 对 输 出表 格 进 行精 细 定义,以 满足 用 户 的 各种 苛 刻 要求 。 相 比之下 ,用它们 生成商 用报表 是最合 适的。 但 是,这 两个 过 程生 成 的 报表 均 为纯 文本 ,如 果还 需 要在生 成报表 后进行 编辑加 工,则它 们并不 合适。 (2)MultipleResponse子菜 单:专 门为多 选题数 据的描 述而设 计,提供 了设置 多选题 变量集 , 生 成多选 题频数 表和交 叉表的 全部功 能。但 是,它生 成的结 果也是 文本格 式,同 样不适用 于需要 进 行编辑 加工,或 者对报 表美观 程度要 求非常 高的情 况。 由于 上述的 这 些 过 程 中 ,几 个 基 本 制 表 过 程 的 操 作 并 不 特 别 复 杂,而 功 能 较 强 的 Report6.1 SPSS报表 概述 113             SummariesinRows/Columns过 程 生 成 的 又 是纯 文 本 格式 的 报表,不 能使 用 许 多 高级 编 辑 功能 。 因 此本书 将不再 对上述 过程进 行详细 讲解,仅 仅是在 涉 及到 统 计分 析 功 能的 时 候加 以 介 绍。如 果 读者对 这些过 程的功 能感兴 趣,希 望 作 进一步 了解 的 话,可以 参 见笔 者 前 作《SPSS11统计 分 析 教程》(基 础篇)中 的相关 章节,也 可参考 SPSS的用户 手册。 2.OriginalTables模 块 该模 块在 SPSS11版中被 称为 Tables模 块(见图 6.1),现 为和 下文提 到的 Custom Tables模 图 6.1 Tables子菜单 块 区分而 改为现 在的名 称。它 实际上 对应 编程 操 作中 的 Tables 语 句,是 SPSS专 门为生 成 出版 级 报 表而 设 计的 模 块,可 以 针 对 各 种要求 产生复 杂的多 层或嵌 套表格 。由于 生成的 相应报 表为 SPSS表 格格式 ,因此 可 以在 其 中使 用格 式设 置 、模 板 等高 级 功 能 ,更加符 合专业 报表的 需求。 在 SPSS的菜 单 结 构 中 ,OriginalTables模 块 对 应 了 Tables 子 菜单的 后 5项,其 中 MultipleResponseSets用 于设 定 多 选 题 变 量集,而 后 4项 则分别 用于生 成不同 复杂程 度和用 途的表 格, 详 见后面 相关章 节。 3.Custom Tables模块 是从 SPSS11.5版起新 增加的 一个模 块,实际 上对应 编程操 作中的 CTables语句,在 SPSS的 菜 单结构 中则对 应了 Tables子 菜单的 第一项 。和已 有的 OriginalTables模 块相比 ,它不仅 功能更 为 强大和 灵活,而 且还提 供了完 全交互 式的操 作界面 ,使用 上更为 方便、快 捷,详 见下一章 。 6.1.2 报表的基本绘制步骤 如果 只是绘 制一、二 个比较 简单的 报表,则在操 作 上并 无 太多 要 点 需要 注 意,只需 要找 到能 够 满足相 应需求 的过程 ,然 后 将 表 格设 置 正 确即 可 完成。 但是,大 多数 实际 任 务要 比 这 复杂 得 多 ,有可能 有数十 张甚至 上百 张 特 定 格式 的表 格 需 要绘 制 ,而 表格 的复 杂程 度 又超 出 常 见的 范 围 。此时 使用 SPSS制表 时一般 不会一 次到位 ,而 是一 个 由简 入繁、循 序 渐进 的 过程。 初学 者往 往 希望通 过对话 框的设 置一次 将全部 所需选 项设定 完毕,但 这恰恰 会导致 事倍功 半。为 此,有必 要 给出常 用的制 表步骤 如下: (1)确定所 需绘制 表格的 基本结 构,如行 、列元 素 都由 什 么构 成 ,是否 在 表格 中会 出现 多个 元 素的嵌 套,有多 少种汇 总,是 否出现 了嵌套 汇总等 。 (2)使用对 话框绘 制表格 的基本 结构。 这里不 要拘泥 于单元 格的格 式设置 或者统计 量是否 选 择完全 这些细 节,也不 要去考 虑标题 、脚注 等次要 问 题,而 是 要将注 意力 集 中在 是否 已经 得到 了 所需表 格的结 构上。 如果结 构还不 相同,则 继续修 改直至 完成。 (3)对细节 进行完 善,包括 每个具 体统计 量的输 出 格式 、汇总 项 的 输出 位 置等,使 得至 少其 中 一部分 单元格 的输出 格式已 符合要 求。 (4)添加其 余变量 、统计量 到表格 中来,使表格 中的内 容满足 相应问 题的需 求。          114   第 6章  数据 的报表 呈现(上 ) (5)对表格 中的文 本进行 修饰,包 括标题 、统计 量标签 、变量名 和变量 值标签 等。 (6)最后一 次审核 所绘制 的表格 ,考虑有 无需要 改进之 处。 (7)生成相 应的表 格,并将 其格式 存为模 板,供 后续任 务使用 。 本章 和下一 章的内 容就将 按此顺 序编排 ;下一节 讲解表 格的基 本结构 ;随后 具体讲解 在最常 用 的 OriginalTables模块 中表格 中各项 功能的 实现方 式;下 一章的 第一节 则讲解 表格的各 种编辑 功 能,以使 读者能 做到对 表格进 行自 由 编辑;而 对应 于(7)的模 板功 能则 紧 随 编 辑功 能 讲 解,全 部 内容正 好构成 一个完 整的表 格实现 步骤。 6.2 表 格 入 门 除个 别的文 本输出 外,SPSS的 分析结 果主要 以统 计表 格 的形 式出现 。 但是,SPSS生成 的这 种 表格并 非如大 家表面 上看到 的 那 样是 一 个简 单 的 二维 表 格,而是 一种 拥 有 数 据透 视 、数据 旋 转 、格式变 换等多 种强大 功能的 交互式 表格,因此,它 被称为 PivotTable,意为 枢轴表 。 6.2.1 表格的基本框架 在 SPSS的表 格操作 中,行 、列、层 是非常 重要,且 经 常用 到 的三 个 概 念。 它们 实际 上都 是表 格 的一个 维度,所 谓行(Row)指的是 形 成表 格 横 行的 元 素,而列 (Column)指 的 是形 成 表 格纵 列 的 元素。 行、列元 素相交 就会形 成一个 最简单 的 二维 表,行、列 元素不 同取 值 的组 合就 确定 了一 个 单元格 (Cell)。 与行 、列的概 念相比 ,层(Layer)的概 念 稍 微复 杂 一些,它 指的 是 表 格中的 第三 个维 度,大家 不 妨把此 时的表 格想像 成一个 立方体 ,行、列 、层就对 应了该 立方体 的长、宽和高 。由于屏 幕上能 够 直接展 示的只 能是二 维表,因 此 在 三维 表中,使 用者 能 够 直 接观 察到 的只 能 是三 维 表 中的 一 层 ,而其余 各层被 隐藏在 所观察 到的层 背后,无法同 时看到 。 需要 注 意的 是 ,表格 中 的元 素 和 所说 的 变量 并 不 相同,它 既可能 是一 个 分类 变量 的不 同取 值 ,也有可 能是一 个变量 组,还 可能是 一个统 计量组 。 也就 是 说,表格 中的 一 个维 度可 以由 多个 变 量联合 构成。 为了能 够使大 家更为 清楚的 理解上 述 概 念,现 以分 析 实 例做 进 一步 说 明。 数据 文 件 Cars.sav中 的变量 origin大家 已非常 熟悉,现 使用 frequency过 程做出 其频数 表(见表 6.1)。 表 6.1 CountryofOrigin6.2 表格 入门 115             这就 是一个 最简单 的二维 表,为了 能够观 察到 表 格 内部 的 结构,在 结果 窗 口中 双击 该表格 , 图 6.2 与频数表相应的表格托盘 则 会进入 表格编 辑模式 。选择 菜单 Pivot→ PivotTrays,此 时 出 现如图 6.2所 示 的 表格 托 盘,该 托 盘 显 示 的 就 是 当 前 表 格 的框架 结构,每 一个表 格都 有 行、列、层三维 ,请 注意 形 如 “ ”的 图 标,它 代 表 的 就 是 一 个 表 格 元 素 。 现 在 可 见 在 行 、列上都 有元 素 出 现,如 果 将图 标 放在 行 元 素上,则 弹 出 标 签“CountryofOrigin”,说明该 表格的 行元素 就是变 量 ori- gin。 而列元 素 的 标 签 则 为 “Statistics”,说 明 列 元素 为 统 计 量 组(具体 统计量 为 表格 中 见到 的频 数、百 分 比 等)。 而 在 层 上无表 格 元 素 出 现 ,说 明 该 表 格 为 一 个 简 单 的 二 维 表。 现 在请大 家将表 格 结 构和 前 面的 表 格输 出 相 对应,应 当 更 容 易理解 相应的 这些概 念。 表格 托盘除 了显示 表格结 构外,还 可以直 接进行 表格透 视方向 的旋转 ,例如 用鼠标选 中列元 素 “Statistics”的图标 ,按下 左键将 其拖 动 到 层元 素 位 置上 ,则表 格会 立刻 发 生 相 应的 变 化,原 先 的 分列取 消,在表 格最上 方则 出 现 “Statistic”下拉 列 表,这 实 际上 就对 应了层 元素 的设 置。默 认 显 示的是 统计量 组的第 一项“Frequency”所 对应 的结 果。使 用 者也 可 以单 击 下 拉列 表 右 侧的 下 拉 按钮,选 择所需 要的统 计量层 。如图 6.3所 示。 图 6.3 使用托盘将列元素转换为层元素 图 6.4则显 示了将 行元素 拖放到 层上时 的情形 ,对照前 面的讲 解,应 不难理 解。 图 6.4 使用托盘将行元素转换为层元素          116   第 6章  数据 的报表 呈现(上 ) 6.2.2 表头、数据区与汇总项 在了 解了表 格基本 框架后 ,现在将 基本框 架 和具 体 的表 格 内容 对 应 起来 。任 何一 个二 维表 格 的第一 行、第一 列就对 应了行 、列中 具体的 元素取 值 ,就是 前 述的 表 格 框架 ,因此 第一 行、第一 列 也被称 为表头 。由于 在 SPSS的表格 中实际 上行、列 是没 有 本质 区 别 的,因 此这 里的 表头 和一 般 所称之 包括第 一行的 表头概 念不同 ,需要注 意区别 。 除表 头之外 ,剩余表 格部分 均是由 行、列 元素相 交而成 ,用于给 出相应 的数值 ,这些部 分被统 称 为数据 区。区 分表头 和数据 区非常 重要,因 为它们 的格式 设置、操控方 式等均 完全不同 。 数据 区也可 以作进 一步的 细分,例 如在上 述频 数 表 中,除 了各 类 别 以外,行元 素中 还出 现了 汇 总项。 在 SPSS的表格 中可以 出现行 合计、列合计 、层合计 项,对 于叠加 表、嵌套 表等表 格类型 , 还 可以有 亚组合 计等更 细的合 计方式 出现。 6.2.3 单元格的数据类型 在某 种程度 上,报表 制作中 用户能 对变量 所进行 的呈现 方式完 全取决 于该变 量的测 量尺度 。 在 报表中 变量的 测量尺 度被简 单而明 确地分 为两大 类:分类 变量和 连续变 量。 1.分类变 量 包括 了名义 型和有 序尺度 两大类 ,它们在 报表制 作中并 不加以 区分。 对于分 类变量 ,原始类 别 频数和 构成百 分比是 最常用 的描述 指标。 但其中 的 百分 比 和具 体 的 计算 方 向相 结合 ,又 形成 了 许多更 细化的 指标,如 行百分 比、列 百分比 、层 百分 比 和总 表 格百 分 比。 在 存在 缺失 值的 情况 下 ,又可按 照合计 数中是 否包括 缺失值 而出现 了 有效 例 数、行 有效 例 数 百分 比 、列 有效 例数 百分 比 、层有效 例数百 分比、表格有 效例数 百分比 等新的 组合。 2.连续变 量 包括 间距尺 度和比 率尺度 两大类 ,同样在 报表制 作中不 加区分 。相对 而言,连续变量 在报表 中 可供使 用的统 计指标 要比分 类变量 丰富得 多,包括 了大家 在前面 学习过 的各种 集中趋 势、离散 趋 势指标 。为此 分述如 下: ① 集中趋 势指标 :均数 、中位数 、众数 、最大值 、最小 值。 ② 离散趋 势指标 :全距 、标准误 、标准 差、方差 。 ③ 百分位 数:第 5、25、75、95、99百分 位数及 任意指 定的百 分位数 。 ④ 百分比 :按相 应合计 方向当 前变量 的行、列 、层、表 格合计 百分比 。 ⑤ 其他:例数、有 效例数 、总和 等。 3.汇总项 汇总 项的情 况类似 于普通 单元格 ,其数据 类 型仍 然 只有 以 上两 种 。但 是 除默 认使 用被 汇总 单 元格的 统计指 标外,还 可以自 定义不 同的汇 总 项统 计 指标 ,例如 各 分 项列 出 频数,而 汇总 项则6.2 表格 入门 117             使 用某一 个指标 的均数 ,如表 6.2所示 。 表 6.2 特殊的合计方式示意 6.2.4 几种基本表格类型 在熟 悉了表 格的基 本结构 和常用 术语后 ,下 面来 了 解一 下 几种 常 见 的表 格 类型。 需要 指出 的 是,虽然 下面的 例子中 几乎都 是类别 频数的 描述,但这些 表格中 也完全 可以给 出其他连 续变量 的 描述指 标。 1.叠加表 (Stacking) 叠加 表指的 是在同 一张表 格中对 两个变 量进行 描 述,或 者 说表格 中有 一 个维 度的 元素 是由 两 个以上 的变量 构成。 叠加表 其实可 以被简 单的理 解 为为 每 个变 量 分 别绘 制 两个 简单 的报表 , 然 后将它 们拼接 到一起 ,如表 6.3所示 的叠加 表就 是 在一 张 表 格中同 时给 出 了汽 车产 地和 气缸 数 的信息 。连续 变量也 可被放 在叠加 表中,如 前面学 习过的 Descriptive过程,如 果同时 计算 多个 变 量,则实 际上其 结果就 是一个 叠加表 。 虽然 “叠加”在 字面含 义上是 纵向 拼接 的 意思 ,但 也存 在横 向拼 接的 叠 加 表,在 学 习 了表 格 基 本框架 后,这并 不难理 解。 表 6.3 叠加表示意 2.交叉表 (Crosstabulation) 交叉 表十分 常见,是 观察两 个分类 变量间 联系时 最常用 的表格 技术,它的两 个维度都 是由分 类 变量的 各类别 (及汇总 )构成,如 表 6.4显示 了气 缸数 和 汽车 产地 间 的关 联 ,显然 8缸 的汽 车 全 部产自 美国。          118   第 6章  数据 的报表 呈现(上 ) 表 6.4 交叉表示意 3.嵌套表 (Nesting) 表 6.5 嵌套表示意 类似 于交叉 表,嵌套 表也可 以用于 显示两 个分 类 变 量间 的 联系,但 是在 嵌 套表 中,这两 个变 量 被放置 在同一 个表格 维度中 ,即该维 度是由 两个变 量 的各 种 类别 组 合 构成 。如 下面 的例 子仍 然 显示的 是产地 和气缸 数不同 组合下 的频数 ,(如表 6.5所 示 )但 此时 这两 个变 量 都被 放置 在行 上 。显然 ,如果要 观察产 地和气 缸数间 的联系 ,嵌套 表并不 如交叉 表直观 。但是 当每个单 元格内 需 要呈现 的统计 指标非 常多时 ,嵌套表 更为美 观和紧 凑。 4.多层表 (Layers) 如果 指定了 层元素 ,则表格 就由二 维扩展 到了三 维,即多 层表。 事 实上,多层 表和 嵌套 表也 非 常的类 似,只是 现在只 能每次 观察到 其中一 层的数 据而已 。在数 据仓库 技术中 ,多层表 也被称 为 数据立 方体,在 前面学 习表格 的基本 框架时 大家已 经见到 了几张 多层表 ,因此 这里不再 给出具 体 的实例 。 5.复合表 格 以上 给 出的 只 是 最简 单 的几 种 表格 类 型,在 实 际 的工作 中,这些 表格 类 型还 有可 能互 相组 合 ,以更好 的达到 相应的 分析目 的。比 如叠加 -交叉 表(一 个 维度 是分 类变 量 ,另 一个 维度 则是 两 个分类 变量的 叠加)、嵌 套 -交 叉表 (一 个 维度 是 分类 变 量,另 一 个维 度则 是 两个 分 类 变量 的 嵌 套)等。6.3  用 OriginalTables模块 制表 119             6.3 用 OriginalTables模块制表 6.3.1 功能简介 如前 所述,OriginalTables模块 是 SPSS专门为 生成出 版级报 表而设 计的模 块,它能 同时 处理 定 量资料 和分类 资料,以 清晰、高效的 方式展 示复杂 的 分析 结 果,针对 各种 要 求产 生复 杂的 多层 或 嵌套表 格。同 时,它对 多选题 和缺失 值提供 了强有 力的支 持,可 以自动 为多选 题计算出 各种百 分 比,并能 为不同 变量的 缺失值 同时给 出准确 的报告 。 OriginalTables模 块实际 上在程 序级别 中只对 应了 Tables这 一个语 句,但是 根 据用 户的 使用 需 求,它在 Tables子菜单 上则被 分为了 5个过 程,依次 介绍如 下: (1)MultipleResponseSets:用 于在制 表过程 中设定 多 选题 变 量集,其功 能和 用法 与 Base模 块 的 MultipleResponse子菜 单中的 相应功 能 完 全相 同,因 此 这 里不 再 详 细介 绍。但 是 需 要指 出 的 是,在这 里设置 的多选 题变量 集可以 在随后 的各个 专用制 表过程 中使用 ,并且 能够被存 储在数 据 集中。 显然使 用上要 更为方 便。 (2)BasicTables过程:该过程 可对分 类 资料 或 者 定量 资 料进 行 各 种复 杂 格 式的 描 述,虽 然 它 名为 BasicTables,但实际 本身的 功能就 已经非 常强大 ,足以满 足大多 数情况 下的需 求。 (3)GeneralTables过 程:是这 些菜单 项中功 能最为 全面、强 大的 一 个,可以 在 同一 张表 格内 同 时对分 类资料 、连续资 料和多 选题数 据进行 汇总。 (4)MultipleResponseTables过程 :专门 为多选 题数据 设计的 制 表过 程 ,可 以被 看作是 Gen- eralTables过 程的特 定简化 。 (5)TablesofFrequencies过程:专 门用于 分类变 量的频 数描述 ,可以 在同一 张表格 中对 多个 分 类变量 同时输 出频数 表,可以 被看作 是 BasicTables过程 的特定 简化。 在后 4个用 于指标 的过程 中 ,由 于 MultipleResponseTables过 程和 TablesofFrequencies过 程 用途非 常简单 ,而相关 操作和 选项也 和前面 的 两个 过 程完 全 相同,因 此这 里 不再 专门 介绍,而 是 重点介 绍前两 个更为 全面和 强大的 功能。 6.3.2 BasicTables过程 本节 将借用 一个简 单的表 格实例 来介绍 一下 BasicTables过程 的基本 操作。 例 6.1  请对数 据文件 Cars.sav中 的 汽 车数 据 分不 同 的 产地和 气缸 数 计 算 其引 擎 功 率、引 擎 重量的 频数和 均数,用 适当的 报表形 式给出 ,并要 求给出 类别合 计。 1.表格框 架的设 定 在本 例中,用 于绘制 报表的 分类变 量共有 两个:产 地和 气 缸数,在 这两 个 变量 的每 种组 合单 元 格中,又 需要分 别给出 引擎功 率和重 量的描 述统计 量。为 了使得 整个分 析过程 更加系 统,这里          120   第 6章  数据 的报表 呈现(上 ) 将 按照前 述报表 的基本 绘制步 骤来分 析此问 题。首 先来确 定报表 的基本 结构。 由于这里 出现了 两 个分类 变量,而 表达两 个分类 变量间 关联的 最简便 和常用 的表格 结构就 是交叉 表,因此 这里首 选 使用交 叉表结 构。产 地、气缸 数分别 构成了 表 格的 两 个基 本 维度。 在这 两 个分 类变 量所 构成 的 每一个 单元格 中,都需 要给出 引擎功 率和重 量的描 述 统计 量 。即单 元格 需 要进 一步 设置 为相 应 变量的 描述指 标。 图 6.5 BasicTables主对话框 下面 开始在 BasicTables过 程中进 行相应 的设 置 ,其主对 话框 如图 6.5所 示。 事实 上,这个 对 话框和 前述表 格的基 本结构 是 完全 相 对 应的 ,Down框 对应了 表格 的 行,Across框 对 应 了表 格 的 列,而 SeparateTables框则 对应了 表格的 层。这 三 个维 度 确定 后 ,表格 的 基 本 框架 就 确 定了 , 而 如果在 同一个 维度中 选入了 多个变 量,最下 方 的单 选框 组 可 以帮助 确定 是 绘制 嵌套 表还 是叠 加 表。对 话框最 上方的 Summaries则对 应 了 具体单 元格 的 设 置。根 据前 面 所 确 定的 表 格 框架 , 可 以很容 易地做 出相应 的选择 ,最终选 择完毕 后主对 话框即 如图 6.5所示 。按照 上述的 操作,则 得 到的表 格如表 6.6所 示。 表 6.6 基本框架设定完毕后的表格6.3  用 OriginalTables模块 制表 121             显然 ,该表格 的框架 就是所 希望绘 制的表 格框 架 ,产地 和 气缸 数 交 叉形 成 了单 元格 ,而 每个 单 元格又 分别由 两行构 成,代表 了对两 个连续 变量的 描 述。 由 于在操 作中 没 有制 定相 应的 统计 指 标,因此 表中给 出的是 连续变 量默认 的统计 量——— 均数。 2.统计量 的添加 与格式 设置 下面 考虑对 表格做 进一步 的细化 ,现在表 格中的 统计量 为连续 变量默 认的均 数,但是 本例中 不 仅希望 得到均 数,还希 望能给 出相应 的频数 ,因此 必须要 对相应 的统计 指标做 进一步定 义。相 应 的操作 应当在 Statistics子对 话框中 进行,如 图 6.6所示。 图 6.6 Statistics子对话框 该对 话框可 被大致 分为上 下两半 ,左上侧 列出了 所有可 用的统 计量,需要指 出的是这 里并未 将 分类变 量和连 续变量 可用的 统计量 分开列 出,而是 放 在了 一 起以 便 于 用户 操 作。右 上侧 则用 于 选入希 望计算 的统计 量,本例 中选择 了 Count和 Mean两 项。整 个对话 框的下 半部都 是用 于对 相 应的统 计量作 进一 步设 置。其 中左 下侧 最上 方 的 Percentilecutpoint框 用于 在 选 中 Percentile 统 计量时 进一步 确定分 界百分 位点,下 方的 Format框和 Label框则用 于设 定 统计 量的 输出 格式 和 标签。 对话框 右下侧 的 SortingbyCellCount框组用 于选择 是否按 照 单元 格 中的 频数 排序,默 认 不排序 ,可更改 为升序 或降序 排列。 如果 只选入 两个统 计量,不 作任何 设置的 话,则 最后输 出的表 格如表 6.7所 示。 下面 来 考 虑对 统 计量 的 格 式 进 行 设 定 ,引 擎 重 量 在 原 始 数 据 中 都 是 整 数,因 此 在 表 格 中 计 算 的均 数 其默 认 格 式也 是 整 数。 但 是 为 了 使 数 据 更 为 准 确,用 户 希 望 保 留 一 位 小 数,则 需 要 对 均数 的 输出 格 式 进 行 设 定 。 在 Statistic子 对 话 框 中 选 中 Means统 计 量,可 以 看 到 Format 下 拉 列表 默 认 选 择 的 格 式 是 Automatic,意 为 自 动 继 承 数 据 中 变 量 的 格 式 设 置。 将 其 改 为 ddd.dd,可 见 下方 默 认 为 7.0格式 ,即 7位 长 度,无 小 数 。将 小 数位 数 更改 为 1,再 单击 Change 按 钮 ,该更 改 即生 效 。 重新 输 出相 应 的 表格 ,结 果如 表 6.8所 示 ,可见 均 数都 被 更 改 为 了 一 位 小 数 的输 出 格式 。          122   第 6章  数据 的报表 呈现(上 ) 表 6.7 选择统计量后的表格 表 6.8 统计量格式设定完毕后的表格 3.添加汇 总项 题目 中要求 在表格 中加入 类别合 计,即汇 总项。 该任务 需要在 Totals子对 话框中 完 成,见图 6.7(a)。可 见共有 两种汇 总方式 ,Totalsovereachgroupvariable要求给 出每一 亚组的 汇 总结果 , 而 Table-margintotals则为 表格的 每一个 维度生 成汇总 结果,但 缺 失值 不 纳入 汇 总分 析 。在 本例 中 ,由于每 一个维 度就是 由一个 变量构 成,因 此这两 个 汇 总方 式结果 完 全 等价 。这 里使 用前者 , 结 果如表 6.9所 示(因表 格太长 ,截去了 最右侧 的汇总 输出,下同)。6.3  用 OriginalTables模块 制表 123             表 6.9 加入汇总项后的表格 4.空单元 格的格 式设置 在前 面的表 格输出 中,空单 元格 代 表无 记 录 的情况 ,相应的 统计 量 (均 数)也用 小 数 点表 示 缺 失。如 果希望 对空单 元格进 行输出 格式制 定,则应 当在 Format子对 话 框中进 行,如 图 6.7(b) 所 示。上 侧的 EmptyCellAppearance单选框 组用于 选择无 频数单 元格的 表示方 式,默认 为空,可 改 为用 0表示。 下侧的 Missingstatisticsappearas框 则 选择 对 缺 失 值 的 表 示 方 式 ,默认 为 小 数 点 ,可更改 为 10个字符 长度内 的任意 字符串 。本例 中 如果 将 空 单元 格 的频 数 更改 为用 0表示 , 则 结果如 表 6.10所示。 (a)                           (b) 图 6.7 Format与 Totals子对话框 5.添加标 题与说 明文字 对于 复杂的 表格,标 题、脚注 等都是 常用 的 注解工 具,这需 要在 Titles子对 话框 中实 现,如图 6.8所 示。该 对话框 用于定 义输出 页的标 题、脚注 的内 容 和格 式 。其 中 Title框用 于定 义表 格标 题 ,最多可 以定义 10行 。Caption框 :用于 定义表 格脚注 ,可在其 中使用 date关 键字,用 于添 加当          124   第 6章  数据 的报表 呈现(上 ) 前 日期。 而最下 方的 Corner框用 于设定 表格最 左上角 单元格 中 显示的 文本,最 多 可定 义 10行 , 如 果显示 不全,系 统会自 动调整 表格大 小以放 下全部 内容。 表 6.10 设定空单元格格式后的表格 图 6.8 Titles子对话框 6.标签排 列格式 的调整 在前 面制作 的表格 中,默认 将不 同 的 变量 分 行显 示 ,而将 不 同的 统 计 量 分列 显示,如 图 6.9 所 示的 Layout子对 话框则 可以对 此进行 更改,它用 于设 定各 种 标题 /标 签的 显 示方式 。 Summary VariableLabels和 StatisticsLabels单 选 框 组 分 别 用 于选 择 汇总 变 量 标 签 /统 计 量 标 签的 显 示 方 式 ,均有左 侧、顶 部和分 不同表 格输出 三种选 择。而 如 果将它 们 选择 为 同一 方向 显示 (如均 在左6.3  用 OriginalTables模块 制表 125             侧 ),则还可 使用下 面的 GroupsinSummaryVariableDimension单选框 组确 定 究竟 是将 汇总 变量 置 于各亚 组之下 ,还 是 将 分 组 变 量 置 于 汇总 变 量之 下 。 最下 方 的 Labelgroupswithvaluelabels only复选 框则可 以省略 各亚组 的变量 名标签 ,只输 出 相 应的 变 量值 标 签。 因 现在 绘制 出的 表格 过 长,在本 例中可 以考虑 使用该 选项以 缩小表 格。 图 6.9 Layout子对话框 7.最终绘 制完成 的表格 本例 最后完 成的表 格如表 6.11所 示,可 见除原 变 量值 标 签外,统 计量 标 签和 汇总 标签 均换 成 了汉字 ,以便于 阅读。 大家可 以自行 尝试在 SPSS中绘制 该表格 ,如结果 完全相 同,则说 明 Bas- icTables过程的 操作已 基本掌 握了。 表 6.11 简单表格制作实例          126   第 6章  数据 的报表 呈现(上 ) 6.3.3 GeneralTables过程 通过 前 面 的学 习 ,大家 可以发 现 BasicTables过 程 已 经 为 用户 提 供 了 非 常强 的 制 表 能 力 , 但 是 在许 多 更复 杂 的 任务 中 它的 功 能 可能还 不 够完 善 ,比如 刚 才在 计 算 汇 总 时是 对 所 有 分 类 都 进 行汇 总 ,而如 果 用 户只 需 要对 产 地 进行 汇 总,则 它 是无 法 做 到 的 。除 此 以 外,BasicTables 过 程 只能 分 别对 定 量 资料 或 分类 资 料 进行汇 总,如 果 用 户想 在 同一 张 表 格 内 同时 对 这 两 种 资 料 进 行汇 总 ,它就 无 能 为力 了 。更 为 关 键 的 是,该 过 程 不 支 持 对 多 选 题 数 据 的 分 析 ,而 多 选 题 在 许多 领 域 中 是 非常 常 见 的 。 为此 ,SPSS又提 供 了 更 加 强 大 的 GeneralTables过 程,它 的 制 表 能力 比 BasicTables过 程 更 加 大 大 提 高 了 一 步,基 本 上 已 可 以 满 足 绝 大 多 数 报 表 生 成 任 务 的要 求 。 当 然 ,它 在 使用 上 选 项 也 稍多 些 ,但 有 了 上 一 节 打 下 的 基 础 ,朋 友 们 掌 握 它 并 非 难 事。 为了 便于大 家学习 ,这里仍 然使用 上 一节 中的 分析 实 例,来 看 一下 在 GeneralTables过 程这 种 表格是 如何实 现的。 1.表格框 架的设 定 和前 面相同 ,绘制表 格时首 先需要 确定的 是表格 框架,这里直 接使用 上一节 中的表格 框架结 构 ,在 GeneralTables过 程中实 现该框 架的相 应操作 如下: Analyze→Custom Tables→ GeneralTables Rows框:cylinder、horse、weight 选中 horse:>Nest& SelectedVariable:issummarized 选中 weight:>Nest& SelectedVariable:issummarized Columns框:origin OK 操作 完毕后 的主对 话框如 图 6.10所 示,显 然 ,GeneralTables过 程的 主 对 话 框要 复 杂 得多 , 但 并非无 规律可 循。首 先,对话 框中部 的 Rows、Columns和 Layers框 和 以前 相 同,仍然 代表 了表 格 的三个 基本维 度。但 略 为特 殊 的是 在 Rows框 中 ,需 要 加 以 统计 的 连 续 变 量也 被 选 入 了,这 意 味 着两 个 连续 变 量 将分 行 输 出。 这 样 做 就 需 要 能 对 被 放 置 在 同 一 维 度 中 的 多 个 变 量 间 的 关 联 进行正 确的 设 定 ,这 全 部 都由 右 侧的 SelectedVariable框 组实 现 。它 最 上 部的 变 量类 型 单 选 框 组用 于 确定 所 选 中 的 变 量 是 分 类 变 量 (用 于 生 成 单 元 格 )还 是 连 续 变 量 (用 于 计 算 统 计 量 );中部的 OmitLabel则 控 制 是 否 在 结 果 中 输 出 相 应 变 量 的 变 量 名 标 签;随 后 的 >Nest与 UnNest<按钮组 用 于 选择 和更 该 变 量 间 的 组 合 方式 ,Nest意 为 嵌 套 输 出 (嵌 套 表 ),而 UnNest 意 为 叠加 输 出 (叠 加 表 )。 在 本 例 中 将 两 个 连 续 变 量 嵌 套 在 cylinder下 ,实 际 上 就 是 要 求 分 cylinder计 算其统 计量 。 如果 按照上 述操作 ,则最终 得到的 表格如 表 6.12所示 。6.3  用 OriginalTables模块 制表 127             图 6.10 GeneralTables主对话框 表 6.12 基本框架设定完毕后的表格 2.添加汇 总项 在得 到了表 格的框 架后,其 余大多 数操作 就和 BasicTables过 程 基 本相 同 了,现在 只是 来讲 解 一下操 作不相 同的添 加汇总 项。首 先需要 明确的 是,表格 汇总项 都是针 对分类 变量而 言的,不 能 对连续 变量再 添加汇 总项。 其次,添 加汇总 项使 用 的是 SelectedVariable框 组中 的 InsertTotal 按 钮,其下 方的 TotalLabel框则 可以更 改相应 汇总栏 的标签 。例如 在本例 中,如 果选 中 cylinder, 则 单击 InsertTotal按钮 后会在 Rows框 的最下 面增加 一项 cylinderTotal,表明对 不 同气 缸数 进行 汇 总,而具 体汇总 的指标 则和前 面的单 元格 相 同,都是 功率 和 引擎 重 量的 统计 量。显 然,在 Cus- tom Tables过程中 ,不同分 类变量 的汇总 可以完 全独立 进行,使用上 更加自 由了。          128   第 6章  数据 的报表 呈现(上 ) 值得 指出的 是,在 Custom Tables过程 中的汇 总项可 以使用 和被汇 总单 元格 完 全不 同的 统计 量 ,比如单 元格输 出样本 构成比 ,而汇 总 栏输 出 样 本量 。 相应的 统计 量 是在 SelectedVariable框 组 中的 EditStatistics子 对话框 中定 义,对 于普 通 的 变量 和 单元 格 ,该对 话 框 实 际 上 和 BasicTa- bles过 程的 Statistics子对话 框完全 相同,但 是对于 汇总项 而言则 界面有 所区别 ,如图 6.11所示 , 可 见默认 情形下 汇总栏 使用和 单元格 相同的 统计量 ,只需 要 将 单选框 组改 为 下方 的自 定义 统计 量 ,就可以 自由定 义汇总 项使用 的统计 量了。 图 6.11 TotalStatistics子对话框 3.其他设 置 虽然 功能要 复杂得 多,但实 际上 GeneralTables过程中 的绝大 多数功 能都是 能够和 BasicTa- bles过程 相对应 起来的 ,这里 将上文 中未涉 及到的 部分一 一列举 如下: (1)StatisticsLabelsAppear单 选 框 组:用 于 选择统 计量 标 签的 显示 方式。 显 然,它 和 Basic Tables过程中 layout子对话 框的部 分功能 是相同 的。 (2)SelectedVariable框组中 的 EditStatistics子对 话框:用 于 对选 中 的变 量具 体定 义需 要计 算 的汇总 指标,其 功能和 BasicTables过程中 的 Statistics子 对话框 相同,但 是,针 对所选中 的行变 量 是分类 、计量还 是多选 题变量 集,该 对话框 中可用 的统计 量均不 相同,分 得更清 楚一些 。 (3)MultResponseSets子 对话框 :实际 上就是 菜单上 的 MultResponseSets过 程,用于 确定多 选 题变量 集,该变 量集定 义可保 存在数 据文件 中,也 可 在所 有 制表 过 程 中通 用 ,但 在其 他过 程中 无 效。 (4)Format子对话 框与 Titles子对话 框:这两 个子 对 话框的 内容和 BasicTables过 程 中完全 相 同。 通过 适 当的 设 置 后,就 可以 得 到 和上 一 节完 全 相 同的表 格输 出 ,这里 不 再重 复给 出分 析结 果 。6.3  用 OriginalTables模块 制表 129             4.复杂分 析实例 下面 来看一 个较复 杂的报 表实例 ,以向大 家展示 Custom Tables过 程的强 大功能 。 例 6.2  在某次 高血压 调查中 ,收集 了高血 压病人 的一 些个 人特 征 和血压 控制情 况 ,数 据见 文 件 tables.sav。现希 望分别 按性别 和肥胖 程度的 取值来 描述以 下变量 ,并给 出汇总 的结果: � 血压控 制情况 :要求 输出各 类别的 频数。 � 年龄:要求输 出均数 。 � 非药物 血压控 制措施 :这是 一个多 选题,共 包括 method1~method4四个变 量,分别 代表调 整 饮食、进 行运动 、控制 情绪和 其他措 施,相应 的 多选 题 变量 集 已在 数 据 集中 定 义完 毕 。要 求输 出 频数和 应答人 数百分 比,并在 汇总时 给出总 应答人 数。 本例 涉及到 了多种 变量类 型,看起 来似乎 很复 杂 ,但实 际 上只 要 确 定了 表 格的 框架 ,一 切都 会 迎刃而 解。首 先题目 要求分 别按照 性别和 肥胖程 度取值 进行分 类描述 ,然后再 给出汇 总结果 , 因 此这两 个分类 变量是 叠加的 关系,它 们及相 应的汇 总 项应 当 一起 构 成 表格 的 第一 个 维 度。其 次 ,现在希 望同时 描述三 种类型 的变量 ,因此 它们也 只 能是 叠 加的 关 系,一 起 构成 了表 格的 第二 个 维度。 这样一 分析,实 际上大 的结构 已经明 确。 下面 再来依 次考虑 具体的 统计量 。血压 控制情 况是分 类变量 ,只要求 给出频 数,这应 当不困 难 。年龄 要求输 出均数 问题也 不大,只 需要注 意 保留 足 够的 小 数位 数 即 可。 较复 杂的 是非 药物 血 压控制 措施这 个多选 题组,它 要求输 出频数 和应答 人数百 分比,后者需 要在定 义多选题 变量集 时 指定百 分比是 基于频 数而不 是频次 计算,需 要在操 作中加 以确认 。另外 ,汇总 项只要求 计算总 应 答人数 ,因此需 要单独 定义统 计指标 。 在以 上问题 都考虑 完毕后 ,下面就 可以动 手绘制 表格的 基本框 架,然 后根据 要求对输 出标签 和 格式进 行修改 ,以使得 表格输 出更为 美观易 读。因 篇 幅所 限 ,这 里 不 再详 细 列举 改进 过程,只 给 出一次 完成的 详细操 作步骤 如下: Analyze→Custom Tables→ GeneralTables MultResponseSets:确 认最下 方选中 的是 Numberofcases单选框 :Save Rows框:control、age、nodrug 选中 age:SelectedVariable:issummarized:  SelectedVariable:EditStatistics:    选中 CellStatistics:Mean |Label:均数 :Change    Continue 选中 $nodrug:SelectedVariable:EditStatistics:  CellStatistics:Respondents、ColResponse%  选 中 CellStatistics:ColResponse% |Label:总体比 例:Change  选 中 CellStatistics:Respondents|Label:应答 人数:Change          130   第 6章  数据 的报表 呈现(上 ) 续表   Continue 选中 $nodrug:InsertTotal 选中 $nodrugTotal:Custom totalstatistics  CellStatistics:Respondents|Label:应答人 数:Change   Continue TotalLabels:合计 |Columns框:sex、fat|选中 fat:InsertTotal Titles:Title框 :复杂表 格制作 实例 |Caption框:当前日 期:)date:Continue OK 表 6.13 复杂表格制作实例 按上 述操作 进行后 ,最终得 到的表 格如表 6.13所示。 思考与练习 请 自 行 在 SPSS中 实 现 本 章 所 有 的 分 析 实 例 ,并 从 中 体 会 OriginalTables模 块 的 功 能 特 点 。参考 文献 131             参考文献 1 PresentingDatawithSPSSTablesTM :Advanced.SPSSInc.Chicago,Illinois,2003 2 SPSSTablesTM 12UserManual.SPSSInc.Chicago,Illinois,2003 3 张 文彤主 编.SPSS11统计分 析教程 (基础篇 ).北京 :北京希 望电子 出版社 ,2002第 章 数据的报表呈现(下) 在上 一章中 大家系 统学习 了表格 制作的 基本理 论,并通 过对功 能强大 的 OriginalTables模块 的 学习,深 入了解 了各种 复杂表 格的制 作方式 。本章 将继续 就制表 问题进 行深入 讨论,使 各位能 够 真正用 SPSS随 心所欲 地绘制 出希望 得到的 表格。 7.1 用 CustomTables模块自由制表 在上 一章中 已经介 绍了 OriginalTables模 块,它 已经为 用户提 供了非 常强大 的制表功 能。从 11.5版起,SPSS又新增 了一个 用 于制 表 的 Custom Tables模 块,为什 么 SPSS会 又提 供 一 个功 能 似 乎完全 重复的 模块呢 ? Custom Tables模块 最为精 彩的部 分是一 个全新 的 、易于 操 作的 制 表 界面 。和 前面 讲述 的各 制 表过程 不同,Custom Tables模 块为用 户提供 了在正 式 执行 该 过程前 就直 接 观察 到表 格输 出格 式 的能力 。与此 同时,Custom Tables模 块的制 表功能 也 更为 强 大和 全 面,在 亚 组选 择、类别 标签 等 方面也 拥有了 更多的 选择。 图 7.1 CustomTables主对话框 7.1.1 操作主界面7.1  用 Custom Tables模 块自由 制表 133                选择 菜 单 Analysis→ Tables→ Custom Tables,就 会 进入 该过 程 的 操 作界 面 。如 图 7.1所示 。 和 SPSS中 的其他 过程不 同,Custom Tables过 程和交 互图一 样,在操 作中也 是全拖 放式的 操作,并 且 为多层 选项卡 界面。 其中最 常用的 就 是 现在 大 家看 到 的 Table选 项卡,用 于 对表 格 主 体进 行 详 细的定 义。左 上角的 Variables框会列 出所有 可用的 变 量。而 在其 下 方的 Categories框则 会在 选 中分类 变量时 自动列 出所有 的类 别取 值 /标 签。 例如 图 7.1中 ,选中 变 量 origin时 ,下 方自 动 列 出了该 变量的 三类取 值标签 。 在界 面中部 占据绝 大部分 空间的 是制表 画布(Canvas),它类似 于画家 绘画时 的空白 画布,用 户 在制表 时就是 在这张 空白画 布上进 行拖放 操作,以 最终得 到合适 的表格 。需要 注意的 是,该画 布 有两种 显示界 面:正常 视图和 紧凑视 图,分别 在 画布 上 方 用 Normal和 Compact两 个 按 钮加 以 控 制。对 于多层 表,右上 方还提 供了 Layers按 钮,单击 后可出 现 Layers框,用于选 入层变量 。 界面 最下方 为各种 制表用 选 项 组,其 中 Define框组 用 于对 指标 变量 的 统 计 指标 、汇 总方 式 等 进行设 定,SummaryStatistics框 组控制 汇总方 向和标 签显示 方向,最 右侧的 CategoryPosition下 拉 列表框 则用于 设定分 类变量 标签显 示方向 。 7.1.2 简单分析实例 下面 仍然使 用上一 章中数 据集 Cars.sav的 制 表实 例 ,来 看一 下相 同的 任务 在 CTables过 程 中 是如何 完成的 。在学 习了本 例后,大 家会发 现使 用 这个 全 新 的过程 来制 表 的确 要更 为直 观和 灵 活。 1.表格框 架的绘 制 首先 仍然需 要设定 好表格 框架,由 于已经 有了上 一章的 讨论,这里直 接建立 相应的交 叉表框 架 即可。 由于 CTables过程 为全拖 放操作 ,因此 这一步 可以被 形象地 称为框 架的绘 制。 首先 以被放 置在列 上的变 量 Origin为例 ,来说明 基本的 拖放操 作要点 :选中 左侧列 表中 变量 origin的图 标,按 下左键 不放,移 动 鼠标 ,此时 可 见 鼠标 已 携 带着 origin的 图 表 一 起移 动 ,且鼠 标 的 图标会 变为香 蕉状,如 图 7.2(a)所 示。现 在将 其拖 动 入画 布区 内,当鼠标 接 近 行 /列 边框时 , 相 应的边 框会变 红,同时 鼠标图 标还原 为默认 形状,表明该 变量已 找到泊 留位置 ,如图 7.2(b)所 示 。此时 松开鼠 标左键 ,则变量 origin会 被 放置 在 列 框中,而相 应的 变量 名 标 签、变 量 值 标签 会 立 刻在画 布上显 示出来 ,表明由 于这个 变量的 加入,现 在该 表 格出 现了 三列,如 图 7.2(c)所示 。 至 此,对变 量 origin的 基本操 作就完 成了。 (a)鼠标 携带变 量移动        (b)已 找到 泊留位置        (c)将变量放 置在列 框中 图 7.2 拖放操作示意 对行 变量 cylinder的操 作 与 origin基本相 同 ,不再 详述。 当 两个 分 类变量 拖放完毕 后,从画          134   第 7章  数据 的报表 呈现(下 ) 布 上就可 以看到 整个交 叉表的 基本框 架已经 就绪。 下面将 继续让 需要在 每个单 元格内加 以汇总 的 两个连 续变量 就位。 操作方 式同样 是全拖 放。但 是 ,由于 此 时 行 /列 上均已 有变 量存 在,放置 位 置的不 同可以 得到完 全不同 的 5种 结果。 图 7.3显 示了不 同 放置 位 置的 效果。 如 果按照 (a) 图 的显示 位置放 置,则 Horsepower会被 放置在 cylinder上 方,形成 叠加 关 系;按 照 (b)图 放 置,则 Horsepower会 代替 cylinder;(c)图也 会形成 叠加表 ,只是 Horsepower会在 cylinder下方;图 7.4中 的 两种情 况都是 嵌套关 系,只是 (a)图为 Horsepower在 外 侧 嵌套 ,而 (b)图中 为 在内 侧 而 已。按 照 制表的 要求,显 然本例 中应当 为最后 一种情 况。          (a)                   (b)                   (c) 图 7.3 不同拖放位置的显示效果               (a)                            (b) 图 7.4 两种不同嵌套位置的显示效果 按照 和 Horsepower类 似的操 作方式 ,也可 将变量 weight放 置到 位 。此 时 整个 表格 框架 就基 本 完成了 ,如图 7.5所示 。现在 大家可 以看到 ,画布 上显示 的就是 将来绘 制好的 表格的模 样。显 然 ,用 CTables的界 面进 行 指 标 操作 要 直 观和 容 易得 多 。如 果 表 格太 大 ,则 可 以 切 换到 紧 凑 视 图 ,此时画 布上将 只显示 变量的 设定位 置,而 不再给 出具体 的单元 格设定 等。这 样表格框 架会更 为 清晰,但 是对标 签等的 精细设 定在此 视图中 无法完 成。7.1  用 Custom Tables模 块自由 制表 135             图 7.5 最终完成的部分表格框架 2.连续变 量统计 量的设 置 从上 面 的表 格 视 图中 可 以看 到 ,每个 连 续变 量 的 默认值 为计 算 其 均数,这和 题目 的要 求不 符 。因此 需要再 对连续 变量的 统计量 加以设 定。 首先 选 中画 布 上 Horsepower的图 标,注意 此时 界 面左下 方 Define框组中 的 SummaryStatistic浮动钮 已经可 用,单 击该按 钮后即 弹出连续 变量汇 总 统计量 设定对 话框如 图 7.6所示。 从左侧 的统计 量 列表 可 见,该框 的功 能 和上 一章 中学 习到 的 Statistics子对 话框实 际完全 相同,只 是操作 方式不 同而已 。右侧 的 Display列 表显示 目前 只计 算 均数,则 在左侧 选择 Count,使 用 连接 两 框 的移 动 钮将 其 移 入右 侧 。如 果 希 望 先计 算 频 数,则 在 用最右 侧的上 下移动 钮将其 移到均 数上方 即可。 对于 每个需 要计算 的统计 量,Display列 表中 均 显 示其 统计 量 名 称、标 签 、格 式和 小 数 位数 , 其 中后三 者均可 更改,如 果要更 改标签 ,则两 次单击 相应标 签,就会 进入编 辑状态 ;格式和 小数位 数 使用下 拉列表 和计数 器修改 ,操作更 为简单 。 在设 定完毕 后 ,单 击下 方 的 ApplytoSelection按 钮,则 将相 应 的 统计 量 设 定 赋 给 选 中的 变 量 ;如果单 击 ApplytoAll按钮 ,则相应 设定会 赋给 所 有 同类 变 量;如 希 望维 持 原状,则 直接 单击 Close按 钮即可 。 图 7.6 连续变量汇总统计量设定对话框 如果 表格中 不是将 连续变 量和分 类变量 加以嵌 套,则针 对分类 变量也 可以设 定统计 指标,相 应 的弹出 对话框 如图 7.7所示 ,可见大 部分界 面操作 应当和 上文相 同,这 里不再 重复。          136   第 7章  数据 的报表 呈现(下 ) 图 7.7 分类变量汇总统计量设定对话框 3.分类变 量汇总 项的设 置 由于 在当前 表格中 连续变 量和分 类变量 加以嵌 套,因此 无法使 用上面 的对话 框设定 汇总项 , 而 要在 CategoriesandTotals子 对话框 中设定 。选择 分类变 量 cylinder,则 Define框组中的 该浮动 按 钮可用 ,单击后 的对话 框界 面 如 图 7.8所示,它 用于 分 类 变 量显 示方 式和 汇 总方 式 的 精细 设 定 ,现将其 功能一 一解释 如下: 图 7.8 分类变量汇总项设置对话框7.1  用 Custom Tables模 块自由 制表 137             TotalsandSubtotalsAppear框组 :用于设 定汇总 和子汇 总项的 标签是 在左上 部显示 还是 右下 部 显示。 在许多 项目中 ,客户习 惯于汇 总项位 于左上 部,显 然,这一 功能将 非常有 用。 Show框组 :用于 设定某 些项是 否显示 ,Total选项 用 于 要求 计 算汇 总 栏,Missing选 项 要求 将 用 户自定 义的缺 失值按 缺失值 方 式处 理 ,该选择 不影 响 系 统缺失 值。Empty选 项用 于 控 制是 否 在 表格中 输出无 案例(空 )的 类别。 而最 右侧 的 Other选 项 则控 制 是 否 显 示 未 提供 值 标 签的 类 别 。 Exclude框 :用于指 定不显 示某些 类别。 如果 使 用 者不希 望在 列 表 中出现 某些 类,则将 相应 的 取值选 入该框 即可。 Display框组:直 观地显 示该分 类 变量 各类的 显示 方式 、顺 序 、汇 总等 。上部 显示的 是 各类的 取 值和值 标签,其 排列顺 序就对 应了表 格输 出 中的 顺 序。中 部 的 Subtotals亚 组用 于在 类别 中插 入 子汇总 项,并可 插入多 个。下 部的 Sort亚组 则用于 设定各 类别的 排序方 式,可 按照数值 、标签 、 频 数进行 升、降序 的排列 。但是 ,如果 有类别 被剔除 ,或 者加 入 了子 汇 总 项,则 排序 功能 不可用 。 图 7.9给 出了剔 除类别 和加入 子汇总 项的一 个简单 示例。 图 7.9 剔除类别和加入子汇总项的一个简单示例 显然 ,本例中 的操作 任务非 常简单 ,只需 要选中 最左下 方的 Total选项 即可。 4.显示标 签的调 整 至此 为止,已 基本完 成了需 要绘制 的表格 。但是 ,在上 一章中 ,为了减 小表格 所占页 面范围 , 我 们在表 格中禁 止了变 量名标 签的输 出。CTables过程也 可以完 成此任 务,而且 功能更 全 面。将 表 格画布 切换为 正常视 图,然后 在变量 cylinder的变量 名标签 处 单击 右 键,则弹 出 相应 的右 键菜 单 如图 7.10所示 。菜单 上的大 部分内 容都非 常容 易 理 解,注 意最 下 方 的选 项 ,分 别用 于控 制是 否 显示变 量名和 变量名 标签。 默 认 情况 为 显示 标 签,再 次 选择 此项 ,则 相当 于 去除 了 对 它的 选 择 。此时 可以看 到画布 上对应 于 cylinder名称 标 签 处变 为 空白,表 示在 相应 的 制表 结 果 中此 处 将 不再有 文字输 出。显 然,从右 键菜单 的设置 方式 即可 猜 到,CTables过程 中 也允 许名 称和 标签 一 同出现 ,此时两 者间将 使用斜 杠分隔 。 在进 行了上 述各项 设置后 ,所希望 绘制的 表格就 已经基 本完成 ,因最 终的输 出和上一 章完全 相 同,这里 不再重 复列出 。          138   第 7章  数据 的报表 呈现(下 ) 图 7.10 变量名标签处的右键菜单 7.1.3 其他选项卡功能 CTables过 程的对 话框界 面是一 个选项 卡,除了 Tables外,还有 另外三 个选项 卡,它们 各自完 成 制表工 作中的 一些任 务,使得 最终得 到的表 格更为 完美。 1.TestStatistics选 项卡 该选 项卡为 所制作 的表格 提供了 检验相 应 变量 间 关联 的 能 力,如 图 7.11(a)所 示 。具 体的 检 验有三 种: ① 行列变 量的独 立性检 验:考 察被配 置在表 各行、列 上的分 类变量 是否独 立,具体 采用 的是 χ2 检 验。如 果表格 为叠加 表,则 分别进 行叠加 维度 上 每个 变量 和另 一 个维度 上分类 变 量间 的 χ2 检 验。如 果为嵌 套表,则 按照嵌 套外层 分类变 量的各 种取值 ,依次 进行被 嵌套在 内部的分 类变量 和 另一个 维度上 分类变 量间的 χ2 检 验。用 户可以 自行设 定检验 中使用 的 Alpha水 准。 ② 各列均 数的比 较:当 表格的 列维度 上有分 类变量 ,而行维 度上有 连续变 量时,则 按列 上分 类 变量的 取值进 行该连 续变量 各组均 数的两 两比较 ,具体为 t检 验。 如 果表格 为叠加 表 ,则 分别 进 行叠加 维度上 每个变 量类别 间的两 两比较 。如果 为 嵌套 表 ,则按照 嵌套 外 层分 类变 量的 各种 取 值,依次 进行被 嵌套在 内部的 分类变 量各类 别间的 两 两比 较 。用户 可以 自 行设 定检 验中 使用 的 Alpha水准。 由于当 类别较 多时比 较次数 会很多 ,为控 制一类 错误的 大小,用 户 还可 以选 择使 用 Bonferroni方法 进行 P值 的校正 。 ③ 各列比 例的比 较:当 表格的 行、列维 度上都 有分类 变量时 ,则按 照行 维度 不 同取 值分 别进 行 各列间 构成比 是否均 衡的检 验,具体 方法 为 近似 z检 验。 对 于叠加 表和 嵌 套表 的处 理方 式同 前 。用户 可以进 行 Alpha水准 的设置 ,也可 以选择 使用 Bonferroni方法进 行 P值的 校正。 因以 上 提到 的 各 种检 验 方法 大 家尚 未 学 习,因 此 这里不 再列 举 相 应的分 析实 例,仅指 出一7.1  用 Custom Tables模 块自由 制表 139             点 :这里的 结果输 出比较 特殊,为非常 紧凑的 组间差 异结果 输出格 式。 图 7.11 TestStatistics选项卡与 Title选项卡 2.Titles选 项卡 如图 7.11(b)所示 的 Titles选项卡 和前面 学习过 的 Titles子 对话 框 功能完 全相同,用于 设定          140   第 7章  数据 的报表 呈现(下 ) 标 题、脚注 等,只 不过现 在在选 项卡界 面中添 加了一 些 小图 标 以帮 助 用 户理 解 标题、脚 注等 的位 置 在什么 地方。 并且将 日期、时 间、表格 框架 表达 式这 三 个 可 用的 系统 变量 做 成按 钮 放 在最 上 方 ,用户直 接单击 相应按 钮,即 可将相 应的宏 代码写 入相应 框中,使 用上更 为便捷 。 3.Options选项卡 该选 项卡如 图 7.12所示,以下将 分别介 绍该选 项卡中 的三个 框组。 DataCellAppearance框 组:其功 能基 本 类似 于以 前学 到 的 Format子 对话 框,用于 进行空 单 元 格和缺 失统计 量显示 方式的 设定。 图 7.12 Options选项卡 WidthforDataColumns框 组:为该 模块 特 有的 功能 ,用于 自 定义数 据 列的 宽度,如 果数 据较 为 特殊,或 制表的 要求较 为特殊 ,则可 以在此 自定义 列宽。 MissingValuesforScaleVariables框组:用 于设定 当连续 变量存 在缺失 值时,对数据的 利用方 式 ,功能和 统计描 述过程 中的相 应框组 完全相 同,这 里不再 重复。 7.2 表格的编辑 在多 数常见 的问题 中,SPSS默 认输出 的表格 格式就 已经可 以满足 用 户的需 要。但 有时 用户 的 要求过 于复杂 ,还需要 在基本 表格输 出的基 础上做 进 一步 的 修改。 此时 就 必须 要对 表格 加以 手 工编辑 了。本 节将以 数据 Cars.sav中对产 地和功 率 这两 个 变量 的 统 计描 述 表格 为例 ,来 演示 表 格的基 本操作 。 7.2.1 基本编辑操作 1.两种不 同的编 辑窗口 在对 结果表 格进行 编辑前 ,显然需 要首先 进入它 的编辑 模式。 相应的 操作非 常简单 ,只需双7.2  表格的 编辑 141             击 选中的 表格,就 会进入 编辑状 态。但 根据 SPSS的 系 统设 置 不同,可 能是 在 新窗 口中 进入 编辑 模 式,也可 能是在 结 果 浏览 器 中嵌 套 进 入编 辑 模式 ,如 图 7.13所 示 。一 般而 言,对 于 较 大的 表 格 ,单独窗 口的编 辑模式 在操作 上要更 方便一 些。如 果希望 能控制 相应的 编辑方 式,除在 系统选 项 中加以 设定外 ,还可以 在选 中 相 应 表格 后使 用 右 键菜 单 上的 SPSSPivottableObject→ Edit或 Open,前者 使用嵌 套模式 ,而后者 会使用 打开新 窗口的 方式进 入表格 编辑状 态。 图 7.13 嵌套窗口编辑模式和单独窗口编辑模式 2.表格元 素的选 择方式 在表 格编辑 中,单元 格是基 本的操 作单位 。虽然 根据所 使用的 表格模 板设定 不同,有 的单元 格 间的分 界线并 未被绘 制出来 ,但它们 在编辑 操作中 并不会 被合并 在一起 ,仍然 是相互独 立的编 辑 单位。 在对 表格中 的具体 内容进 行编辑 操作时 ,显然应 当首先 将具体 的元素 选中,以使得系 统得知 相 应操作 是针对 什么的 。最常 见的情 形就是 对单元 格 的 选择 ,只需 单 击 即可 。不 仅可 以选 中某 个 单元格 ,还可以 选中其 中的一 行或一 列,但 首先要 选 中最 上 侧或 左 侧 的标 题 格,然后 选择 菜单 Edit→ Select,有 4个选项 :Table、Tablebody、Datacells和 Datacellsandlabel,分别 会选中 表格、表 格 主体(不 含标题 和脚注 )、所在行 、列的 数据区 和所在 行列,如 图 7.14所示 。 在选 中相应 的单元 格后,用 户就可 以对它 们同时 进行删 除、拷 贝、更改 格式等 操作,显 然会方 便 得多。 3.单元格 内容的 编辑 如上 所述,单元格 为表格编辑 模式中 的基 本操作 单位,包括表 格标 题和脚注均被 看成特 殊的单 元格来处理。单击可 以选中 单元 格,双击则进 入单元 格内 数据的 编辑状 态,此时不仅 显示的 是单元 格内数据的确切值,还可以直接加 以修改。图 7.15演示了对变量 Horsepower的均数 单元格 进行编 辑 的全过程,显 然在编辑中用户可以完全更改其中的 内容 ,甚至于将数 字改为 无关 的纯文 本。 进入 单元格 编辑状 态还有 一个好 处,如图 7.15所 示在 进 入内 容 编 辑状 态 后,显示 的均 数为 确 切的数 值 104.8325,而不是 原先按 表格设 定格式 化后保 留两位 小数的 数值。 因此当希 望得知 确 切的单 元格内 数值时 ,该功能 非常有 用。          142   第 7章  数据 的报表 呈现(下 ) 图 7.14 选中所在行数据区、所在行、列(包括数据区和标题格)的示意 图 7.15 单元格编辑示意 4.单元格 位置的 移动和 宽度更 改 单元 格在表 格中的 位置并 非固定 不变,而 是可以 进行移 动的。 但是,为了保 证表格内 容不至 于 混乱,移 动需要 以行、列为基 本单位 进行,图 7.16演示了 如何进 行行间 的位置 交换。 首先 选中 行 标题格 ,然后双 击左键 ,此时 开始移 动鼠标 ,可 以看 到 鼠标 携 带者 交 换 符号 在 移动。 到达 合适 位 置后松 开左键 ,则弹出 菜单,询问是 在该行 前面插 入,还是 交换这 两行,显然在 本例中结 果是等 价 的,最终 操作结 果是将 第一行 与第二 行的位 置互换 了。 图 7.16 行交换操作示意 除移 动位置 外,表格 中的列 宽也并 非完全 固定,而 是 可以 自由拖 动 的。 为 方便 操作 ,首 先选7.2  表格的 编辑 143             择 菜单 View→GridLines,这样 可以将 单元格 的分界 线用虚 线精确 地表示 出来。 然后就 可以 用鼠 标 直接对 行宽进 行拖放 操作了 ,具体的 操作方 式和 Word表格 一样,如 图 7.17所示 。 图 7.17 拖动列宽操作示意 除内 容、位置 和宽度 外,单 元格的 其他属 性也可 以加以 更改,详 细介绍 见后面 相关章 节。 7.2.2 主要编辑菜单功能介绍 在用 惯了 Windows软件后 ,许多菜 单功能 都会无 师自通 ,因此 这里主 要是对 编辑中常 用的菜 单 项功能 进行解 释,除非 常复杂 的操作 外,不 再进行 具体的 讲解。 1.Edit菜 单 如图 7.18(a)所示 的 Edit菜单中 提供了 拷贝、粘 贴、删 除、选择 等常用 的编辑 操作,比 较特殊 的 功能有 以下几 个:           (a)                       (b) 图 7.18 Edit菜单和 Format菜单 (1)Group、Ungroup:用 于给标 题单元 格加 上或 去 掉亚 组的 标签 ,选 中标 题 单元 格 这 两个 菜 单 项才会 变黑,结 果如图 7.19所示。 用户可 以将 GroupLabel改 为自己 想要的 名字。          144   第 7章  数据 的报表 呈现(下 ) 选中 Maximum单元 格         选 择 Edit→Group           取 消对单元格选择后 的样 子 图 7.19 Group、Ungroup用法示意 (2)DragtoCopy:相当 于一个 切换按 钮,选中 该选项 会使对 单元 格 的拖动 成为拷 贝 操作,反 之 ,则会弹 出关联 菜单,确认是 和当前 单元格 交换还 是插入 。 (3)CreateGraph:该菜 单项可 以将统 计 表中 的 内 容以 图 形的 方 式立 体 地 呈 现在 用 户 面前 。 共 有 7种 图形可 供选择 。 图 7.20 CellProperties对话框 2.Format菜单 如图 7.18(b)所示 的 Format菜单的 功能是 对表格 各方面 的格式 设定进 行精细 的调整 。 (1)CellProperties:对单 元格的 字体、阴 影、颜 色等属 性加以 更改,如 图 7.20所示 。 (2)TableProperties:对表 格进行 各个选 项的精 细设置 ,如字符 格式、边框样 式等。 (3)TableLooks:可 以在这 里直接 选用新 的表格 模板,但 所作选 择只对 当前表 格生效 。 (4)Autofit:表 格的行 、列宽会 自动按 内容 的 多 少调 整 为最 小 。出 于 美观 的考 虑,SPSS默认 在 各个单 元格之 间留有 相当的 空隙,如 果表格 太长,使用该 命令可 以让表 格大大 缩短。但 由于英 文 标题一 般都非 常得长 ,有时仅 使用该 菜单项 往往还 无法让 用户满 意,所 以可能 还要手工 调整单 元 格宽度 。7.2  表格的 编辑 145             (5)RotateInnerColumnLabels:将列标 题纵向 显示,这 样可 以让 表格 缩 小 不 少,如 果 适当 使 用 该功能 ,可以在 打印时 大量节 省用纸 。 除以 上功能 外,其余 各菜单 项的含 义均非 常明确 ,这里 不再详 述。 3.View 菜单和 Insert菜单 如图 7.21(a)所示 的 View菜单 用 于切 换表 格中 各 元素的 显示 /隐 藏特性 ,几 个菜 单项 分别 控 制了编 辑工具 栏、表格 维度标 签、类 别标签 、脚 注和 单 元格 网 格线 的 显 示。 例如 在上 面的 例子 中 ,如果显 示出所 有元素 ,则编 辑状态 的表格 如表 7.1所示 。       (a)               (b)               (c) 图 7.21 View菜单、Insert菜单和 Pivot菜单 表 7.1 DescriptiveStatistics 如图 7.21(b)所示 的 Insert菜 单用于 插入新 的标题 、说明 、脚注等 。 4.Pivot菜单 如图 7.21(c)所示 的 Pivot菜单 的功能 是改变 结果表 格的显 示方式 。 (1)Bookmarks:此处的 书签功 能是 针对 表 格的 当前显 示 方 式而 言的,可 以 为当 前 显 示方 式 加 入一个 书签。 如果以 后利用 下面的 PivotingTrays改 变了 结 果表 格的 显示 方 式,则可 以用 此处 的 书签快 速复原 。 (2)TransposeRowsandColumns:该选 项进行 表格的 行列转 置操作 ,该 操作 在 表格 太宽 时非 常 有用。 (3)PivotingTrays:选 中该菜 单项会 弹 出表 格 托 盘,在 上一 章中 已经 学 习 过 它的 用 法,这 里 不 再重复 。          146   第 7章  数据 的报表 呈现(下 ) 7.2.3 表格属性的详细设置 在各 种编辑 功能中 ,相对比 较复杂 ,但是 又非常 常 用的 是 表格 属 性 对话 框 ,因 此这 里对 其功 能 加以详 细解释 。单击 菜单 Format→ TableProperties即 可 弹出 该 对话 框,如图 7.22所 示。 可见 其 为选项 卡格式 ,现对各 选项卡 的功能 一一介 绍如下 : (1)General选 项 卡:用于 对 表格 进行 基本 格 式的 设定,最 上方的 General框 可以隐 藏空行 / 列 ,中部的 Row单选 框组用 于控制 行维度 标签的 显示 格 式。下 部的 Column框 组用于 控 制最大 、 最 小行 /列 标签宽 度。右 侧的示 意图会 及时显 示相应 更改的 效果。 图 7.22 TableProperties对话框:General选项卡 (2)Footnotes选项 卡:设定 表格中 脚注的 显示格 式,可 以将脚 注序号 设定为 字母顺 序或 者数 值 顺序,具 体位置 可以是 右上角 或右下 角。 (3)CellFormats选框卡 :设定 表格中 单元格 的基本 显示格 式。左 半侧 从上 到 下依 次设 定单 元 格的字 体、对齐 方式、阴影及 颜色、边 距。右 侧则用 于选择 具体的 单元格 区域,并显示出 相应的 格 式设定 。注意 SPSS表 格将单 元各分 成了若 干组,每组单 元格只 能使用 相同的 格式设定 。在使 用 该选项 卡时,首 先应当 用右侧 的 Area下 拉 列表 选 中 相应的 单元 格 区 域,然 后才 能进 行相 应的 设 定,如图 7.23所示。 (4)Borders选项 卡:用 于进行 表格 中 各种 框线 的格 式 设定,左 侧的 Border框 列出 了表 格中 全 部框线 的名称 ,右侧则 为相应 的示意 图,在 左侧选 择名称 和在右 侧示意 图中单 击均可选 中相应 框 线,选中 后使用 左下角 的两个 下拉列 表选择 线型和 颜色,如图 7.24所示 。 (5)Printing选项 卡:用于 进行表 格打印 时的设 定,因 目前在 国内较 少使用 其中的 高 级功能 , 不 再详述 。7.3  表格高 级应用 技术 147             图 7.23 TableProperties对话框:CellFormats选项卡 图 7.24 TableProperties对话框:Borders选项卡 7.3 表格高级应用技术 7.3.1 模板技术 前面 详细讲 解了如 何对表 格进行 编辑,但 是,所 有 的编 辑 操作 都 只 是针 对 当前 表格 进行的 , 对 于一个 新绘制 的表格 ,SPSS仍然 会使用 默认设 定的表 格格式 进行输 出。 大家 可 以设 想这 样的 一 种场景 :该项目 中共需 要绘制 1000个表 格,具 体的格 式都是 统一的 ,但是和 SPSS默 认的 格式          148   第 7章  数据 的报表 呈现(下 ) 不 相同。 如果进 行这样 一张表 格的格 式编辑 需要 5分钟,那 么,1000张表 格就需 要 5000分钟 , 合 计 80多 个小时 !显然 ,如果 能够有 一种方 法将所 需设定 保存下 来,并且 使得 SPSS输出 的全部 表 格均自 动使用 该设定 绘制,将 会大大 的减轻 相应的 工作量 。 这里 讲述的 模板技 术就可 以达到 上述目 的,所谓 表格模 板指的 是存储 了表格 框线、单 元格字 体 、颜色等 设定的 一种特 殊格式 的文件 ,SPSS可以 读取其 中的设 定值,并将其 应用于 当前表格 。 1.为当前 表格应 用、存 储不同 的表格 模板 除默 认的表 格格式 外,在 SPSS中 还预制 了一大 批 其他 样 式的 表 格 模板,如果 希望 为当 前表 格 更换一 个 新 的模 板,则 选 择 菜单 Format→ TableLooks,相 应 的对 话框 如图 7.25所 示,左侧 的 TableLooks框 中列出 的就是 所有可 用的表 格模 板,右侧 为相 应格 式 的 示 意图 。 用户 只 需 要在 左 侧 列表中 选中合 适的模 板名称 ,然后确 认即可 。此 时 就可 以 看 到当前 表格 已 经被 更改 为相 应模 板 的设定 格式。 TableLooks框还 可以用 于将 当 前 表 格的 格 式设 定 存 储为 一 个新 的 模 板,供 其 余 表 格 使用 。 注 意示意 图下方 的一排 三个按 钮,SaveLook和 SaveAs按钮 用于保 存当前 格式设 定,前者 会将格 式 的更改 存储到 当前使 用的模 板文件 中,而后 者则会 要 求将 格 式存 储 为 一个 新 的模 板 文 件。第 三 个按钮 EditLook则 要求继 续对现 有 表格 的 格式 设 定 进行更 改,单击 这个 按 钮后 会弹 出 Table Properties对 话框。 图 7.25 TableLooks对话框 2.将表格 模板设 定为系 统默认 值 通过 上面的 操作,用 户已经 可以将 需要的 格式设 定存为 表格模 板,然 后再将 其应用到 别的表 格 上去。 这虽然 大大节 省了工 作时间 ,但是当 需要操 作的表 格数量 极多时 ,仍然 非常麻烦 。此时 可 以将相 应的模 板设定 为系统 默认表 格格式 ,从 而在 指标 程 序 执行时 就完 成 相应 的表 格格 式设 定 工作。 具体的 操作在 系统选 项卡中 进行,在 SPSS中 选择 菜单 Edit→ Options,在 弹出 的对 话框 中 选择 PivotTables选 项卡,如 图 7.26所示 。首先 使用 SetTableLookDirectory按钮,将 模板 目录7.3  表格高 级应用 技术 149             设 定为希 望使用 的模板 文件所 在目录 ,就可以 在 模板 列 表中 看 到相 应 的 模板 名 称了,将 其选中 , 确 定后 SPSS输出 的所有 表格将 均使用 该模板 的格式 设置。 图 7.26 关于表格模板的系统选项设定 在各 种 SPSS预设的 模板中 ,以 Academic模板 和 Report模板最 为有用 ,如图 7.27所 示 ,Aca- demic模板 只保留 了主要 的横线 ,完全符 合统计 学中的 统计表 格 要求 。而 Report模板 更 进一步 , 只 保留了 分隔表 头和表 格正文 的横线 ,是调研 报告中 最 熟悉 的 表格 格 式。 笔 者在 此建 议大 家尽 量 使用这 两种模 板,以养 成良好 的表格 格式习 惯。 图 7.27 Academic模板和 Report模板格式          150   第 7章  数据 的报表 呈现(下 ) 7.3.2 在报告中直接使用 SPSS表格 通过 上面学 习的各 种操作 ,大家已 经可以 使用 SPSS绘 制出非 常精美 的表格 了 。现在 Word、 Excel等办 公处理 软件使 用得越 来越广 ,这么 漂亮 的 结果如 果 无法在 Word等 中直 接使 用岂 不可 惜 !但是 ,由于 SPSS的结 果文件 为 专用 格式,不 能直接 用 Word等 打开 ,这里就 来专门 讲 解一下 如 何在 MSOffice中使用 输出结 果的问 题。 1.使用拷 贝粘贴 操作 当只 需要使 用少量 表格时 ,拷贝粘 贴操作 是最为 便捷的 方式。 选中需 要的统 计表,然 后单击 右 键,在右 键菜单 上可见 拷贝时 会有两 种 选择 :拷贝或 拷贝对 象 (CopyObject)。如 果选 择拷贝 , 则 会将统 计表转 换为普 通的 Word或者 Excel表格 。粘贴 进来后 格式仍 然全部 保留,并 且还 可以 使 用 Word等 相应软 件中的 表 格编 辑功能 做进 一 步修改 。如果 是 拷贝对 象,则 在 SPSS系 统的默 认 设定下 ,实际上 是将统 计表拷 贝为图 片,格 式和以 前完全 一样,打 印精度 也非常 高,但是 无法再 进 行任何 的格式 更改。 2.批量表 格的导 出 当希 望在文 字处理 软件中 使用的 SPSS表 格较多 时,使 用拷贝 、粘贴方 式显然 也非常 麻烦,在 SPSS11.5及以上 版本中 ,结果文 件已经 可以 被 直 接导出 为 Word、Excel等常 用 的文 档 格 式。具 体 操作是 在结果 编辑窗 口中选 择菜单 File→Export,会出现 相应的 导出对 话框 如 图 7.28所示,上 方 的 Export下拉列 表用于 选择导 出的内 容:全 部结果 ,除图形 以外的 结 果和 只 保存 图形 ;中 部的 ExportFile框 用于选 择导出 文件的 存放位 置;右 下 角的 FileType下拉 列表 则 用于 提供 选择 导出 格 式,可见 共有网 页格式 、纯文 本、Excel和 Word4种格式 可供选 择。 图 7.28 Export对话框 需要 注意的 是,SPSS的 结果输 出中 会默 认 隐藏 运行记 录 等 项目 。而 在 导 出 操作 中 ,默认 设 置 会将这 些不常 用的内 容全部 加以输 出,如果 希 望得 到的 导 出 内容只 是现 在 可以 看到 的表 格输 出 ,则在对 话框左 下角的 ExportWhat框中选 择第二 项 AllVisibleObjects即 可。7.3  表格高 级应用 技术 151             图 7.29显示 了将分 析结果 导出 为 Word和 Excel文件 的 结果,可 见其格 式 均可 被 完 整的 保 留 下来,并 也可作 进一步 的编辑。 图 7.29 导出后的结果文件格式示意 对于 使用 SPSS11及更低 版本的 用户,虽然 SPSS不能 将结果 文件直 接导出 为 Word等格式 , 但 拷贝、粘 贴操作 仍可使 用。另 外,有 用户专 门为表 格的批 量导出 编制了 一个 SPSS宏程 序,也能 将 分析结 果自动 转换为 上述常 用格式 ,该 宏程 序可 以到 笔 者的 医学统 计 之 星网 站( ttp://www. edStatStar.com)上下 载。 7.3.3 如何解决表格的中文兼容问题 SPSS目前 尚未推 出官方 的简体 中文 版 本,虽然 SPSS12简 体中 文版 已 纳 入 计划 ,大 约在 本 书 面市的 同时会 和广大 读者见 面。但 是能够 使用中 文 版的 用 户毕 竟 较 少,特 别是 对仍 然使 用英 文 版本的 朋友而 言,中文 兼容性 是必须 要加以 考虑的 问 题。 目前 SPSS对中 文 已经 做 到了 100% 的 兼容,变 量名称 、变量 值、分析 结果等 实际上 可 自由 使 用中 文 。但是 在将 含 有中 文字 符的 表格 应 用到文 字处理 软件中 时,由于 用户缺 乏相应 的 技术 指 导,往 往不 能 得 到正 确 的结 果,导致 了对 该 软件中 文兼容 性的误 解。 如果 所用的 统计表 格里有 中文字 符,则不 能直 接用 拷 贝粘 贴的 方法 读 入 Word,因 为默 认情 况 下表格 模板中 所用的 字体均 为英文 字符集 ,在 Word等软件 中 进行粘 贴操作 时,表 格 中的 中文 会 按照相 应英文 字符集 的方式 加以解 释,从而 在进入 Word后 会全部 变成乱 码,如图 7.30所示。 图 7.30 含中文的表格直接粘贴到中文 Word中后的效果          152   第 7章  数据 的报表 呈现(下 ) 那么 如何才 能在保 留 Word表 格格式 的同时 解决中 文乱码 问题? 有三种 基本的 思路: (1)在粘贴 过来后 重新输 入全部 的中文 ,显然,这是最 直接,也 是最麻 烦的办 法。 (2)去除表格的全部格 式,以纯文本 格式进行表 格内容 的粘 贴。在 Word中使用菜单编辑→选 择 性粘贴,然后 选择其中的 无格 式文 本,这 样整个 表格就 会按照 Tab键 分 隔的纯 文本形 式 粘贴入 Word,里面 的中文也完好无损。再将文本选中,使用菜单表格→转 换→文 字转 换到表 格即可。 (3)在模板 中加以 设定。 这种方 法较为 复杂,但 一劳永 逸。上 文曾经 提到可 以在 SPSS中自 行 设定默 认的表 格模板 ,因此用 户只需 要将相 应模板 中可能 出现中 文的区 域字体 设定为 中文,这 一 问题就 可永久 性解决 。在多 数制表 任务中 ,Row/ColumnLabels区经常 会 使用中 文,而 Data区 较 少使用 中文,因 此可以 在 TableProperties:CellFormats选项卡 中将相 应 Row/ColumnLabels区 的 字体更 改为中 文字体 即可,这 里笔者 推荐使 用宋体 。在对 模板编 辑完毕 后,将 其设定为 默认表 格 模板,则 以后在 使用 SPSS表 格的时 候就再 也不会 出现中 文乱码 的问题 了。 7.3.4 宏技术与 OMS系统简介 前述 的各制 表过程 已经提 供了相 当完善 的统计 报表功 能,但是 对于大 型的统 计分析 项目,只 是 简单的 应用这 些现成 的模块 还是不 够用的 。如许 多 报表中 希望能 直 接给 出 统计量 和 P值,但 前 述的各 模块均 不能直 接使用 统计指 标和 P值 制表;又 如 当需 要进 行 大量 类似 的统 计 分析 或制 表 工作,如 需要进 行 1000个 方差分 析,或 者需要 对 1000个 变量进 行统计 描述,并生成相 应的报 表 时,重复 编写非 常类似 的程序 显然是 令人痛 苦的一 件事。 实际 上,SPSS中 有许多 高级功 能并未 被放置 在菜单 项中,当 进入 程 序级别 后,使用 者就 可以 获 得更为 强大的 能力。 例如对 于上述 的各种 问 题,在 SPSS中 就 可以 使 用宏 技 术 和 OMS系 统来 轻 松解决 。由于 这些功 能过于 专业,且 主要和 大 型项 目 中提 高 工作 效 率、复 杂 制表 任务 有关,而 与 统计分 析并无 太大联 系,因此 本书将 只对它 们进行 简单介 绍,对 此感兴 趣的朋 友请参阅 另一本 相 关书籍 《SPSS与市场 研究》,也可以 参阅 SPSS的用 户手册 。 1.宏技术 宏技 术对于 读者而 言可能 已经不 是什么 新鲜 事物 了,在 Word中 就 有宏功 能。但 SPSS中的 宏 可能大 家还不 太了解 ,实际上 ,SPSS很早 就嵌 入了 宏功能 ,用 于实 现已有 程 序 的重 复 利 用,从 而 提高工 作效率 ,满足大 量类似 分析任 务的需 求。 DefineM_Des(UsedVar= !charend(/)).    DESCRIPTIVESVARIABLES = !UsedVar. !ENDDEFINE. M_DesUsedVar= mpg. M_DesUsedVar= horse. 上面 就是一 个非常 简单的 宏程 序示 例,Define语 句要 求开 始 定义 宏 ,随后 的 M_Des为自 定 义 的宏名 称,括号 内的 UsedVar为自 定义的 宏变量 名 称。第 三 句 ENDDEFINE表示 宏程 序结束 。 实 际上 M_Des这 一 个 宏 只 由 第 二 句 DESCRIPTIVES构 成,可 见 它 的 功 能 是 对 用 户 指 定 的7.3  表格高 级应用 技术 153             UsedVar这个变 量进行 统计描 述。程 序的 最后 两行 就 是 对宏 的 调用。 可 见 UsedVar分 别 被指 定 为 数据 Cars.sav中的 mpg和 horse,因 此运行 上述程 序,就相 当于分 别运行 了下面 的这个 程序: DESCRIPTIVESVARIABLES = mpg. DESCRIPTIVESVARIABLES = horse. 当需 要运行 大量类 似的分 析时,宏 程序 的优 势 是非 常明显 的 。读 者 可 以打 开 文件 Cars.sav 后 运行上 述宏程 序,以体 会这一 特点。 2.OMS系统 OMS即 OutputManagementSystem的 缩写,可被译 为输出 管理系 统 ,它 为 用户 提供 了提 取和 控 制结果 分析窗 口中输 出内容 的 功能。 在 11版 本及 以 前 的各 版 本中,SPSS并 未提 供 分 析结 果 的 提取和 重定向 输出功 能,用户 需要自 定义 输 出时,必 须 要使 用 DDE、ActiveX等高 级编 程功能 。 这 实际上 导致了 大量用 户并不 知道如 何使用 结果输 出的内 容来生 成各种 自定义 格式的表 格。而 随 着统计 分析知 识的逐 渐普及 ,用户对 统计分 析报表 的要求 越来越 高,重 定向功 能也变得 重要起 来 。为此 从 12版 本开始 ,SPSS提供 将指定 输出内 容自动 写成文 件的 能 力,具体 可 以存 储的 格式 有 XML格 式、HTML格式、SPSS数据文 件格式 和纯文 本格式 。 而具体 的定 向 输出 内容 可以 是分 析 结果中 的表格 、文本、图形等 ,甚至可 以是这 些 内容 中 的一 部 分。如 只输 出 回归 分析 中回 归系 数 的检验 结果,或 者全部 分析中 的直方 图等。 由于 OMS系统属 于非常 高级和 复杂的 功 能,因 此 只能在 程序 级 别 实现,这里 将不 对其 进行 深 入讲解 ,仅举一 个简单 的实例 : OMS    /SELECTTABLES    /IFCOMMANDS = [ Descriptives]SUBTYPES = [DescriptiveStatistics]    /DESTINATIONFORMAT = SAVOUTFILE = c:\outfile.sav. 上面 就是一 个非常 简单的 OMS程 序,用 于 在特 定 的 情况 下 打开 OMS输 出系 统。 如 果用 文 字 对内容 加以解 释,指的 就是监 视所有 的表 格 输 出,当 运行 的 过 程命 令 为 Descriptives,且所 生成 的 结果表 格标题 为 DescriptiveStatistics时 ,将相 应的表 格内容 输出到 C盘盘 根上的 数据文件 out- file.sav中。 在将 以上程 序运行 完毕后 ,OMS系统 就会一 直保 持 打开状 态,直到 新 的 OMS命令 对其 加以 更 改,或者 SPSS关闭为 止。在 此期间 ,OMS系统 会将所 有 符合 要 求的 表格 内容 写 入指 定的 数据 文 件,而相 应的目 标数据 文件也 一直处 于锁定 状态,无 法 使用 。如 果 希 望将 其 关闭,则 可以 使用 以 下的命 令: Omsend. 这时 OMS系统就 会关闭 ,将所有 数据写 入目标 文件,并将其 释放。 以上面 的宏程 序 为例,如 果 用上面 的程序 打开了 OMS系统后 运 行 宏程 序,则在 OMS系 统关 闭 后 所 生成 的数 据文 件 out- file.sav中的内 容如图 7.31所示。 可见 除了命 令索引 、亚类索 引、变 量名称 等必要 的 变量 外 ,数据文 件右 侧 的各 类实 际上 就正 好 和相应 的描述 表格中 的内 容一 一 对应 。 这样,只 要再 对 该文 件加 以处 理 ,并 使用 各 种 制表 过 程 ,分析者 就可以 得到包 含各种 描述统 计量和 统计检 验结果 的表格 了。          154   第 7章  数据 的报表 呈现(下 ) 图 7.31 OMS系统所生成的数据文件 OMS系 统的关 键词非 常庞杂 ,为方便 用户 使 用,SPSS在 菜单 Utility→OMSIdentifiers中 提供 了 全部的 OMS关键词 列表,感 兴趣的 读者可 自行检 索一下 其中的 内容,这里不 再详述。 思考与练习 1.在第 6章的 6.3.3中 有一个 复杂分 析实例 ,请使 用 CTables模块绘 制出完 全相同 的表格 , 并 基于此 实例考 虑:和原 来的 Tables模 块相比 ,CTables过程 究竟有 怎样的 优势。 2.请使用 CTables过程绘 制出如 题 2表 所示的 表格,注 意表格 中存在 气缸数 的亚组 合计,而 表 格标题 、脚注等 都是使 用系统 的宏功 能自动 生成。 题 2表 NumberofCylinders>Horsepower+VehicleWeight(Ibs.)BYCountryof Origin 3.请仔细 考虑在 SPSS的 使用过 程中还 有哪些 地方可 能存在 中文兼 容性问 题,如 果 存在,应 当 如何解 决?(提 示:所有 “问题”均 有解决 方案。) 参考文献 1 PresentingDatawithSPSSTablesTM :Advanced.SPSSInc.Chicago,Illinois,2003 2 ProgrammingwithSPSSSyntaxandMacros(v10.0Revised).SPSSInc.Chicago,Illinois,参考 文献 155             1999.12 3 IntroductiontoSPSSSyntax(v10.0Revised).SPSSInc.Chicago,Illinois,2000.2 4 张 文彤主 编. SPSS11统计分 析教程 (基础篇 ).北 京:北京 希望电 子出版 社,2002第 章 数据的图形展示(上) 8.1 统计图概述 调查 研究中 所获得 的资料 常包括 多个观 察对象 及多个 观察指 标,绘制 统计图 可简洁 、直观地 对 这些资 料进行 统计描 述。制 作统计 图有两 个基本 要 求:一 是 正确,二 是简 洁 ,以 反映 事物 内在 的 规律和 关联。 但统计 图对资 料数据 大小稍 显粗略 些,当 比 较 的数据 大小 较 接近 时可 在图 中标 出 具体数 值或另 附相应 的统计 表。 8.1.1 统计图的基本结构 在深 入 学 习各 种 统计 图 及 其功 能 之前 ,很有 必要 首 先对 统 计 图 的 基 本 结 构 作 一 了解 。 一 个 完 整的 统 计图 大 致 可以 被 分解 为 标 题区、图 例 区、数 据 区等 多 个部 分 ,下面 就 按 此 一 一 进 行 介 绍 。 图 8.1 统计图结构的示意图8.1  统计图 概述 157             1.标题区 和注解 区 这两 个区域 分别位 于图形 的最上 方和最 下方,位 于图 形 最 上方用 于列 出 图形 名称 的就 是标 题 区,如图 8.1中 所示的 “Countof...”的部 分。 标 题 中一般 应注 明 图 的编号 ,标 题内 容则 简明 扼 要,用于 说明资 料的内 容、地 点、时间 等。图 中最下 方空白 的区域 即为注 解区,主要用于 添加对 图 形内容 的简单 说明,一 般文字 不宜过 多,点 到即可 。 值得 指出的 是,由于 习惯不 同,国 内出版 物的统 计 图一 般 要求 在 图 形的 正 下方 给出 标题,本 书 也是如 此。在 这种情 况下,如 果再添 加注解 ,就会 使 图形 显 得不 太 对 称,因 此往 往会 将注 解改 为 在正文 中的一 段文字 叙述。 因此读 者在实 际绘图 时,往往 不会使 用到标 题区和 注解区 的功能 , 而 是自己 另行添 加。图 8.2就 是一个 统计书 籍上标 准的统 计图形 。其中 ,mpg是耗油 量 ,以 每加 仑 汽油能 够行驶 的英里 数表示 ;accel是加 速到时 速 60英 里所用 的时间 。 图 8.2 不同产地汽车 mpg和 accel的均数 2.坐标轴 包括 坐标轴 、图形本 身 (绘图 区 )在 内 的区 域 一 般被 统 称为 数 据区,是 统计 图 的 主 要 部分 。 坐 标轴用 于表示 相应变 量的取 值情况 ,由于二 维统计 图最为 常用,相应的 两个坐 标轴往往 被直接 称 为横轴 和纵轴 。实际 上坐标 轴应当 按照所 表示的 数 据类 型 被分 为 连 续轴 和 分类 轴两 大类,如 图 8.2中 的横轴 就是分 类轴,其 数轴刻 度间无 大小之 分,仅 代表不 同的类 别。而 其纵轴则 为连续 轴 ,刻度严 格而准 确地表 示了数 量上的 差异。 连续轴 和分类 轴的编 辑功能 相差极 大,但与 其是位 于 横轴还 是纵轴 位置则 完全无 关。 坐标 轴一般 都应注 有标目 ,用于说 明其表 示的具 体含义 。对于 连续轴 而言,往往还需 要注明 单 位,如年 份、克 、%等。 连续轴 的刻度 设定应 该是 等 距 的,而 且一 般 情 况下 为 算术 等距 ,但 必要 时 也可是 几何等 距,如图 8.3所 示,以 满足特 殊的分 析需求 。纵横 尺度一 般从 0开始(对 数线图 、 点 图例外 ),以免对 统计图 所表示 的指标 关系发 生曲解 。          158   第 8章  数据 的图形 展示(上 ) 图 8.3 算术尺度和几何尺度的连续轴 3.绘图区 绘图 区指的 是被坐 标轴包 围,直接 使用图 形 元素 来 对数 据 进行 呈 现的 区 域,在 SPSS中 也被 称 为内框 区,以和 表示整 个图形 范围的 外框区 相对应 。绘 图 区 中主要 有表 示 变量 数值 情况 的直 条 、区块、点、线等 图形元 素,使 用者在 阅读图 形时需 要 首先 注 意相 应 的 各坐 标 轴的 具体 含义,以 明 确各图 形元素 的坐标 究竟表 示的 是数 量大 小 ,还 是类 别 的 不同 。 如图 8.2中 不 同 的直 条 (横 轴 为分类 轴)表示 的是汽 车的不 同产地 ,而直条 的高低 (纵轴为 连续轴 )则表示 了具 体 指标(这里 为 mpg、accel)的 算术均 数。 除基 本的图 形元素 外,绘图 区中还 可能出 现各种 文字注 解、辅 助坐标 线等用 于方便图 形阅读 的 元素。 4.图例区 图例 区位于 整个图 形的右 侧,当图 形中需 要使用 不同的 颜色、线形等 将图形 元素分组 来表示 不 同类别 时,就需 要在图 例中对 此 加以 说 明 了。 以图 8.2为 例,图 例中 填 充 格式 为 “ ”的直 条 表 示变量 mpg的均 数,“ ”则表示 变 量 accel的 均数 。当 然 ,出于 美 观 和使用 习惯 上的 考 虑,使 用 者往往 会将图 例加以 移动,最 常见的 位置是 右上方 ,图 8.2就是 一个例 子。 以上 介绍的 一个完 整的统 计图中 可能被 划分出 的各种 结构,实 际上,这些结 构并非在 所有的 统 计图中 都会出 现,如标 题区和 注解区 就往往 不 会用 到,而 如 果不 存 在 图形 元 素分 组的 问题,图 例 区也就 不会出 现。一 般而言 ,由坐标 轴和绘 图区所 组成的 数据区 是一个 统计图 的核心 部分,一 般 都会出 现,其余 部分则 都是根 据需要 而有选 择地加 以使用 。 8.1.2 统计图的种类 统计 图的分 类方法 有许多 种,但和 统计学 体系最 为贴近 的分类 方法是 :首先 按照其呈 现变量 的 数量,可 以将统 计图大 致分为 单变量 图、双 变量图 、多变量 图等,随后再 根据相 应变量的 测量尺 度 进行更 细的区 分。本 节就按 此进行 讲述,虽 然读 者 会发 现 这 种分类 方法 会 将许 多图 形分 成更 细 的小类 ,但是这 样更有 利于大 家将来 正确的 使用统 计图。 同 时,为 了 节约 篇 幅,下面 给出 的统 计 图例子 中省略 了统计 图标题 、图例等 内容,读者在 实际绘 制统计 图的时 候应当 加以注意 。 1.单变量 图:连 续性变 量 单变 量图指 的是通 过图形 元素的 位置高 低、范围 大小等 对某一 个变量 的数值 、类别分 布情况8.1  统计图 概述 159             进 行呈现 ,常用于 描述、考察变 量的分 布类型 。绘制 这类图 形时只 需一个 变量。 图 8.4 用于描述连续变量的几种常用单变量图示意 对于 一个连 续性变 量的分 布特征 描述,最 常用的 图形工 具就是 直方图 ,如图 8.4(a)所示,它 通 过直条 在各个 取值区 段的分 布范围 和长度 来直观 地 显示 连 续变 量 的 数量 分 布规 律,图形 中的 横 轴代表 不同的 取值区 段,而纵 轴则表 示相应 区段的 频数。 对于样 本量较 小的情 形,直方 图会过 于 粗糙,此 时可以 使用茎 叶图来 进行更 精确的 描述。 除直 方图外 ,箱图也 常用于 描述连 续性变 量,如 图 8.4(b)所示,它 主要 使 用百 分位 数指标 , 如 中位数 、四分位 数等对 该变量 的分布 规律进 行呈现 ,还可 进行对 称性、极 值判定 。 对于 更为深 入的统 计分析 ,研究者 往往还 希望考 察该连 续性变 量是否 服从某 种理论 分布,如 考 察其是 否服从 正态分 布。除 进行假 设检验 外,P-P图 (参见图 8.4(c))和 Q-Q图就可 以直 观的 达 到这一 目的,实 际上这 种图形 读者在 前面几 章中已 经有所 接触了 。 2.单变量 图:分 类变量 对于 分类变 量的描 述可以 被分为 两种情 况:展示 分类变 量各类 别的频 数,或 者表示各 部分占 总 体的构 成比例 。对于 前者而 言,最常 用的工 具 是简 单 条图 (参见 图 8.5(a)),它 使用 等宽 直条 的 长度来 表示相 互独立 的各类 别的频 数高低 ,换 言之 ,横轴 表 示不 同 的 类别,而纵 轴则 和直 方图 一 样,也用 于表示 频数的 多少。 图 8.5 用于描述分类变量的几种常用单变量图示意 在表 示各部 分的构 成情况 时,饼图 (参见图 8.5(b))是最 常 用的工 具,它 使 用饼块 的大 小来 表 示各类 别的百 分比构 成情况 。          160   第 8章  数据 的图形 展示(上 ) 对于 一些特 殊的问 题,研究 者可能 希望在 一幅 图 中同 时 表 示该变 量各 类 别的 原始 频数 和百 分 构成,Pareto图(参 见图 8.5(c))就可以 满足这 一要求 ,它在图 形中 使 用直条 代表频 数 高低,同 时 又使用 折线来 表示累 计百分 比的变 化情况 。 3.双变量 图:连 续因变 量 顾名 思义,绘 制这类 图形时 需要两 个变量 ,而图 形也主 要是用 于呈现 这两个 变量在数 量上的 联 系方式 ,或者说 当一个 变量改 变时,另一个 变 量会 如 何 变化 。该 图形 常用于 对不 同亚 群 (Sub- group)的研究 对象进 行比较 。 为方 便起见 ,这里首 先考虑 处于被 动变化 地位的 变量 (因 变 量)为 连 续变量 的情形 。此 时因 变 量一般 会使用 纵轴刻 度的高 度加以 呈现,而 用户所 具体关 心的指 标可能 是其均 数或标 准差等 。 当 另一个 主动变 化的变 量(自变 量 )为无 序 分 类变 量 时,所 用 的图形 工具 实 际 上 还是 简 单 条图 , 只 是此时 每一个 直条的 高度反 映的并 非频数 大小,而 是该 直 条 所代表 类别 相 应的 因变 量指 标的 高 低了。 当自变 量为有 序分类 变量,特 别是代 表 年代 或时 间 时,统计 学 中习 惯上 会用 线图(参见 图 8.6(a))来对 其关联 进行呈 现,用于 直观地 表现随 着有序 变量的 变化,相应的 因变量 指标 是如 何 上升或 下降的 。显然 ,这一问 题用条 图似乎 也是可 行的,但这主 要是一 个使用 习惯的问 题。最 后 ,如果自 变量也 是连续 性变量 ,则所 用的工 具就 是大 家所 熟 悉的 散 点图(参 见 图 8.6(b))。它 使 用散点 的疏密 程度和 变化趋 势来对 两连续 变量间 的数量 联系进 行呈现 。  (a)线图               (b)散点图                (c)复式条 图 图 8.6 几种常见的多变量图示意 4.双变量 图:分 类因变 量 当因 变量为 分类,自 变量为 连续时 ,目前 尚没有 很 好的 图 形工 具 可 利用,常见 的处 理方 式是 将 自、因变 量交换 后使用 条图来 进行呈 现。当 自变量 也是分 类变量 时,实 际上所 使用的图 形工具 是 比较单 一的,基 本上以 条图为 主。但 是,按照 其具 体 的 呈 现方 式 ,又可 分 为复 式 条 图 (参见 图 8.6(c))、分 段条图 和马赛 克图三 种,复式 条图重 点呈现 两个分 类 变量 各个 类别 组 合情 况下 的频 数 情况,分 段条图 则主要 突出一 个分类 变量各 类别的 频数,并在此 基础上 表现两 个类别的 组合频 数 情况。 马赛克 图也是 以一个 分类变 量为主 ,它呈现 的是在 一个变 量不同 类别下 ,另一个 变量各 类 别的百 分比变 化情况 。本章 的第 5节会对 这些图 形作详 细的讲 解。 事实 上,以上 所介绍 的仅仅 是最为 正规和 常见 的 双 变量 统 计图,实 际上,在读 者朋 友们 掌握8.1  统计图 概述 161             了 单变量 图的特 性后,完 全可以 将其加 以充分 利 用,在 自变 量 为分 类 变 量时,分类 别绘 制相 应的 单 变量图 进行数 值特征 的呈现 ,以达到 对数据 更为充 分 和深 入 的展 示 。最 常 见的 情况 有分 组箱 图 、复式饼 图、直 方图组 等,对此 感兴趣 的读者 可参见 相应图 形的详 细介绍 ,这里 不再详述 。 5.多变量 图 当一 幅图形 中需要 呈现出 三个甚 至三个 以上变 量 的数 量 关联 时 ,所构 成 的图 形就 被称 为多 变 量图。 一般而 言,由于 一个坐 标轴只 用于呈 现一个 变量的 数值特 征,因 此最常 见的二维 平面统 计 图表示 两个变 量的特 征是比 较合适 的。如 果要表 现 三个 变 量的 关 联,最 好 的办 法是 采用 三维 坐 标的立 体统计 图。但 是,由于 实际上 还是在 纸平面 或者显 示器平 面上对 三维图 进行呈 现,立体 图 在使用 上并不 方便。 因此,当 其中有 变量为 分类变 量时,统计学 家采用 的办法 往往是采 用图例 这 一方式 对二维 图进行 扩充,使 二维图 能够表 现出更 多的信 息。例 如,在 散点图 中用点的 形状或 者 颜色区 分不同 的类别 ,这样实 际上就 在一幅 带 图例 的散 点 图 中同时 呈现 了 两个 连续 变量 和一 个 分类变 量的数 量关联 信息。 类似的 图形还 有多线 图等。 当然,如 果所有 变量均 为连续 变量,则 图 例并不 能解决 问题,仍 然需要 使用高 维的散 点图才 能 对其 关 系加 以 呈 现。 为了 方便 分析 这对 高 维散点 图的观 察,SPSS中 也提供 了 一系列 的功 能 ,如散点 图矩 阵,立体散 点 图 的动 态 旋 转等 , 详 见下一 章。 6.组合统 计图 实际 上,组合 统计图 也属于 多变量 图,只 是更为 复 杂,表 现 的信 息 也 更为 丰 富而 已 。在 实际 运 用中,根 据具体 问题的 需要,分析者 可以充 分发挥 自 身的 聪 明才 智 ,将各 种 统计 图组 合起 来应 用 ,从而更 全面、更美观 地将获 得的数 据资料 加以表 现。如 下例就 是一个 将饼图 与散点图 结合起 来 的例子 ,图 8.7中按照 X和 Y的 不同取 值,分别 标出了 a、b、c三个 类 别的构 成比,从 而分 析者 在 这一张 图中就 可以得 知随着 X、Y数值的 变化,相 应的构 成比是 如何发 生变化 的。 图 8.7 饼图、散点图的组合统计图示例          162   第 8章  数据 的图形 展示(上 )    实际 上,这幅 图形还 可以反 映更多 的信息 ,比如 用饼图 的面积 大小来 表示具 体位置的 样本量 (频 数)大小 。但读 者在具 体应用 时要注 意“度 ”的 问 题,切勿 将组 合 统 计图做 得太 复杂 ,因 为这 样 会丢弃 统计图 “直观明 了”的优 点,那将 是得不 偿失。 7.统计地 图 统计 地图是 一类用 途非常 特殊的 统计图 ,用 于描 述 某现 象 的数 量 在 地域 上 的分 布 。它 以地 理 或行政 区划,例 如以省 或县或 者乡为 单位,将某个 指 标按 照 某种 图 形 元素 绘 在地 图上 ,用 于分 析 该指标 的地理 分布特 征。 SPSS为统 计地图 推出了 专门的 一 个 MAP模块 。 但是 由于 该模 块比 较 专 业,且 与 统 计知 识 关 系不大 ,因此本 书将不 再对其 作深入 讲解,对此有 兴趣的 朋友请 参考 MAP模块 的用户 手册。 8.其他特 殊用途 的统计 图 除以上可按 照统 计原则 加以规 律的图 形外,针对一 些特殊 的 应用 领域和 分析 目的,SPSS还提 供了一系列的专用统 计图,它们或 者用于满足 某一个 行业 的特殊 需求,如用于工业质 量控制 的控制 图 (参见图 8.8(a)),用于股 票分 析的高低图;或者用于完 成某种专门的 统计分析问 题,如用 于描述 样 本指标 可 信 区 间 或 分 布 范 围 的 误 差 条 图 ,用 于 诊 断 性 试 验 效 果 分 析 的 ROC 曲 线 (参 见 图 8.8(b)),用 于时 间序列 数据预分析的序列图等。对于这些工 具本 文会在 下一章 作简 单的介绍。 (a)控 制图 (b)ROC曲线 图 8.8 特殊用途的统计图示例 8.1.3 SPSS12的常规统计图功能简介 对于 SPSS的 老 用户 而 言,在 初次使 用 SPSS12这 一版本 时 ,感受 最深 的会 是 它的 常规 图功 能 已经完 全不一 样了,实 际上应 当被看 成是 一 个全新 的绘 图系 统。 那 么,为什 么 SPSS要放 弃已 经 非常成 熟,也使 用多年 的原有 绘图系 统,甘 愿冒如 此大的 风险推 出这样 一个和 以前不兼 容的全 新 绘图系 统呢? 在笔 者看来 ,可能是 因为以 下几点 原因:首先,原 有版本 的常规 统计图 虽然功 能强大 ,但默认 绘 制的图 形更适 合于在 PowerPoint中 进行演 示,如 果要用 于纸上 呈现,则 图形的 美 观程 度上 有所 欠 缺,用户 需要进 行较多 的编辑 操作,显得过 于麻烦 。其次 ,常规图 相应的 编辑功 能过于 复杂,不 同 的图形 使用规 律各异 ,用 户 掌 握 起来 较 为 麻烦 。 最后,原 常 规图 的许 多功 能 在细 节 上 还有 欠 缺 ,尚不能 满足自 由使用 的需求 ,仍有 改进余 地。虽 又 推出 交 互图 进 行 补充,但交 互图 需要 用户8.1  统计图 概述 163             有 很好的 审美能 力,且操 作较复 杂。由 于用户 在使用 上仍然 以常规 图为主 ,因此 希望能够 将这两 种 图形加 以融合 ,方便使 用。 鉴于 以上原 因,SPSS在 综合分 析了各 主流统 计软件 的绘图 功能,并 吸收 所 兼并的 SigmaPlot、 SYSTAT等 统计软 件的统 计图特 点后,毅 然推翻 了原有 常 规图 形 的格式 框 架,采 用全新 的存 储格 式 以满足 更为灵 活、强大 的绘图 需求,引入大 量原先 在 交互 图 中才 能 实 现的 功 能,并对 编辑 功能 菜 单进行 了重新 组织,显 得更为 系统、规律,用 户的学 习和使 用难度 也大大 降低。 为方便 新、老用 户 了解这 一全新 的系统 ,这里将 其主要 特色功 能总结 如下。 1.更加自 由灵活 的图形 框架 在 SPSS12版本中 ,常规 图的框 架完全 符合前 述统计 图形的 标准结 构,针对 不 同部 分的 实际 需 求,还分 别给予 了不同 的编辑 权限。 例如对 于 外框 区 和内 框 区,用 户 在选 中 后会 出现 控制框 , 利 用鼠标 就可直 接改变 框区的 大小,对 内框区 还能进 行 位置 的 移动。 在改 变 框区 大小 时图 形长 宽 比例不 再固定 ,并且将 对称的 改变除 文本外 所有图 形元素 的大小 ,完全 做到了 随心所欲 。 对于 属于内 、外框区 内的其 余 各区 域,如 标 题 区,图 例区 等 ,SPSS则根据 具 体情 况 决 定其 编 辑 能力,例 如,图 例区的 区域相 对位置 和大小 完全自 由,可拖 动到任 意位置 ,同时 区域内元 素的各 种 设置保 持不变 ,如图 8.9所示 ;而对 于坐标 轴标题 区 则不 提 供任 何 位 置移 动 和大 小改 变功能 , 以 保证图 形框架 的整齐。 图 8.9 自由拖动标题和图例区的示意图 2.对编辑 菜单和 对话框 的全新 组织 为了 方便用 户使用 ,这一版 本在菜 单级别 上对编 辑功能 进行了 重新组 织,各 种功能在 菜单上 的 布局更 为合理 ,层次更 加清晰 。例 如 ,将 原有 的图 形 种 类 转换 功 能 归并 入 Chart菜 单 中,操 作 也 更为简 便。对 于图形 编辑中 非常繁 杂的格 式设置 功 能,现 在 都被集 中放 置 在了 统一 的属 性选 项 卡中,不 同图形 在编辑 时对选 项卡的 操作方 法基本 相同,用 户更容 易 使 用。 实际 上,这种 设计 最 初来源 于交互 图,但现 在已经 被系统 移植到 了常规 图中,从这一 点大家 也可以 看出新的 常规图 的 确吸收 了许多 好的思 想和技 术。          164   第 8章  数据 的图形 展示(上 ) 3.更加自 由的图 形元素 选择方 式 作为 对图形 编辑功 能的增 强,常规 图中的 图形元 素选择 方式已 经更加 灵活,现在单击 图形元 素 ,如散点 、直条 等,则会 选中图 中的所 有同类 元 素;在 原位 置 上二 次 单 击,则 会变 为只 选中 该图 形 元素本 身(在使 用图例 时,二 次 单击 会 选 中同 组 元素,三 次单 击 才 会选 中 元 素 本身 )。 用户 可 以 对所选 中的一 个或者 一组图 形元素 进行任 意的格 式 设 置,如 颜色、填 充样 式 ,甚 至于 单独 标出 具 体的数 值、id号 等。 4.随心所 欲的文 本编辑 对应 于大大 增强的 图形元 素编辑 功能,新 版常 规 图对 图 形 中文本 的编 辑 能力 也有 了质 的飞 跃 ,对于图 形中任 何部位 的文本 ,用鼠 标单击 可以选 中文本 ,再次单 击则进 入编辑 状态,可 自由进 行 内容、格 式、字 体等的 编辑。 文本的 位置设 定则分 为 三种 情 况,绝大 部分 文 本位 置在 图形 中可 以 任意移 动。例 如,虽然 默认标 题位置 在正上 方,但 它 实际 上 是一 个 普 通的 文 本,用户 可以 将其 拖 动到任 何位置 。图形 中添加 的注解 文字的 位置则 为半固 定,不能 使用鼠 标随意 拖动,而 只能在 选 项卡中 输入坐 标进行 精确定 位,以保 证位置 的准确 。而对 于数轴 标题、散点标 签等附属 于图形 元 素的位 置则完 全固定 ,以保证 基本的 图形特 征。 5.对图形 模板更 完善的 控制 在提 供更为 完整和 强大的 图形编 辑功能 的同时 ,新版 常 规 图也为 用户 自 由定 义默 认输 出的 图 形格式 提供了 更多的 选择。 选择菜 单 Edit→Options,在 系统设 置对话 框的 Charts选 项 卡中,用 户 可以对 绘图时 默认的 颜色、线 形、散 点形状 、填充样 式等自 行加以 设定,给予了 用户更大 的设置 自 由。不 仅如此 ,常规图 也对图 形模板 提供了 更 好的 支 持,在 将图 形 存 为模 板 时,用户 可以 选择 具 体存储 的元素 种类,从 而使得 模板更 符合用 户的需 求。 通过 上面的 简单介 绍,相信 读者朋 友们已 经对 新 版常 规 图 的基本 操作 和 编辑 能力 有了 一个 大 致的了 解,因此 本书将 不再对 常规图 的编辑 作专门 介绍,而是将 编辑功 能融于 各种图形 的具体 讲 解之中 ,以突出 统计教 程这一 主线。 8.1.4 交互式绘图简介 SPSS自 8.0版本 开始提 供交互 式绘图 (InteractiveGraph)功 能,既然 在拥有 了 强大 的普 通统 计 图后 SPSS又专 门推出 了交互 式统计 图,那 么究竟 这种新 的统计 图类型 和普通 统计图相 比能有 什 么优越 性,或者 说,它 的主要 卖点—— — 交互 性都体 现 在 哪里 呢?与 普 通的 统 计绘 图功 能相比 , 主 要有以 下几方 面不同 。 1.对话框 的交互 它的 对话框 全部采 用非常 舒服的 拖放方 式操作 ,并且 每 一 个对话 框元 素 的可 操作 性都 大大 强 于普通 对话框 ,以前需 要两至 三层对 话框才 能完成 的工作 ,现在 只要在 一层对 话框中就 可以完 成 了。进 一步而 言,对话 框的交 互性具 体体现 在了以 下几方 面:8.1  统计图 概述 165             (1)选择变量方式不同。交 互图提供了拖放 功能(DragandDrop),选 取绘图 变量 时可直 接使用 将该变量由左面的备选框中放置到右面的绘图变 量框中,而不必点击传统对话框中 的 按钮。 (2)变量表 现形式 不同 。在交 互图对 话框中 ,变量 将根据 变量类 型分别 标以 符号 、 。前 者表示变量为标度测 量(ScaleMeasurement)、后者 表示变量为 有序测 量(OrdinalMeasurement)或名 义测量(NominalMeasurement),而所绘制的图形种类 可能会因为 变量测 量尺度的不 同而发生改变 。 在 有的图 形 种 类 中,变 量 对 话 框 中 还 会 出 现 Case[$case]、 Count[$count]、 Percent [$percent]三种内置变量(视 绘制的交互 式统计图种类 不同而 定,有 时只有 后两种),分别表 示数据 库 中各条记录某变量的取值 情况,数据库中某变量频 数、及数据库中某 变量的 百分 构成比 。 (3)更为简 单实用 的对话 框。交 互图的 对话框 为 选项 卡 形式,各 种功 能 都被 归类 在选 项卡 上 ,层次非 常清楚 。普通 绘图常 需要通 过两个 甚至三 个对话 框才能 完成统 计图的 绘制,而 交互式 绘 图仅需 一层对 话框就 可以完 成,且交 互式绘 图对话 框中的 选择项 比普通 绘图要 丰富得 多,可以 随 心所欲 地绘制 更美观 、更符合 统计学 要求的 统计图 。 2.图形内 容的交 互 在技 术上,普 通统计 图存储 的是图 形元素 ,因此 编辑时 只能就 图形元 素的特 征,如颜 色、线型 等 加以修 改;而现 在的交 互式统 计图完 全不同 ,它存 储 的是原 始数据 或 者绘 图 用的样 本指标 (如 均 数、标准 差等),因此当 图形绘 制完毕 后仍能 对图形 进行彻 底 更改,如加入 新 的变 量 (在散 点图 中 加入标 示变量 ,甚至二 维变三 维),删 除某一 部分数 据 ,甚 至 改变 所绘 图形 的 基本 类型 ,如 将条 图 改绘为 线图等 ,只要能 够提供 所需信 息,随 用户的 需 求 任意 转换! 不 但如 此 ,由 于这 个存 储特 点 ,现在用 户还可 以绘出 以前无 法直接 得到的 图 形,如 将一 个 数据 透 视 表的 内 容用 图形 来表示 ! 图 8.10显 示了几 个交互 式统计 图的示 例。 图 8.10 几个交互式统计图的示例 基于 这种特 殊的存 储方式 ,交互图 赋予了 用户极 为强大 的编辑 能力,几乎任 何图形中 的元素 都 可加以 修改,或 对它进 行非常 精细的 修饰。 更让人 激动不 已的是 ,现在 用户可 以编辑单 个图形 元 素,比如 选中分 段条图 中的一 段直条 ,将它 改得花 花 绿绿 以 示突 出 ,或者 更 改散 点图 中某 一个          166   第 8章  数据 的图形 展示(上 ) 点 的颜色 和形状 。这在 大多数 统计软 件中是 不可想 像的。 在 SPSS11及 以前 各版 本 中,交互 图 的数 据 呈现能 力 要远 高于 常 规统 计图 ,而两者 的绘制 、 编 辑操作 也相差 极大,因 此必须 要分别 加以详 细讲解 。而此 次 SPSS12在推出 新的常 规 图时,实 际 上就吸 收了相 当多的 交互图 操作特 点,使得 这两种 图 形的 许 多操 作 和 特性 都 开始 融 合。 由于 常 规图更 为常用 ,且已经 可以满 足多数 情况下 的需求 ,因此本 书将 以 常 规图为 主对 SPSS的 绘图 功 能加以 介绍,并 同时介 绍交互 图中比 较有特 色的图 形种类 和编辑 功能,以满足 读者朋友 们更高 的 使用需 求。如 果读者 对交互 图的详 细操作 感兴趣 ,希望作 进一步 了解的 话,可 以参见笔 者前作 《SPSS11统 计分析 教程》(基 础篇)中 的相关 章节,也 可参考 SPSS的用户 手册。 8.2 直方图与茎叶图 直方 图(Histogram),用 于表示 连续性 变量 的 频 数分 布 ,实 际应 用中 常用 于 考察 变 量 的分 布 是 否服从 某种分 布类型 ,如正 态 分布。 图形 中以 各 矩形 (直条)的面 积表示 各组 段的 频数(或频 率 ),各矩形 的面积 总和为 总频数 (或等于 1)。若 各组 段组 距 不等,则 以各 组 段组 距除 该组 段频 数 之商为 矩形的 高度,以 该组段 的组距 为矩形 的宽度 ,以保 证矩形 的面积 等于该 组的频数 。 8.2.1 常规图中的直方图 设希 望对 SPSS自带 数据库 Cars.sav中的 变量 horse绘 制 直方 图,并 考察 其是 否服 从正 态分 布 。则相 应的对 话框如 图 8.11所示。 图 8.11 直方图主对话框 图 8.11所示 的对话 框的操 作内容 实际上 是和图 形结构 完全对 应的,由于直 方图属 于连 续性 变 量的单 变量图 ,其纵轴 已被设 定为表 示各组 段的频 数,因 此用户 只需要 设定横 轴是用于 表示哪 一 个变量 的组段 分布情 况即可 。相应 的对话 框中也 就只需 要指定 一个变 量。下 方的复选 框用于 要 求在直 方图中 显示正 态分布 曲线,属 附加功 能。 由图 8.12中 可以看 出,马 力 (Horsepower)明 显 不 服 从正 态 分布,多 数 汽 车 马 力 在 60~110 马 力,少部 分在 150马力 以上。 整个直 方图的 变动趋 势和理 论上的 正态曲 线相差 很大,数据 呈正8.2 直方 图与茎 叶图 167             偏 态(右偏 态 )分布。 图 8.12 汽车马力频数分布直方图 8.2.2 直方图的编辑 SPSS直接 输出的 直方图 并不一 定会满 足分析 者的要 求,需 进行一 定的编 辑。在 Output窗口 双 击欲进 行编辑 的统计 图,或者 选中 该 统 计图 后 选择 菜 单 Edit→SPSSChartObject→ Open,则会 进 入一个 独立的 图形编 辑窗口 (ChartEditor)如 图 8.13所示 。 图 8.13 图形编辑窗口 ① 偏 态的方向指 的应当 是长尾的方向,而不 是高峰的位 置。本 例中长尾 指向右 侧 ,因此应 当为右 偏态 ,详见第 四章。 国 内的 不少统 计书籍对左 /右偏态 的理解有误 ,往 往正好 弄颠 倒。          168   第 8章  数据 的图形 展示(上 ) 1.图形编 辑的基 本操作 (1)元素位 置的移 动和大 小改变 :这里绘 制的直 方 图右 侧 提供 了 均 数、标 准差 等统 计量,但 是 由于宽 度不够 ,标准差 被折成 了两行 显示,能否改 变 其宽 度 ,并把这 些统 计 量拖 动到 图形 右上 方 的空白 区域去 呢?当 然可以 ,统计 图中 的许 多 元 素 都是 可以 进行 移动 或 直 接 更改 其 大 小的 。 用 鼠标将 相应的 元素选 中(可以 是框架 结构、文 本块、图例的 一 组等),则会 出现 如 下图 所示 的带 8个控 制柄的 方框。 将光标 移动到 框线上 ,则光标 会变为 十字架 形,此 时按 下鼠 标 左键 即可 随意 移 动所选 中元素 的位置 ;如果将 光标移 动到控 制 柄上 ,则光 标 变为 双 向 箭头 形 ,此 时按 下左 键可 以 更改元 素的大 小。移 动位置 和改变 大小的 操作 如图 8.14所 示。在 移动 位 置或 改变 大小 时相 应 区域内 的文本 不会改 变大小 和格式 设置,只 会随着 区 域的 形状 “流 动 ”。 而其 中 的图 形元 素则 会 自动调 整大小 和形状 ,如改变 直条的 长度、宽度等 ,以达到 最佳的 显示效 果。 图 8.14 移动位置和改变大小 (2)图形元 素属性 的更改 :鼠标的 拖放能 够改变 各元素 的位置 ,但是 如果要 进行更加 精细的 格 式设定 ,就必须 要使 用 属性 对 话 框 了。 选 择 菜 单 Edit→ Properties,或 者 在 工 具栏 上 直 接单 击 “ ”,就 可以打 开一个 单独的 图形元 素 属性 对 话框 。 该对话 框由 多 层 选项卡 构成,当 没有 选中 任 何图形 元素时 ,默认值 有一个 图形大 小选项 卡(参见 图 8.15)。 用户可 以在其 中改变 图形 的大 小 ,输入数 值后单 击 Apply按 钮,相应 的更改 就会生 效。 图 8.15 属性对话框:图形大小选项卡 当选 中不同 的图形 元素时 ,属性对 话框会 同步 发 生改 变 以 便及时 给出 可 用于 该元 素编 辑的 各 种选项 卡,如填 充格式 、线性 、颜色选 项卡等 ,大家 随后就 会看到 。由于 属性对 话框在编 辑时非 常 常用,但 它默认 会放置 在屏幕 左上角 ,和图 形编辑 窗 口 重叠 。建 议 将 其拖 动 到屏 幕右 上角,以8.2 直方 图与茎 叶图 169             方 便操作 。 (3)添加新 的图形 元素:有 的时候 ,仅仅 对现有 图形内 容进行 编辑、修 改还不 能满足 需要,分 析 者可能 还希望 向其中 添加一 些图形 或文本 内容,或 者 隐藏 或 显示 已 有 的部 分 。对此 有多 种操 作 方式,最 正规 的方 法是 使 用 Chart菜 单 中的 相 应 功 能,特别 是它 的 AddChartElement子菜 单 (参 见图 8.16),主菜单 中的 各 选 项 可 以 用 于 切换 隐 藏或 显 示 被选 中 的元 素,而 AddChartEle- ment子菜单 则用于 添加各 种图形 或文本 元素。 其中 Annotation和 TextBox的区 别在于 前者 必须 要 使用属 性对话 框进行 坐标位 置定位 ,而后者 则可以 用鼠标 随意拖 动。 图 8.16 Chart菜单和 AddChartElement子菜单中的相应功能 除菜 单方式 外,用户 还可以 使用右 键菜单 方式、快 捷工 具 栏上 的 相 应按 钮 完成 同样 的任务 , 因 编辑的 需求不 同,各种 图形元 素的右 键弹出 菜单也 各 不相 同 。因其 功能 和 前述 菜单 实际 上是 完 全对应 的,因此 这里不 再详述 ,感兴 趣的朋 友可以 自行尝 试。 2.直方图 选项的 修改 对直 方图进 行编辑 的一个 主要方 面是对 直方图 中直条 数数目 的多少 进行编 辑。为此 首先应 当 在图形 编辑窗 口中用 选中直 条,如图 8.17所示,此 时直条 周围会 被紫色 线条所 包绕,同时 属性 对 话框会 切换为 如图 8.18所示 的形式 。 对直 条而言 ,其属 性 对 话 框中 默 认 在 最 前 面 的 是 直 方图 选 项 卡。在 里 面 可 以 对图 中 直 条 (组 段)的起 始位置 (AnchorFirstBin)和 直条 数 (BinSizes)进行 设定,SPSS经 过 计算 ,默 认本 例 中 应当为 25个直 条(组 段 ),最小 值 从 45开 始。注 意 “Intervalwidth”与 “Numberofintervals”是 一 一对应 关系。 前者等 于当前 对话 框中 “Scale”选项 卡中规 定的 横轴 刻 度最 大值 最小 值 之差 除 以 “Numberofintervals”。对于 本例,则 Intervalwidth=(240-45)/25=7.8。设 想 更改 直条 数为 20,则直接 在相应 的“Numberofintervals”框中 更改数 字为 20,并 单击 Apply按钮即 可。 3.连续轴 选项的 修改 下面 来看一 下对连 续轴可 以进行 哪些修 改。由 于 直方 图 中两 个 数 轴都 是 连续 轴,因此 其可 用 的 选 项 卡也 是 完全 相 同 的。这 里 以横 轴 为例 ,当 选 中横 轴 的任 意 部分 时 (刻度、轴 线 、标 题文          170   第 8章  数据 的图形 展示(上 )       图 8.17 选中直条的情形           图 8.18 选中直条时对应的属性对话框 字 均可),属 性对话 框中都 会出现 连续轴 适 用的 选 项卡 ,其中最 重要的 是 Scale和 NumberFormat 两 个(参见 图 8.19)。 Scale选项卡 上部用 于 设 定数 轴的起 、止 数值 ,间距 大 小 和 原点 所 在 位置 , 由 于前面 更改了 组段数 ,因此这 里最小 、最大 值不再 是 默认 设 定,而 是 由 SPSS进行 了自 动更改 。 该 选项卡 下方则 用于更 改连续 轴的刻 度方式 ,默认为 算术等 距,也 可更改 为对数 等距或指 数等距 尺 度。对 于需要 绘制对 数线图 的朋友 ,现在就 可以想 到在 SPSS中 应当如 何操作 了。 图 8.19 连续轴的 Scale和 Numberformat选项卡8.2 直方 图与茎 叶图 171             NumberFormat选 项卡主 要用于 设定数 值显示 格式,包 括小数 位数、尺度因 子、数值 前导 符和 后 续符,其 中比较 重要的 是前两 个。在 有的默 认 图形 中,小 数 位数 会 比 较长,可以 在此 处更 改为 更 合适的 大小,而 尺度因 子则用 于数值 较大时 ,数轴 刻度将 会按照 原始数 值除以 尺度因子 加以显 示 。比如 本例中 希望将 数轴按 照“百马 力”为单 位 进行显 示则 可 以将 小数 位数 设 为 1,尺度 因子 设 为 100,后 续符改 为“百马 力”。 除以 上两个 选项卡 外,连 续 轴的 选 项 卡 还 有 标 记 与 框线 (Ticks& Grids)、轴 标 签 (AxisLa- bels)等,因比 较简单 ,请读 者自行 操作,这 里不再 详述。 4.添加参 考线 假设 这个问 题中频 数大于 50的组 段是比 较重要 的,那 能否在 图形上 添加一 条参考线 以突出 哪 些组 段达 到 了这 一标 准呢 ?有 了 前面 的 知 识,显 然 这里应 当使 用 的 是菜单 Chart→ AddChart Element→Y AxisReferenceLine这一 项。 但是,操 作 完毕 后该 参考 线默 认 被 放 置在 连 续 轴正 中 间 ,即 40的位置 。如何 进行移 动?其 实很简 单,再选 中该参 考线后 ,其属 性对话 框中会出 现相应 的 ReferenceLines选项 卡,在 其中将 相应的 YAxisPosition由 40改 为 50即 可。 5.图形元 素属性 的修改 在图 形结构 已基本 修改完 成的情 况下,剩 下的工 作就只 有对各 种图形 元素加 以修饰 ,使之更 为 美观了 。下面 介绍如 何对 已有 图形 的 元 素 属性 加以 修改 。 现在 所使 用的 直 方图 主 要 由直 条 (区 块)、线条 和文本 三种元 素构成 ,它 们所 对 应的 属性选 项 卡如 图 8.20所 示,可见 其 共 同特 征 是 可以进 行颜色 的更改 ,此外还 各自有 一些特 征 性的 编 辑选 项 ,如 图 形 区块 可 以更 改填 充样式 、 边 框样式 ,线条可 以更改 线型和 粗细,而文本 则可以 更改字 体、大小 和对齐 方向等 。以区 块为例 , 首 先每种 区块的 设定会 被分为 填充和 边框两 大部分 ,用户 首 先 应当确 认希 望 更改 的是 其中 的哪 一 部分。 如果希 望更 改填 充 颜色 ,则选中 Fill& Border选项卡 中 Color组的 Fill按 钮,可见 该按 钮 凹下表 明被选 择,此时 就可在 右边的 颜料盒 中选取 喜 欢的 颜色,注 意“ ”表示用 白 色填充 , 而“ ”表 示完全 透明(无 填充颜 色)。此 外,下方 的填充 方式(Pattern)下拉列 表还可 以对区 块 图 8.20 图形区域、线条、文本的选项卡          172   第 8章  数据 的图形 展示(上 ) 内 的填充 方式进 行修改 ,相应填 充方式 的颜色 实际上 是填充 色和边 框色搭 配而成 ,最上方 的 Pre- view框可 以直接 显示出 相应的 效果,请 读者自 行操作 ,这里 不再详 述。 在以 上编辑 操作完 毕后,最 终的直 方图如 图 8.21所示 ,通过这 个实例 ,读者 朋友们 应当 能充 分 体会到 新版常 规统计 图在编 辑操作 上的强 大功能 和方便 性。以 后的各 种图形 本书将重 点讲解 其 用途,对 于编辑 的具体 操作则 不再详 细讲解 。 图 8.21 编辑完毕的直方图 8.2.3 用交互图绘制累积直方图与直方图组 比起 常规图 来,交互 式绘图 中对直 方图提 供了更 好的支 持,不 仅对普 通直方 图有着更 多的编 辑 选择,还 提供了 绘制累 积直方 图以及 直方图 组的功 能。 1.交互式 绘图的 操作界 面 在进 行交互 式绘图 之前,有 必要对 交互式 绘 图的 操 作界 面 予以 一 定 的说 明 。交互 式绘 图的 操 作对话 框直接 就是多 选项卡 的形式 ,不同的 交互图 选项卡 种类不 同,但 以下几 个是各种 图形都 有 的:AssignVariables、Titles、Options。下面 以直方 图 为例 ,对几 个常 见的 选 项 卡 进行 说 明,如 图 8.22所示。 (1)AssignVariables:主要用 于指定 哪些变 量用于 绘 制图 形,并将 各变量 分 配到不 同的 坐标 轴 。对话 框的右 上角为 图式按 钮,用于 设定希 望绘制 的 图形 结构:2D,3D和 3D 效果。 绘制 二维 图 形时为 两个坐 标轴,三 维图形 时当然 有三个 坐标轴 ,3D效果时 实际上 是二维 图形,但 会给 出一 个 虚拟的 第三维 度,用于 生成立 体效果 。图式 下方为 变量选 择区,用于具 体设定 各维度所 代表的 变 量,注意 相应的 变量都 是要采 用拖 放 式操 作才 能选 入 。对 话框 右下 方 的 Panel框 中 选 入的 变 量 用于对 该变量 分组绘 图,相应 的结果 就是直 方图图 组。 通 常 左边的 候选 变 量框 中除 了当 前数8.2 直方 图与茎 叶图 173             图 8.22 交互式直方图的操作界面 据 库中的 所有变 量外,还 列出了 Count、 Percent、Case三 种内 置变 量。但 在 如图 8.22所示 的 直方图 中,由于 变量类 型 不同 ,仅列 出 了 Count和 Percent两种 内 置 变 量。 这 些内 置 变 量只 能 作 为因变 量。注 意各变 量按其 测量尺 度被分 为连续 变 量和 分 类变 量 两 大类,并用 图标 清楚 的加 以 区分,这 是因为 交互图 会按照 所用变 量的尺 度而自 动确定 应当绘 制的图 形种类 ,因此如 果尺度 设 定错误 ,就会直 接影响 绘制结 果,因 此必要 时应单 击右键 对测量 尺度加 以更改 。 (2)Histogram:绘制 交互式 直方图 时特有 的选 项 卡,有了 前面 常 规 图的基 础,各选 项意 义已 经 一目了 然,请读 者自行 练习。 (3)Titles:用于 规定统 计图的 主、副 标题和 脚注等 。 (4)Options:用于选 择绘制 统计图 的模板 、绘制 图形大 小以及 其他选 择 项。像 Office中 提供 了 众多文 件模板 一样,SPSS对 于 交互 式绘 图提 供 了 8种 类 型模 板 ,分 别 为 :Chalkboard、Classic、 Dante、Education、Grayscale、Marina、Neon和 Steel。选 用 不同 类型的 模 板 可以 进 一步 美 化 图形 输 出 结果。 此项默 认值为 不使用 任何模 板。 2.用交互 图方式 绘制普 通直方 图 下面 介绍普 通的直 方图用 交互图 方式是 如何绘 制 的。在 选 择 Graph→ Interactive→Histogram 调 出对话 框后,其 操作基 本上 在 AssignVariables选 项卡 中 即可 完成 ,注 意使 用 的是 鼠 标 拖放 式 操 作,相应 的对话 框和图 形如图 8.23所示。 绘制 的直方 图与常 规图中 绘制的 直方图 基本一 致,只是 两种的 直方图 默认的 填充颜 色、长宽 比 例等均 不同,如 填充色 前者为 淡黄色 ,后者 为红色 。 3.累积直 方图的 绘制 累积 直方图 主要用 于描述 连续变 量的累 积分布 ,其基本 绘制原 理和普 通直方 图是一 样的,只 是 从小到 大将各 直条的 频数累 积起来 而已。 可以根 据绘制 的累积 直方图 与某一 特定的分 布累积          174   第 8章  数据 的图形 展示(上 ) 图 8.23 交互式直方图对话框及绘制的交互式直方图 分 布曲线 吻合程 度来判 断变量 是否服 从该特 定分布 类型。 AssignVariables选项 卡 的下 方有 一个 Cumulativehistogram复选框 ,就用于 绘制累 计直方 图,而 Histogram选 项卡中 的 Normalcurve复选 框 则要求 同步绘 制正态 分 布曲 线 。相 应的 累积 直 方 图如 图 8.24所 示。 由 图 中可 以 看 出,变 量 horse的 累积频 数分布 在取值 水平为 “110”左 右时就 已经远 超过 了全 部研 究 对象 的 50% ,而 此后 累 积频数 上升较 为 缓 慢,说 明 马 力 大 于 “110”的 汽 车 数 据 较 少,变 量 horse分 布 的 确 为 右 偏 态 分 布。 图 8.24 对变量 horse绘制累积直方图8.2 直方 图与茎 叶图 175             4.直方图 组的绘 制 为了 研究比 较样本 中不同 亚群的 同一个 连续变 量的分 布是否 相 同,SPSS在 交 互式 直方 图中 还 提供了 同时将 不同亚 群的直 方图绘 制在一 起以 进行 比较 的 功能。 例 如,为 考 察美 国 、欧洲、日 本 三地生 产的 汽车 马 力分 布是 否 一致,则 可 以在 操 作中将 变 量 origin选入 AssignVariables选项 卡 的 Panel框 中,相 应的直 方图组 如图 8.25所示 (为节约 篇幅,这里将 “日本”所 在的直 方图 省去 了)。 图 8.25 对变量 horse按汽车不同产地绘制直方图组 图组 中可以 明显看 出美国 车与欧 洲车马 力大小 明显不 同,欧洲 汽车马 力均在 150以 下,而美 国 汽车马 力大于 150的 “大有车 在”。 8.2.4 茎叶图 在上 文对统 计图形 种类的 介绍中 曾经提 到过,由 于绘 制 直 方图时 需要 先 对数 据进 行分 组汇 总 ,因此对 样本量 较小的 情形,直方图 会损失 一部分 信 息,此 时 可以使 用茎 叶 图来 进行 更精 确的 描 述。茎 叶图(Stem-and-LeafGraph)的形 状与 功 能 和直 方 图非 常相 似,但它 是 一种 文 本 化的 图 形 ,因此在 SPSS中没有 被放置 在 Graph菜单 中,而是 可以在 Analyze→ Explore过程 中实现 。 以这 里的变 量 horse为例,如 果希望 绘制该 变量分 布的茎 叶图,则操作 如下: Analyze→DescriptiveStatistics→ Explore Dependentlist框:horse Display框组: Plots OK 在上 面的操 作中如 果选中 了 Plots,则 要求 对 变 量进 行 图形 描述 ,茎 叶图 就 是其 中 的 默认 选 项 ,相应的 图形如 图 8.26所示 。          176   第 8章  数据 的图形 展示(上 ) HorsepowerStem-and-LeafPlot Frequency Stem & Leaf 7.00 4. 688& 9.00 5. 2238& 44.00 6. 0023555557777778889& 53.00 7. 0000001122245555555668889& 56.00 8. 0001334445555667888888888& 58.00 9. 000000000022235555555677778& 33.00 10. 00000000555555&& 30.00 11. 0000000002555& 10.00 12. 0059& 12.00 13. 009&& 18.00 14. 0000555& 29.00 15. 0000000000035& 8.00 16. 055& 12.00 17. 00555 5.00 18. 00 5.00 19. 08 2.00 20. & 1.00 21. & 8.00 Extremes (>=215) Stemwidth:     10 Eachleaf:       2case(s) &denotesfractionalleaves. 图 8.26 对 horse变量绘制茎叶图 由图 8.26可 以看出 ,茎叶 图实际 上可以 近似的 被 看成 是 将传 统 的 直方 图 横向 放置 的结果 , 其 整个图 形完全 由文本 输出构 成,内容 主要分 为三列 :第一 列为频 数,表示 所在行 的观察 值频数 ; 第 二列为 茎,表示 实际观 察值除 以图 下 方 的茎 宽 (Stem Width)后的整 数部 分 ;第三 列是 叶,表示 实 际观察 值除以 茎宽后 的小数 部分。 图的下 方还注 明叶子 中每个 数字代 表的观 察值个数 。在分 析 茎叶图 时,应该 将以上 几个部 分结合 起来考 虑。对 于本 例 茎叶图 的第一 行 ,由 于 茎宽为 10,叶 子 部分第 一个数 字为“6”,说明当 前数据 库中有 2条记 录 的 horse变量取 值 为 46,同理 有 4条记 录 的取值 为 48。其他 依此类 推。第 一行的 频数为 7,说明当 前数据 库中共 有 7条记录其 horse变 量 的取值 水平在 区间[40,50)之内 。 由于 叶子中 每一个 数字代 表 2条 记录,对 于 某观 察 值频 数 为奇 数 的 应该 如 何表 示 呢? 叶子 部 分的符 号“&”就是用 来告诉 大家,当前行 中还有 部分观 察值为 其频数 为奇数 ,但这部 分记 录的 数 量还不 足以构 成一个 完整的 叶,只能 构成一 个 叶的 残 片,本 例中 实 际 上就 是 构成 了半 片叶子 。 如 数据库 中 horse=49的 记录有 1条,horse=60的记 录有 5条,则 对 于 前者,第一 行中 没有 标出 “9”,对于后 者,在相 应的叶 子部分 中仅表 现出 2个“0”,第 5个 “0”由符号 “&”表示。 上述 图形主 体的最 后一行 频数为 8,但 具体的 茎大小 并未给 出,仅 用“Extremes”来表 示,叶也8.3 箱   图 177             仅 标出“>=215”,表示 SPSS将样 本中大 于等于 215的记录 一律看 成是极 端值,共 有 8例 。这里 对 极端值 和更远 的离群 值的计 算方式 与箱图 中完全 相同,因 此请读 者参见 下一节 的介绍 ,这里不 再 详述。 和直 方图相 比,茎叶 图在反 映数据 整体分 布趋 势 的同 时 还 能够精 确的 反 映出 具体 的数 值大 小 ,因此在 小样本 时优势 非常明 显,该 图形在 国外非 常流行 。 8.3 箱  图 箱图 也称箱 线图,和 直方图 一样都 是用于 考察连 续变量 的分布 情况,但它的 功能和直 方图并 不 重叠,直 方图侧 重于对 一个连 续变量 的分布 情况进 行详细 考察,而箱图 更注重 于勾勒出 统计上 的 主要信 息,并且 便于对 多个连 续变量 同时考 察,或 者 对一 个 变量 分 组 进行 考 察,在使 用上 要比 直 方图更 为灵活 ,用途也 更加广 泛。 8.3.1 常规图中的箱图 交互 式箱图 的对话 框比较 简单,这 里不作 介绍,请读者 自行练 习。在 常规图 中可绘制 两种箱 图 ,简单箱 图和复 式箱图 。选择 菜单 Graphs→ Bar,系 统 就会 弹 出相 应 的 对话 框。 由于 箱图 对数 据 的呈现 比较灵 活,需要 进一步 的定义 希望的 操作,因此首 先给 出的 是 预定 义对 话 框,如图 8.27 (a)所 示。此 对话框 的上半 部分用 于选 择 箱 图 类型 ,Simple指 的是 对分 类轴 上 的每 个 类 别只 绘 制 一个箱 形,不再 细分;而 Clustered则要 求 对每 个 类 别再 进 行 细 分 ,从而 绘 制 出 多个 箱 型,从 示 意 图上读 者即可 理解相 应图形 结果的 形式。 下半部 分的 DatainChartAre单选 框 组用 于定 义箱 图 是如何 来表达 数据 的,Summariesforgroupsofcases指对 每 一 个 变 量还 需 要 进 行 分类 汇 总 呈 现 ,即每一 类生成 一个单 独的箱 形;而 Summariesofseparatevariables则对 每一个 变量不再 继续分 类 ,对应每 个变量 都生成 一个箱 形。这 样在预 定义对 话框中 的选择 就可能 形成 4种不同 的组合 , 分 别是单 变量描 述、多变 量描述 、单变 量分组 描述和 多变量 分组描 述。          (a)                                 (b) 图 8.27 箱图的对话框          178   第 8章  数据 的图形 展示(上 ) 下面 来看一 个具体 的例子 ,设研究 者希望 分汽车 产地比 较功率 的大小 ,则如 果用箱图 来呈现 的 话,就是 分组对 一个变 量绘制 箱图,相应的 操作界 面如图 8.27(b)所示 。 由于 在预定 义框中 指定好 了是对 一个变 量绘制 分 组箱 图 ,因此正 式对 话 框中 只需 要指 定相 应 的分类 变量以 及被描 述的连 续变量 即可,前 者用于 形成相 应的分 类轴,后者的 数值大小 最终控 制 了连续 轴的尺 度范围 。在主 对话中 还可以 指定一 个标签 变量,用 于在图 形显示 中替换 记录号 。 绘制 的箱图 如图 8.28所示 ,显然 整个样 本按照 产 地的 不 同被 分 成 了三 组 ,从 而在 图中 一共 绘 制了三 个箱形 。每个 箱形都 由最中 间的粗 线、一个 方框、外延出 来的两 条细线 和最外端 可能有 的 单独散 点组成 ,当中的 线条表 示当前 变量 的 中位 数(M,Median,注 意,不是 算 术均 数),方 框的 两 端分别 表示上 四分位 数(Q3,即 75%百分 位数)、下 四分位 数(Q1,即 25%百分 位数),二者 之间 的 距离为 四分位 数间距 (InterquartileRange,IQR)。显然 ,整个 方框内 包括了 中间 50%样 本的数 值 分布范 围,方框 外的上 、下两 个细线 分别表 示除去 异常值 外的最 大、最小 值。那 么,异常 值又是 如 何定义 的呢? 在箱图 中,凡是 与四分 位数值 (图中即 为方 框 上下界 )的距 离超 过 1.5倍四 分位 数 间距的 都会被 定义为 异常值 ,其 中离 方 框 上、下 界的 距 离 超 过四 分位 数间 距 1.5倍 的 为离 群 值 ,在图中 以“ ”表示 ;超过 3倍的则 为极值 ,用“* ”表 示。由 于 异常 值可 能 对随 后的 统计 分析 产 生较大 影响,因 此箱图 默认会 标出这 些点的 记录号 或标签 变量值 ,以便 于分析 者检查。 图 8.28 箱图的分析结果 对于 本例中 产地为 欧洲的 汽车 而言 ,有 Q1 =69.5、M =77、Q3 =90.5,IQR=Q3 -Q1 =21,因 此 其上侧 的正常 最大值 应当为 90.5+21×1.5=122,超 过此范 围的被 定义为 离群值 。 超过 90.5 +21×3=153.5的被 定 义为 极端 值 。本例 中 283、285两条 记 录的 变 量值 分别 为 125和 133,显 然 应当被 定义为 离群值 ,图中也 正是这 样的结 果。但 是如果 在 122处添加 一条参 照线,就会 发现8.3 箱   图 179             上 侧的细 线所对 应的数 值大小 并非界 值 122,而 是略低 一些,实 际上是 120,这是 为什么 呢? 如果 将 数据排 序,大家 就会发 现欧洲 车 功率 最大 的三 个数 据 分 别 为 133、125和 120,也就 是 说,数 据 中 没有 122这样 的数值 ,正常 范围内 最大的 就是 120,因此最 大值的 细线也 就会被 绘制在 120处 。 在箱 图的基 本结构 介绍完 毕后,现 在就可 以来从 整体上 体会一 下箱图 的作用 了:它可 以同时 反 映出中 位数和 四分位 数的位 置,通过 前面的 学习,大家已 经知道 它们分 别反映 了数据集 中趋势 和 离散趋 势的情 况。而 中位数 距离方 框边界 和最值 边界是 否对称 则直接 体现了 数据分布 的对称 性 。异常 值对统 计分析 有着较 大的影 响,箱图 中则 直 接标 示 出 统计上 认为 可 疑的 离群 值和 极端 值 。因此 和直方 图相比 ,箱图更 为简明 清晰地 突出了 数据分 布的主 要趋势 ,而由 于复式箱 图可以 非 常容易 的进行 分组数 据分布 情况的 比较,因 此当希 望对不 同类别 的资料 进行比 较时,箱 图往往 是 数据预 分析时 的有力 工具。 最后 需要指 出的是 ,由于箱 图主要 是对以 百分位 数为基 础的信 息进行 呈现,因此当百 分位数 不 稳定时 ,箱图并 不适用 。由此 可知,当样本 量太少 ,或者相 同数值 过多时 ,不宜 使用箱图 进行呈 现 ,此时茎 叶图或 者条图 是更好 的选择 。 8.3.2 箱图的编辑 由于 箱图是 由方框 、线段和 散点构 成,因 此前述 对 区 块、线 条等 的 编 辑操 作,如 填充 样式、颜 色 、线型等 的修饰 操作在 箱图中 也完全 适用,只需要 先选中 相应的 图形元 素即可 。这里重 点对一 些 新出现 的编辑 功能和 箱图中 的特色 功能加 以介绍 。 1.分类轴 选项的 修改 分类 变量所 包含的 信息量 是低于 连续变 量的,与 此相对 应,分 类轴中 可供修 改的选项 也明显 的 要少于 连续轴 。最主 要的是 Categories选项 卡,它 可 以设 定 各类 别 在 数轴 中 的排 列顺 序,以及 该 类别是 否在图 中显示 ,如图 8.29(a)所示 。 在选 中 框中 的 变 量名称 后,其右 侧的 “ ”和 “ ” 两 个按钮 就用于 更改变 量在分 类轴上 的排列 次序,而 “ ”和“ ”则用于 将变量 移出或 重新 移入 显 示列表 中。除 此以外 ,选项卡 最上方 的 Collapse复选框 可以要 求将各 小类加 以合并,默认 是将 构 成比小 于 5%的各 类合并 成一个 “others”类(注意 合并后 的总构 成比是 可以大 于 5%的)。 分类 轴编辑 中另一 个可能 用 到 的选 项 卡 是 Ticks& Grids,它 用于 控 制 主、次刻 度 的 显示 方 式 ,如图 8.29(b)所示 。该选 项卡实 际 上在 连 续 轴编 辑 时也 存 在,注 意 其最 上 方 的 Display下拉 列 表,它控 制数轴 的具体 显示位 置,通 过对其 进行更 改,可将 原来默 认在下 方 /左 侧的数轴 移动到 图 形的上 方 /右侧 ,从而 满足绘 图时的 特殊需 求。 2.箱图主 体格式 的编辑 箱图 主体也 可以进 行一定 的 修 改,当 选 中 箱 形 时,就会 出 现 BarOptions选 项 卡,如 图 8.30 (a)所 示,其 上部用 于设定 中间 方 框 的宽度 ,可 使用 Scale复 选 框要 求 按照 各 组 样本 量 多 少来 设 定 宽度。 当选中 外侧的 细线时 ,则可用 下方的 选 项设 定 细线 的 显示 格 式。 可 更改 为无 两端 的细 线 ,或者以 细直条 方式加 以显示 。          180   第 8章  数据 的图形 展示(上 )             (a)                        (b) 图 8.29 分类轴的 Categories和 Ticks&Grids选项卡             (a)                           (b) 图 8.30 BarOptions和 DataValueLabels选项卡 3.设定异 常值散 点的标 签 默认 情况下 异常 值旁边 会显示相应 的记录号作为标签,对此也可以进行更改,选 中散点 后不仅8.4 饼   图 181             可 以使用 Mark选项卡更改散点样 式、颜色 等,还 可以在 DataValueLabels选项卡 中更改用 作标签 的 变量名称和显示位置等,如图 8.30(b)所示。注意如果在绘图 操作中 不指定标签 变量,则 此处只 有 “CaseLabel”这一个 标签变 量可 供选择 ,即要 么在散 点旁 显示记 录号,要么什 么也 不显示。 但是 ,如果在 图中的 散点太 多,默 认将其 标签号 都显示 出来就 会将统 计图变 成一张抹 布。怎 么 办?SPSS提 供的功 能可以 让图 中 只 显示 某 些标 签 ,选择菜 单 Chart→ DataID Mode,或 者直 接 在 工具栏 上单击“ ”,则系 统进入 数据 ID模式,光标 也会 变成 “ ”形,此 时 只需 要在 相应 的散 点 上单击 ,它所对 应的标 签就会 在显示 /隐藏 间进行 切换。 而如果 因散点 过于重 叠而同时 选中了 多 个散点 ,则系统 会首先 弹出选 择对话 框,要 求指明 是 对哪 些 散点 进 行 操作,只需 要选 出希 望更 改 的散点 即可。 当更改 完毕后 ,只需要 再次选 择菜单 Chart→DataID Mode,系统 就会切换 回正常 状 态。 8.4 饼  图 饼图 (PieGraph)用于 表示各 类别某 种特征 的构成 比情况 ,它以圆 形的总 面积 为 100%,扇形 面 积的大 小表示 事物内 部各组 成部分 所占的 百分 构成 比。一 般 以圆 中 相当 于 时 钟 12点处 为起 点 ,各组成 部分按 习惯顺 序或数 值大 小 依次 顺时 针排列 ,“其他”类 别 放 在最 后。当 同 时 绘制 多 个 圆图并 进行比 较时,图 例应一 致,以 便进行 比较。 8.4.1 常规图中的简单饼图 常规 图中提 供的饼 图功能 比较简 单,一次 只能对 一个亚 群的研 究对象 绘制饼 图,若欲 对不同 亚 群的研 究对象 对待比 较时,需 分别进 行绘制 ,或使 用交互 图功能 来完成 。            (a)                             (b) 图 8.31 饼图的对话框 设此 处希望 了解不 同气缸 数的汽 车所占 比 例,则 选 择菜 单 Graph→Pie,与 箱图 类似 ,首 先也 会 弹出预 定义对 话框,如 图 8.31(a)所示,用 于规定 统计图 中表现 的数据 形式,分别为:同一 组内          182   第 8章  数据 的图形 展示(上 ) 不 同记录 绘图变 量值的 汇总指 标(SummariesforgroupsofCases);同一第 记录不 同 变量 的汇 总指 标 (SummariesofSeparateVariables);各观 察 记录 的 原 始变 量 值(ValuesofIndividualCases)。此 处 应为第 一种情 况,随后 的主对 话框如 图 8.31(b)所 示,上 部 用于 设 定 饼块 所 代表 的内 容,可见 如 果有必 要,饼块 可以代 表 样 本 数 外的 其 他 统计 指 标,如另 外一 个 连 续 变量 的均 数等 。 下方 的 Define框用于 选入区 分不同 饼块的 分类变 量,此处 应为 cylinder。 最终 完成的 饼图如 图 8.32所示,可见汽 车的气 缸数以 4、6、8缸为主 ,其余两 种则非 常的少 。 这 里绘制 的饼图 默认不 提供缺 失值所 占的比 例 情况,如 果希望 加入,则 可以在 Options子对 话框 中 加以设 定,则饼 图中会 出现用 于反映 缺失值 记录情 况的饼 块。 图 8.32 绘制的饼图 8.4.2 饼图的编辑 因其 对数据 特征的 表现形 式比较 特殊,饼 图是 没 有 横、纵 轴的,所 以也 不 存在 对数 轴的 设定 问 题。但 饼图中 有一些 前面各 节中未 出现过 的编辑 功能,下 面就一 起来学 习一下 。 1.将饼图 变换为 其他图 形 由于 饼图、条 图、线 图、面积 图的基 本结构 都可以 用于反 映一个 分类变 量的数 据分布 情况,信 图 8.33 图形转换子对话框 息 类型相 似,因此 这些图 形间是 可以相 互转换 的。选 中饼 图主 体,随 后 选择菜 单 Chart→ChangeDataElementType,即可在 该子菜 单(参见 图 8.33)中选 择希 望转 换成 的 图 形 种 类 ,选 择 后图 形 会被 立 刻转 换 为 所对应 的样式 。如果 希 望转 换 回 饼图,则 在 该菜 单中 再次 选 择饼 图 即可。 这一功 能十分 方 便,但需 要注 意 的 是 使用 前必 须要 选 中图 形 主 体,否 则 菜单 项 全 灰 不 可 用,而 且在 饼 图中 如 果 进行 了 突出 显 示 、合并小 类等操 作的话 ,图形 转换功 能也将 不能使 用。8.4 饼   图 183             2.饼图主 体的编 辑 选中 饼图主 体后选 项对话 框中会 出现 Depth& Angle选 项卡(参 见图 8.34(a)),可用 于饼块 的 格式设 置,如阴 影效果 、三维 效果等 。选项 卡中部 还可以 定义第 一个饼 块起始 于时钟的 哪个方 向 ,以及整 个饼图 是顺时 针还是 逆时针 方向排 列。这 些 功能 都 非常 简 明,请 读 者自 行操 作,这里 不 再详述。           (a)                          (b) 图 8.34 饼图编辑的选项卡 3.设定饼 块标签 默认 绘制的 饼图不 显示数 据标 签,如希望 显 示,则 首 先选 择 饼 图主 体 ,随 后选 择菜 单 Charts → ShowDataLabels,每一 个饼块 就会出 现相应 的数值 标签,用于给 出相应 的记录 数。如果 希望改 变 标签显 示内容 ,则单击 选中标 签,可 见相应 的 DataValueLabels选项卡 (参见图 8.34(b))中可 以 设定标 签的位 置、内容 等,其 中标签 内容可 用的有 频数、百 分比和 类别变 量本身 ,注意这 些内容 是 可以同 时被显 示在标 签中的 ,只要不 使饼图 标签显 得过大 即可。 4.饼块的 突出显 示与合 并 有时 候为了 特别关 注其中 的某一 部分,希 望突出 显示该 部分,则首先 用鼠标 选中想突 出显示 的 那一部 分(注意 要连续 单击两 次才能 做到),然 后选择 Chart→ExplodeSlice,或 直接在工 具栏上 选 择“ ”,则相 应的饼 块就会 被突出 显示,再次选 择后饼 块就会 回复原 位。 实际 应用中 ,往往不 需要将 所有部 分都单 独显示 ,对于 那些所 占比例 很小(比 如小于 5%)的 部 分,常常 不再逐 一图示 ,而是 合并为 “其他”一 类,这样 图形显 得更简 洁 清晰。 这 一功 能实 际上          184   第 8章  数据 的图形 展示(上 ) 在 箱图中 已经遇 到过了 ,就 是 Categories选 项卡 最上 方的 Collapse复 选框,只 是 这里 针 对 的是 饼 图 、而不是 分类轴 而已。 除合并 显示以 外,该 选项卡 也 可以 用 于调 整 各 饼块 的 排列 顺序 、隐 藏某 些 类等,操 作和前 面相同 。 最后 来看一 下编辑 完毕的 效果,如 图 8.35所示 ,当然,读者朋 友们还 可以使 用更为 复杂 的修 饰 ,如使用 阴影,三维效 果等。 图 8.35 编辑完毕的饼图 8.4.3 用交互图绘制复式饼图和散点饼图 交互 式饼图 较普通 饼图的 功能增 加许多 ,SPSS甚至 专门为 其设置 了 子菜单 。 其中 包括 了简 单 饼图、复 合饼图 和散点 饼图三 种类型 ,如图 8.36所 示。 图 8.36 交互图的 Pie子菜单 1.交互式 饼图的 操作界 面 以交 互式简 单饼图 为例,其 对话框 有 4个 选项卡 ,其中 Titles和 Options选 项卡 与前 面相同 , 这 里只介 绍 AssignVariables和 Pies两个。 AssignVariables选 项卡(参 见图 8.37)的界面 并不复 杂,最 上方可 以选 择二 维 和三 维效 果两 种 图式。 在 Pie框 组中 至少 需 要定 义 两个变 量 ,上面 是 SliceBy,需 要 选入 一个 分类 变 量用 于切8.4 饼   图 185             饼 ,下面为 SliceSummary框,表示饼 图的 不同 饼块 代 表 的 是什 么指 标,默 认状 态 是 Count变量 , 即 按照各 类频数 来汇总 。也可 选入尺 度变量 ,可在最 下面的 SlicesRepresent框中 选择汇 总函数 。 Color和 Style单选框 组用于 定义 使 用 不同 颜 色 还 是 填充 方 式来 区 分 饼块 ,二者 只 能 选 择 一项 。 PanelVariables框 中可以 选入一 个或多 个分类 变量,将按照 它们取 值的不 同组合 分别输出 饼图。 图 8.37 AssignVariables选项卡 Pies选项卡 (参见图 8.38)主要 用于定 义饼标 签和饼 的位置 、方向 和 起始点 等内容 。饼 的标 签 有 4种 ,分类变 量的值 、实际 值的大 小、例数 和百分 比,可 以依次 选择多 种标签 。还可以 通过下 面 的 Location框改变 标签的 位置。 饼的位 置可以 有 Direction方向 和 Start起始 点两种选 择,方向 指 的是各 饼块的 排列顺 序,有顺 时针和 逆时针 方向两 种,起 始点也 有多种 选择。 大家可以 发现许 多 内容实 际上是 和常规 图编辑 界面相 似的,使 用上并 不困难 。 图 8.38 Pies选项卡          186   第 8章  数据 的图形 展示(上 ) 因简 单饼图 的绘制 并无特 殊之处 ,这里不 再介绍 ,直接 来看一 下后两 种更为 复杂的图 形的操 作 方式。 2.复式饼 图 复式 饼 图是 简 单 饼图 的 嵌套,在 大分 类 的基 础 上 又加入 了小 分 类,这 样 可以 给出 更多 的信 息 。其对 话框的 AssignVariables选项卡 中多出 了一个 Cluster框 ,用于选 入另一 个分类 变 量。在 Pies选项 卡中也 添加了 和 ClusterLabels的有关 选项。 图 8.39为按 照不 同产 地绘 制 的 气 缸数 复式 饼图 ,操作 时 只 需 要将 变 量 origin选 入 Cluster 框 ,并在 Color和 Style单 选框组 中确定 是使用 颜色还 是 填充 形 式来 区 分 饼块 即 可。可 见美 国产 汽 车以 8缸和 6缸车为 主,而日 本、欧 洲车以 4缸为 主。 图 8.39 按照不同产地绘制的复式饼图和三维效果复式饼图 3.散点饼 图 散点 饼图实 际上包 含了一 系列饼 图,这些 饼图排 列在坐 标系中 ,就像 以一个 个饼图构 成了散 点 图。具 体的饼 图可以 是简单 饼图或 复合饼 图,它们 用来表 示数据 特征,所有的 饼图都是 由相同 的 分类变 量区分 的。这 样就可 以观察 到随着 分类变 量的变 化,饼图 中所反 映的指 标的变 动趋势 。 当 需要研 究的分 类变量 有几个 ,或者类 别较多 时,散 点饼图 比其他 图式有 着非常 明显的优 越性。 散点 饼图的 对话框 设置与 ClusteredPie基 本相 同,但由 于需要 定义 坐标 系,在 AssignVaria- bles选项 卡中,增添了 坐标轴 变量的 定义,如 同前面 在 直方 图中 见 到过的 一 样。下 方 Pie的 定义 同 Clustered饼图的 其他选 项卡的 内容也 都基本 相同,不 再赘述 。 现在 仍以汽 车的数 据为例 来做出 散点饼 图,如 果 希望 同 时 观察分 析不 同 气缸 数汽 车的 数量 随 年代和 产地的 变动情 况,则可 以使用 散点 饼 图:取 2-D 图式,分 别 把 origin和 Cylinder选 入 y 和 x1轴 ,再把 Year选 入 Sliceby框,SliceSummary框 中就使 用默认 的 Count,其他 选项为 默认值 , 则 可以做 出散点 饼图如 图 8.40所示。 默认 绘制的 图形和 上图是 不同的 ,这里为 了更 好 地 进行 讲 解,通 过 对横 轴 选项 的修 改,隐去 了 奇数年 份的数 据。可 见总的 来说,随 着年代 的 递 增,4气 缸 的车 型 渐 渐成 为 主 流,但 三 个国 家 各 不相同 :日本基 本上一 直以 4缸车为 主,中 间甚至 出现过 三缸车 ,可真是 够节约 的;欧洲 车基本8.5 条   图 187             图 8.40 系列饼图示例 上 没有太 大变化 ,只是在 20世 纪 70年 代末兴 起过一 阵子 5缸 车;最 恐怖的 是美国 人,一 直 到 20 世 纪 70年 代末期 还以 8缸车为 主,后 来才改 成了更 为节约 的 4缸 车。 从以 上散点 饼图中 可以清 楚的解 读出丰 富的信 息 ,这是 其 他类 型 的 饼图 难 于做 到 的。 在本 例 中散点 饼图的 优势可 谓一目 了然。 8.5 条  图 条图 (BarChart)用等 宽直条 的长短 来表示 相互独 立 的各 指标 数 值 大小,该指 标可 以是 连续 性 变量的 某汇总 指标,也 可以是 分类变 量的 频数 或 构成 比。各 (组 )直条 间 的 间 距应 相 等,其 宽 度 一般与 直条的 宽度相 等或为 直条宽 度的一 半。为 了 便于 比 较,一般 将被 比 较的 指标 按大 小顺 序 排序或 者按某 种自然 顺序排 列。 绘 制条 图 时 纵轴 尺 度必 须 从0开 始 ,中 间不 宜 折断 ,否 则 将给 人 以 错 误的 印 象 。如 图8.41 图 8.41 条图的纵轴尺度起点必须为零的示意图          188   第 8章  数据 的图形 展示(上 ) 中 甲组某 观察指 标值为 8,是乙组 的两倍 。若纵 轴从“2”开 始则给 人以甲 组该观 察指标 值是 乙组 的 3倍的 错觉,需 进一步 对照坐 标轴尺 度才能 得出正 确结论 。 虽然 条图的 结构非 常简单 ,但由于 它可以 灵活反 应各种 各样的 信息组 合,因 此在操作 上实际 比 较复杂 。本节 将由浅 入深的 对各种 条图加 以介绍 。 8.5.1 简单条图 SPSS在常 规图中 就提供 了完善 的条图 绘制功 能,在 其预定 义对话 框(参 见 图 8.42(a))中可 以 看到基 本的条 图类型 有三 种:单式条 图 (Simple,为 默认 选 项 )、复 式 条 图(Clustered)和 分段 条 图 (Stacked),事实上 ,通过编 辑方式 还可以 绘制出 百分条 图。同 样,条 图对 资料 的 表现 形式 也有 三 种,分别 为:同 变量的 分组汇 总(Summariesforgroupsofcases);不同 变 量的 汇总 指标 (Summa- riesofseparatevariables);各观 察记录 的原始 变量值 (Valuesofindividualcases)。 因此 在该 对话 框 中最多 能够组 合出 9种条图 的绘制 方法来 。        (a)                              (b) 图 8.42 条图的对话框 下面 来看一 个具体 的操作 实例,欲 比较 SPSS自 带数 据 库 Anxiety.sav中 4次不 同 时 间点 测 量 的得分 (Score)之算 术均数 的变化 情况,如 果使 用 条 图来表 现,则显 然属 于 对同 一个 变量 进行 分 组汇总 的简单 条图,相 应的对 话框操 作界面 如图 8.42(b)所示 。 在上 面的主 对话框 中,BarsRepresent框组用 于设定 直条所 代表的 含 义,默 认为样 本 数,此处 显 然应当 为变量 Score的均 数,因 此进行 了相应 的更改 。并将 相应的 变量选 入下方 的 Variable框 中 。如果 希望采 用的汇 总函数 不是均 数,则可 以单击 ChangeSummary按 钮加以 更改。 对话 框下 方 的 CategoryAxis框用 于设定 分类轴 所对应 的分类 变量,实 际上大 家已经 学习过 它的功 能了。 最终 所绘图 形如图 8.43所 示,可 见随着 时间的 增加,评 分均数 逐渐降 低,这 应当是 反映 了药 物 逐渐发 挥作用 的结果 。注意 这里时 间实际 上是有 序分类 变量,严 格的讲 应当绘 制线图 ,但是在 类 别数较 少的时 候,用条 图来进 行呈现 也是可 以接受 的。8.5 条   图 189             图 8.43 简单条图示例 8.5.2 复式条图、分段条图与百分条图的绘制 1.复式条 图和分 段条图 的绘制 在实 际工作 中也常 常用到 复式条 图(ClusteredBar)或 分段 条 图(StackedBar)。复 式条 图是 指 两条或 两条以 上小直 条组成 条组的 条图,各 条组之 间有间 隙,组 内小条 之间无 间隙。分 段条形 图 则是以 条形的 全长代 表某个 变量的 整体,各 分 段的 长短 代 表 各组成 部分 在 整体 中所 占比 例的 统 计图,每 一段之 间没有 间隙,并用不 同线条 或颜色 表示。 与单 式条图 相比,复 式条图 和分段 条图多 考察了 一个分 组因素 ,常用 于考察 比较两组 研究对 象 某观察 指标,在 操作时 对话框 中也会 要求用 户指定 第二分 类变量 。例如 仍以 Anxietysav为例 , 如 果希望 分有无 紧张症 状的病 人分别 描述不 同时 间的 得分均 数,则得 到的结 果 如 图 8.44所示 。 可 见复式 条图可 以很明 确的比 较各种 分类组 合下的 得 分均 数 的高 低 ,但无 法 精确 显示 第一 分类 变 量各类 的情况 ;而分段 条图可 以直接 比较第 一分类 变量各 类的情 况,但 各种分 类组合的 情况则 无 法直观 比较(直 条起点 不一样 高),至多 只能给 出最下 面的直 条所代 表 的分类 组合的 比 较。因 此 这两种 条图的 特点是 相互补 充的,可 根据具 体的需 要加以 选用。 2.百分条 图的绘 制 分段 条图,堆 积条图 (StackedBar)以直条 和全长 代表某 个变量 的总量 ,其中 各分段表 示不同 亚 群对总 量的贡 献(构成 比或数 量大小 )。 百分 条图(PercentBarGraph)也称 马赛克 图,是 用直条 内部各 部分面 积的大 小表示事 物内部 各 组成部 分所占 的百分 构成比 。各组 成部分 按习惯 顺序或 数值 大小 依 次排 列,“其 他 ”类别 放在 最 后。如 有多个 直条,内 部各组 成部分 的排列 顺序应 一致以 便 比较 。SPSS中不 能 直接 绘制 百分 条 图,但可 以通过 对堆积 条图进 行编辑 的方法 来加以 绘制。 以上面 的分段 条图为 例,首先 应当选          190   第 8章  数据 的图形 展示(上 ) 图 8.44 复式条图示例 中 条图主 体,然后 在 BarOptions选 项卡(参 见图 8.45(a))的右 下方 可见 StackedBars框组 已被 激 活,它用 于控制 直条是 反映原 始数据 ,还是 反映相 应 的 构成 比。切 换 成后 者 ,则 分段 条图 就已 经 变成了 百分条 图,如图 8.45(b)所 示。             (a)                             (b) 图 8.45 直条选项卡及相应的百分条图 8.5.3 条图的编辑 条图 中的元 素基本 上都是 前面接 触过的 ,因 此许 多 功能 无 需重 复 讲 述。 这里 只是 来讨 论一 些 条图的 特色编 辑功能 。首先 国内的 教科书 习惯上 要 求各 直 条间 的 距 离等 于 直条 宽度 ,为 此可8.5 条   图 191             以 使用 BarOptions选项卡 ,将 Width选 项 修 改为 50%。除 此 以外,条 图还 可 以 和其 他 图 形种 类 进 行互换 ,交换主 次分类 变量等 。 1.不同图 形间的 相互变 换 和饼 图相同 ,条图也 可以和 线图、面积图 等携带 信息相 同的图 形进行 互换,不 仅如此 ,复式条 图 和分段 条 图件 也 可 以直 接 相 互 转 换 ,所 有 的操 作 都是 在 子菜 单 Chart→ ChangeDataElement Type中完成 。但需 要注意 的是,百 分条 图 不 能和 其 他图 形 进行 直接 互换,必 须 要先 切 换 回分 段 条 图,相应 的菜单 项才可 用。 2.主、次 分类变 量的互 换 该功 能在 Variables选 项卡(参 见图 8.46(a))中 实现,选中 图形 主体 后 即 会 出现 该 选 项卡 , 在 其中可 以交换 不同坐 标轴上 所代表 的变量 ,本例中 只需 要采 用 拖放 方式将 Trial移 动 到 Group by框 处,相应 的两 个 变量就 会自动 进行交 换,而所 对应的 图 形结 果如图 8.46(b)所 示,可 见分段 条 图首先 按照是 否紧张 (Tension)分 成两组 ,然后 按时间 点(Trial)进行 分类。             (a)                              (b) 图 8.46 分类变量的互换 8.5.4 用交互图绘制带误差线的条图 交互 式条图 的操作 和基本 编辑功 能与常 规图基 本相近 ,因此不 再专门 进行介 绍,这里 将重点 讨 论交互 图中较 有特色 的误差 线功能 。 1.交互式 条图的 操作界 面 选择 菜单 Graphs→ Interactive→Bar,就会弹 出如图 8.47(a)对 话框:          192   第 8章  数据 的图形 展示(上 ) 交互 式条图 的对话 框中共 有 5个选 项卡,这 里主要 介绍 前两 个。AssignVariables选 项卡 用 于 分配变 量,图式 按钮、变量选 择区等 都 是 大家 所熟 悉的 内容 了 ,不 再重 复 。选 择 2D图 时在 左 侧 还会出 现 按钮 ,用于选 择直条 是“立着 ”还是“躺 着”。 变量选 择 区中 的 y轴默 认选 入的 是 记录数 ,亦可使 用 内置 变 量中 的 百分 比;如 果 选 入 分 类 变量 ,则 直 条的 高 度 代 表 变量 的 众 数 (Mode);如选 入尺度 变量,则 BarsRepresent框组中 会出现 下拉列 表,提 供可选 的变量 汇 总方式 。 横 轴和第 三坐标 轴中可 以使用 内置变 量 Case,也可 以使 用分 类 变量,甚 至 可以 选入 尺度 变量,绘 出 特殊效 果的条 图。这 在普通 统计图 中是不 可想像 的 。在 变 量选 择 区 的下 方 是分 组、分段 及图 组 (Panel)变量 框,用于 选择分 组、分 段和图 组变量 ,以及分 组、分 段变量 中哪个 使用颜 色 ,哪 个使 用 风格来 区别。 默认情 况下前 者使用 颜色,后 者使用 风格来 区分,用户可 加以更 改。            (a)                         (b) 图 8.47 交互式条图的对话框 BarChartOptions选项卡 (参见图 8.47(b))用于 设置直 条的形 状等指 标。其 中 BarShape框 组 用于设 置直条 的形状 ,可以是 长 方形 、金 字塔 形或 钝三 角形。 对于 3D图 ,图 的底 部 可 以是 方 的 Squarebase,也 可以是 圆的 Circularbase。 BarLabels框组 设定直 条上方 显示的 标签,可 以是例 数 (Count),也可 以是直 条代表 的数值 (Value)。BarBaselineValue单选 框组则 设定直 条 基线值 , 按 照设定 的数值 ,大于它 的直条 向上,小于的 直条向 下。这 样可以 凸现出 各条之 间的差别 。该数 值 可以自 动指定 (Automatic),也可 以用户 指定(Custom)。 2.绘制带 误差线 的条图 在许 多分析 问题中 ,研究者 希望用 条图来 表示各 类某指 标均数 的高低 ,并同 时给出其 可信区 间 的大小 ,这种带 误差线 的条图 在 SPSS中可 以使用 交互图 来实现 。如果 将连续 变量的汇 总指标 指 定给条 图的连 续轴,则 ErrorBars选项 卡(参 见图 8.48(a))中 的 功 能 就可 用了。 在 其 中可 以 指 定可信 区间的 大小,误 差线的 方向、形状和 外观。 但首先 必须选 中 DisplayErrorBar复 选框,才 可 以做进 一步的 选择。思考与 练习 193                           (a)                            (b) 图 8.48 ErrorBars选项卡及绘制出的带误差线的条图 (1)ConfidenceInterval框 组:设置 误差 条 反 映的 指 标,默认 为均 数 95% 的可 信区 间。可 以 更 改为标 准差或 标准误 的倍数 。下方 的滑块 和框用 于指定 区间范 围或倍 数。 (2)Shape框 组:选择 误差条 的形状 ,共 有三 种,Cap指的 是误 差 线 上面短 横线 的长 度,用占 直 条宽度 百分比 的方式 来表示 。 (3)Direction框 组:选择 误差条 的方向 ,有在 正负两 个方向 、只在正 向、只 在负向 、只在外 侧 4 种 选择。 以本 节的数 据为例 ,如果希 望为 4个时间 点评 分 的均 数 给出其 可 信区间 ,则 将变 量 Score选 入 y轴(此 时默认 的 汇总指 标就是 均 数),将 变量 Trial选 入 x轴 。但 是由 于 Trial默认 为连 续尺 度 ,这里需 要选中 它后单 击鼠标 右键,将其更 改为 分类 尺 度。 最后在 ErrorBars选项卡 中要 求绘 制 代表 95% 可信区 间的误 差线,相 应的图 形效果 如图 8.48(b)所示。 在上 面的操 作中,如 果不将 Trial更改为 分类尺 度,则 系统会 按照连 续变量 的情况 加 以处理 , 绘 制出的 条图直 条会非 常窄,且 横轴将 被指定 为连续 轴,相 应的编 辑功能 会完全 不同。这 一点请 初 学者务 必加以 注意。 除带 误差线 的条图 外,通过 将连续 尺度的 变量,或 者两 个 以上 的 变 量指 定 给横 轴,在交 互式 条 图中还 可以绘 制出各 种特殊 风格和 样式的 条图,因 篇幅所 限,对 此感兴 趣的朋 友请参见 用户手 册 ,这里不 再详述 。 思考与练习 1.简述本 章所介 绍统计 图各自 特点及 适合资 料类型 。 2.为研究 工人矽 肺患病 率与工 龄的关 系,某 市疾病 控制中 心收集 了以下 资料。          194   第 8章  数据 的图形 展示(上 ) 题 2表 工龄 甲矿 乙矿 检查人数 矽肺人数 患病率 检验人数 矽肺人数 患病率 <5年 5406 39 0.0072 1856 11 0.0059 5年 - 2537 77 0.0304 2734 84 0.0307 10年 - 2169 265 0.1222 3185 347 0.1089 合计 10112 381 0.0377 7775 442 0.0568 对于 题 2表 所示资 料,可以 选用何 种统计 图进行 统计描 述,为 什么? 还可以 选用其他 类型的 统 计图吗 ,为什么 ? 3.某研究 者调查 了甲、乙两地 各 240例被访 者对互 联网的 使用情 况 ,资 料 如题 3表 所示,请 绘 制饼图 。 题 3表 地区 每天上网 经常上网 偶尔上网 从不上网 合计 甲地 49(19.84%) 92(37.25%) 65(26.32%) 41(16.60%) 247(100.00%) 乙地 62(21.83%) 113(39.79%) 67(23.59%) 42(14.79%) 284(100.00%) 合计 111(20.90%) 205(38.61%) 132(24.86%) 83(15.63%) 531(100.00%) 参考文献 1 SPSS○R InteractiveGraphics12.0.SPSSInc.Chicago,Illinois,2003 2 SPSS○R Base12.0User�sGuide.SPSSInc.Chicago,Illinois,2003 3 SPSS○R 12.0CommandSyntaxReference.SPSSInc.Chicago,Illinois,2003 4 张 文彤主 编.SPSS11统计分 析教程 (基础篇 ).北 京希望 电子出 版社,2002 5 曹 素华,赵耐青 主编.卫生 统计学 方法.复旦大 学出版 社,2003第 章 数据的图形展示(下) 上一 章中已 经向读 者们介 绍了部 分常用 统计图 的绘制 及编辑 过程。 本章继 续介绍其 他常用 类 型统计 图的绘 制与编 辑,并进 一步介 绍中文 兼容性 、模板 技术等 高级功 能。 9.1 线  图 线图 用线段 的升降 表示一 事物随 另 一事 物 (如 时间 )的 变 化 趋 势,一 般 而 言,它 所 反 映的 指 标 类型和 条图完 全相同 ,可以是 频数、构成比 等分类 变量描 述指标 ,也可以 是均数 、标准差 等连续 变 量的汇 总指标 。区别 在于线 图更倾 向于反 映连续 变 量的 汇 总指 标 ,同时 线 图的 另一 个数 轴应 当 代表一 个有序 分类变 量的取 值情况 (最常见 的例子 就是年 代 ),从而 通过 连线 的 走向 变化 来考 察 相应指 标的变 化趋势 。因此 ,线图的 两个坐 标轴和 条图一 样,一 般是一 个分类 轴,一个 连续轴 , 只 是分类 轴代表 的是一 个有序 变量而 已。 从绘 图原理 上讲,线 图实际 上是先 将有序 分类变 量各类 别上相 应指标 的散点 绘制出 来,然后 将 各散点 连接而 成(一般 使用直 线)。因 此虽然 线图往 往是由 一 条或 多 条折线 构成,但 图形 的骨 架 实际上 是 由 多 个 隐 藏 起 来 的 散 点 构 成 的 。 明 白 了 这 一 点,会 对 理 解 线 图 的 编 辑 功 能 大 有 帮 助。    9.1.1 简单线图 SPSS常规 图中的 线图可 分为三 类,Simple、Multiple和 Drop-line,前两 者可分 别对应于 简单条 图 和分组 条图,其 作法也 类似,Drop-line意为 垂线图 ,使用较 少。 SPSS中绘 制普通 线图时 也需对 统计图 中表现 的数据 形式进 行定 义 ,从 数据 预 定义 对话 框可 见 ,其内容 基本上 和条图 相同,因此这 里不再 详述。 下面 来看一 个具体 的例子 ,现希望 考察数 据 Cars.sav中 随着生 产年代 的变化 ,mpg均数 的变 化 情况,如 果使用 线图,则相应 的操作 对话框 如图 9.1所示,可 见线图 的主 对 话框 格式 和条 图也 非 常相似 ,只是现 在要求 指定的 是代表 线段的 变量而 不是直 条的变 量而已 。 所绘 制的线 图如图 9.2所 示,可见 随着年 代的上 升,平 均每加 仑汽油 可以行 驶的里程 数在不 断 增加,特 别是在 20世 纪 80年 以后增 加得更 为明显 ,这显 然反映 了在 20世纪 70年代 中后 期连 续 几次石 油危机 以后汽 车工业 开始重 视节能 省油的 结果。          196   第 9章  数据 的图形 展示(下 ) 图 9.1 普通线图类型及数据表现形式对话框 图 9.2 绘制的简单线图 9.1.2 多线图、垂线图与对数线图 1.多线图 和复 式条图 相对应 ,如果希 望考察 随着时 间变 化 ,分不 同 类别 时 某 指标 的 变化 情况 ,或 者几 个 指标的 变化情 况,则需 要在图 形中绘 制多条 折线,即多线 图。 图 9.3为使 用多线 图表示 随着年 代的变 化,mpg、horse和 accel三个变 量的数 值变化 情况,可 见 这二十 多年中 加速时 间没有 明显的 变化,mpg有 一 些 上升 ,而汽 车 功 率则 有 非常 明显 的下降 。9.1  线图 197             进 一步观 察可知 ,mpg的上升 和功率 的下降 呈较明 显的互 动关系 ,这些信 息显然 有助于 进一 步的 分 析。 图 9.3 多线图的对话框和相应的图形 2.垂线图 垂线 图也需 要多个 变量或 者多个 分类的 信息,但 是它不 是绘制 出多条 折线,而是将属 于同一 类 别的各 散点连 接起来 ,从而垂 线的长 短就可 以 反映 出随 着 时 间的变 化数 值 的差 异大 小变 动情 况 。因此 ,与分组 线图相 比,垂 线图更 加强调 几个变 量值随 另一变 量变化 情况的 差别所在 。 图 9.4(a)设置了 垂线图 的对话 框,绘 制 出 的垂 线 图如 图 9.4(b)所 示。 图中 反映 的是 随着 年 代的变 化,不同 产地的 汽车其 mpg指 标 均 数的 变 化情 况 ,可 见垂 线图 中会 将 各个 数 据 点都 显 示 出来,并 用 垂线 相连。 从图形 中可以 清楚地 看 出,随 着 年代 的增加 ,不同产 地汽 车 mpg均数的 差 异逐渐 变小,并 且这一 趋势在 80年 以后达 到高峰 。    (a)                               (b) 图 9.4 垂线图对话框与相应图形          198   第 9章  数据 的图形 展示(下 ) 除了 以上介 绍的用 途之外 ,垂线图 还可以 用 于绘 制 离散 变 量的 概 率 分布 图 。只需 要用 一个 变 量代表 具体的 概率值 ,另一个 变量取 值为 0即可,此时相 应两个 序列间 的连线 就会自然 反映相 应 的概率 分布情 况。本 书对此 不再详 述,请读 者自行 操作。 3.半对数 线图 半对 数线图 (Semi-LogarithmicLineGraph)用于 比较两 种 或 两种 以上事 物 的 发展 速 度,当 事 物 数量间 差别较 大时,普 通线图 往往难 以客观 地表达 或相互 比较发 展速度 ,这时 可以绘制 半对数 线 图。由 于 0和 负数均 不能取 对数,所 以半对 数线图 的纵轴 尺度起 点为 0.01,0.1,1,10,⋯ 。 在 SPSS中并 无专门 绘制半 对数线 图的菜 单,但 可以通 过编辑 得到。 首先绘 制普通尺 度的线 图 ,然后进 入编辑 状态,选中反 映指 标大 小的 连 续轴 (一般 是纵 轴 ),在相 应 的 Scale选 项 卡中 将 连 续轴的 刻度更 改为对 数刻度 ,这样就 得到了 半对数 线图。 9.1.3 线图的编辑 如前 所述,线 图的图 形框架 实际上 是由一 些隐藏 的散点 所构成 ,因此 线图的 编辑功能 也会围 绕 着这一 图形框 架展开 。 1.更改数 据点的 显示方 式与连 接方式 简单 线图和 多线图 默认不 会显示 各数据 散点,但 有的时 候希望 将其加 以显示 ,此时可 以选中 线 图主体 ,然后选 择菜单 Chart→ShowLineMarkers,这样所 有的散 点就会 被显示 出来。随 后还可 以 使用针 对散点 的各种 编辑功 能进行 修改,使 之更为 突出。 默认 情况下 ,各散点 间是采 用直线 方式连 接的,从而整 个线图 呈折线 形式。 如果希望 更改连 接 方式,则 选中线 图主体 后,会 出现 InterpolationLine选项 卡,如图 9.5(a)所 示。 该选 项卡 用于 设 定各个 数据 点 之 间 的 连 接 方 式,具 体 连 接方 式 有 4种,Straight(直 线 连 接)、Step(阶 梯 型 连 接 )、Jump(跳 跃状连 接)和 Spline(光滑连 接)。默 认状态 为 直接 连接。 下方的 Interpolateline复 选 框要求 在出现 缺失值 的地方 进行内 插,将线 段连接 起来。 使用该 选项卡 ,研究 者就可以 将线图 绘 制为光 滑曲线 ,或者阶 梯曲线 ,以满 足分析 的需要 。 事实 上,将连 接方式 更改为 阶梯曲 线的功 能,就 可 以绘 制 出人 口 金 字塔、不等 距分 组的 直方 图 等专业 统计图 形来。 对此请 读者自 行操作 ,这里不 再详述 。 2.突出显 示某一 段连线 对于 选中的 线图主 体,还可 使用 LineOptions选项 卡(参见 图 9.5(b))进行 一些修 饰。 上部 的 Displaycategories复选框 实际上 就是要 求绘制 出垂 线 图中 的 垂 线,而 下方 的 Projection框 组用 于 突出显 示线的 某一段 。在选 择了 Displayprojectionline复 选框后 ,可以 在下方 的 Category下拉 列 表中选 择一个 具体的 分类,该 分类会 将线图 一 分为 二,其 中 一部 分 正 常显 示 ,另 一部 分则 会突 出 显示。 具体突 出哪一 部分将 由 最下 方 的 Direction下 拉列 表确 定 。为 了在 图 形中 更 突 出这 一 界 值,可以 使用加 入横轴 参照线 的方法 在相应 位置添 加一条 参考线 。使观 察更为 容易。 图 9.6为使 用各种 编辑功 能后的 多线图 ,其中日 本产汽 车为光 滑曲线 连接,而美国产 汽车为9.1  线图 199             阶 梯折线 连接。 同时突 出显示 了 75年 以前的 部分。 (a)                        (b) 图 9.5 线图的 InterpolationLine和 LineOptions选项卡 图 9.6 编辑完毕后的多线图          200   第 9章  数据 的图形 展示(下 ) 9.1.4 交互式点图、线图、条带图与垂线图 交互 式线图 的功能 和常规 线图基 本相近 ,没 有特 别 突出 的 功能。 但比 较 特殊 的是 在交 互图 中 共出 现 了 4种 与 线 图 相 关 的 图 形,分 别 是 点 图、线 图 、条 带 图 和 垂 线 图 (DotCharts, Line Charts,RibbonCharts,Drop-LineCharts)。 这几种 交互图 的用途 相近,绘 制方法 也非常 类似: (1)点图:用 于反映 某指标 随另一 个指标 的发展 变化趋 势,常 用于反 映数据 本身或数 据的变 化 速度随 着时间 变化的 趋势,当 数据点 比较多 时,点 图比较 有用。 (2)线图:把 点图中 的各数 据点连 接起来 ,就是 线图,换 言之,把线切 断就是 点图。 (3)带图:非 常像线 图,其 实就是 把线变 成了带 子,或者 说那根 线加入 了三维 效果,当 然带图 本 身也可 以是三 维的。 (4)垂线图 :对应于 常规图 中的垂 线图,两者无 本质区 别。 以上 4种图 形虽然 在菜单 中分别 给出,但 操作界 面本质 上是完 全相同 的,仅 仅是在交 互带图 (Ribbon)中选 项 卡 名 称 稍 有 不 同 而 已。 界 面 中 比 较 重 要 的 是 DotsandLines选 项 卡 (参 见 图 9.7),其 Display框组中 的 Dots选 项 用 于 绘 制 线 图 (或 点 图 ),Droplines选 项用 于 绘 制 垂 线图 。 Interpolation框组用 于规定 各数据 点之间 连接方 式。Straight为用直 线选项 ,其他 分别为 阶梯 型连 接 (Center,包 括左、右、中心 连接),跳跃连 接和平 滑连接 (用 3次、5次 Spline样条 函数 连接 各数 据 点)。 图 9.7 交互式线图中 DotsandLines选项卡 除可 以实现 各种常 规图中 能绘制 的线图 外,交互 式线图 中还可 以为每 条折线 添加误 差线,具 体 的操作 和条图 中完全 相同,使 用 ErrorBars选 项卡中 的功能 即可完 成。对 此请大 家自行 练习。9.2 散 点图 201             9.2 散 点 图 散点 图是常 用的表 现两个 变量或 多个变 量之间 有 无相 关 关系 的 统 计图,它用 点的 密集 程度 图 9.8 散点图预定义框 和 趋势表 示两个 变量 之间 的相 关 关系 与变 化趋 势 。在 进 行相关 回归 分 析 之 前,绘 制 合 适的 散 点 图 考 察 两 个 或 多个变 量间的 相关关 系及变 化趋势 是必须 的。 在 SPSS中有 4种散 点 图(参见 图 9.8),即用 于两 个 变量之 间关 系 的 简 单散 点 图、多个 变 量 之 间 两 两 关 系 的散点 图矩 阵、多 个 自 变 量 与 一个 因 变 量 或 多 个 因 变 量与一 个自变 量之 间关 系 的重 叠散 点图 以 及三 个变 量 之间综 合关系 的三维 散点图 。 9.2.1 简单散点图 简单 散点图 用于表 示两个 变量之 间的关 系如何 ,在相关 分析和 回归分 析中,简单散点 图是非 常 重要的 工具。 下面借 助实例来加 以说明,在 SPSS自带 的文件 Cars.sav中,研究 者希望能 用通过 horse和 accel来预测 mpg。试用 合适 的散点 图表示 三者 之间的关系,为进行正式 分析提供线索。 如果 首先研 究 mpg和 horse间 的关系 ,则需 要绘制 的就是 简 单散 点 图,相应 的 操作 界面 非常 简 单,如图 9.9(a)所示 ,分别 需要选 入作为 x轴、y轴 的 两个 变 量,其下 方的 SetMarkersby框用 于 选入分 组变量 ,根据该 变量取 值的 不 同对 同一 个散点 图中 的各 点标以 不同 的 颜 色 (或 形状 ), 这 样可以 直接比 较各个 亚组的 相关性 如何。 而 LabelCases框则 用于选 入标签 变量。 (a)                             (b) 图 9.9 简单散点图的主对话框及图形示例          202   第 9章  数据 的图形 展示(下 ) 最终 绘制出 的图形 如图 9.9(b)所示 ,由 图中 可以 看 出 ,功率 越 大,每 加 仑 汽 油 行 驶 里数 越 少 。也就 是说,两 者为负 相关关 系,但 是,这种 负相关 关系明 显是一 种曲线 趋势,这在今后 的分析 中 应加以 注意。 SPSS默认 数据标 记的大 小为“5”,其边框 线宽度 为“1”。 当 数据点 较多,常 变成 黑 糊糊 的一 片 ,可以在 数据标 记属性 对话框 中将标 记大小 改为“3”,其边框 线宽度 改为“0.25”。这 样显 示效 果 较清楚 ,可以更 好地反 映变量 间的关 系。 9.2.2 散点图矩阵与重叠散点图 1.散点图 矩阵 当欲 同时考 察多个 变量间 的相关 关系时 ,若一一 绘制它 们间的 简单散 点图,十分麻烦 。可通 过 散点图 矩阵同 时绘制 各自变 量间的 散点图 ,这样可 以 快速 发 现多 个 变 量间 主 要相 关 性。 这一 点 在进行 多元线 性回归 显得尤 为重要 。 对于 本节使 用的例 子,如 果 要 做 出三 个 变量 间 的散 点 图 阵,则在 预 定 义对 话 框中 选 择 Ma- trix,然 后在主 对 话框 中 的 Matrix框内 选 入 mpg,horse和 accel,相应的 对话框 和 做出的 散点 图矩 阵 如图 9.10所示 。 图 9.10 散点图矩阵的主对话框及图形示例 图形 类似一 个 3×3矩阵,不同的 是此处 矩阵的 元素是 一个一 个的散 点图。 三个变量 两两交 叉 ,就形成 了 9个 格子。 每个变 量所在 的横行 的两个 图纵轴 都是该 变量,所在的 那一列的 两个图 横 轴为该 变量,对 角线处 是空白 。因此 ,第一 行第二 列的图 即以 mpg为纵轴 ,horse为横轴 所得的 散 点图。 依次类 推,第二 行第三 列即以 horse为 纵轴,accel为横轴 所得的 散点图 。 从散 点图 阵中 可 见,功率 越大,每加仑 汽油行 驶里程 数越少 ,两者呈 曲线趋 势,实 际上该 散点图 和刚才的 简单散 点 图实际 上是等 价的;而 加速时 间越长 ,行驶 里程数 就越大 ,但该趋 势相对 而言不 是非常 强烈。9.2 散 点图 203             在图 形中可 见因散 点过大 ,使得每 个散点 图都显 得十分 密集,不利于 观察。 为此可对 散点进 行 编辑,将 数据标 记大小 更改为 “0.5”,其 边框 线 宽 度改为 “0.25”。 在 更改数 据标 记大 小 时,下 拉 菜单中 可供选 择的最 小值为 “3”,若仍 不能满 足需要 ,此时可 在 Size框中直 接输入 0.5,然后单 击 “Apply”按钮即 可。 2.重叠散 点图 散点 图矩阵 将各变 量两两 相配分 别绘制 散点图 。 但有 时 出于 研 究 需要,需将 两个 或多 组两 个 变量的 散点图 绘制在 同一个 图中,这 样可以 更好地 比 较它 们 之间 的 相 关关 系 。此时 可以 考虑 绘 制重叠 散点图 。在绘 制重叠 散 点 图时 要注 意的 是用 于 绘 制 统计 图的 变量 取 值大 小 应 比较 接 近 ,否则有 的变量 组的相 关关系 表现很 清楚,而有的 变量组 的相关 关系则 缩小成 一堆,难 以分辨 。 仍以 数据 Cars.sav为例,现 希望分 别考 察 mpg和 horse与 accel的关 系 ,如 果绘 制 重 复散 点 图 ,则操作 界面和 图形如 图 9.11所示 。 图 9.11 重叠散点图的对话框和图形 在以 上操作 中有两 点值得 专门指 出:① 变量 必须被 成对选 入,只有 选择了 一对变 量 后,相应 的 选入变 量钮才 变黑可 用。② 在 Y-X Pairs对话 框的下 面有一 个 SwapPair按 钮,其 意为把 Y和 X变量互 换一下 位置。 出于相 互比较 的目的 ,各个 重叠的 散点图 应当有 一个坐 标轴的 变 量相同 , 但 是在选 择 accel、horse这 一对时 ,SPSS默认 数据库 中靠前 的变量 为 Y-XPairs中的 Y变 量,因此 单 击 按钮 ,将这一 对变量 选入 Y-X Pairs框中 后变 成 “horse--accel”,此 时 最 好 选中 这 一 对,单 击 “SwapPair”按钮 ,将其更 正为“accel--horse”。否则 绘制的 图形将 难以理 解。 9.2.3 三维散点图 散点 图矩阵 虽然可 以同时 观察多 个变量 间的联 系,但它 是两两 进行平 面散点 图的观 察,实际 上 并不能 代替高 维空间 的观察 ,有可能 漏掉一 些重要 的 信息 。 三维散 点图 就 是在 三个 变量 确定 的 三维空 间中研 究变量 之间的 关系,由 于同时 考虑了 三个变 量,常 常可以 发现两 维图形中 所发现          204   第 9章  数据 的图形 展示(下 ) 不 了的东 西。 1.三维散 点图的 绘制 仍以 汽车数 据为例 ,如果希 望直接 做出 mpg、horse、accel的 三维 散点 图 ,只 要在 对 话 框中 将 它 们依次 定义为 x、y、z轴即 可,对话 框及最 后做出 的三维 散点图 如图 9.12所 示。 图 9.12 三维散点图的主对话框及图形示例 绘出 的统计 图将三 个变量 间的关 系在同 一个坐 标 空间 中 立体 地 表 现了 出 来,使用 它可 以更 加 清晰和 直观地 对因、自 变量间 的关系 进行观 察,发 现 在二 维 空间 中 可 能无 法 看到 的信 息,如曲 线 关系、异 常值等 。但是 ,由于 实际上 只能在 二维平 面 上观 察 三维 散 点 图,所 以在 观察 时必 须要 结 合旋转 功能,这 将在下 面加以 讲述。 2.三维散 点图的 旋转观 察 对三 维散点 图修改 主要是 对三维 坐 标轴 的 旋 转,可 通 过三 维 散点 图 属 性对 话 框 中 的 3D旋 转 选项卡 予以实 现,如图 9.13(a)所 示。该 选项卡 在选中 散点图 主体时 出现,共 包 括 4个带 有可 移 动滑块 的标尺 ,分别为 : (1)Horizontal:水平 旋转。 移动滑 块时,三维散 点图以 通过图 中心点 且 平行于 纵 轴(z轴 )的 直 线为旋 转轴进 行旋转 ,此时选 项卡下 部相应 格子中 的数值 也相应 改变,该数值 代表当前 统计图 水 平旋转 的角度 。 (2)Vertical:垂直旋 转。移 动滑 块时 ,三 维散 点图 以 通 过 图中 心点 的水 平 直线 为 旋 转轴 进 行 旋转,此 时选项 卡下部 相应 格 子 中 的数 值也 相 应 改变,该 数 值代 表当 前统 计 图垂 直 旋 转的 角 度 。 (3)Spin:移动滑 块时,三维散 点图以 通过图 中心点 且垂直 于当前 页面 的直 线 为旋 转轴 进行 旋 转。 (4)Distance:该标 尺可以 实现三 维散 点 图 的放 大 与缩 小 ,滑块向 上移 动 ,图形 缩小 ,反 之则 放 大。但 图形中 散点的 标识大 小并不 随之改 变。9.2 散 点图 205             (a)                             (b) 图 9.13 旋转三维散点图坐标轴以发现异常值和离群值示例 当改 变以上 各 标尺的 滑块时 ,对话 框 中间 的 图例随 之 作相 应 的旋转 ,单 击 Apply按 钮,应用 修 改,否则 做得可 都是无 用功。 如果应 用修改 后感觉 效果不 好,希 望恢复 原状,则 直 接单 击 Reset 按 钮,再单 击 Apply按 钮,就可 以恢复 到原始 状态。 在对 三维散 点图进 行旋转 时,可 以 从不 同 的 角度观 察资 料 ,有利 于 发 现 异常 值或 (和 )离 群 值 。例如 对 本例 中 的 散 点图 进行 选 装 后,可 以 发 现 horse、mpg、accel三 个变 量 明显 不 呈 线性 关 系 ,而是呈 曲线关 系,并 且有一 个可疑 的异常 值(图中 以 标出),如 图 9.13(b)所示。 3.交互图 中的实 时旋转 功能 常规 图在进 行三维 散点图 旋转时 ,必须要 单击 Apply按钮后 才能看 到结果 ,相 对而 言不 太方 便 。绘制 交互式 散点图 的对话 框与绘 制其他 交互式 统 计图 对 话框 基 本 一致,绘制 的三 维散 点图 也 基本一 致,但是 对三维 散点的 旋转上 更方便 。 图 9.14 3D旋转托盘 在双 击进入 交互三 维散点 图的编 辑 状态 后 ,可以看 到出 现 了一 个 3D旋转 托 盘 如图 9.14所 示,用 它 进 行旋转 ,可马上 看到 旋 转的 效 果,而不 像普通 三 维散 点 图中 需 单击 Apply按 钮才能 看到。 具体 操 作时既 可用鼠 标直 接 滚 动 左侧 、下 侧 的 两 个 滚 轮以 实 现旋 转 ,也 可 以在右 侧中部 的格子 中直接 输入 相应 角 度值 。此 外 ,该拖 盘 左上 角 还有一 个手形 按钮“ ”,单 击该 按 钮,鼠标 光 标变 为 图 标所 示的 手 形“ ”,此 时可 以 使 用 鼠 标对 三 维 图形 进 行 各个 方 向 的 直 接拖 动 ,即压住 左键,然后将 鼠标向 需要的 方 向移 动 ,图形就 会向 相 应方 向 转动。 除实 时旋转 外,手 形 按钮 还 可 以 控 制 图 形 进 行自 动 旋转 :只需          206   第 9章  数据 的图形 展示(下 ) 要 将鼠标 移到图 形上,压 住左键 ,以一 定速度 向希望 的旋转 方向移 动,在一 段距离 后放开 左键,此 时 图形就 会按照 鼠标的 移动方 向不停 旋转,而 图形的 旋 转速 度 则由 鼠 标 的移 动 速度 决 定。 这样 就 可以对 图形的 空间结 构进行 更详细 的观察 。当观 察到满 意的方 位时,只 需要再 次单击 左键,三 维 交互图 就会停 止转动 并停留 在最终 方位。 9.2.4 散点图的编辑 散点 图中的 图形元 素以散 点为主 ,因此前 面讲 述 过 的各 种 散点 编 辑 功能 ,如更 改散 点样式 、 大 小,只显 示某些 散点的 标签等 均可加 以应用 。 除此 以 外,散 点图 中 还 有一 些 独特 的编 辑功能 , 如 更改散 点密度 的显示 方式,加 入回归 趋势线 等。 1.改变散 点密度 的显示 方式 当散 点的密 度较高 时,整个 散点图 将变得 一团黑 ,各部 分的疏 密无法 分清。 为此可以 对散点 密 度的显 示方式 加以更 改,该功 能在 PointBins选项卡 (参见图 9.15(a))中实 现,默认 的显 示方 式 为 DataPoints,即一 条记录 一个散 点,当 切换为 Bins方式(合 并方 式)后 ,在下 方 的 CountIndi- cator框组中 可以选 择具体 的散点 密 度 表现 方式,可 以 用散 点 大 小 (MarkerSize)来加 以 表 示,也 可 以用颜 色的深 度(ColorIntensity)来 表示。 在下方 的 几个 框 组分 别 设 定合 并 方式 的显 示位置 、 合 并区域 的计算 方式以 及合并 区域的 大小。 (a)                         (b) 图 9.15 PointBins和 FitLine选项卡 2.添加钉 线 钉线 即 Spikes,其 原意是 钉子,或细 而长 的线,这 里 指的 是在 散点 图 上添 加辅 助线 。 可以 是9.2 散 点图 207             从 数据点 到某一 点、轴线 或平面 的线,向下到 x轴的 线常称 为垂线 。 散点 图的 Spikes选项 卡用于 添加钉 线,钉 线可以 是从数 据点到 原 点(Origin)、两个 轴线 或数 据 的中心 (Centroid)的线 。一般 而言,钉线主 要用于 一 些特 殊 用途 的 散 点图,如市 场研 究中 多维 偏 好分析 的结果 图 形,因 此 这 里 不 再 详 述,对 此 感 兴 趣 的 朋 友 请 参 见 本 系 列 丛 书 的 其 他 相 应 分 册。 3.添加回 归趋势 线和可 信区间 作为 回归问 题预分 析中的 重要工 具,如果 能够在 散点图 中直接 添加各 种回归 线,就能 够提供 更 为丰富 的信息 ,SPSS的 散点 图 可 以 轻 松 的 完 成 这 一 任务。 在 选 中 散 点图 主 体 后,选 择 菜 单 Chart→AddChartElement→FitLineatTotal,或者单 击工具 栏按 钮 “ ”,就可 以 在图形 中添 加一 条 回归趋 势线。 但是,默 认情况 下添加 的都是 线 性趋 势 线,如 果希 望 加 以更 改 ,则 在选 中趋 势线 后 使用 FitLine选项 卡(参见 图 9.15(b))来操作 。 除给出 因变 量 的均 数(水 平线)外,回归 线的 拟 合方式 一共有 4种: (1)Linearregression:拟 合线性 回归线 ,也 就是 根 据最 小二 乘法 确定 的 线 性 回归 方 程 直线 。 这 也是系 统默认 的方式 。 (2)Quadraticregression:拟 合二次 方曲线 ,根据最 小二 乘 法,用二 次方 回 归曲 线对 散点 图中 的 数据点 作最佳 拟合。 (3)Cubicregression:拟合 三次方 曲线,根 据最小 二乘法 ,用三 次方回 归曲线 对散点图 中的数 据 点进行 最佳拟 合。 (4)Loess:即局 部加权 回归光 滑曲线 (LocallyWeightedRegressionSmoother),该方 法根 据数 据 局部的 点拟合 一条曲 线。也 就是说 对于任 何一点 ,该点 的 曲 线仅依 赖于 这 点以 及指 定范 围内 的 邻 近 点 的 观 察值 来 确 定,因此 可 以 将 曲 线 拟 合 得 非 常 光滑 ,与 实 际 点 吻 合 的 很 好 。下 方 的 % ofpointstofit框用于 指定拟 合曲线 时,考虑 每个点 周围的 多大范 围的点 。拟合 的点越 多,则曲 线 越接近 于直线 。拟合 的点越 少,则充 分利用 了临近 点的信 息,所 得曲线 越平滑 ,与散点 越吻合 ; #ofiterations框指 定迭代 次数,次数越 多得到 的曲线 越稳定 。 在 FitLine选项 卡的下 方还有 一个 ConfidenceIntervals框组 ,用于 绘制 拟合 均 数和 个体 预测 值 的 95%或 指定范 围的可 信区间 。当要 求绘制 区间时 ,回归线 本身将 会 消失。 对 此有 一个 很简 单 的解决 办法,即 多绘制 几条相 同的回 归线,将其中 某 几条 变 换为 希 望 显示 的 区间,而 剩余 的就 用 来显示 原有的 回归线 。 图 9.16即为 对前面 绘制的 散点图 添加回 归线及 可信区 间后的 效果,这里添 加的是 三次 方曲 线 。在新 加的 5条线中 ,中心的 是回归 线,回 归线两 侧是总 体均数 的 95%的可 信区间,最外 面的 两 条线是 个体预 测值的 95%的可 信区间 ,最上 方 给出 了该 曲线 的 决定 系数 为 0.679。 但是 散点 图 中显然 存在超 出可信 区间的 散点,且 以左上 侧居多 。这 提 示 了拟合 时采 用 标准 的最 小二 乘法 可 能不太 合适,因 为它不 能抵御 这些点 的影响 。 除添 加回归 趋势线 外,散点 图还可 以像线 图中一 样添加 散点间 的连接 线,并 进行相应 的编辑 操 作,如突 出显示 某一段 等,对 此请读 者自行 操作,不 再详述 。          208   第 9章  数据 的图形 展示(下 ) 图 9.16 散点图添加回归线及可信区间后的效果 9.3 其他统计图 SPSS的 Graphs菜单中 提供 的 统 计图类 型远 较 本书 上所 介绍 的 多,这里 仅介 绍了 常用的 几 种 统计图 的绘制 及修饰 方法。 本节将 对其他 统计图 形作一 介绍。 9.3.1 P-P图和 Q-Q图 统计 学中的 众多检 验方法 都是假 定研究 资料服 从 某种特 定分布 ,如 正态 分 布、χ2 分 布等,除 使 用专门 的检验 方法加 以考察 外,更常 用的方 法是通 过 图形 来 进行 直 接 观察 。直 方图 和茎 叶图 是 评估数 据分布 的常用 图示法 ,但它们 都不能 直观给 出数 据 分布与 正态分 布 相差多 少,P-P图和 Q-Q图则 可用于 直观表 示数据 是否符 合正态 分布。 实际上 ,这两 种图的 应用远 不止于 此 ,除 了上 述 两种分 布之外 ,还可以 用于考 察 β分 布、指 数分布 、Γ分布 、半对 数分布 、拉普拉 斯分布 、Logistic 分 布、对数 正态分 布、帕 累托分 布、t分布 、Weibull分 布、标 准正态 分布等 共 13种 分布类 型。 P-P图是 在统计 图中描 绘比较 变量的 实际累 积概率 以 及所 考 察分 布类 型的 理 论累 积概 率符 合 程度,以 判断资 料是否 服从所 考察的 分布类 型。如 果变量 服从正 态分布 ,则实 际累积概 率与理 论 累积概 率应该 基本一 致。与 P-P图 不同 的 是,Q-Q 图是 根 据 变量的 实际 分 位数 与理 论分 布进 行 绘图,并 据此判 断变量 是否 服 从 特 定的 分布。 P-P图 与 Q-Q图 的主 对 话 框 几 乎 一 样,这里 以 P-P图为例 进行介 绍。 如图 9.17所 示的 主 对话框 中 的 Variables框中 可 以一 次性 选入 多 个变 量同 时 绘制 多个 P-P 图 ,此外 SPSS还 提供了 4种变 量变换 方法:自 然对数 变换、标 准化变 换 、差分 以 及季 节 差 分。以 数 据 Cars.sav中 的 horse和 accel两个变 量为例 ,如果绘 制 P-P图,则 结果如 下:9.3  其他统 计图 209             MODEL: MOD_1. Distributiontested:Normal Proportionestimationformulaused:Blom’s Rankassignedtoties:Mean Forvariablehorse... Normaldistributionparametersestimated:location =104.8325andscale=38.522063 Forvariableaccel... Normaldistributionparametersestimated:location =15.495074andscale= 2.820984 图 9.17 P-P图主对话框 以变 量 horse为例,SPSS输 出的 “location = 104.8325andscale = 38.522063”表 示 的是 当 前 样本中 变量 horse所对 应理论 分布 的位 置参 数 和 分布 尺 度参 数,由于 这里 考 察的 理 论 分布 是 正 态分布 ,所以这 两个数 值实际 上就是 算术均 数与标 准差。 图 9.18(a)和图 9.18(b)分别 为 P-P图和去 势 P-P图,图 9.18(a)的 两个坐 标轴分别 表示理 论 累积概 率和实 际累积 概率,如 果数 据 呈正 态分 布,则图 中 数据 点应和 理 论 直 线 (对 角 线)基 本 重 合。可 见变量 horse的 实际分 布 和理 论 分 布相 差 较大。 为了 更仔 细地 观 察,可以 继 续 观察 图 9.18(b)所示 的去势 P-P图 ,该图反 映的是 按正态 分布计 算的 理 论值和 实际值 之 差的分 布情况 , 即 分布的 残差图 。如果 数据服 从正态 分布,则 数据点 应较均 匀的分 布在 y=0这 条直线 上 下。图 中 可见残 差有 非常 明 显的 波动 趋 势,且绝 对 值超 过 了 0.1。 由 此可以 看出,变 量 horse的原 始数 据 与正态 分布的 理论数 据相差 较大,可 以判断 其不服 从正态 分布。 下面 来考察 accel的 分布情 况,由 图 9.19(a)和图 9.19(b)所示的 P-P图和去 势 P-P图可见 , accel的 实际分 布和理 论分布 相差很 小,其 残差绝 对值不 超过 0.05,因此可 以判断 accel基 本上服 从 正态分 布。          210   第 9章  数据 的图形 展示(下 ) (a)                           (b)    图 9.18 功率的 P-P图 (a)                                (b)    图 9.19 加速时间的 P-P图 9.3.2 ROC曲线 ROC曲 线是受 试者工 作 特征 (ReceiverOperatingCharacteristic)的 缩 写 ,也 有的 人 译 作接 受 者 操作特 征曲线 。它是 一种广 泛应用 的 数 据统 计 方法 ,1950年 应用 于雷 达 信 号 检测 的 分 析,用 于 区别“噪 声”与“信 号”,后来 应用 于 心 理学 研 究。1960年 LeeLusted首先 认 识 到 ROC分 析法 在 医学判 别疾病 方面可 能会有 作用。 随着 医学的 发展,新 的检 测 检 验 方法 层出 不 穷。 ROC曲 线及 ROC曲线 下 面积 可 作 为某 一9.3  其他统 计图 211             诊 断方法 准确性 评价的 指标。 通过对 同一疾 病的多 种 诊断 试 验进 行 分 析比 较 ,可 帮助 临床 医生 筛 选出最 佳诊断 方案。 1.ROC曲线的 基础知 识 对于 一 组 经金 标 准诊 断 的 病 人 和 正 常 人 ,进 行 某 项 新 的 诊 断 试 验 ,其 结 果 可 以 汇 总 为 表 9.1。 表 9.1 诊断试验结 果汇总表 试验 病人 正常人 合计 阳性 a b a+b 阴性 c d c+d 合计 a+c b+d a+b+c+d 真阳 性 率 (灵敏 度)= a a+c×100%    真 阴性 率 (特 异度 )= d b+d×100% 假阳 性 率 (误诊 率)= b b+d×100% 假 阴性 率 (漏 诊率 )= c a+c×100% 若检 测 结 果为 定 量资 料 (或 等 级 资 料 ),以 不 同 的 检 测 值 作为 判 断 阳 性、阴 性 结 果 的 阈 值 时 可 分别 计 算出 相 对 应 的 特 异 度 和 灵 敏 度,以 1-特 异 度 为 横 轴 、灵 敏 度 为 纵 轴,将 坐 标 为 (1-特 异度 ,灵敏度 )的 数据点 描绘 于平 面 直角 坐标 系,所得 曲线 即为 ROC曲线 。 由 ROC曲线 的 原理 可 知,一 个 优 良 的 诊 断实 验 其 ROC曲 线 应 该 是 从 左下 角 垂 直 上 升 至 顶 线 ,然后 水 平方 向 向 右延 伸 到右 上 角 。如 果 ROC曲 线 沿 着 对角 线 方 向 分 布,表 示 分 类 是 机 遇 造 成的 ,正 确分 类 和 错分 的 概率 各 为 50%,此 时 该诊 断 方 法完 全 无效 。 如果 两 条 曲线 不 交叉 ,那么可 以 根 据它 们的表 现 形 态比 较 两个 试 验 的 优 劣:更 外 面 的、离 对 角 线更 远 的曲 线 ,其 灵敏 度 和特 异 度 均高 于 里面 的 、离对 角 线 更近 的 曲线 。 2.分析实 例 例 9.1 某 医 师对 经标准 诊 断 的 55名 病人 、45名 正常 人 分 别进 行 2种 诊断 试 验 检 查,结 果 分 别为 test1、test2。 试对 test1绘制 ROC曲线 ,数据见 roc.sav。 相应 的 操 作界 面 如图 9.20(a)所示 ,StateVariable框 输 入 指 定 研 究 对 象 是 病 人 还 是 正 常 人 的 指示 状 态变 量 。 ValueofStateVariable框 用于 指 定 研 究 对 象是 病 人 时 状 态变 量 的 取 值 水 平 。 本例 diag=1表示 研 究 对 象 为 病 人。 下 方 的 Display复 选 框 组 用 于 设 置 结 果 输 出 显 示 选 项 。 其中 Withdiagonalreferenceline要 求在 生 成 ROC曲 线 的 时 候 添 加 对 角 参 照 线 ,Standard errorandconfidenceinterval要 求 计算 和 显示 曲 线 下方 面 积 的 标 准 误 差和 置 信区 间 。而 最 后 的 CoordinatepointsoftheROC Curve要 求 输出 ROC曲 线 上 各 点 的坐 标 值 ,也 就 是选 取 其 中 任 一 一 个 分界 点 时的 灵 敏 度和 假 阳性 率 。 相应 的 ROC曲 线如 图 9.20(b)所 示 ,可 见 test1的 效 果是 远 远 好于 test2的 。 SPSS还 进 一 步 输 出了 两 条 ROC曲线下 面积 的 标 准误及 各自 的 可信 区间 ,如表 9.2所 示 。          212   第 9章  数据 的图形 展示(下 )        (a)                                     (b) 图 9.20 ROC曲线的 对话框和图形 表 9.2 AreaUndertheCurve 由表 9.2可见 ,检 测一 (test1)的 ROC曲 线下 面 积 为 0.947,标准误 为 0.024,其 95% 可 信 区 间 为(0.900~0.994);检 测二 (test2)的 ROC曲线 下面 积 为 0.679,标 准误 为 0.053,其 95% 可 信 区间 为 (0.574~0.784)。 ROC曲线 下 面 积 取 值 范围 为 0.5~1.0。 一般 地 说,ROC曲 线 下 面 积在 0.5~0.7之 间表 示 诊 断价 值 较低 ,在 0.7~0.9之间 表示诊 断价 值中 等,0.9以 上 表 示 诊 断价 值 较高 。 表 9.2最 后输 出的是 近 似 P值 (AsymptoticSig.),该 检 验 的 原 假 设 是 检 测 方 法 总体 ROC 曲 线 下面 积 是否 为 0.5。 SPSS未提 供 两条 或 多 条 ROC曲 线 下面 积 的 比 较,这 里 可 以 近 似 地根 据 它 们 95% 可 信 区 间 是 否交 叉 来判 断 各 总体 ROC曲 线 下面积 是否 相 等 。 说 近 似 是因 为 假 设 检 验计 算 统 计 量 时 根 据 原假 设 (各 总体 ROC曲 线 下面 积 相等 )出 发,此 时 各 样 本 ROC曲 线 下面 积 的 标 准 误 也 相 等 ,而 上表 中 输出 的 95% 可信 区 间 是根 据 各自 的 标准 误 进 行计 算 的,而 不 是 两 条 ROC曲 线 下 面 积 的合 并 标准 误 计 算的 95% 可 信区间 ,因此 只 能说 是 近 似判 断 。 有 的读 者 在绘 制 ROC曲 线 时可 能 会得 到 面 积小 于 0.5的 ROC曲 线 ,这一 般 发生 在 该 检 测 方 法的检 测结 果 值 越小,该 研究 对 象是 病 人 的可能 性越 大 的 情况下 。SPSS默 认 检测 结 果 值9.3  其他统 计图 213             越 大 ,研究 对 象是 病 人 的可 能 性越 大 ,因此 得 出 的 结果 正 好 相反 。对 于 这 种 类 型 的 资 料,可 以 通 过 绘制 ROC曲 线 时使用 Options子 对话 框 中的 “Testdirection: Smallertest...”选 项 予 以 纠 正 。 9.3.3 面积图 面积 图 (AreaChart)是 指用 面积 区块的 大小 来对 不 同类 别 情况 下 某 指 标 的大 小 加 以 呈 现 的 图 形。 实 际上 ,面 积 图和 条 图、线 图 反映 的 是 同 类信 息,之间 没 有本 质 性 的区 别 。 对 于 简 单 图 形 而言 ,只 需要 将 条 图中 直 条 的 顶 点 相 连 ,就 构 成 了 线 图 ,而 将 线 图 的 折 线 下 方 全 部 涂 黑 , 就 变 成了 相 应的 面 积 图,如 图 9.21(a)所 示。 对 于 多 重 图 形 而 言 则 略 为 复 杂 一 些,分 段 条 图 和 分 段面 积 图(参见 图 9.21(b))可 直 接 相 互 对 应,它 们 可 直 接 反 映 主 分 类 变 量 各 类 别 的 情 况 ,而 多重 线 图实 际 上 是和 复 式 条 图 相 对 应 的,可 以 确 切 的 表 示 各分 类 组 合 下 的 情 况 。 实 际 上 ,通 过前 面 介绍 的 条 图、线 图 和 面积 图 的 互 转 功 能 ,相 信 大 家 也 可 看 出,这 三 种 图 其 实 本 质 相 同 ,所以 面 积图 的 编 辑、变 换 等功 能 和它 们 也 完全 相 同,这 里 不 再详 述 。 图 9.21 简单面积图和 分段面积图示例 9.3.4 Pareto图 帕累 托 图 (ParetoGraph)主要 用于 确 定某 变量 内在 构 成要 素中 何者最 为重 要,它集 中 考 虑 许 多 可能 性 中最 重 要 的一 种 ,以分 析 和 改善 某 一过 程 质量 。 管理 者 或 研究 者 常常 会 面 对许 多 选择 类 别,需 要 用较 快 的 视觉 方 式 评 估 每类 的 相 对 重 要 性 。 帕累托 图(ParetoChart),也 称为 排 列图 或 主 次因 素 图,实际 是 个按 降 序排 列 的 条图 ,并 带 有 累 计百 分 比的 曲 线 。其 条 形的 长 短 表 示 各 组 绝 对 数 的 大 小,条 形 从 大 到 小 依 次 排 列,线 段 的 上 升表 示 累计 百 分 比的 增 加情 况 ,可 直观 找 出主 要 、次要 因 素 。 目前 SPSS尚 未 提 供交 互 式帕 累 托 图的 绘 制。 常 规图 中 的 Pareto图有 简 单 和堆 积 两大 类 ,          214   第 9章  数据 的图形 展示(下 ) 分 别 对应 了 简单 条 图 和分 段 条图 。 前 者对应 分类 轴 上 的 每 一 种 类 型 的 变 量 产生 一 个 直 条,并 按 照 各种 因 素发 生 次 数 的 多 少 ,从 左 到 右 顺 序 排 列 ,然 后 Pareto曲 线 对 分 类 轴 上 的 每 个 变 量 进 行 累加 。 后者 是 由 分段 条 图构 成 的 Pareto图。 统 计 量 的 描 述方 式 也 有 三 种,前 面 条 图 相 应 内 容 中已 有 介绍 ,此 处 不再 赘 述。 例如 ,在 Cars.sav中希 望找 出 哪 种 汽 缸 数 的 汽 车 最 多 ,则 操 作 非 常 类 似 于 简 单 条 图 的 绘 制 ,相 应的 结 果如 图 9.22所 示 。 图 9.22 帕累托图示例 从图 9.22中 可 看 出 4缸 的汽 车 占多 数 。 Pareto图 用 来 区分 主 要和 次 要因 素 时 ,一 般 按 累 计 百 分比 分 为三 部 分 ,0~80% 表示 主 要因 素 ,80% ~90% 为次 要 因素 ,而 90% ~100% 为 一 般 因 素 ,根据 该 标准 可 知 ,汽车 的 汽缸 数 以 4~8缸为 主 ,这也 和 大 家的 常 识一 致 。 9.3.5 误差图 误差 图 用 于显 示 数据 的 可 信 区 间 、标 准 差 或 均 值 标 准 误 的 范 围,从 而 估 计其 离 散 度 。 同 条 图 一样 ,误 差条 图 可 以是 简 单 的 或 复 式 的 ,它 可 以 显 示 三 种 不 同 的 统 计 量:可 信 区 间、标 准 差 和 标准 误 。实 际 上 ,前 面 学 习 过 的 带 误 差 线 的 条 图 就 可 以 看 成 是 普 通 条 图 和 误 差 图 的 组 合 。 在如 图 9.23(a)所示 的误差 图 的 对话 框 中值 得 一 提的 是 BarsRepresent框,可 从 下拉 菜 单 中 选 择可信 区间 标 准 差或标 准误 。 如果 选择 可信 区 间 ,则 下面 Level框 变 黑,可 以 从中 定 义 所 需 的 百分 位 数。 如 果 是后 面 两种 情 况 ,则可 在 Multiplier框 中定义 标准 误或 标 准差 的倍 数。9.3  其他统 计图 215             对条 图 中 使用 过 的数 据 anxity.sav可以 绘 制 出误 差 图如 图 9.23(b)所示 。    (a)                                   (b) 图 9.23 误差图的操 作界面与图形 9.3.6 控制图 控制 图 有 助于 分 离某 一 过 程的 随 机波 动 和有 意 义 的波 动 ,是用 于 分 析 和 判断 生 产 工 序 是 否 处 于稳 定 状态 所 使 用的 一 种 带 有 控 制 界 限 的 统 计 图。 它 们 两 者 均 可 用 于 生 产 过 程 的 质 量 控 制 。 任何 自 然 过程 都 有随 机 变 异,控 制 图有 助于 区分 随 机变 异 和 具 有 特 定 原 因 的 变 异。 控 制 图 的 类型 取 决于 数 据 。一 类 是计 量 值 控制图 ,另 一类 是 计数 值 控制 图 。 作 为 质量 控 制 的 常 用 工 具 ,它可 对 个体 或 均 数的 变 动情 况 进 行监 测 ,还可 使 用极 差 或 标准 差 作为 控 制 范围。 1.控制图 的 种 类 在 SPSS中提 供 的 控制 图 (参 见图 9.24)共有 以 下几 类 : 图 9.24 控制 图的预定义框 (1)X-Bar,R,s:均 数、极 差、标 准 差控 制 图,本选 项 包 括两种组合控制图 ,即均数 -极差 组合控 制图 和 均数 - 标 准差组 合控制 图。 � X-Barands:在 图 中 显 示 每 个 亚 组 测 量 值 的 均 值 ,上 下控 制 线显 示 每个 亚 组 的标 准 差。 当 每 个 亚组 的 例 数 较多 时 (如 多 于 10个 ),就 用 这 种 图 而 不 是 X-Bar andR图 。 � X-BarandR:在 图中显 示每个 亚 组测 量 值 的均 值 及 每个亚 组中 的数 值极 差 。当 亚组 内例 数 比 较 少时 (如 少 于 10个 ),不宜 计算标 准差时 ,选用这 种图。 当每 个亚组 中 的 记录 数 只有 一 个时,就 只 能 采 用 下          216   第 9章  数据 的图形 展示(下 ) 面 的个体 值移动 极差图 。 (2)Individuals,MovingRange:在 图中显 示个体 测量值 。图中 个体值 的顺序 与数据的 顺序一 样 。移动 极差图 显示每 个所选 间隔 段里 数值极 差。即 如 果间 隔 段 是 3,移动 范 围图 显 示 目前 记 录 、其前一 个记录 和前两 个记录 之间的 数值极 差,它 可 用于反 映数据 波 动情 况 的改变 (有点 像速 度 和加速 度的关 系)。 (3)p,np:不 合 格品 率 ,不 合 格 品 数 控 制 图 。 p显 示 每 个 亚 组 里 不 一 致 的 记 录 所 占 的 比 例 。 当各 组 的记 录 数 不同 时 ,用 p图 而 不是 np图 ,后 者显 示 的 是 每 个亚 组 内 不一 致 记 录 的 数 量 。 (4)c,u:缺 陷数,单 位缺陷 数控制 图。u显示 每 个亚 组 里不 一 致 的记 录 所占 的 比例,c显示 每 个亚组 中的非 一致点 数。当 每个记 录中可 以有多 个非一 致点时 ,用该图 而不用 p,np图。 除此 之外,控 制图中 还支持 以下两 种数据 格式: � Casesareunits:同类观 测值用 同一变 量表示 。 � Casesaresubgroups:如 果观测 值是用 不同 变 量的 变量 表示,那 么 选择 这种 方式 。 这有 点 像 前面讲 过的变 量的描 述方式 中的 separatevariable方 式。 2.分析实 例 数据 文件 control.sav中记 录了某 轴承厂 的一条 流水线 生产出 的 30个轴承 的直径,现在 使用 控 制图看 看有无 次品出 现,根据 题意,选择个 体值 -移 动极 差 图,单击 Define按钮 后会 弹出 如图 9.25(a)所 示的主 对话框 ,其中各 元素含 义如下 :     (a)                        (b) 图 9.25 控制图主对话框及图形示例 (1)ProcessMeasurement框:选入记 录了个 体值的 变量。 (2)SubgroupsLabeledby框 :选入 标签变 量。 (3)Charts框组 :选择是 只绘制 个体控 制图,还是将 移动平 均 图一起 绘制,下 方的 Span框用 于 输入移 动平均 的范围 。 (4)Options子对 话框:选择控 制线和 均数线 间包括 的标准 差数,默 认为 3倍标准 差。 (5)Statistics子对 话框:在 其 中可 人 为 规定 控 制线,并 可 选择 控制 图中 使用 的 一 些 统计 指 标 。9.3  其他统 计图 217             按照 上图所 示的选 择,本例 做出的 控制图 如图 9.25(b)所示 :可见虽 然有两 个轴承 的直 径有 些 异常,但 并未超 过控制 线,仍 然可以 接受。 从曲线 的 走势 来 看,整个 流水 线 生产 出的 轴承 直径 在 均数上 下随机 波动,并 未出现 上升或 下降的 趋势,说明一 切运转 正常。 9.3.7 高低图 股票 、商品、货币及 其他市 场数据 每周、每 日、甚 至每时 的波动 都相当 大。为 了图示长 期变动 趋 势,同时 又能知 道短期 的变化 ,必须 采用相 应的专 用图形 工具来 分析。 高 -低 图就是为 此而设 计 的。 在如 图 9.26(a)所 示的对 话框中 ,SPSS共提 供了以 下几种 高低图 : � Simplehigh-low-close:简 单高低 收盘图 ,表示 单 位时间 内某 现 象 最高数 值、最低 数值 和最 后 数值。 这种图 形适用 于股票 、期货和 外汇金 融 等,它 可以 说 明每 天 的 最高 价 格、最低 价格 和收 盘 时的价 格。 � Simplerangebar:简单极 差图,或 称为单 式全距 图,表 明 单位时 间内 某 现象 最高 数值 和最 低 数值。 单式极 差图与 单式高 低收盘 图的区 别是省 去了最 后数值 。 � Clusteredhigh-low-close:分组 高低收 盘 图,表 示在 单 位 时间 内 两个 或 两 个以 上 现 象的 最 高 数值、最 低数值 和收盘 数值。 � Clusteredrangebar:分组极 差图,或称为 复式全 距图,它 表示 在 单位 时 间内 两个 或两 个以 上 现象的 最高数 值和最 低数值 。 � DifferenceLine:距限曲 线图,它 是说明 两个现 象在 同 一 时间内 相互 变 化对 比关 系的 线性 统 计图。 下面 以一个 股票数 据实例 来看一 下高低 图的做 法,数据 见文件 stock.sav,相 应的简单 高低图 如 图 9.26(b)所 示。 (a)                           (b) 图 9.26 高低图的预定义框及图形示例          218   第 9章  数据 的图形 展示(下 ) 9.3.8 时间序列分析中使用的图形 SPSS提供 了强大 的时间 序列分 析功能 ,其图 形工具 也比较 全面,除 最简单 的线图 等 以外,还 有 以下几 种专用 图形: (1)SequenceChart:序 列图,实际上 就是一 种特殊 的线图 ,但 比一 般的 线图 有 着更 多适 合时 间 序列特 点的功 能,用于 对时间 序列的 直观描 述。与 普通线 图一样 ,它也 把时间 坐标轴变 量当作 分 类变量 处理,所 以在数 据时间 序列存 在间断 的情况 下要小 心应用 。 (2)AutocorrelationChart:做单个 序列,任 意 滞 后(包 括 负的 滞 后,也 就 是超 前 )的 自 相关 和 偏 相关图 。 (3)Cross-CorrelationsChart:交叉相 关 图,做 两 个 或两 个以 上 的 时间 序 列,任意 滞 后 的交 叉 相 关图。 (4)SpectralChart:周 期图和 谱密度 图,在谱 分析时 给出 一 个或 多 个序列 的 周期 图 和谱 密度 图 。 后三 者是专 用的时 间序列 图,被统 一放置 在 Graphs→TimeSeries子菜 单中,对于选 择某 些时 间 序列分 析的统 计模型 的参 数及 进行 时 间 序 列模 型残 差分 析有 着 重 要 意义 。 因其 用 途 比较 专 一 ,这些时 间序列 分析中 的专用 工具将 不在本 书中加 以介绍 ,对此 感兴趣 的朋友 请参见与 此相关 的 《SPSS与时间 序列模 型》一书 。 9.4 交互式统计图的编辑 在前 面各章 对交互 图的介 绍中,主 要给出 了其操 作方式 以及一 些特色 统计图 的绘制 ,但是为 了 避免冲 淡统计 这一条 主线,对 其编辑功能并未加以深入讨论,事实上,交互图最 具特色的地 方就是 它极为强大的编辑功能,本节 就来看看 SPSS究竟赋予了用 户多么炫目多彩的图形编辑能力。 9.4.1 编辑界面概述 直接 用鼠标 双击交 互图即 可进入 该图的 编辑状 态,但与 常规统 计图不 同的是 ,交互图 的编辑 不 是开启 一个新 窗口,而 是在原 来的图 形区 域浮 动 出一 个带 有很 多 快捷 按钮 的窗 口,如图 9.27 所 示。 在编 辑窗口 中提供 了五大 工具栏 ,它们几 乎涵盖 了全部 的编辑 功能,分别是 : (1)Utility:最为重 要的工 具栏,如 图 9.28(a)所示,它提供 了绝大 部分 对交 互 图的 编辑 和控 制 功能,Utility工具 栏提供 的编辑 能力类 似于普 通统计 图的 全部 能 力,但 是要强 大得多 。其 中的 ChartManager更是 重中之 重,是 下节讲 解的重 点。 (2)Text:交互 图可以 在任意 位置以 任意格 式插入 文字,Text工具 栏(参见 图 9.28(b))即用 于 对选中 的文字 进行格 式设置 ,用法和 Word中 的同类 按钮相 同。 (3)Cursor:如 图 9.28(c)所示的 Cursor工具栏 可对光 标用途 进行切 换,以进 行旋转 、插入文9.4 交 互式统 计图的 编辑 219             图 9.27 交互图进入编辑状态的样子 图 9.28 4个编辑工具栏 字 、显示散 点标签 等不同 的操作 。 (4)Style:在交互 图中允 许对 某个 元素 (点 、线、面或 块 )进行 单独 的风 格 设 置 ,Style工具 栏 (参 见图 9.28(d))提供的 就是此 项 功能 ,首先 选 中 相应 部 位,然后 就可 以在 该 工具 栏 中 进行 精 细 的设置 ,直到满 意为止 。 (5)3-D:3-D调 色板(Palette)实际 上是 Utility工 具栏的 一 部分,但 由于 它 非常 常用 ,一 般都 单 独出现 ,这里也 将它算 做一个 工具栏 。它主 要用 于 对三 维 图 和三维 效果 图 进行 旋转 方位 和投 影 方位的 设置,更 提供了 独特的 三维实 时旋转 能力。 除使 用工具 栏进行 编辑操 作外,交 互图在 编辑状 态时也 支持右 键菜单 ,其中 提供的大 部分功 能 和工具 栏相同 。但是 ,有一些 设置选 项由于 不 太容 易 归类 ,只能 在 右 键菜 单 中提 供,这一 点要 请 大家注 意。          220   第 9章  数据 的图形 展示(下 ) 由于 现在常 规图中 吸收了 相当 多交 互图 操 作 和 编辑 的精 华,如 Text、Style等的 操 作 已基 本 相 同,而 3-D调色 板也已 经在三 维散点 图旋转 中进行 了介绍 ,因此 下面重 点对 Utility工 具栏 中的 功 能加以 讲解。 9.4.2 图形管理员 图形 管理员 只是 Utility工 具栏中 的一项 ,但它 的 功能 最 为 强大,使 用频率 也最 高,因此 本节 将 分几部 分对它 进行详 细讲解 。 以条 图 为 例,将 鼠 标 移 动 到 Utility工 具 栏的 第 三 个 图 标 ,形 如 ,则 会 显 示 出 一 段 英 文 “DisplayTheChartManager”,单 击后就 会开启 如图 9.29所示 窗口,从 中 可以 看 到 ChartManager 对 话框大 致由以 下几部 分组成 : 图 9.29 三维条图的图形管理员对话框 (1) 按钮:左 侧按钮 用于切 换到 变 量 分 配(Assignvariable)对 话 框,右侧 按 钮 用于 弹 出 帮助。 (2)Chart列表框 :这里以 列表的 形式将 当前 图 形 的各个 组成 部 分 组织起 来,共分 为三 个大 的 区:PlotArea、Legend和 Elements。 � PlotArea:包括数 据 区 (Chart)和 各 坐标 轴 ,各 坐标 轴 对 应 变 量 的 类 型 又 可 分 为 度 量 型 (ScaleAxis)和 分类型 (CategoricalAxis)。如 果是 3D图 ,还会 显示出 3个坐 标轴。 � Legend:用于 对 图例 做进一 步的 设 置,当然 ,只 有在 图中定 义了 图 例的时 候才会 出 现该目 录 ,具体有 颜色图 例和样 式图例 两种。 � Elements:包含 各图形 单元的 具体设 置,根据 图形 的 性质 而改 变,如条 图 会显 示 Bar,面积 图 会显示 Area,误 差图会 显示 ErrorBar。 在讲 解 ChartManager时 就会按 照这三 部分依 次进行 。9.4 交 互式统 计图的 编辑 221             (3)编辑框 组:用于 对在 Chart列表 框中选 中的元 素进行 操作。 � Show/Hide单选框 组:进 行相反 动作,显 示或隐 藏某个 元素。 � Edit:打开 相应的 编辑子 对话框 对元素 进行修 改,是 最重要 的部分 。 � Delete:在图形 中删除 所选元 素。 � DisplayKey复 选框:选 择是否 在图形 中显示 相应的 注释信 息。 以下 就依次 介绍 Chart列表框 中各元 素编辑 子对话 框的使 用,首 先来看 看 PlotArea区。Plot Area区共分 Chart和 Axis两大 类元素 ,后者又 根据变 量类型 被分为 ScaleAxis和 CategoricalAxis 两 类,图形 有几个 坐标轴 ,就会 出现几 个 Axis元素 。 1.PlotArea区 域 主要 由 Chart和 Axis两部 分构成 ,根据 数轴是 连续轴 还是分 类轴,又 各自会 出 现不 同的 子对 话 框。 在 Chart列表框 中选中 Chart,然后 单击右 面的 Edit按钮就 开启了 Chart对 话框。 图 9.30 二维图和三维图的 Chart子对话框 图 9.30(a),图 9.30(b)分别为 二维图 和 三维 图的 Chart子对 话 框,可 见 两种 图形 的对 话框 有 所不同 ,二维图 有 Orientation框组 ,而三维 图则有 最下 方 的 Axis下 拉 列表 组 ,但 大部 分内 容是 相 同的,这 里将其 合并讲 解。该 对话框 比较简 单,用 于 对数 据 区的 大 小 和样 式 进行 综合 设置,其 中 DataRegionFill框组用 于设定 坐标数 据区背 景的填 充方式 ,框组 内的 Style下拉 列 表、Color下 拉 列表分 别用于 设置填 充样式 和颜色 ,其具体 操作和 常规图 基 本一致 。下 方 的 Size框 组用 于设 置 图形的 宽度、厚 度 和高 度,其 中 Maintainaspectratio复 选框 选 中 后 各 维 度 将 等比 例 放 大或 缩 小 ,不选则 可以自 己指定 各坐标 轴的长 短,图 形不成 比例放 大或缩 小。 图 9.31(a)和图 9.31(b)分别 给 出的 是 连续 轴 和 分类轴 的编 辑 对 话框,可见 都是 由多 个选 项 卡构成 ,例如,连续轴 的 Scale选 项 卡用 于设 置 轴 标 记格 式 和 度量 轴 的数 值 范 围,DisplaySec- ondAxis单选 框用于 对第二 坐标轴 进行设 置,当选 择了 DisplaySecondAxis单选 框时,Appearance 选 项卡则 用于设 置度量 轴本 身的 外 观。 CategoricalAxis子 对 话 框中 的 Categories选 项 卡 用于 在 图 中显示 、移除去 除该类 。各选 项卡的 操作非 常简单 ,请读 者自行 尝试,这 里不再 详述。          222   第 9章  数据 的图形 展示(下 ) (a)                           (b) 图 9.31 ScaleAxis子对话框和 CategoricalAxis子对话框 2.Legend区 交互 图中一 共提供 了颜色 、样式、大小三 种图例 方式,但 最常用 的是前 两者,如图 9.32所示 。 以 颜色图 例为例 ,其 ColorLegend子 对话框 也由多 个选 项 卡构 成,Colors选 项 卡用 于对 图例 的外 形 进行设 置,包括 颜色、形状等 ,Categories选 项卡 用 于 对各 类 别的 显 示 方式 进 行设 置 ,Title选 项 卡 用于设 置颜色 图例的 标题,Options选项 卡用来 设置图 例的排 列方式 。这 些选 项 卡具 体的 操作 和 常规图 编辑中 的相应 功能非 常相似 ,因此不 再详述 。 图 9.32 ColorLegend子对话框和 StyleLegend子对话框9.4 交 互式统 计图的 编辑 223             3.Elements区 针对 不同的 统计图 ,Elements区 就会 出 现不 同的 元素,如 果 绘制 的是 复合 图,则 会 同 时出 现 复 合图中 存在的 几种元 素,相应 元素的 编辑对 话框实 际上和 绘图时 调用的 对话框 功能非 常相似 , 例 如条图 就会出 现 Bars子 对 话 框,其 中 的 BarOptions选 项 卡 、SummaryFunction选 项 卡和 Bar Width选项卡 实际上 都是绘 图时对 话框相 应功能 的重新 调用,因此这 里不再 详述。 9.4.3 变量的重新分配 Utility工 具栏的 最左侧 是变量 分配 钮 ,其相 应 的 对话 框 用 于将 变量 在交 互 图中 进 行 重新 分 配 。鼠标 移近此 工具 按 钮 时,会出 现 如下 英 文 “Assignvariablestoaxiseslegendsandotherchart features”,单 击后可 开启 AssignGraphVariables对话框 。 图 9.33 变量分配对话框的三个选项卡 该对 话框共 有三个 选项卡 ,Axes& Legends,Cases和 Pies,如 图 9.33所示。 (1)Axes& legends选项卡 :其内 容在绘 制交互 图 时都 见 过了,不 过如 果 在这 里改 变变 量选 择 ,效果会 马上在 图中反 映出来 。比如 把 origin变 量从 Color框中 拖 到 Style框 中,则原 本使 用颜 色 图例的 交互图 将立刻 换为使 用样式 填充方 式来区 分不同 产地。 (2)Cases选 项卡:CaseLabels框 组在散 点图和 箱式图 时才有 用,主要 用于给 记录添 加标签 , 其 中 IdentifyPointsby框 中变 量 用 于 为 数 据 点 添 加 标 签。当 指 定了 内 置 变 量 case为某 一 个 轴 时 ,LabelcaseVariable的变 量值为 该轴的 刻度的 标签。 Weight框 中的 变量 对图 中 各点 对应 的数 据 进行加 权,并相 应地改 变图形 ,比如 说 weight变 量 取值 为 2,则相 应 记 录 汇总 时乘 以 2。Filter 框 中变量 值为 0的记录 不显示 在图中 。 (3)Pies选 项 卡:用 于 将 当 前 的 非 饼 图 转 换 为 饼 图 ,或 对 当 前 的 饼 图 做 修 改。 其 中 Slice Summary框选入 饼块代 表的变 量,ClusterBy框则 确定创 建或修 改复合 饼图的 变量。 9.4.4 Utility工具栏的其他选项 除上 述几个 重要的 按钮外 ,Utility工 具栏中 还有一 些其他 选项,这 里简单 介绍一 下。 :插入 元素按 钮,单 击后在 相应的 下拉菜 单中可 以选择 所 需的 图 形元素 ,将 它加 入当 前交 互 图中,从 而可能 生成非 常复杂 的复合 图,比 如在条 图 上 加线 或加上 误 差 条等 。实 际上 ,前 面学 习 过的带 误差线 的条图 就可以 被看成 是在普 通条图 上加入 误差线 形成的 。除各 种图形元 素简单          224   第 9章  数据 的图形 展示(下 ) 的 复合以 外,用户 甚至可 以在条 图上加 上回归 线,只 要是认 为有必 要,并且 y轴变 量是尺 度变量 。 一 般而言 ,如果 y轴是分 类变量 ,则可 以添加 线图、面 积图的 元素,如为尺 度变量 还可以 添加 误差 条 、箱式图 、回归 线等元 素。 但是 ,并非所 有类型 交互图 都可以 复合在 一起,比 如在 条 图上 添 加 饼图 元 素,就会 发现 图中 没 有什么 变化,这 时打开 ChartManager会 发现 Elements列表框 中多了 一个 Pie的 元素,但 图标上 多 了一个 叹 号,表明 饼图 中 有 误。原 来饼 图 不 能 添加 到 y轴为 Count,Percent等内 置 变 量的 图 上 ,凡此种 种,不 能尽述 ,有待读 者去发 现。 :ShowWarning按钮 ,出现 错误操 作以后 可用。 单击出 现 ChartManager对 话框,在列 表框 中 单击前 面带有 惊叹号 的选项 ,则对话 框下面 的列表 框中显 示出错 信息。 :Undo和 redo按钮,撤销和 恢复刚 才的动 作。 :转置 按钮,二维图 的水平 和垂直 转置。 :单击后 出现新 的菜单 项,其 实就是 3-D工 具栏。 :通过 此按钮 完成二 维和三 维图图 式改变 。 :AutomaticallyArrangeAllChartObjects,自 动按最 佳方式 排列交 互图中 各个元 素。 9.5 SPSS绘图中的注意事项 9.5.1 汉字兼容性问题的解决 当数 据库中 存在汉 字变量 名或变 量标签 为汉字 时 ,如果 使 用英 文 版 SPSS绘制 统计 图,则需 首 先将 Edit菜单 Options对 话框的 Charts选项 卡 中 规定 的 图形 中文 字输 出 字 体 进行 更 改,操 作 对 话框如 图 9.34所示。 将默 认字体 更改为 宋体等 中文字 体后,图 形中才 能正确 显示汉 字,否 则所有 汉字将被 显示为 符 号“口”。 如果已 经绘制 出了这 样的 图形 ,则 可以 进入编 辑状 态,将相 应文 本 的字 体 更 改为 中 文 字体即 可。 9.5.2 默认图形格式的更改 除更 改字体 外,在上 述选项 窗口中 还可以 对 齐性 的 其他 默 认格 式 进 行更 改 。其中 右上 侧的 ChartAspectRatio框 用于设 定图形 默认的 长、宽比 例,右 中部的 Frame框组 用于 设 定常 规图 是否 显 示内框 线和外 框线,下 方的 GridLines框组用 于设定 是否显 示坐标 网格线 。而下 方的 StyleCy- clePreference下 拉列表 提供了 绘制统 计图 时 对于 图 形 中的不 同组 成 部 分的显 示方 式:以颜 色区 分 ,同一颜 色的再 用不同 的填充 方式 区 分(Cyclethroughcolor,thenpattern);仅凭 颜色 区分 (Cy- clethroughcolorsonly),为 默认选 项;以不 同的 填充 方 式区 分(Cyclethoughpatternsonly)。当 所 绘 制的统 计图采 用黑白 方式打 印,如在 撰写论 文时,推荐选 用 Cyclethoughpatternsonly选 项。如9.5  SPSS绘图中 的注意 事项 225             图 9.34 绘图选项修改窗口 果 统计用 于制作 PowerPoint时 ,推荐 选用默 认选项 。 除上 述功能 外,在 SPSS12中还 提供了 对默认 图形元 素格式 的设定 ,即上述 对 话框 中最 下方 的 StyleCycles框组。 单击各 按钮后 可以 对 具 体图形 格式 的 使 用顺序 进行 设 定。例 如 可 以设 定 颜 色的使 用顺序 为红、黄 、蓝等 ,这样如 果绘制 简单条 图,则 直条为 红色;如 果为复 式条图 ,则按设 定 的顺序 依次使 用颜色 。 9.5.3 图形模板的应用 图形 模板的 应用价 值实际 上和表 格模板 是一样 的,对于 需要批 量制图 的任务 ,可以先 将所需 的 格式设 定为模 板,随后 将其设 定为绘 图默认 模板,这样就 可以大 大减轻 图形编 辑的工作 量。 1.常规图 的模板 在常 规图编 辑中的 许多内 容,如标 题、脚 注、图 形 元 素风 格 的设 定 、数轴 尺 度、统计 量等 均可 被 存储在 模板中 ,以便在 绘 制时 加 以 直接 应用。 只 要 在 图 形 编 辑时 选 择 菜单 File→ SaveChart Template,就 可以调 出相应 的存 储 模 板对 话 框,如图 9.35所 示。左 侧列 出的 就 是各 种 常 用的 存 储 内容,对 于一些 特殊的 图形,如带回 归线的 散点图 等,还可 以使用 右上部 的 Settings下拉 列表作 进 一步的 设定。 在选 择好希 望存储 的内容 后,单击 Continue按钮 ,就会 弹出文 件存储 对话框 。常规图 模板文 件 的扩展 名为 sgt,命名 后存储 即可。 模板 文件的 应用有 两种方 法,如果 希望设 定为默 认模板 ,则在 系统的 绘图选 项窗口中 用左上 侧 的 ChartTemplate框组 将相应 的文件 指定为 默认模 板即 可。 如果只 是希 望 将模 板应 用到 当前 图 形文件 ,则在编 辑状态 下选择 菜单 File→ ApplyChartTemplate,在对 话框 中 选中 相应 的模 板文          226   第 9章  数据 的图形 展示(下 ) 图 9.35 存储常规图模板对话框 件 ,所存储 的相应 格式就 会被应 用到当 前文件 中。 在图 形编辑 状态下 ,File菜单中 还提供 了将 图形 存 储为 XML格 式的 功 能 ,以供 程 序 开发 人 员 加以应 用,因该 功能过 于专业 ,这里 不再详 述。 2.交互式 统计图 的模板 为了 更美观 地展示 数据,SPSS对于交 互 式 绘图 提 供了 8种风 格 的 模板 ,系 统默 认 选 项为 不 使 任何模 板。用 户也可 以自己 对交互 图进行 编辑,建 立 自己 的 个性 化 的 模板 。在 存储 模板 时可 以 单击右 键,或者 选择菜 单 Format→ChartLooks,即可弹 出如图 9.36(a)所 示对话 框。   (a)                          (b) 图 9.36 保存交互图模板对话框和 Education模板的效果参考 文献 227             显然 ,该对话 框的内 容实际 上就是 将绘制 交互图 时 Options选 项卡中 的相应 部分单独 调用了 出 来,在这 里即可 将当前 设定存 为一个 新的模 板文件 。但需 要注意 的是,交互图 的模板扩 展名为 clo,和 常规图 模板是 完全不 通用的 。图 9.36(b)所示 的是 Education模板 的效果 。 交互 图模板 文件的 调用和 常规图 比较类 似,可 以 在系 统 选 项的交 互图 设 定中 将相 应文 件设 定 为默认 模板,也 可以在 制图 完 毕 后在 ChartLooks对话框 中 加 以应 用。但 是 ,交互 图 还 可以 在 绘 图时应 用 Options选项 卡中的 相应功 能制定 使用相 应的模 板文件 ,这也 是它功 能更为灵 活的体 现 之一。 思考与练习 1.请自行 练习复 式条图 、线图 、面积图 间的转 换功能 ,并从 图形的 本质 考虑 为 什么 这些 图形 可 以互相 自由转 换。 2.请在 SPSS中练 习本章 所介绍 的各种 图形的 编辑功 能。 3.SPSS输出 ROC曲线下 面积时 输 出的 近 似 P值(AsymptoticSig.),为 何 该检 验 的 原假 设 是 检测方 法总体 ROC曲线下 面积是 否为 0.5。 参考文献 1 SPSS○R InteractiveGraphics12.0.SPSSInc.Chicago,Illinois,2003 2 SPSS○R Base12.0User’sGuide.SPSSInc.Chicago,Illinois,2003 3 SPSS○R12.0CommandSyntaxReference.SPSSInc.Chicago,Illinois,2003 4 张 文彤主 编.SPSS11统计分 析教程 (基础篇 ).北 京希望 电子出 版社,2002 5 曹 素华,赵耐青 主编.卫生 统计学 方法.复旦大 学出版 社,2003    第三部分 常用假设检验方法第 章 分布类型的检验 本章 将涉及 到统计 学分析 最为主 要的理 论前提 :假设检 验。假 设检验 思想是 构建统 计理论 , 分 析统计 数据的 决策支 持的 基石 。 这里 将 首先 介 绍 假设 检 验 的 相 关 思想、理 论 基础 、分 析步 骤 等 ,然后分 别叙述 几个 比 较 重要 的 分 布类 型 检验— —— 正 态 分 布检 验 、二 项分 布检 验 以 及 游程 检 验 ,并借此 使大家 更加熟 悉假设 检验基 本思想 的具体 应用。 10.1 假设检验的基本思想 10.1.1 问题的提出 设想 这么一 个场景 ,你去参 加博彩 ,方式 为掷单 颗 骰 子,猜 到点 数 为 胜。 那么 如果 这时 你参 加 下注,会 下多少 注,结 果又会 怎么样 呢?相 信大家 在 下注 之 前都 相 信 在掷 骰 子时,对 于每 个人 来 讲,6个点都 是同等 机会出 现的,所以 一般 都是随 机的 选择 一 个点 进行 投注 。 其实 ,在 做出 下 注 决策的 时候,我 们就已 经做了 相应的 假设,假设这 个 骰子 是 均匀 的 ,因此 每 个点 出现 的几 率是 相 等的,可 以随机 的选择 点数进 行下注 。我们 知道如 果反复 下注的 话,大 概平均 每下六次 注会赢 一 次。当 然,这只 是平均 的情形 ,具体 到每一 次,猜中 的比例 可能会 多一些 ,也可 能会少一 些。参 与 者都是 冲着可 能出现 的高猜 中率来 的,这也 算是人 性 的弱 点 吧。但 是如 果 把多 次参 与的 猜中 率 进行平 均,则仍 然应当 在 1/6左右。 好,现 在来谈 谈一种 不太走 运的情 形,假 设今天 一 共 下了 600次 注,由 于 假设 这颗 骰子 是均 匀 的,因此 平均应 当赢大 约 100次。 但 是 最终 竟 然一 共 只猜 中 了 一次。 这 里有 两种 解释 :① 运 气 实在太 差。② 骰子 有问题 ,可能 每 种点 数 出现 的 概 率不均 匀,或者 说掷 骰 子的 人可 以人 为控 制 结局,从 而利用 这种能 力使自 己得到 了更多 的收益 。虽然 第一种 解释是 可能的 ,但是理 论上的 100次 胜利和 实际的 仅仅 1次胜利 实在是 相差太 远了,因此,大 多 数赌 徒都 会立 刻 选择 第二 种解 释 ,认为骰 子均匀 的假设 实际上 不成立 ,这一 切根本 就是一 个骗局 。 事实 上,上面 的整个 思路就 类似于 在 统计 推 断中 涉 及到 的 一 个问 题 ——— 假 设检 验 。在 统计 推 断中,首 先解决 的一个 工作是 进行参 数估计 的问题 ,但是 ,在经过 参数估 计之后 ,需要对 估计得 到 的参数 进行检 验。这 就是假 设检验 的内容 了,也就 是说,假设检 验的内 容主要 是关于在 做出推 论 估计之 后,对所 估计的 内容进 行检验 ,在统 计上确 定所得 到的估 计是否 是统计 显著的。 对于 假设检 验,这里 首先从 几个更 为具体 的示 例 出 发,了 解假 设 检 验真 正 要做 的是 什么,以 及 这是如 何解决 这个问 题的。 例 10.1  某学校 某年级 男 生千 米跑 的成 绩 均值 为 3min50s,两 个月 前来 了 一名 新的 长跑 教 练,经过 两个月 的教学 训练之 后,从 中随机 抽测了 10名男 生的千 米跑成 绩,得 到其样本 均值为          232   第 10章 分 布类型 的检验 3min30s,标准 差为 20s,这 时需要 检验的 问题是 ,新教 练的训 练方法 是否 使男 生 千米 跑的 成绩 发 生了改 变? 本例 关心的 是经过 两个 月的 教学 训 练 后 男生 千米 跑的 成 绩有 否 改 变? 对 此可 以 做 出假 设 H0:a=230s— —— 即 3min50s,然后 利用抽 样 10名 男生得 到的千 米跑成 绩样本 值 来检 验这 个假 设 是否正 确。 例 10.2 从某 培训班 中随机 抽取两 个小组 ,在能力 教学中 ,实验 组 使用互 动式教学 法,对照 组 则使用 传统讲 授 法,后 期 统一测 验成 绩 ,实验组 为 84、78、85、76、88、75、85、93、76、89;对 照组为 80、79、87、71、68、82、76、91、79、68。那么,此时 的问 题是,新的教 学法是否要 优于传统教学法? 这个 问题关 心的是 互动式 教学 法 是 否 优于 传 统 讲授 法,如 果 记 两种 教 学法 的成 绩为 a1,a2 分 别为实 验组和 对照组 成绩的 均 值,则 该例 就是 要用得 到的 样本 值(两 组 共 20个 数 据)来检 验 假 设 H0 :a1≤ a2 是否正 确。 例 10.3 某工 厂生产 一种建 筑材料 ——— 青 砖,在原 来配方 下,其 抗 压强度 服从正态 分布,现 在 改变了 配料的 方案。 在改变 配方之 后,青砖 的抗压 强度是 否还是 正态分 布的呢 ? 在这 个例子 中,要确 定改变 了配方 方案之 后 的青 砖 抗压 强 度分 布 是 否仍 然 是正 态 的。 可以 这 样做出 假设,H0 :F(x)~N(μ,σ2 ),其中 F(x)为抗 压强 度 的 分布,N(μ,σ2 )表示 正态 分 布,然 后 从改变 配料方 案后的 总体中 抽取样 本,获得 样本值 ,用它 来检验 假设是 否正确 。 比较 三个例 子,可以 发现以 上三个 例子有 一个共 同的特 点,那 就是根 据问题 的题意或 者对总 体 分布的 未知参 数做出 假设 H0(如例 10.1的 H0:a=230,例 10.2中的 a1 ≤ a2),或者对总 体分布 的 形式做 出假设 H0(如 例 10.3的 F(x)~N(μ,σ2 )),然后 从 总体 中 抽 样取 得 样本 值,利用 它对 总 体的某 种假设 进行检 验,为此 需要建 立检验 假设的 方法。 在数 理统 计 学中 ,称 检验 假 设 H0 的 方 法就为 假设检 验。 在假 设检验 中,通常 把所做 的那个 需要检 验 是否 为 真的 假 设 H0 称 为原假 设。如 例 10.1的 原 假设为 H0:a=230;例 10.2的原 假设为 H0:a1≤ a2;例 10.3的 原假设 为 H0 :F(x)~N(μ,σ2 )。 如 果原假 设是关 于总体 参数的 ,则称它 为参数 假设,相应的 检验则 称为参 数 检验;如果 原假 设 H0 是 关于总 体分布 类型的 ,则称它 为 分布 假设,检 验分 布 假 设 的问 题 ,称为 分 布检 验 (或 称 为非 参 数 检验)。 如果 要讨论 对所做 的假设 怎样进 行检验 ,先要从 假设检 验的基 本思想 谈起。 10.1.2 假设检验的基本思想 在讨 论假设 检验的 基本思 想之前 ,首先需 要 明确 小 概率 事 件这 一 概 念。 衡量 一个 事件 发生 与 否可能 性的标 准用概 率大小 来表示 ,通常概 率 大的 事 件容 易 发生,概 率小 的 事件 不容 易发生 。 习 惯上将 发生概 率很小 ,如 P≤ 0.05的事 件称 为 小 概率 事 件,表示 在一 次实 验 或观 察 中 该事 件 发 生的可 能性很 小,因此 如果只 进行一 次试验 的话,可以视 为不会 发生。 检验 假设的 基本思 想是统 计学的 “小 概率 反 证 法”原 理 :对 于一 个小 概 率 事 件而 言 ,其对 立 面 发生的 可能性 显然要 大大高 于这一 小概率 事件,可 以认 为 小 概率事 件在 一 次试 验中 不应 当发 生 。因此 可以首 先假定 需要考 察的假 设是成 立的,然 后基于 此进行 推导,来计算 一下在该 假设所10.1 假 设检验 的基本 思想 233             代 表的总 体中进 行抽样 研究,得 到当前 样本(及 更极端 样 本)的 概率是 多 少。如 果 结果 显示 这是 一 个小概 率事件 ,则意味 着如果 假设是 成立的 ,则在 一 次抽 样 研究 中 竟 然就 发 生了 小概 率事件 ! 这 显然违 反了小 概率原 理,因此 可以按 照反证 法的思 路推翻 所给出 的假设 ,认为 它们实际 上是不 成 立的,这 就是小 概率反 证法原 理。 这里 需要澄 清一个 事实:注 意上 面 的 表述 是 “一 次试 验 中小 概 率 事 件 不 应当 发 生 ”,这并 不 表 示小概 率事件 不可能 发生,也 就是说 ,这里 有一个 前提:只 进行一 次试验 ,结果 应当不会 是小概 率 事件。 如果进 行多次 (可能无 穷多)试 验,那么 小概率 就 肯定 会 发生 ,或者说 ,小 概率 事件 在一 次 试验中 不大可 能发生 ,然而在 大量试 验中几 乎必然 发生。 为了 对这个 原理作 进一步 的说明 ,下面继 续从实 例出发 进行解 释。 例 10.4 在一 个袋子 中装有 红、白两 种颜色 的球共 100个,有人 说这 100个 球中只有 一个是 红 球,其余 99个 都是白 色球,问 这种说 法是否 成立? 解:根据 大量的 实践经 验,假设 检验的 步骤一 般可以 被归纳 为如下 过程: (1)建立假 设:根据 问题的 需要提 出原假 设 H0 ,以 及 其对立 面 备择 假 设 H1 。本例 中的 无效 假 设为“袋 内只有 一个红 球”,而备 择假设 为“袋内 不止一 个红球 ”。 (2)确立检 验水准 :即设立 小概率 事件的 界值,它被称 为 α水 准,一般 这一步 非常简 单,习惯 上 会使用 0.05作 为该界 值。显 然,如 果原假 设 H0 成 立,则事 件 A=“任意 从 袋中 摸一 个球 是红 球 ”的概率 为 0.01,该 事件是 一个小 概率事 件。 (3)进行一 次试验 :即得到 用于统 计分析 的样本 ,以该 试验的 结果作 为假设 检验的根 据。本 例 中即从 袋中任 意摸一 个球观 察试验 结果。 (4)选定检 验方法 ,计算检 验统计 量:本 例的问 题比较 简单,这 一步基 本上是 被省略 掉了。 (5)确定 P值 ,做出推 断结论 :在本 例 中,如果 摸 到红 球,表示 小概率 事 件 A在 一 次试 验中 发 生了,这 与小概 率事件 实际不 可能发 生的原 理相矛 盾,从而 推翻原 假设 H0,接 受 其 对立 面 H1, 认 为袋中 的红球 可能不 止一个 ;反之,若摸到 的是白 球,则在 H0 成 立的情 况下这 只是一个 很普通 的 非小概 率事件 ,此时找 不到 任 何 的 理由 来推 翻 原 假设,因 此 最终 的结 论只 能 是不 能 拒 绝原 假 设 ,这等于 什么也 没说! 请注 意在上 面如果 没有拒 绝 H0 的 话,这并 不意味 着可以 接受 H0,因 为在整 个 过程 中也 不存 在 任何信 息支持 原假设 (注意这 里 用 的是 反 证法 !)。比如 说,拒绝 H0 相 当 于 证 据确 凿 ,判处 死 刑 。不拒 绝 H0 则 相当于 证据不 足,当 庭释放 。听清 楚了,法 庭可没 说被告 是彻底 清白的 ,只是因 为 证据不 足才释 放,若是 哪天找 到了证 据还是 要将被 告捉拿 归案的 。但从 实用的 角度出 发,在检 验 所得到 的概率 值非常 大的时 候,研究 者 往往 会 将结 果 引 申为 接 受 H0,但 注 意这 仅仅 是一 个引 申 ,和统计 学已经 无关了 。 10.1.3 假设检验的两类错误 显然 ,在经过 假设检 验后,得到的 似乎是 一个可 能 犯错 误 的结 论 ,那么 这 一结 论犯 错的 概率 是 多少呢 ?为了 回答这 个问题 ,这里需 要介绍 假设检 验中的 两类错 误。 假设 检验的 依据是 “小概率 事件在 一次试 验中不 会发生 ”原 理,然 而小 概率 事 件并 非是 不可 能 发生的 事件(只 是它不 是经常 发 生),我 们 并不 能 完全 排 斥 它发生 的可 能 性 ,因而 假 设 检验 的          234   第 10章 分 布类型 的检验 结 果就有 可能出 现错误 ,可以按 照错误 发生的 不同情 况将其 分为如 表 10.1所示 的两类。 表 10.1 推断结论和两类错误 实际情况 检验结果 拒绝 H0 不拒绝 H0 H0 真 Ⅰ类错误(α) 结论正确 (1-α) H0 不真 结论正确 (1-β) Ⅱ类错误(β) 第一 类错误 :原假设 H0 实 际上是 正确的 ,但由于 抽样误 差的原 因,或 者说恰 好发生了 小概率 事 件的原 因,使得 我 们 错 误 的 拒 绝 了 它,从 而 犯 了 “弃 真 ”的 错 误,统 计 学上 称 它 为 “第 一 类 错 误 ”。犯第 一类错 误的概 率是人 为指定 的,就等 于检验 水准 α。 第二 类错误 :原假设 H0 实际 上是不 正 确的 ,但 由于 抽样 误差 的 原因 ,检 验中 得 到 的 P值 大 于 检验水 准,使得 我们未 能拒绝 H0 ,从而犯 了“存伪 ”的错 误 ,统 计学 中 称它 为 “第二 类 错误”,用 字 母 β表 示。和 第一类 错误不 同,犯第 二类错 误的概 率大小 在进行 假设检 验时一 般并不 知道,但 可 以根据 相关信 息进行 估计。 人们 自然希 望犯这 两类错 误的概 率 α与 β同时都 很小,但是当 样本容 量 n一 定时,欲 使 α,β 都 减小是 做不到 的。因 为若 α小 ,则 β就 会增大 ;反过 来,若 β小,则 α就会 增大 。如图 10.1所 示 。理论 上可以 证明,只 有当样 本容量 增大时 才能使 得犯两 类错误 的概率 都减小 。 图 10.1 Ⅰ、Ⅱ型错误的关系示意图 由上 面的讲 解可知 ,统计检 验可能 产生两 种结果 :第一 ,拒绝原 假设,接受备 择假设;第二,根 据 现有证 据无法 拒绝原 假设。 显然,由 于假设 检验的 基本思 想是反 证法,如 果不拒 绝 H0 ,则 也无 法 确定原 假设是 否真实 ,得到的 是在统 计上模 棱两可 的结果 ,统计 推断就 会陷入 一个非常 尴尬的10.2 正 态分布 检验 235             地 步;只有 拒绝 H0 的结论 才是统 计上有 明确意 义的 结 果。因 此,研究 者应 该 将不 希望 出现 的情 况 列为原 假设,而 将希望 得到的 结论设 为备择 假 设,然 后想 尽 一切 办 法 在检 验 中拒 绝原 假设,这 样 得到的 检验结 果才是 可信的 。如果 将两个 假设颠 倒,则通 过假设 检验丝 毫不能 找到支 持 H0 的 证 据,那种 把不拒 绝 H0 就看作 是接受 H0 的做 法完全 是一种 很幼稚 的误解 ,或者 说是基于 某种原 因 而故意 对统计 概念进 行了偷 换。 10.1.4 假设检验中的其他问题 还有 一个需 要说明 的问题 就是检 验的方 向问题 ,这里涉 及到两 个概念 :单尾 检验以及 双尾检 验 。对原 假设的 检验称 为单尾 检验(One-TailedTest)时,这 是因为 备择假 设是以 单方向形 式表述 的 ,如例 10.2和 例 10.4。 如果研 究者需 要检验 假设是 否发生 了 变化,但是 并不 是 非常 清楚 的了 解 发生变 化的方 向,就要 用双尾 检验(Two-TailedTest),例如 10.1就是如 此。 单双 侧检验 首先应 根据专 业知识 来确定 ,同 时也 应 考虑 所 要解 决 问 题的 目 的。如 果研 究的 背 景比较 明确,从 专业知 识判断 一种方 法的结 果不可 能低于 或高于 另一种 方法的 结果,则 可以考 虑 使用单 侧检验 。但是 在尚不 能从专 业知识 给出结 论方向 的判断 时,则最 好使用 双侧检 验,一般 认 为双侧 检验要 更加保 守和稳 妥一些 。 除分 为单 /双 侧检验 两类外 ,正如 最初建 立假设 时 所提 到 的,假设 检验 还 可以 被分 为参 数检 验 以及非 参数检 验。通 常参数 检验是 在已经 知道了 相 关数 据 分布 形 式 基础 上 ,只 是不 了解 相应 参 数取值 时采用 的检验 形式。 而如果 对相关 数据的 分 布形 式 也并 不 了 解,就 必须 先确 定数 据的 分 布形式 ,这样才 可以进 一步对 分布做 出更为 具体的 说 明以 及 解释。 本章 随 后的 主要 内容 就是 介 绍几种 常用分 布的假 设检验 ,并借此 使大家 对假设 检验的 基本思 想作进 一步的 熟悉。 10.2 正态分布检验 在第 4章已 经 接 触到 了 正态 分 布的 定 义 以及 特 征,知道 它是 统 计 分析中 最为 重要 的 分布 。 因 此在许 多时候 ,研究者 希望能 够确认 数据 是 服从该 分布 的。 在 SPSS中,正 态分 布的 考察 方法 有 :通过计 算偏度 系数和 峰度系 数加以 考察;通过绘 制直方 图、P-P图 等 图形工 具来考察 ;也 可以 进 行各种 假设检 验。而 最常用 的对于 正态分 布的检 验就是 K-S单 样本检 验。 10.2.1 K-S检验的原理 Kolomogorov-Simirnov(K-S)单样本 检 验(Kolomogorov-SimirnovOne-sampleTest)是 一 种分 布 拟 合优度 的检验 ,其方法 是将 一 个 变量 的 累积 分布 函数 与 特 定 分 布 进 行 比 较 。用 Ai 表 示理 论 (假 设)分布 每个类 别的累 积相对 频数,Oi 表 示样本 频数的 相应值 ,K-S检验 是以 Ai 和 Oi 的 绝对 差 异为基 础的,其 检验统 计量为 : K=max|Ai -Oi| 显然 ,如果原 假设成 立,则 每次抽 样研究 中所得 到的 K值 应当 不 会偏离 0太远,如果 K值越          236   第 10章 分 布类型 的检验 大 ,说明基 于原假 设得到 当前样 本的可 能性就 越小,就 越有 可 能判 断 H0 为错 误 。当基 于原 假设 成 立的前 提得到 当前样 本这样 大的 K值 ,以 及更 大 K值 的概 率 小于 设定 的检 验 水准 时 ,研究 者 就 可以根 据小概 率反证 法原理 ,认为一 次抽样 中不应 当 出现 这 样的结 果,从 而 拒绝 H0,接 受 H1, 认 为样本 实际上 并不服 从所假 设的理 论分布 。 以上 给出的 是 K-S检验的 基本思 路,为了 方 便 计算 出各 种 情 况 下 K值 所 对 应的 概 率 大小 , 统 计软件 还往往 会将 K值 进一步 转化为 Z值(注意 此处的 Z值不 是标准 正态得 分): Z= NK 随后 再利用 Smirnov于 1948年提出 的相应 公式来 计算出 相应 的 P值。因 公式较 繁 ,这 里不 再 列出。 但这种 变换只 是为了 便于求 出 P值而 已,并 不会改 变 K-S检 验的本 质。 通常 分析者 可以直 接应用 K-S检 验来对 样本 数据 进 行正 态分布 的 检 验。 但是,值 得推 荐的 第 一步是 对样本 数据进 行图形 描述,图 形可以 直观的 给分析 者一个 大致的 印象:该数据可 能服从 什 么样的 分布类 型。 10.2.2 分析实例 例 10.5 已知 某零售 商希望 了 解 其销 售 收益 (Revenue)的 大致 分布情 况 ,依据 其 他 销售 商 已 有的资 料,他认 为其销 售收益 可能服 从正态 分 布,为 了检 验 其假 设 ,考虑 是 否与 其他 零售 商一 样 ,销售收 益服从 正态分 布,收 集到相 关的销 售 收益 数 据,存 放 在文 件 sales.sav中 ,请 使用 SPSS 软 件分析 样本数 据是否 服从正 态分布 。 解:首 先可以 使用直 方图,了解销 售收益 的基本 分布状 况,此处 略。从 直方图 上可以 看出,该 厂 商的销 售收益 基本上 是服从 正态分 布的,下 面 再考 虑使 用 正 态分布 检验 对 其结 论进 行进 一步 的 验证和 分 析。Analyze→ NonparametricTests→ One-SampleK-S⋯ ,打 开 如 图 10.2所示 的 对 话 框 ,并对它 进行设 置。 图 10.2 K-S检验的对话框 这里 要检验 的假设 如下: H0:样 本来自 于一个 正态分 布的总 体,理论 分布与 实际数 据间的 差异完 全是抽 样误差 造成 H1:样 本并非 来自一 个正态 总体,理 论分布 与实际 数 据间 的差 异 除 了由 抽 样误 差造 成外,确10.2 正 态分布 检验 237             实 也反映 了这种 偏差 本例 的分析 结果如 下: 表 10.2 DescriptiveStatistics 根据 上面提 供的描 述统计 量的结 果表来 看,对于 所分析 的样本 数据来 讲,总 共 有 1488条记 录 ,给出了 我们所 考虑问 题的 相 关 统计 结 果:均 值 为 2516.58,标 准差 为 994.586,还 有 最 小值 、 最 大值等 ,如果在 Options中选 择了 Quartiles复选框 ,则还会 输出中 位数和 四分位 数等。 表 10.3 One-SampleKolmogorov-SmirnovTest 表 10.3就给 出了相 应的检 验结果 :样本 数以及 均 值和 标 准差 这 里 就不 再 介绍,和 上面 的描 述 统计分 析是一 致的。 这里事 实上给 出了所 进行检 验 的原 假 设:销售 收益 的 数据 服从 的正 态分 布 的均值 为 2516.58,标 准差为 994.586。也就 是说,此 时考虑 的 是得 到的 样本 数 据是 否可 以拒 绝 销售收 益服 从 上 述 正 态分 布 的 这 一 假 设。 紧 接 着 的 几 项 是 K-S检 验 的 统 计 量 表 达 式 K= max|Ai -Oi|,实际 分布与 验证分 布之间 的正向 最大频 数差为 0.019(精 确数 值为 0.0194416), 负 向最大 频数差 为 -0.010,因 此用于 计算统 计量的 绝 对值 最大 频数 差 为 0.019。随 后 的统 计量 Z值为 1488×0.01944=0.75,相 应的显 著性水 平 为 0.627。根 据这 个标 准 ,可 以得 出以 下结 论 :如果原 假设是 成 立的 ,则从 这 样 一 个 正 态 分 布 的 总 体 中按 照 现 有 样 本 量 进 行 抽 样,平 均 每 100次 中会有 62.7次得到 实 际数 据 和 理论 分 布 之 间 的 差 值 K等 于甚 至 大 于 现 有样 本 的 K值 0.019,这 显然是 一个非 常平常 的情况 。因此 不能拒 绝样本 数据——— 即该 厂商的 销售收 益服 从正 态 分布的 假设。 虽然 上面的 例子是 关于正 态分布 的检验 。但实 际 上 K-S检验 并 不 仅仅 是 检验 正态 分布的 , 它 一共可 以检验 4种比 较常用 的统计 分布,分 别为正 态分布 ,均匀 分布,泊 松分布 以及指 数分布 。 至 于具体 的使用 什么样 的分布 检验,首 先要考 虑所分 析的数 据类型 是离散 的还是 连续的 ,另外则 是 通过绘 制相应 的统计 图形来 初步判 断需要 检验的 分布类 型。          238   第 10章 分 布类型 的检验 10.3 二项分布检验 对于 二分类 变量而 言,二项 分布是 最常见 的分布 类型,这里就 来讨论 一下对 于二项分 布的检 验 方法。 10.3.1 二项分布检验的原理 二项 分布检 验(BinomialTest)是对二 分类 变 量 的拟 合 优度 检验 ,它 考察 每 个类 别 中 观察 值 的 频数与 特定二 项分布 下的预 期频数 间是否 存在 统计 学 差异 。在 二 项 分布 检 验中,实 际上 采用 的 和 K-S检验的 原理相 同,只是 这里主 要使用 的是二 分变量 ,是一 个离散 分布的 检验情况 。 在第 5章中 已经学 习了二 项分布 的基本 知识,对 于一个 服从 二 项分布 的随机 变 量而言 ,在 n 次 试验中 结局 A出 现的次 数 X的概 率分布 为: P(X=k)=(n k)πk(1-π)n - k  k=0,1,⋯ ,n 使用 上述公 式,可以 算出基 于原假 设时各 发生 次 数 的出 现 概率,利 用小 概 率反 证法 ,按 照和 K-S检 验中类 似的逻 辑做出 相应的 检验结 论。 10.3.2 分析实例 例 10.6 根据 以往经 验,新生 儿染色 体异常 率一般 为 1%,现 某医院 观察了 当地 共 400名新 生 儿,只发 现一例 染色体 异常。 数据见 binom.sav,该地新 生儿染 色体异 常率是 否低于一 般? 解:本例 的 数据 录 入 极 为 简单 ,如 图 10.3所 示,但 要注 意 ill的 取 值 顺 序,并 且 需 要 使 用 WeightCases将 num指定为 频数变 量。本 例的检 验假设 如下: 图 10.3 数据格式 H0:  π=0.01,该地新 生儿染 色体异 常率并 无不同 H1:  π<0.01,该地新 生儿染 色体异 常率的 确低于 一般 因不 存 在 传 染 性 ,染 色 体 是 否异 常 可 以 被 认为 是 服 从 二 项分 布 。从而 可知每 名新生 儿出现 异常的 概率分 布为: P(X=k)=(n k)πk(1-π)n -k  k=0,1,⋯ ,n 由于 问题问 的是“是 否低于 一般”,而 样本的 异常率 低 于已 知 总体 率,如果 原假设成 立,则比 当 前样本 更极端 的情形 只能是 异常率 更低的 情形,在 本例中 就是没 有一例 异常的 情形。 因此,如 果 原假设 成立,则 从该总 体中抽 样,获 得当前 样本,甚 至比当 前样本 更极端 情况的 累积概 率为: P(X≤ 1)=P(X=0)+P(X=1)=0.0180+0.0725=0.0905 如果 在 SPSS中进行 分析,则 选 择菜 单 Analyze→ NonparametricTests→Binomial,相 应 的对 话 框 如图 10.4所示 。 分析 结果如 表 10.4所示。10.4 游程 检验 239             图 10.4 二项分布检验的对话框 表 10.4 BinomialTest 表 10.4即为 最终的 分析结 果,可 见表的 右侧就 是 检验 的 概率 值 ,请注 意 给出 的直 接就 是单 侧 概率(1-tailed)。 表格中 共有近 似概率 和确切 概率两 列,前者 是 将二 项分 布按 照 正态 近似 的方 法 来求解 概率(还 记得二 项分布 和正态 分布的 关系吗 ),此处应 当以确 切 概率为 准。表 格中 的概 率 值 0.09似乎和 手工计 算的 0.0905有所 差异,但这只 是表格 模 板按 照格 式设 定 对结 果进 行四 舍 五入所 造 成 的 假 象 。 实 际 上 只 要 进 入 相 应 单 元 格 的 编 辑 状 态 ,就 会 看 到 精 确 的 数 值 就 是 0.0905。表格 编辑的 具体操 作参见 第 7章 的相关 内容。 由于 P=0.09>0.05,而 这里默 认设定 的小概 率事 件 水准 为 0.05,因此 当 原假 设成 立时,在 400名 新生儿 中出生 一例染 色体异 常,甚 至于一 例也没 有的情 形 并非 小 概率事 件,因此 不能 拒绝 原 假设,尚 不能认 为异常 率低于 一般。 10.4 游 程 检 验 10.4.1 游程检验的原理 游程 检验是 一类非 常特殊 的检验 方法,因 此在学 习这种 检验之 前,有 必要先 来了解一 下游程          240   第 10章 分 布类型 的检验 的 概念。 设 X1 ,X2,⋯ ,Xn1 和 Y1,Y2,⋯ ,Yn2是 分别取 自母体 X和 Y的 两 个独 立 随机 子样 ,如 果将 两 个子样 合并在 一起,并 按照由 小到大 的次序 排列,得到: Z1≤ Z2≤ ⋯ ≤ Zn1 +n2 记: uj = def 0,如 果 Zj 是 X的 观察 1,如 果 Zj 是 Y的 观察 因此 就可以 得到一 个由 0和 1两 个元素 组成的 序列:u1,u2 ,⋯ ,un1+ n2。 如果有 : uj- 1≠uj =uj+1 =⋯ =uj+ l- 1≠uj+ l (10.1) 则称 ujuj+1⋯ uj+ l-1 是一个 游程,组成这 个游程 的 u的个 数 l称 为该 游程 的 长,由于 uj 仅 取 0 或 1两种 值,所以 具有两 种类型 的游程 :0的游程 和 1的游 程。如 果 式(10.1)中 的 j=1,则 左边 的 不等号 “uj- 1≠”是 多余的 ,同样如 果 j+l-1=n1 +n2 时,右 边的 不 等号 “≠ uj+ l”也不 需 要。例 如 u的序 列是: 00110111000100100010 它 有 6个 0的游程 ,其长 度为 1、2、3的 各有 2个,并 有 5个 1的游 程,其 中 3个 长度为 1,1个 长 度为 2,1个长 度为 3。上 面的序 列总共 有 11个 游 程。 如用 U表 示 序列 的 总 的游 程 数,那么 , 对 于上面 的序列 来讲,U=11。 显然 ,U可 能取的 最大值 是 2min(n1 ,n2)+1,最小 值是 2。 当 总体 X和 Y的两 个 分 布 F(x) 和 G(x)完 全隔开 时,由 于 X与 Y的值域 完全不 重叠,因 此从其 中 一个 总体 抽取 的 观测 其数 值必 然 会大于 或者小 于从另 一个总 体抽取 的观测 。此时 U=2。类似 的,如果 F(x)和 G(x)的平 均值 虽 然相同 ,但 G(x)的方差 比 F(x)的方差 要 大,此 时由于 Y的观 察分散 在联合 子 样的两 边,而使 得 总的游 程数有 较小的 趋势。 另一方 面,当原 假设 H0:F(x)=G(x)成立 时,X1 ,⋯ ,Xn1 和 Y1,⋯ , Yn2 可 看作是 从同一 总体中 抽取的 字样,它 们将 能 充 分的 混 合,因而 U将 是较 大 的。综 合上 述讨 论 ,U的 较小值 将指出 F(x)和 G(x)之 间 的 差 异 。所 以 当 U≤ Uα 时 拒 绝 原 假 设 H0 :F(x)= G(x)。 其中 Uα 的选取 使得其 概率水 平小于 等于 α。 为了 决定临 界值 Uα,就 需要知 道在 H0 成立时 U的概率 分布。 这一点 比较复 杂,本书 不做介 绍 ,读者感 兴趣的 话可以 参考相 应的文 献。 根据 上面的 说明与 讨论,可 知游 程 检 验(RunsTest)是 对二 分变 量的 随 机 检 验,它 可 用于 判 断 观察值 的顺序 是否为 随机。 许多的 统计检 验都是 假设样 本中的 观察值 都是独 立的,也 就是说 , 收 集到的 数据样 本的顺 序是不 相关的 。如果 收集顺 序十分 重要,那 么样本 就可能 不是随 机的,这 将 使研究 者不能 得出关 于抽样 总体的 准确结 论。因 而,研 究 者 就可以 使用 游 程检 验来 检验 数据 的 随机性 。 SPSS的 Runs过 程提供 了基于 游程个 数的检 验方法 ,对于连 续性变 量,该过 程 首先 要将 变量 值 进行分 类,然后 进行检 验。另 外还有 一种游 程长度 检验,在 SPSS中没有 提供。 10.4.2 分析实例 例 10.7 某电 子商务 企业召 集了一 批测试 者来评 估他们 新网站 的 Beta测试 版的易 用性,一10.4 游程 检验 241             旦 测试者 完成浏 览就记 录下测 试者对 网站的 评分(对 该网站 的评分 范围是 0~20的 整数,0代表 该 网站极 其不易 用,20则代 表网站 易用 性 非 常强 )。 该企 业 关 心的是 这些 测 试者 对网 站易 用性 的 评分是 否与这 些测试 者 花 费在 浏 览网 站 上 的时 间 相 关。 评 分信 息 收集 在 文 件 siteratings.sav 中 ,并且该 文件已 经按照 测试者 的浏览 时间长 短进行 了排序 。 解:根据 上面的 描述,这 里可以 考虑使 用游程 检验来 完成该 商务企 业的问 题,相应 的原 假设 可 以这样 设定:测 试者对 网站易 用性的 评分高 低与他 们花费 在网站 上浏览 的时间 长短无 关。 但是 在进行 游程检 验之前 ,必须考 虑一个 新的 问 题:根 据 游程 的 概 念,进 行分 析的 数据 对象 必 须是二 分变量 数据,或 者说,是可以 分成两 个群体 的 数据 形 式,但是 这里 观 察到 的数 据是 连续 变 量。因 此,首先 需要将 数据转 化为二 分类,也就是 说,要 把 不 满足游 程检 验 分析 的数 据格 式转 化 成可以 进行游 程检验 的数据 格式。 那么 ,这里就 有一个 分割点 的选择 问题。 在这 种 情 形下 ,我们 通 常 会选 择 数据 的平 均值、众 数 值、中位 数值以 及根据 商业经 验选择 的自定 义数据 为分割 点,特 别是结 合商业 经验给出 的分割 点 。为了 说明在 选择分 割点上 的慎重 以及分 割点的 不 同所 产 生的 不 同 分析 结 果,在上 面的 这个 例 子中,我 们将选 择中位 数、众 数以及 自定义 分割点 三种方 式来对 问题进 行分析 。 单击 菜单 Analyze→NonparametricTests→RunsTest打开如 图 10.5所示 的对话 框。 图 10.5 游程检验的对话框 设置 了相应 的选项 运行后 得到相 应的结 果如下 : 表 10.5 DescriptiveStatistics 表 10.5所示 的描述 统计分 析将帮 助企业 了解更 多关 于 在 此数据 样本 中 的测 试者 对网 站评 分 数据的 分布情 况。共 有 32个 Beta版测 试者完 成了测 试任务 并且提 交 了相应 的评分 。平 均评 分 为 9.94,相 当精确 的描述 了这个 数据尺 度的中 心位置 。标准 差 在正 态分 布中 是 非常 有用 的索 引 特征值 。但是 ,游程检 验并不 考虑正 态性的 假设。 事 实上 可以 通过 条 图可 以发现 评 分 数据 的 分 布 并非 正 态,受 试 者 实际 的 评分 的 范 围 是 从 6~14(条 图 的 制 作 请 参 见 绘 图 一 章 的 相 关 内 容 )。          242   第 10章 分 布类型 的检验 分析 输出结 果中的 检验值 就是将 样本数 据进行 二分的 分割点 。首先 用到的 分割点是 样本数 据 的中位 数。结 果体现 为如表 10.6所 示的第 一个游 程检 验结 果。 可 见 对于 32个 测试 者来讲 , 有 14个测 试者对 网站的 分数低 于中位 数,在 这里把 他们视 为是 “负面 的 ”样本 ,或者 就 是 0的序 列 。剩下 的 18个 测试者 的得分 则等于 或高于 中位数 ,在这 里把 他们 视为 是 “正 面的 ”样 本,或者 就 是 1的 序列。 随后给 出 的 是 本 次 观 察样 本 的 游 程 数 目,可 见 游 程数 目 为 10,相 应 的 P值 为 0.022,显 然小于 通常设 定的显 著性水 平 0.05。 因 此 有理 由 说,在采 取中 位 数 10为 分 割 点的 游 程 检验情 况下,可 以拒绝 原假设 ,认为 测试者 对网站 的 评 分顺 序并不 是 随 机的 。也 就是 说,如果 把 中位数 作为分 割序列 的标准 ,网站评 分会因 浏览者 待在网 站上浏 览的时 间而不 同。 表 10.6 RunsTest             表 10.7 RunsTest2       下面 来看一 下第二 个游程 检验结 果如表 10.7所 示,这 里 评分 数 据 的分 割 点被 定义 为众数 。 但 是,由于 收集到 的样本 数据的 分布事 实上是 双 峰,也 就是有 多个众 数 (这可 以 从评分 数据 的条 图 中得到 展现),这 里 SPSS游程 检 验分析 中默 认 会 采取的 是其 中 最大 的众 数(会在 分 析 表中 的 脚 注中显 示)。此 时游程 的数目 为 16,相应 的 P值 为 0.315,显然大 于所设 定的显 著性水 平0.05, 因 此不能 拒绝原 假设。 也就是 说 ,如 果基 于高 一 点 的 众数 值 12作 为评 分高 低 的分 割 点 来讲 的 话 ,那么网 站测试 者对网 站的评 分与他 们在网 站上浏 览时间 的长短 的关联 是随机 的。或 者说,网 站 的评分 与浏览 者在网 站上浏 览的时 间是不 相关的 ,浏览时 间长短 并不能 影响网 站的评 分。 最后 ,来分析 第三个 结 果,如 表 10.8所示,第 三 个游 程检 验的 分 割点 是 我 们自 定 义 的数 值 8,这时游 程的数 目为 11个,而 且 Z值为 0,P值 为 1,同样不 能拒绝 原假设 。也就 是说,如果 采用 小 的众数 ,仍然不 能拒绝 网站评 分与浏 览者浏 览时间 长短之 间的不 相关性 。 表 10.8 RunsTest3参考 文献 243             从上 面的分 析中可 以看出 ,在进行 游程检 验的 过 程 中,采 用三 种 不 同的 数 据分 割形 式,将会 得 到截然 不同的 分析结 果。因 此,在利 用统计 手段 或 者统 计 方 法解决 实际 问 题的 时候 一定 要考 虑 所分析 问题的 具体假 设,以及 选择好 正确的 统计分 析方法 。 10.5 本 章 小 结 本章 介绍了 假设检 验中最 基本,也 是最核 心 的理 论 基础 。 在做假 设检 验 的时 候首 先应 当明 确 相应的 假设是 什么,随 后围绕 该假设 来构建 相应的 统计量 ,并进 行检验 。如果 给出了错 误的假 设 ,那么就 可能选 择错误 的统计 分析方 法,最 终将得 到毫无 意义的 检验结 果。相 信大家在 学习了 本 章的例 子之后 会对这 一点有 比较深 的感受 。 通过 本章的 学习,希 望读者 可以掌 握下面 涉及到 的知识 和内容 : (1)假设检 验的理 论基础 是“小概率 反证 法 ”原 理,无 论多 复杂 的检 验 方 法,其 分 析 的逻 辑 基 础都是 该原理 。 (2)假设检 验分析 的基本 步骤。 (3)假设检 验涉及 到的几 个概念 :原假设 ,备择 假设;第 一类错 误,第 二类错 误;显著 性水平 ; 单 尾检验 ,双尾检 验。 (4)参数检 验以及 非参数 检验的 概念。 (5)几种常 用的非 参数检 验:正态 分布检 验、二 项 分布 检 验、游 程 检验,熟 悉使 用 SPSS进行 分 析的过 程,懂得 如何理 解所获 得的结 果。 思考与练习 1.假设检 验的基 本分析 思路与 基本理 论基础 是什么 ? 2.如何衡 量第一 类错误 与第二 类错误 ,它们 之间的 关系是 什么? 3.可以接 受原假 设吗,为什么 ? 4.分析一 个崭新 的数据 分析问 题时,应该首 先考虑 哪些因 素? 5.正态分 布检验 的理论 基础是 什么,请找一 个合适 的例子 加以练 习。 6.二项分 布检验 的理论 基础是 什么,请找一 个合适 的例子 加以练 习。 7.什么是 游程,如何进 行游程 检验,请 找一个 合适的 例子加 以练习 。 参考文献 1 缪 铨生主 编.概率与 数理统 计.第二版 .上 海:华东 师范大 学出版 社,1997 2 盛 骤、谢 式千、潘 承毅.概率 论与数 理统计 .第 二版.北京 :高等教 育出版 社,2000 3 张 文彤主 编.SPSS11统计分 析教程 (基础篇 ).北 京:北京 希望电 子出版 社,2002第 章 连续变量的统计推断(一)     t检验    在上 一章中 ,通 过 对 几 种 分 布 类 型 检 验 方 法 的 学 习,读 者 已 经 掌 握 了 假 设 检 验 的 基 本 原 理 ——— 小 概率反 证法。 但是,针 对不同 的数据 类型,研究者 还需要 使用不 同的方 法和统计 量来实 现 具体的 检验问 题。从 本章开 始,我们 就将针 对各种 数据类 型进行 相应检 验方法 的学习 。 在针 对连续 变量的 统计推 断方法 中,最常 用的 有 t检 验 和方 差分 析两 种,其 中 t检 验是 最基 本 的检验 方法,也 是统计 学中跨 里程碑 的一个 杰作。 它 最初 是 由 W.S.Gosset在 1908年以 笔名 “Student”发 表的一 篇关于 t分 布的论 文中提 出,并从 此开 创 了 小样本 计量 资 料进 行统 计推 断的 先 河,迎来 了统计 学的新 纪元。 11.1 t检验基础 例 11.1 某工 厂用自 动打包 机 打包,每 包标准 质量 为 100kg。 为了 保 证 生 产的 正 常 运行 , 每 天开工 后需要 先行试 机,检查 打包机 是否有 系统偏 差,以 及时进 行调整 。某日 开工后在 试机中 共 打了 9个包,测 得 9包 的质量 (kg)为 : 99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5 现希 望做出 判断,明 确打包 机是否 需要进 行调整 。 如果 从统计 学的角 度来看 ,这是一 个典型 的 对总 体 均数 进 行假 设 检 验的 问 题。在 这种 问题 中 研究者 所关心 的变量 为定距 变量,因 此可以 使用均 数 来代 表 该定 距 变 量的 集 中趋 势 。研 究者 对 该样本 所在总 体的均 数有一 个实现 的假设 (本例中 为 100kg),而研 究目 的就 是 推断 实际 上该 样 本所载 总体的 均数是 否等于 这一已 知总体 均数。 根 据上 一 章中 学 过 的假 设 检验 知识 ,给 出两 种 可能的 假设如 下: H0:μ=μ0,样 本均数 与假定 总体均 数的差 异完全 是抽样 误差造 成 H1:μ≠ μ0,样 本均数 与假定 总体均 数的差 异除了 由抽样 误差造 成外,确实也 反映了实 际的总 体 均数与 假定的 总体均 数间的 差异 那么 ,究竟哪一种 假设才是正 确的呢 ?根 据假设 检验的步骤,我们 可以首先假定 H0 是成立的 。 那 么该样本就真的是从均数为 100的总体中随 机抽样而来,其具体的统计描述指 标如表 11.1所示。 表 11.1 DescriptiveStatistics11.1 t检验 基础 245             显然 ,其样本 均数不 等于 100,而是 99.9778,两者间 存在着 差 异。 如果用 公式来表 示,就是 珔X-μ= -0.0222。这种 差异究 竟是大 还是小 ? 仅看 这 一个 数 字很 难 做 出判 断 。因为 这还 和数 据 的离散 程度有 关,如果 机器的 打包精 度不高 ,正常 情 况下 的 产品 质 量 的波 动 比较 大,那么 这一 差 值可能 并不起 眼。反 之,如果 机器精 度很高 ,则这 一差值 可能相 对就比 较大了 。为此我 们需要 找 到某种 方式对 这一差 值进行 标准化 。显然 ,标准 化 的方 式 可 能应当 是将 该 差值 除以 某种 表示 离 散程度 的指标 ,但究竟 该怎样 做呢? 在第 4章中 曾经讨 论过样 本均数 的抽样 分布规 律,这里 再来复 习一下 :假设 已知一个 正态分 布 的总体 N(μ,σ2 ),现从中 进行抽 样研究 ,每次 抽样 的样 本量固 定为 n,这 样 对每 一个 样本 均可 以 计算出 其均数 珔X。由 于这种 抽样可 以 进行 无 限多 次 ,这些 样 本均 数 就 会构 成 一个 分 布。 统计 学 家发现 ,该分布 正好就 是正 态 分 布 N(μ,σ2 /n)。 也就 是 说,样 本 均数 所在 分 布的 中 心 位置 和 原 数据分 布中心 位置相 同,而其 标准差 (记为 σ珔X)则为 σ珔X =σ/n。 为 了区分 样 本所 在 总体 的标 准 差,通常 称样本 均数的 标准差 为样本 均数的 标 准误 (简 称均 数标 准误 ,有的 书 上也称 之为 标准 误 差);而且 ,即使 是从偏 态总体 随机抽 样,当 n足够 大 时 (如 n>50),珔X也近 似 正态 分 布。 这一 规 律就是 数理统 计中的 中心极 限定理 (CentralLimitTheorem)。显然 ,由于 样 本均 数 珔X的分 布规 律 为正态 分布 N(μ,σ2 /n),此时只 需要进 行如下 的标准 化变换 : u=珔X-μ σ/n 则 u服从标 准正态 分布 N(0,1)。 也就是 说,若资 料 服从 正 态分布 N(μ,σ2 ),样 本含 量 为 n 的 样本均 数 珔X出现 在 μ-1.96σ n ,μ+1.96σ n 之 中的概 率为 0.95,这样 我们就 完成了对 差值的 标 化工作 ,可以具 体计算 出相应 H0 总体 中抽得 当前样 本(即更 极端情 况)的概 率大小,从而 做出 统 计推断 结论了 。 但是 ,σ珔X在计 算中需 要使用 总体标 准差,但 在实际 工 作中 它常 常未 知,能 够 使用的 仅仅 是样 本 标准差 S而已 。W.S.Gosset的贡献 正在于 此,他 发现如 果用样 本标准 差来代 替总体标 准差进 行 计算,即 S珔X =S/n,由于样 本标准 差 S会 随样本 而变,相应的 标化统 计量的 变异成 分要大 于 u, 它 的密度 曲线看 上去有 些像 标 准 正 态分 布 ,但 是尖 一 些,而 且 尾巴 长 一些。 这 种分 布 称 为 t分 布 ,如图 11.1所 示。而 相应的 标化后 的统计 量也就 被称为 t统 计量。 显 然,t统 计 量的 分布 规律 是 和样本 量有关 的,更准 确 的说 是和自 由 度 有关 。自 由 度 (DegreeofFreedom,一 般用 ν,或者 英 文 缩写 df来表 示)这个 概念还 出现在 其他分 布之中 ,它基 本上是 信息量 大小的 一个度 量 ,描 述了 样 本数据 能自由 取值的 个数,在 t分 布中由 于有给 定的样 本均数 这一限 定,所 以自由 度为 ν=n- 1。 从图 11.1中 可以看 出,当自 由度增 加时,它的分 布 就 逐渐 接 近标 准 正 态分 布 了。因 此,在大 样 本时,可 以用标 准正态 分布来 近似 t分布 。 t检验 即是应 用 t分布的 特征,将 t作为检 验的统 计量来 进行的 检验,由 于 W.S.Gosset已经 对 不同自 由度时 t分 布下面 积的概 率分布 规律进 行了很 好的总 结,所以 就可以 利用 t统计 量来回 答 上述关 于均数 的假设 检验问 题了。 具体的 统计量 计算为 : t=珔X-μ0 S珔X =珔X-μ0 S/n ,自 由度 df=n-1          246   第 11章 连 续变量 的统计 推断(一 ) t检验 图 11.1 t分布示意图 在 SPSS中,t检验主 要通过 CompareMeans菜 单下各 条命令 来实现 ,下面会 逐一讲 解。 11.2 样本均数与总体均数的比较 11.2.1 分析实例 单个 样本均 数检验 问题是 一种关 于总体 均数的 假设检 验问题 。这种 问题中 只有一个 随机抽 取 的样本 ,研究目 的是推 断这个 样本 相 应的 总体 均数是 否等 于(或 大于,或 小于 )某 个 已 知总 体 均 数。 这 里 直 接 利 用 例 11.1来 演 示 在 SPSS中 如 何 实 现 t检 验 。 首 先 应 当 建 立 相 应 的 假 设:   H0:μ=μ0,打 包机工 作正常 H1:μ≠ μ0,打 包机工 作不正 常 α=0.05 数据 见文件 onesamplet.sav,其中 变量 weight为 测量的 重量。 这是一 个典型 的单样 本总 体均 数 检验问 题。在 SPSS中 的具体 操作如 下: Statistics→ CompareMeans→One-SamplesTTest TestVariable(s):框:weight TestValue:框:键入 100 OK 分析 中用到 的主 对话 框 非常 简单,如 图 11.2所示,TestVariable(s)框 用于 选入 需 要分 析的 变 量,而 下 方 的 TestValue框则 用于 输 入 已知的 总体 均 数,默认 值为 0,显然 本例 中应 当更改 为 100。该检 验的选 项很少 ,都集 中在 Options子 对 话框 中,其中 ConfidenceInterval框:输 入需 要计11.2 样 本均数 与总体 均数的 比较 247             算 的均数 差值可 信区间 范围,默 认为 95% ,可自 行更改 。如果 是 和总体 均数为 0相比,则此 处计 算 的就是 样本所 在总体 均数的 可信区 间。而 MissingValues单 选框组 则对 缺 失值 的处 理方 法加 以 定义,一 般不用 更改。 图 11.2单样本 t检验过程的主对话框 本例 的输出 如下: 表 11.2 One-SampleStatistics 首先 给出的 是对当 前样本 进行的 统计描 述,注意 最右侧 给出的 是标准 误,即 对样本均 数分布 离 散程度 的描述 指标。 表 11.3 One-SampleTest 表 11.3即为 单样本 t检 验的分 析结果 ,表格 第一行 注明了 用于比 较的已 知总体 均数为 100, 下 面从左 到右依 次为 t值(t)、自由 度(df)、P值 (Sig.2-tailed)、两 均数 的差 值 (MeanDifference)、 差 值的 95% 置信区 间。由 上面的 检验结 果 t=-0.055,P值 为 0.957可 知,由于 P值远大 于检验 水 平 0.05,因 此不拒 绝 H0,还不 能认为 样本所 在总体 的均数 与假设 的总体 均数不 同,即可 以认为 打 包机工 作正常 。          248   第 11章 连 续变量 的统计 推断(一 ) t检验 11.2.2 单样本 t检验中的其他问题 1.总体均 数置信 区间与 t检 验的一 致性 表 11.3中同 时给出 了总体 均数的 置信区 间和 t检验 的结果 ,两者 的结 论实 际 上是 完全 一致 的 ,置信区 间可用 于回答 假设检 验的问 题,同 时这两 者又是 互为 补充 的 关系 :置信区 间回答 “量 ” 的 问题,即 总体均 数的范 围在哪 里,而 假设检 验是回 答“质”的 问 题,即 总体 均数 之 间是 否存 在差 异 ,以及在 统计上 确认这 种差异 的把握 有多大 。 置信 区间在 回 答 有 无 统 计学 意 义 的 同 时,还 可 进 一 步 回 答 这 种 差 异 有 无 实 际 意 义,如 例 11.1中,如果 从工艺 标准讲 ,打包 机 打包质 量与 100kg相 差在 2kg范围 内 都 是 合格 的 ,则即 使 差 异具有 统计学 意义,如 果差值 的可信 区间并 未超过 98~102kg,这一结 果也并 不代表打 包机打 包 的质量 在工艺 上不符 合标准 。 2.单样本 t检 验的应 用条件 由中 心极限 定理可 知,即使 原数据 不服从 正态 分 布,只 要 样本 量 足 够大,其样 本均 数的 抽样 分 布仍然 是正态 的。因 此当样 本量较 大时,研 究者很 少去考 虑单样 本 t检验的 适用条 件 ,此 时真 正 会限制 该方法 使用的 是均数 是否能 够代表 相应 数据 的 集中 趋势。 也 就是 说 ,只 要数 据分 布不 是 强烈的 偏态,一 般而言 单样本 t检 验都是 适用的 。 当样 本例数 n较小 时,一般 要求样 本取自 正态总 体,这 可通过 上一章 所介绍 过的正态 性检验 来 完成,或 是用更 直观的 作图方 法来判 断。但 是一 般 而言,t单 样本检 验是 一 个非 常稳 健的 统计 方 法,只要 没有明 显的极 端值,其分析 结果都 是稳定 的。 11.3 成组设计两样本均数的比较 在实 际问题 中,除了 一个总 体的检 验问题 外,还 常 碰到 两 个总 体 均 数的 比 较问 题,此时 可以 考 虑使用 成组设 计的 t检验 来进行 分析。 11.3.1 方法原理 两样 本 t检验和 上面单 样本 t检验 的基本 原理实 际上是 非常相 似的,设这两 组样本的 样本量 分 别为 n1 和 n2,且 分别来 自两个 正态分 布的 总 体,X1 ~N(μ1 ,σ2 1),X2 ~ N(μ2,σ2 2 ),则 两样 本 t 检 验所建 立的假 设为: H0:μ1 =μ2 ,两个样 本均数 的差异 完全是 抽样误 差造成 ,两个 总体均 数相同 H1:μ1 ≠μ2 ,两个样 本均数 的差异 除由抽 样误差 造成外 ,两总 体均数 确实存 在差异 显然 ,无效假 设等价 于认为 μ1 -μ2 =0,而 当前样 本得到 的情况 和这一 假设情 况的差异 为:11.3 成 组设计 两样本 均数的 比较 249             (珔X1 -珔X2)-0=珔X1 -珔X2 显然 ,和单样 本 t检验时 的情形 相同,该 数值的 大小 还和 数 据的 离散 程度 有 关,同 样 需要 找 到 某种方 式对这 一差值 进行标 准 化。统 计 学家 发现,如 果 这两 个 总 体的 方 差完 全 相同,即 σ2 1 = σ2 2,这两个 总体实 际上是 同一总 体时,从 这一 总 体 中进 行 样本 量 分 别为 n1 和 n2 的 随机 抽 样,则 样 本均数 差值 珔X1 -珔X2 也 服从正 态分布 ,其均 数为 0,标准 差(标准 误)则为 : σ珔X1- 珔X2 = σ2(1/n1 +1/n2) 但是 ,和单样 本 t检验时 的情况 相似,σ珔X1 -珔X2 在 计算中 也需要 使用总 体标 准差 σ,但 在实 际工 作 中它常 常 未知,能够使 用 的仅仅 是两个 样本的 标 准差 S1 和 S2 而已 。此时 相 应的 合 并标 准误 计 算公式 如下: S2 c =S2 1(n1 -1)+S2 2(n2 -1) n1 +n2 -2 (11.1) 将该 总体方 差估计 值代入 (11.1)式 ,即可解 出相应 的样本 均数差 值标准 误的估 计值 S珔X1 - 珔X2 。 那 么,使用 该估计 值进行 标化后 的差值 会服从 怎样的 分布呢 ?统计 学家发 现,如 果这两个 样本所 在 总体的 标准差 的确是 完全相 同的,则 标化 后的 差 值应 当服 从自 由 度为 (n1 -1)+(n2 -1)的 t 分 布,即: t=珔X1 -珔X2 S珔X1- 珔X2 = 珔X1 -珔X2 S2 c(1/n1 +1/n2) ,ν=(n1 -1)+(n2 -1)=n1 +n2 -2 (11.2) 在上 面自由 度计算 中减去 的两个 限制条 件其实 就 对 应了 两个样 本 均 数。 由以 上推 导可知 , 进 行两样 本 均数比 较的 t检验 要 求两样 本 来自 的 总体 方差 相等 ,即方 差 齐性。 总 体方 差是 否相 等 ,可通过 方差齐 性检验 来进行 统计推 断,本 章后面 内容将 有专门 讲解。 当两 样本所 在总体 的方差 不同,即 方差不 齐时,根据(11.2)式计 算出的 t值 并不服 从相 应的 t分 布,此时 需要对 结果进 行一定 的校正 ,其中 对 t统计量 和自由 度的校 正计算 公式分 别为: t′= 珔X1 -珔X2 S2 1 n1 + S2 2 n2 ,ν= (S2 1 /n1 +S2 2 /n2)2 (S2 1 /n1)2 n1 -1 +(S2 2 /n2)2 n2 -1 按相 应的 t值和 自由度 ,即可计 算出相 对应的 P值来 ,这就是 所谓的 当方差 不齐时 比较 两样 本 用的 t′检验。 11.3.2 分析实例 在教 学质量 评价中 ,重要的 依据是 不同教 师任教 的水平 相近的 班级参 加同一 考试后 的成绩 。 通 常的做 法是比 较各个 班级的 平均分 数是否 存在差 别。这 里就来 看一个 相应的 例子。 例 11.2  现希望 评价两 位 老师 的 教学质 量,试 比 较其分 别任教 的甲、乙 两班 (设甲 、乙 两班 原 成绩相 近,不存 在差别 )考试后 的成绩 是否存 在差异 ? 甲班 :85 73 86 77 94 68 82 83 90 88 76 85 87 74 85 80  82 88  90 93 乙班 :75 90 62 98 73 75 75 76 83 66 65 78 80 68 87 74  64 68           250   第 11章 连 续变量 的统计 推断(一 ) t检验 72 80 数据 已录入 为 文件 ttest.sav,其 中变 量 score为两 班的考 试成 绩,分组 变量 class=1代表 甲 班 ,class=2代表乙 班。这 是两个 原来 水 平 相近 的 班 级,由 两个 老师 分别 任 教,比较 任 教 后考 试 成 绩的差 别,可认 为是两 个班级 的成绩 是两组 独立的 数据,建立假 设如下 : H0:μ1 =μ2 ,两个班 级成绩 相同,即两位 任教老 师的教 学质量 不存在 差别 H1:μ1 ≠μ2 ,两个班 级成绩 不同,即两位 任教老 师的教 学质量 有差别 α=0.05 两样 本 t检验通 过 CompareMeans菜单下 的 Independent-SamplesTTest过 程实现,具体 操作 如 下: Analyze→CompareMeans→Independent-SamplesTTest TestVariable(s)框 :score GroupingVariable框 :class 选中 变量 group:DefineGroups:Group1:键入 1|Group2:键 入 2:Continue OK 操作 中使用 的界面 也非常 简单,如 图 11.3(a)所 示的 主 对 话框 上 方的 TestVariable(s)框用 于 选入需 要分析 的变量 。GroupingVariable框 :用于 选入分 组变量 。注意 选入后 还要定义 需比较 的 组别,具 体在 DefineGroups子对 话框中 进行操 作,如 图 11.3(b)所示 。需 要 注意 的是 ,即 使分 组 变量只 有 2个 取值,也 仍然要 在该框 中进行 定义。           (a)                                (b) 图 11.3 两样本 t检验过程的对话框 本例 的分析 结果如 下: 表 11.4 GroupStatistics11.3 成 组设计 两样本 均数的 比较 251             首先 给出的 是两组 需检验 变量的 基本情 况描述 ,如表 11.4所 示,不再 详述。 随后 结果中 会给出 最重要 的方差 齐 性 检验 和 t检 验分析 结果,由 于内容 较多,为 便 于 讲解 , 下 面使用 表格编 辑功能 将其拆 分为两 部分分 别加以 说明。 表 11.5 IndependentSamplesTest 分析 结果的 第一部 分为 Levene’s方 差 齐 性检 验 (参 见表 11.5),用 于判 断 两总 体 方 差是 否 齐 ,这里的 检验 结 果 为 F=0.733,P=0.397,因此 可 以 认为 在本例 中 两 样本 所 在总 体 的 方差 是 齐 的。 表 11.6 IndependentSamplesTest 结果 表格的 第二部 分会分 别给出 两组所 在总 体方 差齐和 方差 不齐 时的 t检验 结 果 (参 见表 11.6),当假 设两总 体方差 齐时,就直接 进 行标 准 的两 样 本 t检 验;否 则,就 根 据两 样本 的方 差情 况 对标准 差 进行校 正,得到 的是 校 正 t检验的 结 果。具 体 应当 阅 读这 两种 结果 中 的哪 一种 需要 根 据方差 齐性检 验的结 果加以 判断。 本例中 由于前 面 的方 差 齐性 检 验 结果 为 方差 齐,因此 就应 选 用方差 齐时的 t检 验结果 ,即上面 一行列 出的 t=3.056,ν=38,P=0.004。从 而 最终 的统 计结 论 为按 α=0.05水 准,拒 绝 H0 ,接受 H1,可以认 为两 个 班级成 绩 不同,两位 任教 老 师的 教学 质量 有 差别。 表格 的最后 面还附 有两组 均数差 值的可 信区间 等其他 指标,此 处略去 。 11.3.3 适用条件与方差齐性检验 在应 用 t检验进 行两样 本均数 的 比较 时 ,要 求数 据满 足 以下 三个 条件:正 态 性,各 个 样本 均 来 自于正 态分布 的总体 ;方差齐 性,各 个样本 所在总 体的方 差相等 ;独立性 ,各观 察值之间 是相互 独 立的,不 能相互 影响。 在实 际应用 中,独立 性对结 果的影 响较大 ,但检 验 数据 独 立性 的 方 法比 较 复杂,一 般都 是根 据 资料的 性质来 加以判 断。例 如遗传 性疾病 、传 染病 的 数据 可 能就 存 在 非独 立 的问 题 。如 果从 专 业背景 上可以 肯定数 据不存 在这些 问题,则 一般独 立性总 是能够 满足的 。 t检验 对于资 料的正 态性有 一定的 耐受能 力,如果 资 料只 是少 许 偏 离正 态 ,则 结果 仍然 是很 稳 健的。 当然,如 果数据 分布偏 离正态 很远,可知此 时 均数 不 能很 好 的 代表 数 据的 集中 趋势,这          252   第 11章 连 续变量 的统计 推断(一 ) t检验 种 情况下 最好考 虑采用 变量变 换,或者 非参数 方法加 以分析 ,详见 相关章 节。一 般对正态 性的考 察 可以通 过直方 图等工 具进行 ,当数据 量较少 时甚至 可 以进 行 数据 的 直 接观 察 。但是 要注 意应 当 分组考 察正态 性,而不 是合并 进行。 和总 体的正 态性相 比,方差 齐性对 结论的 影 响较 大。 在 进 行均数 比较 时 进行 方差 齐性 检验 就 显得更 为重要 。在 SPSS中方 差齐性 检验可 通过 Levene’s检 验来进 行,其假 设为: H0:σ2 1 =σ2 2,两 总体方 差相同 H1:σ2 1 ≠σ2 2,两 总体方 差不同 Levene’s检 验的实 质是将 两组数 据的方 差进行 比较,其 统计量 的计算 公式为 : F=S2 1 /S2 2 ,ν1 =n1 -1,ν2 =n2 -1 其 中分子 为较大 的方差 ,如果两 组方差 的比值 较 大,其 所对应 的 P值小 于设定 的 检验水 准,则按 照 小概率 反证法 原理拒 绝 H0 ,认为 两组所 在总体 的方差 不齐。 在上 面两样 本 t检 验的 结 果中 已 经提供 了 Levene’s检 验的结 果,实 际 上在 SPSS的 Explore 过 程中可 以进行 更为详 细的 Levene’s方差 齐性检 验,对 本例相 应的操 作如下 : Analyze→DescriptiveStatistics→ Explore Dependentlist(s)框:score Factorlist框:class Plots:Spreadvs.LevelwithLevenetest: Untransformed:Continue OK 表 11.7 TestofHomogeneityofVariance 可见 表 11.7中包括 了 4种 水平的 Levene’s检验结 果,分 别为基 于均数 (BasedonMean)、基 于 中位数 (BasedonMedian)、基 于调整 自由度 的中位 数(BasedonMedianandwithadjusteddf)和 基 于截尾 均数(Basedontrimmedmean)的 Levene’s检 验,后 面是相 应的统 计量 F值 (LeveneSta- tistic)、两 个自由 度值(df1、df2),以 及 P值(Sig.)。 以 上结 果 分别 适 用 于不 同 的 数据 情 况,如 果 数 据为对 称分布 ,则可以 使用基 于均数 的结果 ;偏态 数 据则 使 用基 于 中 位数 的 结果;如 果存 在极 端 值,则可 以考虑 使用基 于 截尾 均 数的 结 果。 这 样,Levene’s检验 的结 果就 可 以适 用 于 任意 分 布 类型的 资料,适 用范围 更广。11.4  配对设 计样本 均数的 比较 253             11.4 配对设计样本均数的比较 在很 多科学 研究中 ,常采用 配对设 计来提 高研究 效率,常见的 配对设 计 有 4种 情 况:① 同一 受 试对象 处理前 后的数 据;② 同一 受试对 象两个 部位的 数据;③ 同一 样品用 两种方 法(仪器 等 ) 检 验的结 果;④ 配对 的两个 受试 对象 分 别接 受两种 处 理 后 的 数 据。情 况① 的 目的 是 推 断其 处 理 有无作 用;情况 ②、③ 、④的目 的是推 断两种 处理(方 法 等)的 结果有 无 差别。 在 配对 设计 得到 的 样本数 据中,每 对数据 之间都 有一定 的相关 ,如果 忽 略这 种 关系 就 会 浪费 大 量的 统计 信息,因 此 必须要 采用相 应的配 对设计 分析方 法来加 以分析 。 11.4.1 方法原理 当配 对设计 所测量 到的数 据为定 距 变 量时 ,就可 以 考 虑采 用 配对 t检 验 加以 分析 。 其基 本 原 理是求 出每对 的差值 :如果两 种处理 实际 上没 有 差异 ,则 差值 的 总体 均 数 应当 为 0,从 该总 体 中 抽出的 样本其 均数也 应当在 0附近 波动;反 之,如 果 两种 处 理有 差 异,差 值 的总 体均 数就 应当 远 离 0,其样本 均数也 应当远 离 0。这 样,通过 检验该 差值总 体 均数 是 否为 0,就 可 以得 知两 种处 理 有无差 异。该 检验相 应的假 设为: H0:μd =0,两 种处理 没有差 别 H1:μd≠0,两 种处理 存在差 别 其统 计量的 计算公 式如下 : t=珔d-0 S珔X = 珔d S/n ,df=n-1(n为对子 数) 有了 前面的 基础,读 者朋 友 们 其 实可 以看 出 ,Paired-SamplesTTest过程 的 功能 实 际 上是 和 One-SamplesTTest过 程相重 复的 (等 价 于 已知 总体 均数 为 0的 情 况 ),但 Paired-SamplesTTest 过 程使用 的数据 输入格 式和后 者不同 ,因此它 仍然有 存在的 价值。 由于 配对 t检验 的本质 就是单 样本的 t检 验,因此 其适用 条件的 考察也 和单样 本 t检验 近似 (注 意应当 考察差 值而不 是原始 数据),这 里不再 重复。 11.4.2  分析实例 例 11.3 用某 药治疗 10名高 血压病 人,对 每 一病 人 治疗 前 、后的 舒 张 压(mmHg)进行 了测 量 ,结果如 表 11.8所示 ,问该药 有无降 压作用 ? 表 11.8 治疗前后的舒张压(mmHg)测量结果 病例编号 1 2 3 4 5 6 7 8 9 10 治疗前 120 127 141 107 110 114 115 138 127 122 治疗后 123 108 120 107 100 98 102 152 104 107          254   第 11章 连 续变量 的统计 推断(一 ) t检验 这 是 一 个 典 型 的 个 体自 身 治 疗 前 后 的 配 对 设 计 ,应 当 采 用 配 对 设 计 差 值 的 t检 验 来 进 行 分 析。 按 照 配 对 t检 验对 数 据 格 式 的 要 求 ,这 里 在 输 入 数 据 时 应 当 每 个 变 量 (一 列 )代 表 一 个 组,而 每 条 记 录 (一 行 )代 表 一 对 数 据 。 最 终 数 据 见 文 件 pairedt.sav。 本 例 建 立 假 设 如 下 : H0:μd =0,同 一病人 治疗前 后的舒 张压差 值总体 均数为 0 H1:μd≠0,同 一病人 治疗前 后的舒 张压差 值总体 均数不 为 0 α=0.05 在 SPSS中的 具体分 析是通 过 CompareMeans菜单 下的 Paired-SamplesTTest过程来 实现的 , 操 作如下 : Analyze→CompareMeans→Paired-SamplesTTest PairedVariables框:before、after OK Paired-SamplesTTest主对话 框如图 11.4所 示。分 析时注 意变量 需要成 对选入 ,即按 住 Ctrl 键 ,用鼠标 依次选 中两个 成对变 量,再 将其选 入。如 果只选 中一个 变量,则 变量移 动按钮 为灰色 , 不 可用。 图 11.4 Paired-SamplesTTest过程的主对话框 本例 的分析 结果如 下: 表 11.9 PairedSamplesStatistics 表 11.9给出 的是配 对变量 各自的 统计描 述,因 此处只 有 1对 ,故只有 Pair1。11.5 本章 小结 255             表 11.10 PairedSamplesCorrelations 表 11.10中 进行配 对变量 间的相 关性分 析。等 价于 Analyze→Correlate→Bivariate,详见 相关 与 回归分 析一章 。 随后 输出的 才是配 对 t检验的 结果,因 表格太 长,这 里将其 分为两 部分进 行讲解 。 表 11.11 PairedSamplesTest t检验 的结果 表格(参 见表 11.11)中首先 给出的 是对差 值的统 计描述 。注意 上面的 均数、标 准 差、标准 误和可 信区间 等都是 指的差 值。 表 11.12 PairedSamplesTest 表格 的第二 部分(参 见表 11.12)给 出的 是 对差 值 最 终的 检 验结 果 ,由上 表 可见 P=0.027, 故 可以认 为使用 该药会 影响病 人的血 压,由于 样本中 治疗前 -治疗 后的差 值均数 为正,因 此可推 断 出该药 使得病 人血压 下降,即 有降压 作用。 11.5 本 章 小 结 (1)本章介 绍的是 假设检 验中非 常基础 和重要 的 t检验,t检 验仍然 采用的 是 小概 率反 证法 原 理,其基 本思想 是:首 先假设 H0 成立 ,然后 考察在 H0 成立 的条件 下,按 照现有 样本量做 随机抽 样 ,在相应 的总体 中抽到 现有样 本,以 及比现 有样本 与 总体 的 差异 更 大 的样 本 的累 积概 率,如果 相 应的概 率 P≤ α(检 验水 准),则拒 绝 H0 假 设,接受 对立的 H1 假 设,认为现 有 样本并 非来 自于 所 假定的 总体。 (2)在整个 推断过 程中,由 于利用 了 t分布求 得 t值,并 据此而 得到相 应的概 率值,因 此检验 方 法被称 为 t检验。 而根据 具体的 设计 方案 和 希望 解 决 的问 题不 同,又 可以 被 分 为单 样 本 t检 验 、两样本 t检 验和配 对 t检验等 。但它 们的基 本原理 都是相 同的。 (3)作为参 数方法 ,t检验 也有适 用条件 ,但它相 对而言 比较稳 健,对 使用条 件的违反 有一定          256   第 11章 连 续变量 的统计 推断(一 ) t检验 的 耐受性 。但如 果使用 条件被 严重违 反,则可 以采用 校正的 t检 验,或 者换 用非 参 数方 法来 进行 分 析。 思考与练习 1.从一批 木 头 里 抽 取 5根,测 得 直 径 如 下 (cm),是 否 能 认 为 这 批 木 头 的 平 均 直 径 是 12.3cm? 12.3  12.8  12.4   12.1  12.7 2.为研究 女性服 用某 避 孕 新 药后 是 否影 响 其 血 清 总 胆 固 醇,将 20名女 性 按 年 龄 配 成 10 对 。每对 中随机 抽取一 人服用 新药,另 一人服 用安慰 剂。经 过一定 时间后 ,测得 血清总胆 固醇含 量 (mmol/L),结 果如题 2表所 示。问 该新药 是否影 响女性 血清总 胆固醇 ? 题 2表 配对号 1 2 3 4 5 6 7 8 9 10 新药组 4.4 5 5.8 4.6 4.9 4.8 6 5.9 4.3 5.1 安慰剂组 6.2 5.2 5.5 5 4.4 5.4 5 6.4 5.8 6.2 3.比较两 批 电子 器材 的电 阻,随 机 抽取的 样本测 量 电阻 如 题 3表 所示,试 比较 两 批电 子器 材 的电阻 是否相 同。(提 示:需考 虑方差 齐性问 题) 题 3表 A批 0.140 0.138 0.143 0.142 0.144 0.148 0.137 B批 0.135 0.140 0.142 0.136 0.138 0.140 0.141 4.配对 t检验 的实质 就是对 差值进 行单样 本 t检验,请读者 按此思 路对例 11.3进 行重 新分 析 ,比较其 结果和 配对 t检验 的结果 有什么 异同。 参考文献 1 张 文彤主 编.SPSS11统计分 析教程 (基础篇 ).北 京:希望 电子出 版社,2002 2 杨 树勤主 编.卫生统 计学.第三 版.北京:人 民卫生 出版社 ,1995 3 陈 希孺.数理 统计学 简史.长沙 :湖南教 育出版 社,2002 4 周 润兰,喻胜 华主编 .应 用概率 统计.北京 :科学出 版社,1999 5 何 灿芝主 编.概率统 计学习 指导.长沙 :湖南科 学技术 出版社 ,1984 6 潘 晓平,倪宗 瓒,殷菲.一种 稳 健的 方 差 齐性 检 验方 法 .现 代 预 防医 学,2002,29(6): 774~77612.1 方 差分析 入门 257             第 章 连续变量的统计推断(二)    — — 单因素方差分析 12.1 方差分析入门 12.1.1 为什么要进行方差分析 前面 所提到 的有关 统计推 断的方 法,如单 样本、两样本 t检 验等,其 所涉及 的对象 千 变万化 , 但 归根结 底 都可以 视 为两 组 间的 比较,如 果有一 组 的总体 均数已 知,则 为 单样本 t检验 ,如 果两 组 都只有 样本信 息,则为 两样本 t检 验。但 要是遇 到以下 情形,该如何 处理? 例 12.1 对于 大学新 生的入 学成绩 ,可以通 过 t检验 来 考 察男女 学生 间 的入 学成 绩是 否有 差 异。但 要是想 知道来 自于江 苏、浙江 、上海 、安徽 等 省 份的 学 生,其 入 学成 绩 是否 有差 异,那么 是 否可以 用 6次 t检 验来达 成目的 ? 例 12.2 在田 间试验 中,科研 人员 往 往将 田地 分成 多 个区 块,分别 在每 一 个区 块 中 采用 不 同 的培育 手段,或 者不同 品质的 种苗。 那么,在统计 分 析时,要 比较多 个区 块 之间 农作 物的 生长 情 况,应该 采用何 种方法 ? 在以 上两例 中,所涉 及的问 题其实 就是在 单一 处 理因 素 之下,多 个不 同 水平 (或简 单的 理解 为 多组)之 间的连 续性观 察值的 比较,目 的是通 过 对多 个 样本 的研 究,来 判断 这 些样本 是否 来自 于 同一总 体。如 果假设 检验拒 绝了多 个样本 来自于 同一总 体的 H0 假设,研究者 更会兴致 盎然地 关 心这几 个样本 到底可 能来自 于几个 不同的 总体? 而这一 切,传统 的 t检验已 经不再 胜任。 那么 ,能否使 用两两 t检 验,例 如做三 组比较 ,则分别 进行三 次 t检验 来解决 此问题? 这样做 在 统计上 是不妥 的。因 为统计 学的结 论都是 概率性 的 ,存在 犯 错误的 可能。 比 如说 ,要 用 6次 t 检 验来考 察 4个 省份的 大学新 生 入 学成 绩 是否 相 同,对 于 某一 次比 较,其犯 一 类错 误 的 概率 是 α,那 么连续 6次 比较,其 犯一类 错误的 概率是 多少? 答案不 是 α6,而 是 1-(1-α)6。也 就是说 , 如 果检验 水准取 0.05,那么 在连续 6次 t检验 中,犯一 类错 误 的概 率 将 上升 为 0.2649!这 是一 个 令人震 惊的数 字。就 好像考 试及格 线原本 是 60分 ,现在 被降到 了 20分 ,导致 考试的 权威 性大 打 折扣一 样。因 此,多个 均数比 较时不 宜采用 t检 验作两 两比较 。 感谢 R.A.Fisher爵士,他为后 人奠定 了方差 分析(AnalysisofVariance,简写 为 ANOVA)的理 论 基础:将 总变异 分解为 由研究 因素所 造成的 部分和 由抽样 误差所 造成的 部分,通过比较 来自于 不 同部分 的变异 ,借助 F分布做 出 统计 推 断。 后 人 又将 线 性模 型的 思想 引 入 方 差分 析 ,为这 一 方 法提供 了近乎 无穷的 发展空 间。          258   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 本章 主要介 绍单因 素方差 分析的 基本原 理及其 在 SPSS中的实 现方式 。在此 基础上 ,给出方 差 分析的 一些引 申内容 ,包括多 重比较 ,精细 比较和 趋势分 析等。 12.1.2 方法原理 1.方差分 析的所 要解决 的问题 顾名 思义,单 因素方 差分析 所解决 的是一 个 因素 (Factor)之 下的 多 个 不同 水 平 (Level)之间 的 关系问 题。一 般而言 ,这个因 素应该 是名义 尺度的 (NominalScaled),在进行 统计学 处 理时,应 该 用一个 名义变 量(NominalVariable)来 对应于 所研究 的 因素 ,并用该 变 量的 不 同取值 来表 示该 因 素的不 同水平 。 例 12.3 这里 仍然使 用大家 很熟悉 的汽车 资 料 Cars.sav,其中 变 量 mpg的 含义为 每加 仑汽 油 可以行 驶的里 程数,大 家可以 把它简 单的理 解为耗 油量。 现 希望 比 较 产自 美 国、日本 、欧 洲的 汽 车,考察 其每千 米耗油 量有无 差异。 本例 中,耗油 量的多 少是 所 关 心的 因 变量 (DependentVariable),而 汽 车 的 原产 地 是 自变 量 (IndependentVariable),它 有三个 取值 1,2,3,分别代 表美国 、日本 和欧洲 。三地 间并没 有程 度的 优 劣,故应 视为名 义变量 。每一 个观察 对象均 纪录了 每千 米 的耗油 量(单 位,加 仑),其 变量 名为 mpg,而用 origin变量来 标记该 车的产 地。对 于单因 素方差 分析,其资料 在 SPSS中的数 据结 构应 当 是由两 列数据 构成,其 中一列 是观察 指标的 变量值 ,另一 列是用 以表明 相应的 观察值到 底来自 于 哪一组 的分组 变量。 实际上 ,几乎所 有的统 计分析 软件,包括 SAS、STATA等,都要求方 差分析 的 资料采 取这种 数据输 入形式 ,这一点 暗示了 方差分 析与线 性模型 间千丝 万缕的 联系。 如果 origin变量 只有两 个取值 ,那么一 切都会 非常 容 易 地回 到 t检 验中去 。 可惜 这 里 origin 有 三个取 值,于是 只好求 助于方 差分析 了。 2.单因素 方差分 析的基 本原理 若将 因素视 为一种 处理(Treatment),那么 在进行 两样本 比较的 t检 验时,其 检验统 计量为 t= 珔X1 -珔X2 S珔X1- 珔X2 这个 公式可 以这样 来理解 ,分子上 是样本 之间 的 差别 (这 个差别 是 客观 存 在的,不 需要 假设 检 验即可 认定),但 这个差 别并不 足以 说 明 两样本 并非 来 自同 一总 体(即 便 来 自 于同 一 总 体,两 个 样本也 几乎不 会完全 相同)。 因此 统计 学 家用 抽样 误差 (往往 用 标准 误作 为 抽样 误 差 的一 个 具 体形式 )作为一 个尺度 ,来衡量 两样本 均数间 的 差别 ,考察这 个差别 到 底是 主 要由本 质差 异所 决 定的,还 是仅仅 体现了 抽样误 差。如 果 样本 间 的 差 别 比 标准 误 大 很多 (大 到 检验 统 计 量落 在 相 应检验 水准所 对应的 界值之 外),就 有 理由 认为 两个 样 本 间 的差 别不 太可 能 仅仅 由 抽 样误 差 造 成,而是 包含了 总体间 差异的 信息;并且检 验统计 量 越大,拒绝 H0 的 理由 就 越充 分;而如 果样 本 间的差 别并不 比标准 误大多 少,那么 在拒绝 H0 的 时候就 不够理 直气壮 ——— 还 是不下有 差别的 结 论为妙 ! 但在 方差分 析中,需 要比较 的是多 个均数 ,因此 检 验统 计 量中 不 能 仅仅 包 含了 两个 均数,而12.1 方 差分析 入门 259             必 须纳入 所有要 比较的 均数。 那么如 何来达 到这个 目的呢 ? 若以 y作为 观察 指 标,有 k个水 平 (即 分为 k个组 ),每 个水平 下分别 有 ni 个观察 值 (i=1, 2,3,⋯ ,k),总样 本含量 N=6 ni。 令 yij表 示第 i个组 中的第 j个 观察值 ,珋yi.表 示第 i个组 的均数 ,珋y.. 表示所 有 N个观 察值 的均 数 。显而 易见: yij -珋y.. =yij -珋yi. +珋yi. -珋y.. (12.1) (12.1)式两边 同时平 方,即: (yij -珋y..)2 =(yij -珋yi. +珋yi. -珋y..)2 =(yij -珋yi.)2 +(珋yi. -珋y.. )2 +2(yij -珋yi.)(珋yi. -珋y.. ) 对于 全部的 N个观察 值,有: 6 k i= 1 6 ni j= 1 (yij -珋y..)2 =6 k i= 1 6 ni j= 1 (yij -珋yi. +珋yi. -珋y..)2 =6 k i= 1 6 ni j= 1 (yij -珋yi. )2 +6 k i=1 6 ni j=1 (珋yi. -珋y..)2 +  26 k i= 1 6 ni j=1 (yij -珋yi.)(珋yi. -珋y..) (12.2) 可以 证明,(12.2)式右 边最后 一项为 0,于是(12.2)式可 以写为 : 6 k i=1 6 ni j=1 (yij -珋y..)2 =6 k i=1 6 ni j= 1 (yij -珋yi.)2 + 6 k i=1 ni(珋yi. -珋y..)2 (12.3) 在方 差分析 中,代表 变异大 小,并用 来 进行 变异分 解的 指 标就是 离均差 平 方和,(12.3)式左 边 是所有 的 N 个 y的 离均 差 平方和 ,代 表总 的 变异 程度,记 为 SST。这 个总变 异 被分解 为两项 , 第 一项是 各组 的 离 均 差 平 方 和 之 和,代 表 组 内 变 异,称 为 组 内 平 方 和 (Sum ofSquaresWithin Groups),记为 SSW ;第二项 为按样 本含量 大小加 权的各 组均数 与 总均 数 的差值 平方之和 ,代 表组 间 变异,称 为组间 平方和 或者处 理 平方 和 (Sum ofSquaresBetweenGroups,Sum ofSquaresDueto Treatment),记为 SSB 。即: 总变 异 =组 内变异 +组间 变异 其中 组间变 异既包 括了处 理因素 的作用 (如果这 个作 用存 在的 话 ),也包括 了随机 误 差。而 组 内变异 仅体现 了随机 误差。 显然,上 述实际 数据 的 变异 分 解 公式和 理论 上 的变 异分 解公 式间 存 在着如 下的对 应关系 : 这样 ,我们可 采用一 定的方 法来比 较组内 变异 和 组 间变 异 的大 小 ,如果 后 者远 远大 于前者 , 则 说明处 理因素 的影响 的确存 在,如果 两者相 差 无几 ,则说 明 该影 响 不 存在,以上 就是 方差 分析 的 基本思 想。 方差 分析的 检验统 计量可 以简单 地理解 为利用 随机误 差作为 尺度来 衡量各 组间的变 异,即 :          260   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 F=组 间变异 测量指 标 组 内变异 测量指 标 可以 想像,在 H0 成 立时,处 理所造 成的各 组间均 数的差 异应为 0(理论上 应为 0,但由 于抽样 误 差不可 能恰好 为 0),即: μ1 =μ2 =⋯ =μk 于是 ,组间变 异将主 要由随 机误差 构成,即组间 变异的 值应当 接近组 内变异 。于是检 验统计 量 F值应当 不会太 大,且 接近于 1。 否则,F值将 会 偏离 1,并 且 各组 间 的 不一 致 程度 越 强,F值 越 大。 3.单因素 方差分 析的假 设检验 过程 方差 分析的 原假设 和备择 假设分 别为: H0:μ1 =μ2 =⋯ =μk H1:k个总 体均数 不同或 者不全 相同 沿用 上一节 中的变 量标记 方式,有 检验统 计量: Fk -1,N - k =MSB MSW =SSB /(k-1) SSW /(N-k) 在上 式中,检 验统计 量 F的 分子和 分母上 的平方 和都除 以了一 个数字 :分子 上 除以 了 k-1, 而 分母上 除以了 N-k,这两个 数字分 别称为 组间 自 由度 和组 内自 由 度,记作 vB 和 vW ,二者 之和 为 N-1,称为总 自由 度 ,记 作 vT。 分 子上 组 间 平方 和 除以 自 由 度 后 得到 的 数 值 称 为组 间 均 方 (MeanSquareBetweenGroups),简称 MSB,分 母上组 内平方 和除以 自由度 后得到 的数值称 为组内 均 方(MeanSquareWithinGroups),简 称 MSW 。 分子、分母 上 的 除法其 出发 点 与为 什么 多用 标准 差 而非离 均差平 方和来 描述资 料离散 程度的 道理 相同 。即 变 异程 度 不 应当 受 样本 含量 的影响 。 显 然样本 含量越 大 SS就 会越大 ,故需 要扣除 样本含 量的影 响,这样 得到的 比值才 真正有 可比性 。 在原 假设成 立时,F值应 该服从 自由度 为 k-1,N-k的 中心 F分布(CentralFDistribution)。 而 若检验 统计量 落在相 应检验 水准所 确定的 拒绝域 内(即 F值 大 于或 等于 相应 自 由度 下的 检验 界 值),意味 着在一 次抽样 研究中 在假设 总 体内 得 到了 小 概 率事 件,则 有 理 由拒 绝 H0,其风 险为 相 应 F值所 对应的 P值。图 12.1即为自 由度为 1.5的 F分布曲 线。 图 12.1 自由度为 1,5的 F分布12.1 方 差分析 入门 261             方差 分析中 常常将 所计算 出来的 一些指 标列成 一张表 格,称为 方 差分 析表 (AnalysisofVari- anceTable),如表 12.1所示。 表 12.1 方差分析表 变异来源 离差平方和 自由度 均方 F P 组间变异 SSB k-1 MSB MSB /MSW P={Fk-1,k(ni-1) ≥ F} 组内变异 SSW k(ni -1) MSW 总变异 SST N-1 MST 大家 后面就 会看到 ,SPSS的输 出结果 中将包 含一张 与此几 乎完全 相同的 表格。 如果 假设检 验拒绝 了 H0,我们 可以做 出多个 样本来 自的不 是同一 总 体的结 论。但 是到 底这 些 样本来 自于几 个不同 的总体 ?这次 假设检 验并不 能 回答 这 个问 题 ,而需 要 进一 步进 行单 因素 不 同水平 间的多 重比较 (Multiple-Comparison),详细 介绍见 后面相 关章节 。 12.1.3 单因素方差分析的应用条件 1.基本的 应用条 件 统计 学中也 许有成 千上万 的方法 ,但没有 哪种方 法是适 合任何 情况的 ,自然 这里的方 差分析 也 不例外 。一般 而言,要 应 用 方差 分 析,数 据 应当 满 足 以 下几 个 条 件,或 者 说 以 下 的假 设 应 当 成 立。 � 观察对 象是来 自于所 研究因 素的各 个水平 之下的 独立随 机抽样 (Independence)。 � 每个水 平下的 因变量 应当服 从正态 分布(Normality)。 � 各水平 下的总 体具有 相同的 方差(Homoscedascity)。 其实 ,与 t检验的 应用条 件大同 小异,概括起 来就是 独立性 、正态性 和方差 齐性。 2.应用条 件的检 查与变 量变换 以上 适用条 件可以 使用统 计描述 进行观 察,或者 绘制相 应的统 计图形 ,当然 也可以使 用相应 的 检验方 法。正 态性检 验的方 法不再 介绍,这 里简 要 介绍 三 个 或三个 以上 样 本的 方差 齐性 检验 方 法。 Bartlett法:其基 本思想 是比较 各组方 差的加 权算术 均数 与 几何 均 数,若二 者差 异过 大,可以 认 为各组 间的方 差不齐 。当各 组样本 含量均 大于 5时,其检 验统计 量近似 服从自 由度为 k-1的 χ2 分 布。 Hartley法:统计 量 H=max(S2 i)/min(S2 i),当 各组样 本含量 相同时 可以使 用此法 。 Cochran法:统计量 C=max(S2 i)/6 k i=1 S2 i,该方法 同样用 于各组 样本量 相同时 。 以上 三种方 法都需 要所检 验的样 本来自 于正态 总体,而 SPSS中 所使用 的是 Levene方法,这 种 方法对 正态性 假设是 稳健的 。Levene方法的 基本思 想是将 各 组变 量 值中 心化 后,利用 F检验          262   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 来 检验各 组间的 差别。 有兴趣 的读者 可以参 考Levene(1960)的著 作。 有时 候原始 资料并 不满足 方差分 析的要 求,这时 候除了 求助于 非参数 检验方 法外,也 可以考 虑 变量变 换(Transformation):通 过对原 始数据 的数学 变换,使其满 足或者 近似满 足方差分 析的要 求 。一般 认为,通 过变量 变换若 达到方 差齐性 要求的 资料,其正态 性问题 也会有 所改善。 常用的 变 量变换 有以下 几种: (1)对数转 换(LogarithmicTransformation):将原 始数据 的自然 对数值 作为分 析数据 ,其 最常 用 形式为 y=lgX,也可选 用 y=lg(X+k)或 y=lg(k-X),当原始 数据有 0时,可用 lg(X+k)进行 数 据转换 ,其中 k为一小 值。对 数转换 可用于 :服从 对数正 态分布 的资料 ;部分正 偏态资 料、等比 资 料,特别 是各组 的 S与 珔X的比值 相差不 大(各组 CV相近 )的资料 。 (2)平方根 转换(SquareRootTransformation):可用 于 服从 Poisson分布 的 资料、轻 度偏 态资 料 、样 本的 方 差与 均 数呈 正 相 关的 资 料 以 及 观察 变 量为 率 ,取 值 在 0~20% 或 80% ~100% 的 资 料。 (3)平 方 根反 正 弦转 换 (ArcsineTransformation):将 原 始 资料 的 平方 根 反 正 弦 变换 值 y= sin-1 X作为分 析数据 。平方 根反正 弦函数 转换可 用于原 始数据 为率,且 取值广 泛的资 料。 (4)平方变 换(SquareTransformation):将 原始资 料 的平 方 作为 分 析 数据 。常 用于 方差 与均 数 呈反比 时或资 料呈左 偏时。 (5)倒数变 换(ReciprocalTransformation):将原 始资料 的倒数 作为分 析数据 。常用于 方差与 均 数的平 方呈正 比时,并 且往往 要求资 料中没 有接近 或小于 0的数 据。 (6)Box-Cox变 换:有 时候并 不能 很 容 易地 找 到一 种合 适的 变 换 方 式,Box和 Cox于 1964 年 提出一 类变换 : f(y)= yλ     λ≠0 ln(y)  λ=0 研究 者需要 根据原 始资料 来尝试 不同的 λ的值。 实际上 λ分别 为 -1,0,0.5,2时,Box-Cox 变 换分别 等价于 倒数变 换、对数 变换、平方根 变换和 平方变 换。 此外 ,当观察 指标为 率,且 取值在 30% ~70%之间 时,一般 不考虑 变量变 换。 3.应用条 件得不 到满足 对方差 分析结 果的影 响 独立 性:举例 来说,对于田 间试验 ,两个区 块中庄 稼的产 量差别 应当仅 仅与处 理有关 ,而应当 与 两块地 是否邻 近无关 ;对于实 验室研 究,应 当尽量 避免由 于试验 者主观 的系统 误差而导 致相关 性 。然而 测量误 差或者 试验设 计时的 失误往 往均会 导 致独 立 性的 要 求 得不 到 满足,此 时原 始资 料 存在着 信息“重 叠”的现 象,方差 分析的 结果往 往会受 到相当 大的影 响。 因此 在 试验 设计 阶段 就 应当保 证随机 化真正 得到实 施。 正态 性:Box和 Anderson等 人的研 究表明 ,正 态 性 得不到 满足 时 ,方差 分 析的 结论 并不 会受 到 太大的 影响。 也就是 说,方差 分析对 于正态 性的要 求是稳 健的。 方差 齐性:在 各组间 样本含 量相差 不太大 时,方 差轻微 不齐仅 会对方 差分析 的结论有 少许影 响 。一般 而言,只 要最大 /最小 方差之 比小于 3,分 析结果 都是稳 定的。 应当 注 意的 是 ,在方 差 分析 中 ,各组 在 样 本含量 上的 均 衡 性将会 为分 析 计算 提供 极大 的便12.1 方 差分析 入门 263             利 ,也能在 一定程 度上弥 补正态 性或方 差齐性 得不到 满足时 对检验 效能所 产生的 影响,这 一点在 多 因素时 体现得 尤为明 显。因 此,在试 验设计 时就应 当注意 到均衡 性的问 题。 12.1.4 单因素方差分析的 SPSS实现 SPSS不但 提供了 One-WayANOVA过程用 以进行 一般 的 单因 素 方 差分 析 ,更 在其 中纳 入了 不 少的选 择项以 提供丰 富多 样的 功 能,如 两 两比 较 、趋 势检 验等。 下面 就回 到 汽车 耗 油 量的 案 例 ,用它来 演示如 何在 SPSS中 实现方 差分析 。 1.预分析 请注 意,方差 分析之 前,一 定要注 意其应 用条件 。利用 Means过程可 以得到 各产地汽 车耗油 量 的一般 描述,从 表 12.2中可 见三组 的标准 差相差 不大,即 方差可 能是齐 的。 表 12.2 Report 同时 我们还 可以使 用箱图 、直方图 等工具 考察数 据的正 态性、方差齐 性,这里 使用箱 图,如图 12.2所示。 由箱 图可知 ,各组资 料的正 态性均 不太理 想。但 在样本 含量较 大时,方差分 析对正态 性的假 设 是稳健 的,因此 这里仍 然应用 原始资 料进行 分析。 2.具体操 作 下面 开始进 行方差 分析,操 作如下 : Analyze→CompareMeans→One-WayANOVA DependentList框:mpg Factor框 :origin Options:   Homogeneity-of-variance: MeansPlot   Continue OK One-WayANOVA过 程的对 话框如 图 12.3所示 。其中 ,Contrast和 PostHoc子对话框 的功能 将 在后面 详细阐 述,至于 Options子对 话框,我 们可以 看到几 个项目 最下方 的 MissingValues框组          264   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 图 12.2 数据的箱图 中 规定了 对缺 失值 的 处理 方式,与 前面的 章 节相 同,这里 不再赘 述 ;中部 的 Meansplot复选 框指 定 用各组 均数作 图;最上 部 Statistics框 组中由 上到下 依次为 : � Descriptive:指 定输出 描述性 统计量 。 � Fixedandrandom effects:对于 固定效 应模型 ,输出 标准 差、标准 误和 95%可 信区 间;对于 随 机效应 模型,输 出其标 准误、95%可 信区间 及方差 成分。 � Homogeneityofvariancetest:指定进 行方差 齐性检 验。 � Brown-Forsythe:指定输 出用 Brown-Forsythe方 法比较 各组均 数的统 计量,适用于各 组方差 不 齐时。 � Welch:指定输 出用 Welch方 法比较 各组均 数的统 计量,适 用于各 组方差 不齐时 。 图 12.3 One-WayANOVA过程的对话框12.1 方 差分析 入门 265             3.结果解 释 表 12.3 TestofHomogeneityofVariances 表 12.3给出 的是方 差齐性 检验结 果,Levene方法 检 验统 计 量 为 0.106,在 当前 自 由 度下 对 应 的 P值为 0.90,可认 为样本 所来自 的总体 满足方 差齐性 的要求 。 表 12.4 ANOVA 表 12.4即为 单因素 方 差 分析 的 方差 分 析 表,第 一列 为 变 异的 来 源,BetweenGroups表 示组 间 变异,WithinGroups表 示组内 变异,Total表示 总 变 异,第 2、3、4列 分别 为 离 均 差平 方 和、自 由 度 、均方,检验统 计量 F为 97.969,查 自由度 为 2和 394的 F界 值表,P<0.0001。由 此可 认为 各 国的汽 车耗油 量是不 同的。 图 12.4 各组间样本均数的折线图          266   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 MeansPlots给出了 各组间 样本均 数的折 线图(参 见图 12.4),它可以 更直观 地展现 各组 样本 的 大小关 系及其 与相应 的分组 变量间 的关系 。值得 注意的 是,当分 组变量 体现出 顺序的 趋势时 , 绘 制这种 折线图 可以提 示我们 选择正 确的趋 势分析 模型。 12.2 均数间的多重比较 通过 上面的 分析得 到了拒 绝 H0 的 结论,但 实际上 单 因素 方差 分 析 并不 这 样简 单,任务 还没 有 最终完 成:在解 决实际 问题的 时候,往往仍 需要回 答多个 均数间 究竟是 哪些存 在差异。 虽然结 论 提示不 同产地 的汽车 耗油量 不同,但 研究者 并不知 道到底 是三者 之间均 有差别 ,还是某 一组与 其 他两组 有差别 。尽管 MeansPlot可 以显 示 大体 的 形 式,但 要 是没有 相应 的 假设 检验 结果 以说 明 这种样 本均数 的 差别 是 否有 推 广 至 总 体 的 意 义。 这 些 就应 当 通 过两 两 比较 (或 者 说 多重 比 较 ,MultipleComparison)来进 行考察 。 12.2.1 直接校正检验水准 现在 问题又 回到了 两两比 较上。 显然,在 两两比 较时 关 键 的问题 就是 如 何控 制好 一类 错误 的 大小。 首先,对 于两两 比较中 所遇到 的一类 错误,有以下 几个概 念需要 了解: (1)CER:比较误 差,即每 作一次 比较犯 一类错 误的概 率。 (2)EERC:在完全 原假设 下的 试验 误 差率 ,即 在 H0 成 立 时做 完全 部比 较 所犯 一 类 错误 的 概 率。 (3)MEER:最 大试验 误差率 ,即在任 何完 全 或 部分 原 假设 下,做完 全部 比 较所 犯 一 类错 误 的 最大概 率值。 如前 所述,当 原假设 实际上 成立,各组均 数无差 别 时,k个 组 完全 两两 比较 的 次数 c=k(k- 1)/2,做完 所有这 些比较 犯第一 类错误 的概率 为 1-(1-αij)c,即 EERC,此时所 做的方差 分析其 实 质也就 是控制 EERC为所设 定的水 准。因 此,进行 一类 错 误 控制时 最直 接 的想 法就 是将 总的 α水准 控制到 0.05,从而 由上述 公式反 推得出 每一个 检验所 使用的 αij=1-(1-α)1/c,这种 校正 方 式被称 为 Sidak校 正。但 是,这 只是 在原 假设成 立的 情况 下才 成 立 的 校正 方式。 多 数 实际 问 题 中,都是 有些组 的均数 相同而 有些组 的均数 不同的 情况,因此控 制 MEER更 为合适 。 Bonferro- ni不等式 被广泛 地用于 此目的 ,它通过 控制 CER,使得 MEER被 控制 在 所设定 的水准 以 内,其公 式 为: CER=α/c 只要 CER即每次 比较时 使用的 一类错 误水准 αij小于 α/c,就 可以保 证 MEER不会大 于 α。 实际 上,可以 简单地 理解成 Sidak校 正 认为 各 次 比较 的 一 类错 误与 总的 一 类错 误 概 率间 的 关 系为累 乘,而 Bonferroni校正则 认为 它 们 之 间的 关系 是累 加的。 从而 分别 按 照累 乘 和 累加 的 方 式对总 的概率 进行分 解。 Bonferroni校正等 直接校 正方法 虽然可 以解决 两两比 较的问 题,但首 先它是 将 各次 比较 分别12.2  均数间 的多重 比较 267             进 行,使用 上比较 麻烦;其次,它 保证的 是 MEER不会 大于 α,这显 然意味 着多数 比较的 检验 水准 实 际上是 小于 α的 ,从而 结论仍 然比较 保守。 12.2.2 专用的两两比较方法 除了 相对粗 糙的直 接校正 法外,针 对不同 的分析 需求,统计学 上还发 展出了 一系列专 用的两 两 比较方 法。一 般而言 ,可以把 多重比 较分为 两种类 型:计 划好的 和非计 划的。 所谓计划 好的多 重 比较(PlannedComparisons),即 在收集 数据 之前 便决 定 了 要 通过 多重 比较 来 考察 多 个 组与 某 个 特定组 间的差 别或者 某几个 特 定 组间 彼此的 差 别;而 非 计划 的 多 重比 较 (UnplannedCompari- sons,Post-hocComparisons)只 有在方 差分析 得到有 统计学 意义的 F值后才 有必要 进行,是 一种探 索 性的分 析。前 者需要 通过 Contrast对 话 框的 有关 内容 来 进行,而 后者 则要 借 助于 PostHoc对 话 框的相 关内容 了。 对于 汽车耗 油量和 产地的 例 子,我们 要进 行 单 因素 方 差分 析 后 的多 重 比 较,只需 点 击 Post Hoc按钮 ,出现 了如图 12.5所示的 对话框 。 图 12.5 多重比较的选择对话框 在 EqualVariancesAssumed框体 内有 14种 两 两 比较 的 方法! 这并 不是 说 两两 比 较 的方 法 如 百花齐 放般衬 托了统 计学的 欣欣向 荣,相反 却 说明 目前 为 止 仍然没 有什 么 令人 完全 信服 的方 法 或者没 有什么 统一的 解决之 道。 对于 非计划 的多重 比较,针 对比较 目的和 应用条 件的不 同,各 种多重 比较方 法也有其 不同的 侧 重点,以 下简要 介绍常 用的几 种多重 比较的 方法: � LSD法 :即最 小显著 差 法 (Least-Significance-DifferenceMethod),是 最 简 单的 比 较 方法 之 一 。它其 实只是 t检 验的一 个简单 变形,并 未对检 验水准 做出任 何校 正 ,只 是在 标 准误 的计 算上 充 分利用 了样本 信息,为 所有组 的均数 统一估 计出了 一个更 为稳健 的标准 误,因 此它一般 用于计 划 好的多 重比较 。由于 单次比 较的检 验水准 仍为 α,因此 可以认 为 LSD法 是最灵 敏的。 � Sidak法:它实 际上就 是 Sidak校 正在 LSD法 上的应 用,即 通 过 Sidak校 正降低 每次 两两          268   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 比 较的一 类错误 率,以达 到最终 整个 比 较 的一 类 错 误 率为 α的目 的 。但 是 ,由 于在 统 计 分析 中 习 惯上是 将每次 比较的 水准都 定为 0.05,为符合 阅读习 惯,统计 软件 往 往采用 倒乘的 方 式,即固 定 检验水 准,将检 验的 P值进行 反向放 大。例 如当需 要 进行 c次比 较 时,对 于相同 的 比较,Sidak 法 的 P值和 LSD 法 P值 间 的 关 系为 PSidak =1-(1-PLSD )c。 显 然,Sidak法 要 比 LSD法 保 守 得 多。 � Bonferroni法 :和 Sidak法类 似,它的 每一次 比较实 际上是 Bonferroni校正 在 LSD法 上的应 用 ,对于相 同的比 较,Bonferroni法的 P值和 LSD 法 P值 间 的 关系 为 PB onferroni =PLSD ×C。一 般而 言 ,Bonferroni要 比 Sidak法更为 保守一 些。 � Scheffe法:与一 般的多 重比较 不同,Scheffe法 的实 质 是 对多组 均数 间 的线 性组 合是 否为 0进行 假设检 验(即所 谓的 Contrast)。多用 于进行 比较的 两组间 样本含 量不等 时,详见 后面 相关 章 节。 � Dunnett法:常用于 多个试 验组与 一 个对 照 组 间的 比 较。 因 此 在指 定 Dunnett法 时,还 应 当 指定对 照组。 以上 几种方 法的排 列顺序 大致是 从最灵 敏到最 保守,除 了它们 几个以 外,还 有另外一 大类目 的 在于寻 找同质 亚组的 检验方 法,常见 的有: � S-N-K法:经常在 有关统 计学教 材上出 现的 方法 ,全称 为 Student-Newman-Keuls法。 它实 质 上是根 据预先 指定的 准则将 各 组 均数 分 为多 个 子 集,利 用 StudentizedRange分布 来 进 行假 设 检 验,并根 据所要 检验的 均数的 个数调 整总的 一类错 误概率 不超过 α。 � Tukey法 :即 Tukey’sHonestlySignificantDifference法 ,应用这 种方法 要 求各组 样本 含量 相 同。它 也是利 用 StudentizedRange分布 来进行 各组均 数间的 比较,与 S-N-K法不同 地 是,它控 制 所有比 较中最 大的一 类错误 的概率 ,即 MEER不超过 α。 � Duncan法 :其思路 与 S-N-K 法 相 类 似 ,只 不 过 检 验 统 计 量 服 从 的 是 Duncan’sMultiple Range分布。 剩下 的一些 方法并 不常用 ,本书中 不再阐 述。此 外,在 各 组方差 不齐时 ,SPSS在 EqualVari- anceNotAssumed框组中 也给出 了 4种 方法。 但从方 法的接 受程度 和结果 的稳健 性讲,希 望大家 尽 量不要 在方差 不齐 时进 行 方 差分 析 甚至 两 两比 较 ,求 助 于 变 量 变 换或 者 非 参 数 检验 往 往 更 可 靠。 图 12.5所示 对话框 的 Significancelevel框中还 可以定 义多重 比较的 检验水 准,一 般 而言,默 认 的 0.05足以满 足要求 。 12.2.3 两两比较方法的选择策略 两两 比较方 法如此 之多,该 如何加 以选择 ?很多 统计 学 家 对方差 分析 后 两两 比较 的策 略均 提 出了自 己的看 法,国内 也有多 篇文献 对不同 方法进 行 比较 。 以下是 笔者 查 阅多 本参 考书 后的 心 得,仅供 参考。 (1)如两个 均数间 的比较 是独立 的,或者 虽有多 个样本 均数,但事先 已计划 好要作某 几对均 数 的比较 ,则不管 方差分 析的结 果如何 ,均应 进行比 较。一 般采用 LSD法或 Bonferroni法。 (2)如果事 先未计 划进行 多重比 较 ,在方 差 分 析得 到有 统计 学 意义 的 F值 之后 ,可 以利 用12.2  均数间 的多重 比较 269             多 重比较 进行探 索性数 据分析 。此时 方法的 选择要 根 据 研究 的目的 和 样 本的 性 质。比 如说,需 要 进行多 个试验 组和一 个对照 组的比 较时,可 以采用 Dunnett法;需要 进 行任 意 两组之 间的 比较 而 各组样 本含量 又相同 时,可以 选用 Tukey法;若样 本含量 彼此 不 同时,可 以 采用 Scheffe法。而 若 是事先 未计划 进行多 重比较 ,且方差 分析未 检出差 别,此 时不应 当进行 多重比 较。 (3)绘制 MeansPlot图,或者进 行详细 的统计 描述有 利无弊 。 (4)事先未 计划的 多重比 较 ,各 组间 的差 别 只 是一 种 提示,要 确认 这种 差 别最 好 重 新设 计 实 验。 有的 时候,研 究者在 试验 设 计 之 初就 有比 较 特 定几 组 均数 的 考 虑,这 种 比 较 往往 不 像 Post Hoc那样 需要对 几乎所 有的组 合进行 比较,所 以在相 应的 统 计 分析时 不需 要 对检 验水 准或 统计 量 进行太 多修正 。 PlanedComparison,或 者 称 为 PriorComparison,主 要 是通 过 One-WayANOVA 对 话框中 的 Contrast按钮所 对应的 功能来 实现的 。下一 节“各组 均数的 精细比 较”中将 会详 细介 绍 PlannedComparison的 实现方 法。 最后 需要提 醒的是 ,如果组 数 较少 ,如 3组 、4组,比较 方法 的选 择可 能 结 果 差异 不 大,如 果 组 数很多 ,则一定 要慎重 选择两 两比较 方法。 12.2.4 多重比较结果出现矛盾时的解释 多重 比较经 常出现 珔X1,珔X2 ,珔X3   这种模 糊的结 论,即样 本 1与 样本 2差异无 统计学 意义,样 本 2与样 本 3差 异无统 计学意 义,但 样本 1与样本 3差异 却 有统计 学 意义 。对于 这种情 形 ,只 能说 两 两比较 还不能 判明样 本 2来 自何总 体;而以 下两种 解释都 是错误 的:① “样本 2所代 表的 总体 介 于总体 1和总 体 3之 间。”这 种结论 实际上 已经默 认了三 个样本 分别来 自三个 不同的总 体。② “既 然样本 1与样 本 2差 异无统 计学意 义,样本 2与 样 本 3差 异无统 计 学意 义 ,所以样 本 1与样 本 3差异 也没有 统计学 意义。”须 知抽样 误差是 不 能递 推 的,否 则将引 导 出荒 唐 的结 论 。一 个经 典 案例恰 如其分 地说明 了这一 点:头上 一根头 发都没 有的人 毫无疑 问是秃 子,头 上有一根 头发的 人 和一根 头发都 没有的 人之间 看不出 什么差 别(差别 无统计 学 意义),所 以也是 秃 子,依 此类推 , 最 后会得 到一个 满头黑 发的人 也是一 个秃子 的荒谬 结论! 有时 ,方差分 析拒绝 H0 ,但方差 分析 后 的两 两比 较却 找 不到 有差 异的任 何两 个样 本。等 到 下 一节中 引入对 比的概 念后,方 差分析 中的这 一个特 殊 现象 可 以很 容 易 地被 解 释。这 是因 为方 差 分析的 差别有 统计学 意义有 时候 仅仅 保证诸 多对 比中 的某一 个或 某几 个 不为 0,但 这 些对 比 却 不一定 是分析 者所关 心的。 此时下 结论应 当极为 谨 慎,最 好 的方法 是增 加 样本 含量 重新 进行 试 验。 12.2.5 分析实例 由例 12.3可 知,各 国所生 产的汽 车耗油 量是有 差 别 的。 此时 可 求 助于多 重比 较,来看 一看 到 底各组 之间差 别是怎 样的。 这是一 个非计 划的多 重比较 (PostHoc),由于各 组样本 含 量不同 , 因 此在多 重比较 的对话 框中选 择“Scheffe”,相 应的分 析结果 如表 12.5所 示。          270   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 表 12.5 MultipleComparisons 由于 这些多 重比较 方法都 需要有 一个对 照组,分 析结果 中就将 所有组 依次作 为对照 组,让其 余 各组和 它进行 比较。 表格中 依次给 出的是 两组间 均数差 值、差值 的标准 误、P值 以及 差值 的可 信 区间。 其中如 果均数 差别有 统计学 意义,则 自动在 后面加 上“* ”作为 标记。 由表 12.5可 见三 组 汽车的 mpg均数 两两有 差异。 LSD等同类 方法的 输 出 与 之 类 似,不 再 重 复,下 面 来 看 看 SNK法 的 输 出 格 式,如 表 12.6 所 示。 表 12.6 MilesperGallon SNK这 一类方 法的目 的是寻 找同质 子集(HomogeneousSubsets),简 单地说 ,各组首 先在 表格 的 纵向上 ,均数按 大小排 序,然 后根据 多重比 较的结 果 将所 有 的组 分 为 若干 个 子集,子 集之 间的 各 组间有 差别(P值小于 0.05),子 集 之 内 的各 组 间无 差 别。根 据 输出 结 果 可 以 发 现 ,美 国、欧 洲 、日本三 者所生 产的汽 车,其 耗油量 彼此间 是不相 同的。 表格的 最后一 列会给 出子集内 部各组 比 较的 P值 ,本例 中由于 各个亚 组 均只 有 1个 组 别 进入,因此 最下 方的 组 内两 两比 较 P值均 为 1.000(自己 和自己 比较,当然绝 对不会 有差异 了)。12.3 各 组均数 的精细 比较 271             12.3 各组均数的精细比较 12.3.1 方法原理 前面 所讲的 多重比 较实际 上都可 以归结 为对 均数 的线 性 组合 L=a1 μ1 +a2 μ2 +a3μ3 的 假设 检 验,其中 a1 ,a2,a3 是 研究 者 指定 的常 数。于 是,若 a1,a2,a3 分别 为 1,-1,0,则 L=μ1 -μ2。 若 对假设 L=0进 行假设 检验,则等价 于前面 所述的 第 一组 和 第二 组 均 数是 否 相等 的两 两比较 。 同 样,要比 较第一 组和第 三组是 否相 等 ,只 需要 对 a1,a2 ,a3 分别 为 1,0,-1时 的线 性 组 合是 否 为 0进行 检验就 可以了 。 不失 一般,如 果现有 的样本 分为 k个组,则表达 式 L=a1μ1 +a2μ2 +⋯ +akμk 称为 k个均 数的对 比(Contrast),其中 a1 ,a2,⋯ ,ak 为任 意指定 的常数 。两个 对比 L=a1μ1 +a2μ2 +⋯ +akμk L′=a′1μ1 +a′2μ2 +⋯ +a′kμk 如果 满足 a1a′1 +a2a′2 +⋯ +aka′k =0,则被 称 为正 交的 (Orthogonal),对于 样本 均数 ,其 线性 组 合: L^=a1 y1. +a2 y2. +⋯ +akyk. 是总 体均数 相应的 线性组 合的无 偏估计 (UnbiasedEstimator)。L的方差 为: Var(L)=6 k i=1 a2 iVar(yi.)=Var(yij)6 k i=1 a2 i ni 可以 用 MSW 来估 计 y的 方差,于是 V^ar(L)=MSW 6 ni i=1 a2 i ni 。相 应的, SSL^= 6 k i= 1 ai珋yi. 2 /6 k i=1 a2 i ni 在引入正交 和对 比的概 念后,便可以 不再束 缚于简 单的两 两比较 ,而 是可 以通过 指定 ai 的值 完 成更多、更复 杂的比较。根据方差分解 的有关 原理,组间变 异可以 分解为 由 k-1个正交 对比所 能 解释的部分,即总变异就可以分解为由 k-1个由 正交对 比所 能解释 的变异和一 个组内变异,即: SST =SSL1 +SSL2 +⋯ +SSLk-1 +SSW 比如 说,对于 4组 样 本 ,对 比 μ1 +μ2 2 =μ3 +μ4 2 ,此 时 a1 =a2 = 1 2,a3 =a4 = -1 2;如 果 对 比 μ1 +μ3 2 = μ2 +μ4 2 ,此时 ,a′1 =a′3 =1 2,a′2 =a′4 =-1 2,且有: ① 本 小节理论深 度较 高,跳过此部分 ,不 影响后 续内 容的理 解。          272   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 a1a′1 +a2a′2 +a3 a′3 +a4 a′4 =1 2× 1 2+1 2 × -1 2 + -1 2 ×1 2 + -1 2 × -1 2 =0 因此 对比 L1 =1 2μ1 +1 2μ2 -1 2μ3 -1 2μ4 和 L2 =1 2μ1 -1 2μ2 +1 2μ3 -1 2μ4 间是 正 交 的。此 时 便可以 对诸如 H0:μ1 +μ2 2 =μ3 +μ4 2 或者 H0 :μ1 +μ3 2 =μ2 +μ4 2 之类 的假 设进 行 检验。 甚 至还 可 以 进行 H0:μ1 = μ2 +μ3 +μ4 3 这样的 假设检 验。 12.3.2 分析实例 例 12.4 该例 来自于 AppliedRegressionAnalysisandOtherMultivariateMethods,要比 较 4种 强 心剂的 毒性。 将稀释 过的药 物注入 豚鼠的 体内,记 录 导致 豚 鼠死 亡 时 药物 的 剂量。 每种 药物 各 进行了 10次试 验,事 先已经 采取了 有关的 措施以 保证每 只豚鼠 试验时 环境和 测量方法 尽量相 同 。实验 结果如 表 12.7所示。 表 12.7 四组豚鼠死亡时药物的剂量 药物 样本含量 豚鼠死亡时药物的剂量 1 10 29,28,23,26,26,19,25,29,26,28 2 10 17,25,24,19,28,21,20,25,19,24 3 10 17,16,21,22,23,18,20,17,25,21 4 10 18,20,25,24,16,20,20,17,19,17 数据 文件为 guineapig.sav。前 面的一 般步骤 这 里 不再 赘述,在 主 对话 框 中 将变 量 x设为 因 变 量,g设为分 组因素 后单击 Contrasts按钮 ,即弹出 如图 12.6所 示的对 话框,此 窗 口的 最上 方为 Polynomial选项,多 用 于进 行趋 势 检验,这 将 在后 面 详细进 行 讲解 。Previous和 Next按 钮用 于在 指 定了多 个 Contrast时进行 翻页的 操作。 Coefficients框用 于指 定 Contrast的 系数 ,即 ai 的大小 , 指 定完后 点击 Add按钮将 其添加 入 系数列 表,也 可以通 过点 击 Change和 Remove按钮 对 已经添 加 的系数 进行更 改、删除 等 操作 。 列表 下 方 的 CoefficientTotal给 出的 是 当 前 Contrast的 系数 之 和 。如果 想对 H0:μ1 = μ2 +μ3 +μ4 3 进行 假设检 验,可以 在 Coefficients中依次 输入 3,-1,-1,-1,每 次输入 完成后 点击 Add按 钮 ,在第三 个 -1输完 后,Add按钮 会自动 变成灰 色,因 为一共 只有 4组样本 。如图 12.6所 示。 依次 点击 Continue和 OK按钮 得到 最后 的输出 结果。 这 里将 方 差 分析 的 结 果省 略 ,仅给 出 Contrast的 有关结 果。12.3 各 组均数 的精细 比较 273             图 12.6 Contrast子对话框 表 12.8 ContrastCoefficients ContrastCoefficients列表 (参见表 12.8)给出 了所指 定的系 数。 表 12.9 ContrastTests 表 12.9所示 的就是 万众瞩 目 的 ContrastTests的结 果,SPSS分 别给 出了 方 差齐 与 方 差不 齐 时 的检验 统计量 和 P值。 与我们 所介绍 的原理 有所不 同,SPSS的 检验统 计量为 t,不过 t与 F间 的 关系仅 仅是一 个简单 的平方 。对于 本 例,P小于 0.001,说明 假设 不成 立 ,即 第一 种 药 物的 效 力 并不相 当于后 三种药 的效力 的平均 。 这里 仅 仅 比 较 了 一 个 Contrast,当 然 我 们 也 可 以 同 时 比 较 多 个 正 交 的 Contrast,比 如 H0: μ1 +μ2 2 = μ3 +μ4 2 和 H0: μ1 +μ3 2 = μ2 +μ4 2 ,这 一切只 需要在 Contrast对 话框中 指定两 个系数 的组合 , 分 别是 1,1,-1,-1和 1,-1,1,-1。输 出结果 如表 12.10和 表 12.11所 示。          274   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 表 12.10 ContrastCoefficients 表 12.11 ContrastTests 有的 时候,需 要检验 的是指 定的几 个均数 的线 性 组合是 否等于 某 个常 数 ,这时 候 可以 利用 t 检 验来完 成。其 检验统 计量 t= L^-L V^ar(L) ~tN - k。 12.3.3 事先计划的比较 上一 节中提 到了 PlannedComparison,这里通 过例子 来看一 下它的 实 现方法 。 对于 汽车 耗油 量 与厂家 之间关 系的案 例,假设 说作为 一个市 场调研 人员,在调查 的设计 阶段就 计划好了 美产与 日 产汽车 的比较 ,以及日 产与欧 产汽车 的比较 。则若 以 μ1、μ2、μ3 分别 表 示美产 、日产、欧产 汽车 耗 油量,PlannedComparison实 质上是 检验下 列等式 是否成 立: a1μ1 +a2μ2 +a3 μ3 =0,a1 =1,a2 =-1,a3 =0 b1μ1 +b2μ2 +b3 μ3 =0,b1 =0,b2 = -1,b3 =1 在 One-Way的 窗口中 点击 Contrast按钮 ,在 Coefficients后面 的 框中 依 次输入 1,-1,0,每次 输 入后均 点击 Add按钮。 输 入完毕 后在对 话 框中 间的列 表中可 以见到 刚刚输 入 的三个 数字,表 示 对于三 组均数 分别给 予 1,-1,0的 系数,此 时检 验 该线 性 组 合是否 为 0就 等价 于比 较美 产和 日 产汽车 的耗油 量。此 时点击 Next按钮继 续输入 下一 个 要比 较的 组合,即 0,-1,1。 最终 结果 如 表 12.12和表 12.13所示。 表 12.12 ContrastCoefficients12.4  组间均 数变化 的趋势 检验 275             表 12.13 ContrastTests 表 12.12给 出的是 相互比 较的对 子。对 子一 指 美 产和欧 产车 的 比 较,对 子二 指欧 产和 日产 车 的比较 。表 12.13中 分别针 对相比 较的两 组间方 差齐和 不齐的 情形给 出了比 较的结 果。 其中 Contrast列 中指明 所比较 的对子 ,ValueofContrast给 出了 所 要检 验的 Contrast的实 际 值 (这 里就 是 相比较 的两组 间的均 数之差 ),StdError中 给出了 均数之 差的标 准误,t、df、Sig中分别列 出了检 验 统计量 值、自由 度和双 侧 P值 。本例 中按照 方差齐 性时的 比 较结果 ,对子 一 (美 产和 日产 汽车 耗 油量之 比)的 P远 小于 0.05,而对 子二(欧 产与日 产汽车 耗油量 之比)的 P值为 0.015,二 者按 0.05的检验 水准均 拒绝 H0,得 到了有 差别的 结论。 这时 候 如果 回 头 看 看 PostHoc中 LSD法 输 出 的比 较 结果,可 以发 现对 于 相同 的 比 较内 容 (美 产比欧 产和欧 产比日 产),LSD法和 PlannedComparison中 得到了 相同的 标准误 、t统计量 及 P 值 ,这种一 致性并 非偶然 。可以 证明在 两 组直 接比较 时 ,PlannedComparison方 法和 LSD法 中的 相 应检验 是完全 等价的 。 12.4 组间均数变化的趋势检验 理论 上而言 ,方差分 析所对 应的分 组变量 应该是 一个无 序分类 的变量 。但实 际上,往 往分组 变 量的取 值也可 以体现 顺序的 意 义,比 如,多个 时间 点上 的 某个 指标 的比 较;不同 pH 下 某些 化 学 物质转 化率的 比较等 。这一 类型的 资料并 不少见 。 对于 这类资 料,既然 是多组 间计量 资料的 比较,当然是 优先考 虑单因 素方差 分析。但 是在各 位 得到各 组间有 差异的 结论之 余,也应 该注意 到 单纯 的方 差 分 析并未 利用 到 分组 变量 中蕴 涵的 次 序信息 。 例 12.5 本例 来自于 《田间试 验与统 计方法 自学辅 导》,要研 究高粱 的不同 播种深 度(单位 : cm)与 出苗时 间(单位 :天)之间 的关系 。共试 验了 4个深 度,数据 如表 12.14所 示。 表 12.14 高粱的不同播种深度与出苗时间的关系 播种深度(单位:cm) 出苗天数(单位:天)    3 5,6,6,4,4 6 7,8,9,6,5 9 10,12,11,9,8 12 23,26,21,24,24          276   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析    本例 经过方 差齐性 检验可 知各组 方差是 齐的,方 差分 析 得 到了各 播种 深 度下 出苗 天数 都不 等 或者不 全相等 。但是 Mean-Plot图却 又 进一 步 给 出 一 种 天数 和 深 度之 间 关系 的 提 示 (参见 图 12.7)。 图 12.7 播种深度与天数的均数图 在线 性模型 的方法 被引入 方差分 析之前 ,对于 有 序分 组 信 息的问 题有 一 些折 中解 决方 法如 Spearman相 关,Kendall等。 但自变 量各取 值间 间隔 相等时 ,现 在除 了对此 进 行 方差 分 析 之外 , 还 可以利 用线性 模型的 有关原 理对数 据作进 一步的 分 析,以 考 察因变 量与 处 理因 素之 间是 否存 在 着某种 依存关 系,统计 学 上称 为趋 势检 验 (TrendAnalysis)。 这种 趋势 并 非 仅 仅指 线 性 的,也 可 能是一 种多项 式关系 。 一般 而言,对 于趋势 检验,首先考 虑的是 因变量 和分 组变 量 之间 的 线性 关 系,即 检 验模 型 :Y =b0 +b1X是否成 立。然 而,从本 例 中可 以 看到,随 着深 度 的增 加,高粱 出芽 天 数的 增 加 幅度 逐 渐 增加,即 Day12 -Day9 >Day9 -Day6 >Day6 -Day3,说 明因 变量 与分 组 变量 间往往 并 不 呈现 线 性 的趋势 ,有可能 呈二项 式 关 系 甚 至三 项 式 关 系,即 Y=b0 +b1X+b2X2 或 者 是 Y=b0 +b1 X+ b2 X2 +b3X3。 对于这 类模型 ,要选 择 相对比 较合 适 的模 型,利用 失拟 合 检 验 (LackofFitTest)可 以 达到这 样的目 的。然 而可以 想象,一 次项、二次项 、三次甚 至更高 次项之 间肯定 存在着 相关性 , 这 对最后 的结果 解释是 不利的 。因此 ,一般通 过建立 正交多 项式(OrthogonalPolynomials)模 型的 方 法来进 行趋势 检验。 关于正 交多项 式模型 本章中 不 作过 多 阐述,感 兴趣 的 读者 可以 参考 有关 的 著作。 但是需 要指出 的是,趋 势检验 的目的 并非拟 合线性 或者非 线性模 型,而 是希望知 道当因 素 的水平 改变时 ,均数以 什么样 的形式 (线性、二次性 或者其 他)随之 改变。 对于 趋势分 析,可以 利用正 交多项 式的方 法得到 k-1个正交 的 Contrast,分 别对应 于一 次多 项 式(线性 ),二次多 项式,三次多 项式⋯ ⋯ k-1次多 项式,然 后再 将 总变 异分 解为由 这 k-1个思考与 练习 277             Contrast所 能解释 的部分 和一个 剩余变 异(LackofFitTest中常 称 为 纯误 差,PureError),再 利用 方 差分析 得到相 应的结 论。 对于 田间试 验的 案例,可以通 过趋势 分析 来考察 播种深度和出苗天数之间 的关系。在 Contrast 对 话框中选择 Polynomial复选框,并在 Degree列 表中 选择 Cubic(三 次型)。 结果如表 12.15所示。 表 12.15 ANOVA 这张 方差分 析表中 分别对 线性、二 次多项 式和 三 次多 项 式 是否有 必要 纳 入趋 势分 析所 建立 的 方程 进 行 了 F检 验,可 见 一 次 项 (LinearTerm)、二 次 项 (QuadraticTerm)和 三 次 项 (Cubic Term)所对 应的 P值 分别为 0.000、0.000和 0.006。因此 ,播种深 度和发 芽天数 间 的关 系的 确需 要 使用高 次项关 系来描 述。 12.5 本 章 小 结 (1)单因素 方差分 析所针 对的是 多组均 数间的 比较。 它的基 本思想 是变异 分解。即 将总变 异 分解为 组间变 异和组 内变异 ,再利用 F分布 做出有 关的统 计推断 。 (2)单因素 方差分 析要求 资料满 足正态 性、独立 性和方 差齐性 的要求 。 (3)方差分 析拒绝 H0 只能 说明各 组之间 存在差 异,但 并不足 以说明 各组之 间的关系 。利用 多 重比较 可以初 步判断 各组间 的关系 。 (4)多重比 较可以 分为事 前计划 好的比 较和事 后比较 。前者 往往借 助于 Contrast,而 后者有 很 多种不 同的方 法,这些 方法的 核心问 题都是 如何控 制总的 一类错 误的大 小。 (5)在分组 变量包 含次序 信息时 ,如果方 差分析 做出了 各组间 差异有 统计学 意义的 结论,并 且 Means-Plot提 示各组 均数的 某种趋 势时,可 以利用 趋势 分 析 探讨观 察值 与 分组 变量 取值 间的 数 量依存 关系。 思考与练习 1.一家汽 车厂设 计出三 种新型 号的手 刹,现 欲比较 它们与 传统手 刹 的寿命 。 分别 在传 统手          278   第 12章 连 续变量 的统计 推断(二 ) 单 因素方 差分析 刹 、型号Ⅰ 、Ⅱ和 型号Ⅲ 中随机 选取了 5只样 品 ,在相 同 的 试 验条 件下,测 量 其使 用 寿 命 (单位 : 月 ),结果如 下: 传统 手刹:  21.2 13.4 17.0 15.2 12.0 型 号 Ⅰ: 21.4 12.0 15.0 18.9 24.5 型 号 Ⅱ: 15.2 19.1 14.2 16.5 20.3 型 号 Ⅲ: 38.7 35.8 39.0 32.2 29.6 (1)列出方 差分析 表。 (2)各种型 号间寿 命有无 差别。 (3)厂家的 研究人 员在研 究设计 阶段,便 关心型 号 Ⅲ与 传 统手 刹 寿 命的 比 较结 果 。此 时应 当 考虑使 用什么 样的分 析方法 。如何 利用 SPSS实现 。 (4)如果方 差分析 拒绝了 H0,你是否 会考虑 多重比 较。利 用 SPSS尝试一 些多重 比 较,并解 释 你的结 果。 2.研究者 要比较 4种新 型避孕 药 对雌 激 素分 泌 水 平的 影 响。试 验 对象 为相 同品 系 的雌 性 大 鼠,将 20只大 鼠随机 分入 4组中,给 予相应 的药物 ,两周 后通过 测量大 鼠的子 宫质量 来衡 量其 雌 激素水 平。试 验数据 如下: 药物 1: 89.8 93.8 88.4 110.2 95.6 药物 2: 84.4 116.0 84.0 68.0 88.5 药物 3: 65.6 79.4 65.6 70.2 82.0 药物 4: 88.4 90.2 73.2 87.7 85.6 (1)该数据 是否满 足方差 分析的 要求。 (2)4种 药物对 雌激素 水平的 影响是 否相同 。 (3)你是否 会考虑 一些多 重比较 。利用 SPSS尝 试一些 多重比 较,并解 释你的 结果。 参考文献 1 DavidG.Kleinbaum,LawrenceL.Kupper,KeithE.Muller.AppliedRegressionAnalysis andOtherMultivariableMethods.California:Brooks/Cole,1998 2 VeraSit.AnalyzingANOVA Designs.BiometricsInformationHandbook,1995 3  HardeoSahai,MohammedI.Ageel.TheAnalysisofVariance:Fixed,Random andMixed Models.Birkhasuser,2000 4 RobertG.D.Steel,JamesH.Torrie.PrinciplesandProceduresofStatistics:A Biometrical Approach(2nd Edition).NewYork:McGraw-Hill,1980 5 方 开泰,金辉,陈 庆云.实用 回归分 析.北京:科 学出版 社,1988 6 陆 守曾主 编.医学统 计学.北京 :中国统 计出版 社,2002 7 张 文彤主 编.SPSS11统计分 析教程 (基础篇 ).北 京:北京 希望电 子出版 社,200213.1 非参 数检验 概述 279             第 章 有序分类变量的统计推断       非参数检验    通过 上一章 的学习 ,大家已 经懂得 如果想 检 验两 个正 态 总体 是否 具有 相 同 的均 数 ,做 一个 t 检 验即可 ,这是一 个典型 的参数 统计方 法。参 数统计 方法往 往假设 统计总 体的分 布形态 已知,但 是 在更多 的实际 场合,常 常由于 缺乏足 够信息 ,无法 合 理地 去 假设 一 个 总体 具 有某 种分 布形式 , 此 时就不 能去使 用相应 的参数 方法了 。推而 广之,不 能使用 参数方 法的情 形可能 是:当不 知道所 研 究样本 来自总 体的具 体分布 ,或已知 总体分 布与检 验所要 求的条 件不符 ;数据 的测量尺 度是名 义 和顺序 尺度,甚 至某些 变量可 能无法 精确测 量,均 值、方差 的计算 已经没 有意义 时⋯ ⋯ 但是,此 时 有的人 却忽略 参数统 计方法 的前提 ,仍然牵 强附会 地使用 参数方 法,面 对由此 得到的不 合理结 果 却不知 问题何 在。实 际上,正 确的思 路应当 是放弃 对总体 分布参 数的依 赖,转 而寻求更 多的纯 粹 来自数 据的信 息,这就 是所谓 的非参 数统计 方法。 在前 面的分 布检验 一章中 ,其实已 经接触 到了 BinomialTest、One-SampleKolmogorov-Smirnov Test等简 单的非 参数方 法,事 实上非 参数检 验的方 法层出 不穷,其 根本的 技术核 心 在于 针对 简单 的 数据样 本,充分 挖掘利 用样本 信息构 造别出 心裁的 检验统 计量。 熟悉并 体会这 些变化 ,对理解 统 计艺术 意义非 凡。 本章 将针对 不同的 设计类 型,以秩 统计量 为基 础 着重 介 绍 采用秩 和检 验 对样 本分 布位 置进 行 检验的 非参数 方法 。 13.1 非参数检验概述 13.1.1 非参数检验的意义 在现 实 生活中 ,从生活 经验 到 经济 活动 乃至 政 策制 定和 评价,很 多 时候 需要 选择 、比 较、决 策 ,小至柴 米油盐 品牌的 不同偏 好,百 姓对未 来生活 的 预期,公 司对雇 员能 力 的考 核来 决定 是否 加 薪,企业 扩张对 于新销 售处的 选址,大至政 治竞选 中 对候 选 人的 民 意 调查 等 问题,都 可以 借助 统 计方法 对样本 数据进 行有益 的判断 分析,但 是任何 方 法都 是 有前 提 的。 各 种数 据资 料背 后隐 藏 的信息 是帮助 分析者 理解的 重要来 源,当旧 的方法 失效时 ,应该 转而使 用新的 方法代替 。 非参 数统计 方法主 要用于 那些总 体分布 不能用 有 限个 实 参数 来 刻 画,或 者不 考虑 被研 究的 对 象为何 种分布 以及分 布是否 已知的 情形,它 对总体 分布几 乎没有 什么假 定,只 是有时对 分布的 ① 出 于方法讲解 的目 的,本章多数案 例的样 本量都较小 ,且 并不一定违反参 数方法 的适用条件 。          280   第 13章 有 序分类 变量的 统计推 断 非参数 检验 形 状做一 些诸如 连续、对 称等的 简单假 设。顾 名思义 ,这种 检验方 法的着 眼点不 是总体的 有关参 数 的比较 ,其推断 方法和 总体分 布无关 (Distribution-Free)。它们 进行的 并非是 参数间 的 比较,而 是 分布位 置、分布 形状之 间的比 较,研 究目标 总体与 理 论总 体 分布 是 否 相同,或者 各样 本所 在总 体 的分布 位置是 否相同 等,因此 不受总 体分布 的限定 ,适 用范 围广,故 而 称为 非 参数 检 验。 但这 个 名称很 容易让 人引起 误解,它 指的是 推断过 程和结 论均与 原总体 参数无 关,并 非说在推 断中什 么 分布参 数都不 利用。 事实上 ,最常用 的秩和 检验就 是基于 秩次的 分布特 征推导 出来的 ,即可能 会 利用到 秩分布 的参数 。所以 有学者 提出将 中文名 称改为 分布自 由检验 可能更 为妥当。 非参 数检验 依然遵 循于假 设检验 的基本 思想和 基本准 则,在缺 乏总体 分布信 息的支 撑下,利 用 统计思 想、数学 方法和 技巧构 造相应 的统计 量 进行 检 验,拓 宽了 研 究 者的 分 析领 域,将统 计方 法 的魅力 施展到 一个更 广阔的 空间。 和参 数方法 相比,非 参数检 验方法 的优势 如下: (1)稳健性 。因为 对总体 分布的 约束条 件大大 放 宽,不 至 于因为 对统 计 中的 假设 过分 理想 化 而无法 切合实 际情况 ,从而对 个别偏 离较大 的数据 不至于 太敏感 。 (2)对数据 的测量 尺度无 约束,对 数据的 要求也 不严格 ,什么 数据类 型都可 以做。 (3)适用于 小样本 、无分布 样本、数据污 染样本 、混杂样 本等。 讨论 :由于非 参数统 计推断 对于总 体的要 求和 假 设 较少 ,人们 就 会 问:为 什么 我们 不一 直使 用 它,而忘 记参数 检验呢 ?当你 掌握了 这些检 验 方法 ,领悟 了 它们 的 统 计思 想 后,你会 给出 怎样 的 答案? 这里 可以向 大家举 一个非 参数检 验方法 的实际 应用案 例:在股 票市场 上存在 周末效 应,即股 市 中周一 的收益 率比其 他交易 日的收 益率低 ,且 风险 较 大;周 五的 收 益 率比 其 他交 易日 高,且风 险 相对较 小。但 是,国内 对周末 效应研 究存在 一 些缺 陷,如 研 究的 样 本 区间 较 短;未考 虑我 国股 市 收益率 的分布 特征,从 而忽视 许多检 验模型 的正态 分布假 设前提 ,对非 正态分 布的数据 进行了 正 态分布 下的研 究;对收 益率的 风险分 析不足 等。因 此有 学 者 利用非 参数 方 法对 我国 沪市 的周 末 效应进 行了验 证:首先 采用 K-S检验 得出我 国股市 收 益 率的 非 正态 性 ,再利 用 K-W 检验 股票 指 数收益 率周末 效应的 存在性 ,得出股 市一周 内各天 的收益 率存在 显著差 异,可 是周末效 应的模 式 如何呢 ?也就 是异常 收益率 存 在于 一 周中 的 周 几?于 是 利用 Mann-Whitney检验 两 两 比较 来 分 析发现 周二与 周五的 收益率 差异 最为 显著,认 为 沪市 存在 “二、五”效 应。 而 文中 提 到 的这 些 方 法就是 本章中 要重点 向大家 介绍的 ,感兴趣 的 读者 可以 在 更 深入地 学习 了 经典 的非 参数 检验 方 法后不 妨验证 一下! 13.1.2 非参数检验预备知识 (1)心中有 数:当手 中有了 数据,首先要 对它 进行 充分、直 观 的了 解,直方 图、茎 叶 图、箱图 、 Q-Q图等 可以帮 助用户 对数据 的分布 形状进 行探 索 ,避免 因 对 数据的 特性 缺 乏了 解而 盲目 使用 一 些方法 做出错 误的或 不合理 的结论 。记住 ,在统计 分析中 数据的 预处理 很重要 ! (2)顺序统 计量:因 为非参 数统计 方法并 不假定 总体分 布,因 此往往 把观察 值的顺序 及其性 质 作为研 究的对 象,只利 用大小 次序关 系,而 不利用 具 体 的数 值信息 。 正是 由 于这 一特 点,非参13.2 两 个配对 样本的 非参数 检验 281             数 方法中 的秩和 检验实 际上就 成为了 有序分 类资料 的标准 分析 方法 。对于 样本数 据 X1 ,X2,⋯ , Xn 如果 将其按 升幂排 列,则 可以得 到: X(1) ≤ X(2) ≤ ⋯ ≤ X(i) ≤ ⋯ ≤ X(n) 以上 次序就 是顺序 统计量 ,其中 X(i)为 第 i个顺序 统 计量 ,对它的 性质的 研 究构成 非参 数统 计 的理论 基础之 一。 (3)秩(Rank)及 秩统计 量:对 于样本 X1,X2,⋯ ,Xn,按由 小到大 排成一 列,若 Xi 在 这一 列中 占 据第 Ri 位,称 Xi 的秩 为 Ri,Ri = 6 n j= 1 I(Xj ≤ Xi),即 小于 或 等 于 Xi 的 样 本 点 个 数 ,称 R= (R1 ,R2,⋯ ,Rn)是原 样本的 秩统计 量。实 际上 如 果 回忆 一 下大 家小 学时 候 考 试 成绩 的 排 名,这 种 名次就 是一个 最简单 的秩,只 不过倒 了过来 ,最大 的被排 在了第 一位。 而我们 这里所讲 的秩应 当 对应着 倒数的 名次,如 倒数第 一、倒 数第二 ⋯ ⋯ (4)结(Ties)和 结统计 量:在许 多情 况 下,数 据 中 会有相 同的 值 出 现,此 时如 果排 秩的 话就 会 出现同 秩的现 象,就像 考试排 名中的 并列第 5、并列第 7,这种情 况被称 为数据 中的结。 结中数 值 的秩为 它 们按大 小 顺序 排 列后 所处 位置 的 平均 值。结 统计量 用 i 表示 ,为第 i个 结 中的 观察 值 数量。 例如,数 据 2,2,5,7,7,7,10,该 数据序 列一共 有两个 结: 1 =2, 2 =3。 相 应数 据的 秩分 别 为 1.5,1.5,3,5,5,5,6。 对于 结的修 正与否 将影响 到检验 的结果 ,但这一 点大家 不用过 分担心 ,因为 统计软件 会自动 帮 助用户 完成这 些工作 的。 13.2 两个配对样本的非参数检验 出于 难度由 浅入深 的考虑 ,本章将 首先学 习配对 样本的 非参数 检验方 法。 13.2.1 方法原理 事实 上,配对 样本的 非参数 检验方 法其基 本逻辑 和参数 检验并 无区别 ,也是 首先求出 配对数 据 的差值 ,然后考 察差值 总体的 中心位 置是否 为 0。只是 由于不 再涉 及 到分布 类型,因 此不 能使 用 均数这 一与总 体分布 有关的 参数加 以检验 。一般 而 言,相 应 的假设 都被 归 结为 考察 总体 中位 数 是否为 0。 H0:差 值的总 体中位 数 Md =0 H1:两 总体不 同 但是 ,仅有假 设是不 够的,还需要 能够找 到一个 合 适 的统 计量。 为 了构 建 统计 量,统计 学家 们 想出了 各种各 样的独 特思路 ,下面就 来依次 学习一 下。 1.符号检 验 符号 检验可 以说是 最早被 提出来 的非参 数统计 方 法,其 原 理是如 果两 个 配对 样本 实际 上无 区 别,则样 本数据 相减所 得的差 值应当 大致有 一半为 正,一般 为负,数 量 基本 平 衡。用 数学 符号          282   第 13章 有 序分类 变量的 统计推 断 非参数 检验 来 表示,就 是将差 值为正 的个数 记为 S+ ,差 值 为负 的 个 数记 为 S- ,按 照中 位 数的 意 义,若 H0:M =M0 成 立,那么 S+ ,S- 应 大体相 等,S+ ,S- 都 服从二 项分 布 B(n,0.5)。 当 S+ ,S- 过 大 或过小 , 或 者 min(S+ ,S- )过 小时,就 有理由 拒绝 H0。 显然 ,符号检 验只利 用了对 每一对 配对的 数值哪 一侧更 大的信 息,并 没有利 用这些差 的大小 所 包含的 信息,因 此它虽 然简单 易行,但检验 效能较 低 精 度较 差。一 般 而言,这种 方法 更适 用于 对 无法用 数字计 量的情 况进行 比较,比 如资料 本身就 是两分 类,对 于连续 资料则 最好不要 使用。 需要 指出的 是,SPSS在 使用二 项分布 进 行 计算 时 一律 都 会给 出 确 切概 率 值,因 此 符 号检 验 的 结果给 出的也 是确切 概率,可 能和手 工查表 的结果 会有所 差异,即更为 准确。 2.Wilcoxon符号秩 检验 由于 符号检 验方法 的功效 较低,因 此 Wilcoxon符号 秩 检验 又按 此思 路 作 了 改进 ,既 考虑 了 样 本差数 的符号 ,同时又 考虑到 差数的 顺序。 不同的 符号代 表了在 中心位 置的哪 一边,而 差的绝 对 值代表 了距离 中心的 远近,二 者结合 会更有 效 (注意 该 秩和 检验 是利 用 样本 差数 的顺 序,并非 利 用样本 差数数 值本身 ,在这方 面又比 参数检 验利用 样本数 值本身 的信息 逊色)。 Wilcoxon符 号秩检 验的假 设和符 号检验 是相 同 的,也 是 考 察均数 差值 所 在总 体的 中间 位置 是 否为 0,这一 般被归 结为考 察总体 中位数 是否为 0。 H0:差 值的总 体中位 数 Md =0 H1:两 总体不 同 进行 检验时 ,对于配 对样本 (x1,y1),⋯ ,(xn,yn),计 算出每 对数据 之差,用 di 表 示。若 di 为 连 续变量 并服从 正态分 布一般 可以用 t检 验,但若 di 不是正 态分布 时,就 只能采 用非参数 分析方 法 。对 |di|由 低到高 进行排 秩,相同 的差异 将被赋 予平均 秩,若 X、Y具有相 同的分 布,那 么 P(di >0)=P(di <0)。把{di}看 成单样 本,令 W + 表示 |di >0|的秩和 ,W- 表 示 |di <0|的 秩和。 检验统 计量取 W =min(W+ ,W- ),在文献中也记 为统计 量 T;当 H0(差值的总 体中位 数 Md =0)成立时,任 一 配对的差值出现正号与出 现负号的机 会均等 ,因此 它们 的秩和 W+ 与 W- 的理论 数(期望 值)也应 相 等,可 以证明 :当 H0 真时,秩统计量 T是对称分布,对称轴为 T=n(n+1)/4。 H0 非真时,统计量 T呈 偏 态 分 布,并 且 在 大 多 数 情 况 下 T远 离 n(n+1)/4。 因 此 在 H0 成 立 的 情 况 下 T远 离 n(n+1)/4为小概率事件,可认为在一次抽样中是不会发 生的,故当出 现这种情况 时推断 拒绝 H0。 在大 样本的 情 形 下,W 的 抽 样 分 布 近 似 与 正 态 概率 分 布,Z=W-μw σw ,μw =n(n+1) 4 ,σw = n(n+1)(2n+1) 24 ,其 中 n为 配对值 的总数 。 3.其他检 验方法 在 SPSS中共 给出了 4种可 用来进 行配对 样本间 非 参数 检 验的 方 法。 除 了以 上两 种方 法以 外 ,还提供 了以下 两种: (1)McNemar:实 际上就 是常用 的配对 χ2 检验,因 此只适 用 于二 分 类资 料 ,它 考察 的重 点是 两 组间分 类的差 异,对相 同的分 类则忽 略不计 。该检 验特别 适合于 自身对 照设计 ,用于分 析处理13.2 两 个配对 样本的 非参数 检验 283             前 后的变 化情况 ,详见第 14章 。 (2)MarginalHomogeneity:是 McNemar法 向多分 类情形 下的扩 展,适 用于资 料为有序 分类的 情 况。 13.2.2 分析实例 例 13.1 一家 日用化 工企业 拟采用 两种去 污配方 生产新 型 去污 剂 ,于 是挑 选 了一 系列 沾染 污 渍的物 件进行 各种测 试,其中 一项是 对清除 不 同污 渍所 需的 时 间进 行测试 ,记 录如 表 13.1所 示 ,技术人 员想知 道它们 在这方 面的功 效是否 有差别 ,数据 见 npara1.sav。 表 13.1 两种配方的除污时间 各种被测物 配方 x所需时间 xi(s) 配方 y所需时间 yi(s) di=xi-yi |di| 秩 S+ S- A 24.0 23.1 0.9 0.9 1 1 B 16.7 20.4 -3.7 3.7 4 4 C 21.6 17.7 3.9 3.9 5 5 D 23.7 20.7 3.0 3.0 2.5 2.5 E 37.5 42.1 -4.6 4.6 6 6 F 31.4 36.1 -4.7 4.7 7 7 G 14.9 21.8 -6.9 6.9 10 10 H 37.3 40.3 -3.0 3.0 2.5 2.5 I 17.9 26.0 -8.1 8.1 11 11 J 15.5 15.5 0.0 0.0 - K 29.0 35.4 -6.4 6.4 9 9 L 19.9 25.5 -5.6 5.6 8 8    此处 的检验 假设为 H0:Mx =My;H1 :Mx =My,表 中同时 列出了 Wilcoxon符号 秩检验的 简单计 算 过程。 计算得 到 W + =8.5,W - =57.5,两个 符 号 秩和 的 值相 差很 大,提示 两 个样 本 可 能有 差 异 。下面 进一步 计算统 计量,这 里取 W =min(W + ,W - ),即 W =6 S+ =8.5为 检验统计 量。因 为 有一个 被测物 的差值 为 0(也 被 称为 结),它 对 检 验不 能 提供 任何 有效 信 息,需要 从 样 本中 去 掉 ,从而样 本容量 n=11。 用正态 分布表 查到近 似 P值为 0.0292,小于 给定检 验水平 0.05,因此 拒 绝原假 设,认为 两种配 方在除 去污渍 所需时 间的测 试中体 现出不 同的效 能。 本例 在 SPSS中的操 作非常 简单,弹 出 的对 话 框(参 见 图 13.1)和 大 家 学习 过的 配对 t检 验 对 话框非 常相似 ,操作也 基本相 同,因 此这里 不再解 释。          284   第 13章 有 序分类 变量的 统计推 断 非参数 检验 图 13.1 两配对样本检验主对话框 点击 OK按钮,即 得到分 析结果 如下: 表 13.2中 列 出了 对应 与两种 配方 除污 所需要 时间 的秩 的 不同 关系 的秩 频 数、均 值 秩及 秩 和 ,并标注 出有一 个结。 表 13.2 Ranks 近似 概率(Asymp.Sig.,即 近似 P值 )为 0.029(参 见 表 13.3),小 于 0.05的 显著 性 水 平,所 以 拒绝 H0 假设,根 据此数 据可以 认 为两 种配 方在 除去 污 渍 所 需时 间的 测试 中 体现 出 不 同的 效 能 ,二者的 差别具 有显著 的统计 学意义 ,结合 实际数 据可以 得出 x配方完 成任务 的时间 比 y要快 的 结论。 显然,计 算机处 理的结 果 与 通 过 计算 Wilcoxon符 号秩 检验 的秩 和 统 计 量,再 查 表得 到 的 结论是 一致的 。 表 13.3 TestStatisticsb 表 13.4 TestStatisticsb13.2 两 个配对 样本的 非参数 检验 285                本例 中如果 使用符 号检验 ,则分析 结果如 表 13.4所示 。可见 P值 大于 0.05,在本 例中 结论 不 同,这主 要是由 于符号 检验对 信息的 利用程 度不如 符号秩 检验,从而检 验效能 不够充分 所致。 另两 种方法 因在本 例中不 满足使 用条件 ,此处不 再给出 结果示 例。 13.2.3 确切概率的计算 在前 面的分 析结果 表 13.3中,可 以 看 到在 概 率一 项 中 ,显 示的 是 近 似概 率 (Asymp.Sig)。 这 是因为 上面使 用的是 秩统计 量的正 态近似 法计算 的概率 值。如 果同时 安装了 SPSSExactTests 模 块的话 ,还可以 计算精 确概率 (ExactSig.)。当 然 这 项工作 花费 时 间 相对要 长一 些,尤其 是在 数 据量大 时。如 何指定 SPSS去 作 精确 概 率 检验 呢 ?在 图 13.1所 显 示的 对 话 框中,单 击 Exact 按 钮,即可 要求进 行精确 概率的 计算。 如图 13.2所 示。 图 13.2 Exact子对话框 图中 有三个 选项:默 认为第 一项 Asymptoticonly,即只给 出近似 概率;第 三项 Exact,意 思是给 出 精确概 率值,由 于选择 该法计 算工作 比较大 ,还给 出 了一 个 耗时 限 制;第 二 项为 蒙特 卡罗 方法 (MonteCarlo),或 称计算 机随机 模拟方 法,是 一种基 于“随机 抽 样”的 概 率计算 方法,当 数据 量太 大 ,用精确 法无法 进行计 算,或 过于耗 时的时 候,可以 选择此 法。 本 例中 选择 Exact选项 ,会 发现 它 在几秒 内即可 得出如 表 13.5所示的 结果。 表 13.5 TestStatisticsb          286   第 13章 有 序分类 变量的 统计推 断 非参数 检验 可见 在 H0 假 设之下 ,获得 这 样 差 别 或 更 大 差 别 样 本 的精 确 概 率 为 0.026。 显 然 ,Exact与 Asymptotic相比,给 出了更 为准确 的概率 值。尤 其是当 近似概 率接近 显 著性 水 平时,精 确概 率就 显 得更为 重要。 13.3 两个独立样本的非参数检验 在两 个独立 样本的 非参 数检 验方 法 中,Mann-WhitneyU检 验 ,即两 样 本 秩 和检 验 是 应用 最 广 的一种 ,本节就 以它为 主加以 讲解,并对其 余几种 方法加 以介绍 。 13.3.1 Mann-WhitneyU检验 这种 方法是 由 H.B.Mann和 D.R.Whitney在 秩和的 基础上 发 展起 来的,用 来检验 两 个独立 样 本是否 取自同 一总体 。前面 学习过 两个总 体均值 间 差异 的 参数 检 验,是 基 于两 个总 体均 为正 态 分布,两 个总体 方差相 同的假 设,而 这里仅 要求两 个独立 随机样 本中产 生的数 据的测量 尺度至 少 是顺序 的,而具 体所检 验的就 是两个 总体分 布各自 的中心 位置是 否相同 ,这就 是建立原 假设和 备 择假设 的基础 。 设有 X1,X2,⋯ ,Xm 和 Y1 ,Y2,⋯ ,Yn 两个 总体具 有连 续分 布,建立 的 假设 为:H0:两 总体 分布 的 中心位 置相同 ;H1:两总 体分布 的中心 位置不 相同。 将 m个 x,n个 y数据混 合排序,这样 可以 计 算出每 个数值 在混合 样本中 的所在 位置次 序,即等 级或秩 R。 在有结 的情况 下,每个 结得 到平 均 秩。分 别计算 出样本 X和 Y的 秩和,即 令 WX =6 m i= 1 Ri ,WY =6 n j=1 Rj 。显然 ,如 果这 两个 总体 分 布的中 心位置 相同,则 两个样 本中各 数据的 秩次都 应 当围 绕 着平均 秩 次(N+1)/2均 匀分布 , 样 本 X的秩 和应当 接近于 m(N+1)/2,Y的秩和 接近于 n(N+1)/2,如 果和该 理论值 差 别较大 , 则 可推断 总体的 中心位 置是有 差异的 。为了 进行检 验,可计 算每个 样本的 U统计量 : UXY =mn+m(m +1)/2-6 m i= 1 Ri, UYX = mn+n(n+1)/2-6 n j= 1 Rj UXY表 示 Y的 观察值 大于 X观 察值的 个数,UYX 表 示 X的观 察值大 于 Y观察 值的个 数。 注意 有 mn=UX Y +UYX,m +n=N。 因此以 上 两 式简 化为:UX Y =WY -n(n+1)/2,UYX =WX -m(m + 1)/2。当 m,n均大于 10时 ,U近 似服从 正态分 布,此时 可以进 一 步计 算标 准正 态 分布 的统 计量 Z=U-μ σ = U-mn/2 mn(m +n+1)/12 。在 X、Y的样本 有相同 的 值,即 混合样 本有结 时,可以 用结 统计 量 对 Z值进 行修正 ,由于 公式较 复 杂,这 里 不 再给 出。在 SPSS中相 应的 校 正 是 自动 进 行 的,并 可 以直接 给出精 确计算 的概率 值,因此 不需要 用户对 此做特 别关注 。 除了 Mann-WhitneyU检 验外,在 统计 教 科书中 更 为常 见 的是 Wilcoxon秩 和检验,这两 种方 法 是独立 提出的 ,但仅仅 是统计 量的构 造略有 不 同,其 原理 和 检验 结 果 完全 等 价,因此 不再 单独 解 释,而 SPSS在 分析时 也会同 时给出 这两种 统计量 。13.3 两 个独立 样本的 非参数 检验 287             13.3.2 分析实例 例 13.2  一 家权 威 的 房屋 建 筑者 协 会 提 供 了最 流 行 的家 居 装修 工 程的 成 本 数 据 (单位 : 元 ),如表 13.6所 示,数据 见 npara2.sav。 在 0.05的显著 性水平 下,能 否得 出厨 房 的装 修成 本与 主 卧室的 装修成 本存在 差异呢 ? 表 13.6 厨房和主卧室的装修成本 主卧室 厨房 主卧室 厨房 25200 18000 23000 17800 17400 22900 19700 24600 22800 26400 16900 21000 21900 24800 21800 19700 26900 23600    由于 此处的 操作非 常简单 ,和两样 本 t检验完 全相同 ,因此 不再重 复解释 ,操作如 下: Analyze→NonparametricTests→2IndependentSamples TestVariableList框:cost GroupingVariable框 :type|Definegroups:Group1:1:Group2:2:Continue OK 操作 中所用 到的对 话框如 图 13.3所示。 图 13.3 两独立样本检验主对话框          288   第 13章 有 序分类 变量的 统计推 断 非参数 检验 相应 的分析 结果如 下: 表 13.7给出 了检验 中用到 的平均 秩次、秩和等 的 情况,从 平均秩 次可 以 粗略 看出 厨房 和卧 室 的装修 成本的 秩和相 差不大 。但究 竟有无 统计 学意 义还 要 看后 面的 结果。 表 13.8给出 了最 终 的检验 结果,包 括 Mann-WhitneyU统计 量、WilcoxonW 统计量 和 Z值 (即常用 的 u值 ),近似值 和 精确概 率值都 大于给 定水平 0.05,可见 两种算 法得出 的结论 是一致 的,所以 不能拒 绝 原假设 , 说 明厨房 和主卧 室的装 修成本 没有显 著差别 。 表 13.7 Ranks 表 13.8 TestStatisticsb 13.3.3 其他两样本非参数检验方法 以上 介绍的 Mann-WhitneyU检 验就是 最常用 的两样 本秩和 检验。 简单地 讲它是 和参数 t检 验 相对应 的一种 非参数 检验方 法,在检 验时 利用 了 大小 次 序,即 检 验 A样本 中 的数 值 是 否多 数 都 大于 B样 本。SPSS的非参 数检验 菜单中 2IndependentSamples过程还 提供了 其他几种 检验两 个 独立样 本所在 总体分 布是否 相同的 方法: 1.Kolmogorov-SmirnovZ检 验 和单 样本检 验讲到 的 K-S检验 类同 ,可 以对 连 续性 资料的 分 布 情况 加以 考察 。 K-S检验 的 原 理如下 :它分别 做出已 知理论 分布下 的累积 频数分 布以及 观察的 累积频 数分布 ,然后对 两者进 行 比较,从 中确定 两种分 布 的 最 大 差异 点 。如 果 样 本确 实 服从 理论 分布,则 最 大差 异 值 不应 太 高 ,否则就 应当拒 绝该假 设。不 过这次 是检验 两个独 立样本 是否取 自同一 总体,操作原理 是做出 两 个样本 的累积 频数分 布曲线 ,然后观 察两条 曲线究 竟差了 多远。 显然,这种方 法检验的 是总体 分 布情况 是否相 同,而不 仅仅是 考察所 在总体 的中心 位 置是 否 相同。 因此 如 果只 是要 检验 中心 位 置是否 相同,最 好不要 选它。 2.Mosesextremereactions检验 该检 验有其 特定用 途,注意 给出的 结果均 为单侧 检验。 顾名思 义,如 果施加 的处理使 得某些 个 体出现 正向效 应,而另 一些个 体出现 负向效 应时,就应当 采用该 检验方 法。比 如说要研 究人民 群 众对电 信资费 下调的 反应,多 数 人 当然 是弹 冠 相 庆,但 是 从 事电 信行 业的 朋 友们 会 比 较沮 丧 了 ,因此如 果研究 目标人 群中电 信职工 较多,不妨考 虑采用 此法。13.4 多 个独立 样本的 非参数 检验 289             3.Wald-W olfowitzruns检验 从名 字就可 以看出 它属于 游程检 验的一 种,即检 验 的是 总 体分 布 情 况是 否 相同。 更准 确的 说 ,只要两 样本各 自所在 总体有 任何一 点分布 上的差 别,无 论是集 中趋势 、离散趋 势、偏度 还是波 动 情况,它 都可以 检验出 其中的 差异。 因此如 果 只是 要 检验 中 心位 置 是 否相 同,最 好不 要选它 。 该 方法同 样给出 的是单 侧检验 的结果 。 13.4 多个独立样本的非参数检验 多样 本问题 主要涉 及如何 检验几 种不同 的方法 、决 策或 处 理所 产 生 的结 果 是否 一 样。 比如 生 活中不 同的消 费者对 不同的 产品偏 好是否 有显著 差 异;不 同 的运动 方式 或 饮食 习惯 对减 肥效 果 是否相 同;商业 活动中 采取不 同的决 策方案 风险的 大小是 否有区 别;不 同的销 售方式购 买率是 否 相同。 在上一 章进行 多组均 数的比 较时,利 用方 差 分 析来 推 断 3个 或 3个 以上 总体 的均 值的 相 等性。 但是该 过程需 要若干 条件,如 要求间 隔 或比 例 数据 ,所有 总 体 服从 正 态分 布,且各 总体 的 方差均 相等。 可有时 候所采 集的数 据常常 不能满 足 这些 条 件,事实 上假 使 有一 个条 件不 满足 都 会令分 析者陷 入尴尬 之中。 当不满 足这些 条件时 ,F检 验就受 到了限 制。 13.4.1 方法原理 1.Kruskal-W allisH 检验 克罗 斯考尔 和瓦里 斯与 1952年 设 计 了一 种 类 似 Wilcoxon秩和 检验 的 方 法,来 解 决 此类 问 题 。于是 在进行 k≥ 3个 独立 随 机 连 续分 布样 本 的 比较,而 正 态性 假设 及等 方 差假 设 存 在问 题 时 ,K-S检验就 提供了 一种可 用于检 验总体 是否相 同的替 代统计 方法。 解决 多样本 问题的 思路与 前面两 样 本的 Wilcoxon秩 和检 验 一 样。实 际 上,Kruskal-WallisH 检 验可以 被简单 的看成 是两样 本的 Wilcoxon方 法 在 多样 本 时的 推 广:将 数 据 转 化为 秩 统 计量 。 因 为秩统 计量的 分布与 总体分 布无关 ,可以摆 脱总体 分布的 束 缚。具 体而 言 ,就 是把 大 小为 n1、 n2、⋯ 、nk 的样本 混合起 来成为 一个单 样本,将 数据按 大小顺 序排秩 ,每一 个观测 值在新样 本中都 有 自己的 秩,如果 有相同 的数据 ,则和 以前一 样 取秩 的 平 均值 ,记观 测 值 xij的秩 为 Rij,对每 一个 样 本的观 测值的 秩求秩 和 Ri,再找 到它们 在每组 中 的平 均值 珔Ri =Ri /ni,此 处 的检 验假 设仍 然针 对 分布的 中心位 置,H0:m1 =m2 =⋯ =mk;H1 :至少 有一个 mj 不同 。如果 原假设 为真,秩应该 在 k 个 样本之 间均匀 分布,也 就是说 多 样本 实际 的秩 和 与 期 望 秩和 的 偏 差应 该 很小,K-W 检 验便 建 立 在这一 基础上 。若这 些 珔Ri 相差太 大,就可 以 怀疑 原 假设 。基 于上 述 原理 ,K-W 检验 构造 的检 验 统计量 为: H = 12 N(N+1)6 k i=1 ni(珔Ri -珔R)2 = 12 N(N +1)6 k i= 1 R2 i ni -3(N +1)          290   第 13章 有 序分类 变量的 统计推 断 非参数 检验 其中 N =6 k i=1 ni,珔R =6 k i=1 Ri/N =N+1 2 。 Ri 是样 本 i的秩和 ;k是总体 个数;N是所有 样本个 体 总数;ni 是样本 i的 个体数 (样本大 小 可以 不 一样)。 可以验 证 Mann-Whitney统 计量 UXY 就是 Kruskal-Wallis统计 量 H在两 样本时 的特例 。存在 打结时 ,检验 统计量 H同样可 以进行修 正可以 修 正为: Hc = H 1-6 g i= 1 ( 3 i - i)/(N3 -N) 大样 本情形 下,当 min(n1,n2 ,⋯ ,nk)→∞ 时,在 H0 下,有 H近似于 χ2(k-1)分布。 2.SPSS中的其 他检验 方法 除上 述 Kruskal-WallisH检验外 ,SPSS为多 组比较 还提供 了 另外两 种 非参 数方 法,它们 分别 是 : � Median:中位 数检验 ,检验 各个样 本是否 来自具 有相同 中 位数 的 总体,三 种 方法 中它 的检 验 效能最 低。但 对于拖 长尾的 对称分 布该方 法倒是 很有效 的检验 。 � Jonckheere-Terpstra:该检验 对连续 性资 料 或 有序 分 类资 料都 适用,并 且 当分 组 变 量为 有 序 分类资 料时,此 法的检 验效能 要高于 Kruskal-Wallis法。 13.4.2 分析实例 例 13.3 某电 信公司 从 3所 大学招 聘管理 人 员,从 而 来源 于 3所 不 同大 学的 雇员 组成 了 3 个 独立的 样本。 半年试 用期满 了以后 ,人力资 源部对 他们进 行考核 ,并评 出了这 些雇员的 表现成 绩 (参见表 13.9),数据 在 0~100之 间 不等 。人 力资 源部 门 想就 此评 价雇员 的管 理业 绩在 3个 总 体间是 否存在 差异,数 据见 npara3.sav。 表 13.9 三所大学毕业生的表现成绩 A大学 40 20 10 35 70 60 B大学 60 85 20 70 90 95 80 95 C大学 70 50 65 80 90 30 75    如果 是按照 原理手 工进行 分析,则 将 3个 样本的 数据混 合后,对每一 个观测 值算出其 在混合 样 本中的 秩(注意 有结存 在。)在样 本量 较 少时 大家 可以 通 过手 算得 到混 合 样 本 中各 自 的 秩和 , 若 样本数 目较多 可以使 用 SPSS中的 Transform→ RankCases。但 在 SPSS中已经 提供了 现成 的过 程 供用户 调用,具 体操作 如下: Analyze→NonparametricTests→K-Independent-Samples TestVariableList框:score|Definegroups:Minimum:1:Maximum:3:Continue OK13.4 多 个独立 样本的 非参数 检验 291             操作 中所用 到的对 话框如 图 13.4所示。 图 13.4 多个独立样本检验主对话框 分析 结果如 表 13.10和表 13.11所示。 表 13.10 Ranks 表 13.11 TestStatisticsa,b    Kruskal-WallisH检验 分别给 出了 3所大学 雇员表 现的频 数和 平 均秩,由 表 13.11看 出 H统 计 量的近 似显著 性概率 为 0.036,小于 0.05,故应拒 绝原假 设,得 出:毕业 于不同 大学的 雇员 在管 理 工作上 业绩表 现的差 异有统 计学 意义 ,可 以看 出 成绩 最 低 的是 A大学 的 人 员,这 将 会 对人 力 资 源部在 招聘时 选择雇 员产生 影响,也 许会减 少在 A大学招 聘的人 数。 13.4.3 多个样本的两两比较 在上 述多个 总体比 较中,只 能判断 它们是 否存 在 差 异,若 多组 比 较 后总 体 有差 异,接下 来的 问 题应当 是两两 比较,来 判断到 底哪些 总体之 间有差 异甚至 差异的 程度,但由于 这方面还 有一定 争 议,包括 SAS、SPSS在内 的所有 权威统 计软件 均未提 供该功 能。此 时可以 采用以 下两种对 策: (1)直接使 用两组 比较的 方法进 行两组 间的非 参数检 验,此时 和参数 的两两 比较方 法一样 , 也 会涉及 到控制 一类错 误的问 题。但 是,由于 非参数 方法相 对而言 检验效 能会略 低一些 ,因此对 于 是否一 定要调 整 α水准 尚有争 议,一 般而言 ,现在 比 较统 一 的看法 是 如果 样 本量 较小 ,则 不一 定 需要调 整 α水准 ,直接 比较即 可,这样 可以补 偿非 参 数方 法 检验效 能 不足 所 带来 的损 失;如果 样 本量较 大,比如 每组均 在几十 例以上 ,则必 须要调 整 α水 准 ,否 则就 会犯 和 多组 均数 比较 时采          292   第 13章 有 序分类 变量的 统计推 断 非参数 检验 用 两两 t检验 性质相 同的错 误。 (2)当各组 例数较 多时,可 以采用 秩变换 分析,操作更 加方便 ,而结论 也更加 准确,详 见后面 相 关章节 。 13.5 多个相关样本的非参数检验 前面 的问题 相当于 一种 没有 区组 (Block)影 响 的 单因 子试 验 设 计的 分 析:样本 之 间 是独 立 的 ,每一个 样本中 的观测 值也是 相互独 立的。 每一个 样本代 表了 一 个“处 理 ”(Treatment)。 可是 在 实际生 活中,除 了“处理 ”之外,还 有别 的 因素 起 作 用。比 如 对于 一个 新口 味 的食 品 或 饮料 的 推 广中,在 不同的 地区对 不同的 人群测 试,对 测试者 按年龄 分组或 者按收 入分组 。这里不 同的地 区 (假定为 3个)代 表了三 种不同 的 处 理 (k=3),如 果将 收入 分 成 5等则 表示 有 5个 区组 (b= 5)。 当区组 存在时 ,代表 处理的 样本的 独立性 就不再 成立了 。一般 来说,对 于 k个 处理及 b个区 组 ,就形成 b×k的交叉 表,xij表示表 中位于 第 i个区组 和第 j个 处理那 一格的 观察值 。 SPSS中的 K RelatedSamples过 程用于 检验多 个配伍 样本所 在总体 的分布 是否相 同 ,对 应于 参 数检验 中的配 伍方差 分析。 13.5.1 Friedman检验 Friedman检 验也称 为氟里 得曼双 向评秩 方 差分 析,在 1937年 由 Friedman提出,也 是关 于位 置 参数的 检验。 该方法 的基本 思想是 :由于区 组间的 差异是 各式各 样的,只有同 区组的处 理值的 比 较才有 意义,一 个观察 值的秩 是在某 一区组 中的秩 ,而不 是对所 有数据 而言的 。因此应 当独立 地 在每一 个区组 内各自 对数据 进行排 秩,这样 就 可以 消除 区 组 间的差 异以 检 验各 种处 理之 间是 否 存在差 异。该 检验的 假设如 下: H0:M1 =⋯ =Mk(所 有的位 置参数 都相等 ) H1:至 少有一 个 Mi 与 其他不 同(不是 所有的 位置参 数都相 等) 从假 设上看 似 乎和前 面的 Kruskal-WallisH检 验一 样,但 是 由于区 组 的影 响,需要 首先 在分 区 组单独 计算各 个处理 的秩,再 把每一 个处理 在 各区 组 中的 秩 相加,最 后再 对 各处 理进 行比较 。 倘 若 k种 处理不 存在差 异(原假 设 H0 ),那么 无 论从 哪 一个 区 组去 观 察,每 一 种处 理所 得到 的数 据 在该区 组内可 能地排 秩为 1~k中的 任何一 个数。 因 此,对 于每 一 种 处理,它关 于各 区组 内所 取 秩的总 和应该 相等于 其他任 何一种 处理关 于各区 组 内所 排 秩的 总 和,或 者 这两 种处 理的 秩平 均 数相等 。1937年 Friedman提出检 验统计 量如下 : Q = 12 bk(k+1)6 k i= 1 Ri -b(k+1) 2 2 = 12 bk(k+1)6 k i=1 Ri 2 -3b(k+1) 对于 有限的 b和 k有原假 设下 的 分 布表 可 查 (要 做变 换 W =Q/(b(k-1)))。 大 样 本时 Q 近 似服从 自由度 为(k-1)的 χ2 分布 (当 某 区组 存 在结 时 ,Q可以 修正 为 Qc,Qc =Q/(1-C),其 中 C = 6 i,j ( 3 ij - ij)/(bk(k2 -1)), ij是第 j区 组中第 i个 结统计 量)。13.5 多 个相关 样本的 非参数 检验 293             13.5.2 分析实例 例 13.4 将两 个配对 样本非 参数检 验中提 到的例 子进行 扩 展:去 污剂 的制 造 商正 在测 试一 个 新产品 的 4种 不同配 方的效 果,其中 一项测 试是 随 机地 选 取 带有不 同污 渍 的织 物为 样本 来评 价 使用效 果。在 试验中 6种常 见的污 渍类型 作为 “区组 ”,如表 13.12所 示。每 一个 观 测值 代表 了 研究人 员依据 以下的 标准在 1~10的范围 内所作 的主观 评价:1=“差”,3=“一般 ”,5=“好 ”, 7=“较好”,10=“很 好”,如 果 得分 为 8或 9表 示 评 价效 果 介 于“较 好 ”与“很好 ”之 间,数据 见 npara4.sav。 表 13.12 4种配方去污能力的评价结果 污渍种类 配方 1 配方 2 配方 3 配方 4 牛奶 2 7 3 6 墨水 9 10 7 5 油渍 4 6 1 4 血渍 9 7 4 5 口红 6 8 4 3 西瓜汁 9 4 2 6    本例 比较简 单,不再 详细讨 论,在 SPSS中 的操作 如下: Analyze→NonparametricTests→K-related-Samples TestVariables框:配方 1配 方 2配 方 3配 方 4 TestType: FriedmanTest OK 操作 中所用 到的对 话框如 图 13.5所示。 图 13.5 多个配对样本检验主对话框          294   第 13章 有 序分类 变量的 统计推 断 非参数 检验    得到 分析结 果如表 13.13和表 13.14所 示。 表 13.13 Ranks 表 13.14 TestStatisticsa    检验 结果中 的概率 值小于 给定 水平 0.05,故 拒 绝 原假 设,认 为 4种配方 的 除污 效 果 是有 差 异 的。 13.5.3 Kendall协和系数检验与 Cochran检验 1.Kendall协和系 数检验 在实 际生活 中,经常 需要按 照某些 特别的 性质来 多次对 多个个 体进行 评估或 排序,比 如消费 者 对于品 牌商品 的偏好 ,选民对 候选人 的评价 ,咨询 机构对 一系列 企业的 评估以 及裁判对 参赛人 的 打分等 。人们 往往想 知道,这 多个评 价结果 是否一 致。如 果很不 一致,则这些 评估多少 有些随 机 ,没有多 大意义 。令原 假设为 H0 :“这些 评 估 (对于 不 同 个体 )是 不 相 关 的 或者 是 随 机的 ”,而 备 择假设 为 H1 :“评估 是正相 关的或 者是一 致的。”这 里完全 有 理由 用 前面的 Friedman方法 来检 验 。但是 ,Friedman检验 的结果 如果是 P值大 于 0.05,仅 仅是说 尚不能 认为有 差异,并 不能 告诉 分 析者究 竟一致 程度怎 样,显然 这离真 正分析 的目的 还有一 段距离 。 例 13.5 三名 电影评 论家对 目前上 映的一 系列电 影评级 打 分,评 判等 级范 围从 1~10共有 10级 ,如表 13.15所 示,“1=很 差”⋯ ⋯ “10=很 好”,数据 见 npara5.sav。若 在 α=0.05水 平下 比 较三组 评论,请 问他们 在评级 时是否 依赖于 相同的 价值评 判体系 ,即他 们的评 判是否一 致。 表 13.15 不同影评家的评分结果 电影 影评家 1 影评家 2 影评家 3 1 9 7 6 2 8 8 6 3 7 9 5 4 8 6 7 5 9 10 8 6 9 9 10 7 7 8 9 8 8 9 613.5 多 个相关 样本的 非参数 检验 295                该问 题 可以 理 解为 有 b名评 论 家 对 k部电影 打分 ,Xij表 示第 j个评 论 家对 第 i部电 影 打 的 分 数 ,这样 得 到样 本 (X1j,⋯ ,Xkj)(j=1,2,⋯ ,b)。 以 Rij表 示 Xij在 (X1j,⋯ ,Xkj)中 的 秩。 如 果 评 判 是不 相 关的 ,则 任 一部 电 影 所 得 的 秩 应 也 没 有 相 关 性 ,每 部 电影 的 秩 和 应 相 差 不 大 。 但 如 果 评论家 的评 判 是 一致的 (正 相 关 的 ),则 会 有一 些 电 影 的 秩和 较 大 ,而 另 一些 电 影 的 秩 和 较 小 。这时 就可 以 采 用 Friedman检 验 来 判断他 们在 评 级时 判 断 取 向 是否 相 同。 但 是,为 了 得 到 对 相关性 的具 体 数 量评价 ,又必 须 要在 此 基 础上作 进一 步 的 扩 展。 每个 评 估 者 (共 b个 )对 于 所 有参 加 排序 的 k个个 体 有 一个 从 1~k的排列 (秩 ),而 每 个 个 体 有 b个 打 分 (秩 ),则 用 T 表 示 个 体 的 总 秩 Ri. = 6 b j=1 Rij (i=1,2,⋯ ,k)与 其 平 均 值 的 离 差 平 方 和: T = 6 k i Ri. - 1 k6 k i=1 Ri. 2 。 如果 评 判 是不 相 关的 ,则 T的 值 应 当 较小 ;否 则 ,则 T值 应 较 大,所 以 T就 可以 用 来表 示多个 变 量 的相 关性。 因 为 6 k i= 1 Ri. (i=1,2,⋯ ,k)是 所有秩 的和 ,于 是 6 k i= 1 Ri. =b(1+2+⋯ +k) =bk(k+1) 2 ,从 而 T =6 k i Ri. -b(k+1) 2 2 。当第 1部电 影 的 秩全 取 1,第 2部电 影的 秩 全取 2,⋯ ,第 k部 电 影的 秩 全取 k时,那么 这 b名 评 论家 的评判 是 完 全一 致 的 。 此时 T取得 最大 值 b2 k(k2 -1) 12 。为 了 与习 惯 一 致,取 一 个 0与 1之 间 的 数来 表 示 多 个 变 量 的 相关 性 ,所以 用 W =T/b2k(k2 -1) 12 来 度 量,这 就 是 Kendall协 和 系 数。 当 W 愈 接 近 1,b 个 变 量间 的 正相 关 性 愈好 ,即 表现 的 一 致性 愈 强;反 之 ,当 W 愈 接 近 0,变 量间 正 相 关性 愈 差 , 一 致 性愈 弱 。因 此 与 Friedman检验 相 比 ,Kendall协 和系数 不 仅 可以 检 验 k个相 关样 本是否 来 自 同 一总 体 ,还能 检 验 b个 变量 间 的 相关 性 。 它 表 示 的 是 K个 指 标 间 相互 关 联 的 程 度 (一 致 性 程 度),取 值 在 0~1之 间。 从 SPSS的对 话 框 界面 可 见,K-related-Samples的对话 框 界 面上 直接提 供 了 Kendall协和 系 数 这 一方 法 ,下面 使 用 Friedman检 验 和 Kendall协 和 系 数对 上 例 进 行 分 析 ,结 果 如 表13.16~ 表 13.18所 示 。 表 13.16 Ranks 表 13.17 TestStatisticsa 表 13.18 TestStatistics    从表 13.18中可以 看出两 种检验 的结论 是 完全 一致 的,P值为 0.393,不 能 否定 3个影 评家 对 8部电 影的评 判基本 一致的 假 设。但 是 协和 系数为 0.117,这说 明指 标间 相 关程 度 或 一致 性 程 度较低 。          296   第 13章 有 序分类 变量的 统计推 断 非参数 检验 2.Cochran检 验 还有 很多时 候在经 济生活 中比如 民意调 查或者 市场调 查中顾 客对商 品的信 息反馈或 满意度 评 价,观察 值是定 性数据 或二元 (0~1)数 据,通常 以“好”或 “差 ”,“有 效”或 “无 效”,“成 功 ”或 “失 败”,“是”或 “否”等形 式出 现 ,如果 用 Friedman检验将 会 有 很多 打结现 象 ,即有 许 多 相同 的 秩 ,这时可 以使用 菜单中 提供的 Cochran检 验。它 是两个 配对样 本 McNemar方法 的推广 ,只适用 于 二分类 变量。 13.6 秩变换分析方法 在本 章中介 绍了许 多非参 数分析 方法,但 这些 还 远 远不 够 ,还 有 更 多的 问 题无 法解 决,这里 介 绍一种 通用的 非参数 分析原 理,希望 能对大 家有所 帮助。 13.6.1 原理简介 所谓 秩变换 分析方 法,就是 先求出 原变量 的秩次 ,然后 使用求 出的秩 次代替 原变量进 行参数 分 析,当样 本含量 较大时 ,该方 法的分 析结果 和相应 的 非参 数 方法 基 本 一致,但该 方法 可以 充分 利 用已知 的参数 方法,如 多组样 本的两 两比较 、多元 回 归等,从 而大大 扩展 了 非参 数分 析方 法的 范 围。事 实上,如 果大家 充分理 解了前 面讲述 的各种 秩和检 验方法 的原理 ,就会 发现这些 方法其 实 质都是 秩变换 方法的 不同应 用而已 。 SPSS中的 Rank过 程可以 用来求 出秩次 ,该过 程 默认 得 到 的是 从 1~n均 匀分 布的 秩 次,使 用 者也可 以自行 指定生 成正态 分布的 秩次,但 由于进 行秩变 换分析 的样本 量都较 大,这样 做基本 不 影响分 析结果 。 13.6.2 应用实例 下面 采用一 个实例 来演示 如何用 秩变换 方法来 进行分 析。 例 13.6 打开 SPSS自 带数据 Cars.sav,可以看 到 关于 汽 车特 征 描 述的 各 个变 量,现希 望比 较 不同国 家生产 的汽车 的 horse(功率 )变量是 否存在 差异。 显然 ,这是一 个三组 均数比 较的问 题,可 以考虑 进 行单 因 素方 差 分 析,但 如果 做出 功率 的分 组 直方图 (参见图 13.6),就会 发现该 变量的 正态 性 并 不理想 ,为此对 其进 行 对数 变换 后使 其基 本 接近正 态,然后 进行方 差分析 ,结果 如表 13.19和 表 13.20所示 。13.6 秩变 换分析 方法 297             图 13.6 变换前与对数变换后 horse的直方图组 表 13.19 ANOVA 表 13.20 Inhorse 由以 上结果 可见产 地为美 国的汽 车功率 较大。 由于 该样本 一共有 400多 例,样本 量较为 充足,因此这 里也可 以考虑 直接使 用秩变 换方 法加 以 分析,即 首先求 出功率 horse的 秩次,然后进 行方差 分析,操 作如下 :          298   第 13章 有 序分类 变量的 统计推 断 非参数 检验 Transform→ RankCases Variables框 :horse OK Analyze→CompareMeans→One-WayANOVA DependentList框:Rankofhorse Factor框 :Countryoforigin PostHoc: LSD:Continue OK 分析 结果如 表 13.21和表 13.22所示。 表 13.21 ANOVA 表 13.21为 对秩次 进行方 差分析 的结果 ,可见汽 车功 率 的 秩次在 不同 国 家间 的差 别是 有统 计 学意义 的。 表 13.22 RANK ofhorse 表 13.22为 使用 LSD法进 行不 同国家 间汽 车 功率两 两比较 的 结果 ,可以发 现美国 生 产的汽 车 与欧洲 及日本 生产的 汽车在 功率上 有显著 差异。 大家可 以将上 述结果 和采用 对数变换 后的分 析 结果相 比较,就 会发 现 秩 变 换分 析 方法 和 对 数变 换 分析 方 法 得 到 的 统 计 量 和 P值 都 非常 接 近 。 为了 提高分 析效率 ,还可以 采用更 复杂的 变换 方 式,如 要 求生 成 的 秩次 服 从正 态分 布,在随 机 区组设 计数据 中要求 分组生 成秩次 等。因 篇幅所 限,本书 不再深 入,对 此感兴 趣的朋友 请参见 相 关统计 专业书 籍。思考与 练习 299             13.7 本 章 小 结 本章 给出了 几种常 用的非 参数方 法的统 计过程 ,在多数 情况下 ,如果 非参数 检验结论 为有统 计 学意义 ,相应正 确的参 数检验 结论大 多与之 相同。 如果出 现矛盾 的情况 ,必须 仔细考察 参数检 验 的条件 是否符 合。当 总体分 布非正 态分布 ,也无法 通过适 当的变 量变换 达到正 态分布 ,甚至于 分 布类型 未知;对 于诸如 “18岁以下 ”或“大于 2000元”等 无法精 确测量 的数据 以 及数 据是 分类 数 据且样 本很小 时,传统 的参数 检验方 法作用 将变得 非常有 限甚至 无能为 力了,这时可以 转而求 助 于非参 数统计 检验。 非参 数检验 方法中 最常用 的是等 级次序 或符号 秩,这样 做方法 简单,易于理 解。但是 由于没 有 利用实 际数值 ,又会失 去许多 信息,因而检 验的有 效性就 比较差 。现将 本章介 绍的几种 非参数 方 法简单 总结如 下: (1)关于两 个独立 样本的 非参数 检验,Mann-WhitneyU检验是 功效最 强、应 用最广的 非参数 检 验。其 原假设 和备择 假设的 基础是 :如果两 样本有 差异,它们的 中心位 置将不 同。 (2)关于两 个配对 样本的 非参数 检验。 最常用 的是 Wilcoxon秩 和检验 ,它是 对 Sign符 号检 验 正负号 的改进 ,其基本 思想是 :若检 验假设 成立,则 两 组的 秩 和不 应 相 差太 大 。不仅 考虑 了样 本 配对数 据差异 的方向 ,同时又 考虑到 差数的 顺序。 (3)关于多个独立样本的非参数检验。SPSS提供了 Kruskal-Wallis检验和 Median中位数法等。 (4)关于多 个配对 样本的 非参数 检验。 SPSS提供了 Friedman检验和 Kendall协和系 数以及 Cochran检 验方法 。 思考与练习 1.在熟悉 假设检 验 的思想 基础上 ,比较 参 数检验 与非参 数 检验的 适用条 件,并 且 根据 某一 种 具体的 检验方 法举例 。 2.在关于 放松(如 听音乐 等)对成 年女性 入睡所 需时间 影 响 的研 究 中,抽 取 了 10名女 性组 成 样本。 题 2表 给出了 10个对 象 在有 放 松条 件 和 无放 松条 件下 入 睡所 需 的 时间 (min)。就 此 数 据你的 结论是 什么。 题 2 表 研究对象 无放松 有放松 1 15 10 2 12 10 3 22 12 4 8 11 5 10 9 6 7 5 7 8 10 8 10 7 9 14 11 10 9 6          300   第 13章 有 序分类 变量的 统计推 断 非参数 检验    3.对于一 个由冬 季各月 中的某 些天 数 组 成的样 本和 一 个 由夏季 各月 中 的某 些天 数组 成的 样 本,警察 记录了 如下的 每日犯 罪报告 的数据 ,如题 3表所 示。给 定 0.05的显著 性水平 ,请 判断 犯 罪报告 数量在 冬季数 月与夏 季数月 之间是 否有显 著的差 异。 题 3 表 冬季 夏季 冬季 夏季 18 28 20 29 20 18 12 23 15 24 16 38 16 32 19 28 21 18 20 18    4.一名证 券经纪 人收集 到了某 年三大 公司的 股票每 股所能 获利的 钱数如 题 4表 所示。 题 4 表 计算机公司 1.94 2.76 8.95 3.23 3.04 0.69 1.52 药品公司 7.89 1.65 2.59 1.09 -1.70 公共服务公司 2.26 4.66 2.22 1.77 -0.15    试比 较这三 种不同 类型的 公司股 票所挣 的钱是 否相同 。 5.在做一 个智力 游戏时 ,人们 认为它 与年龄 以及是 否是盲 人有关 ,现以年 龄为区 组 ,研 究该 游 戏与眼 睛看见 与否是 否有关 。首先 第一组 安排天 生 眼盲 的 儿童 参 加 游戏,第二 组安 排眼 睛正 常 但做游 戏时把 眼睛蒙 上的儿 童参加 游戏,第 三组是 眼睛正 常而且 不蒙住 眼睛的 儿童参 加游戏 , 观 察他们 的得分 如题 5表所示 ,请就此 进行分 析。 题 5 表 分组 年  龄 1 2 3 4 5 6 7 8 9 10 11 12 盲人 0 0 0 0 1 8 8 8 0 8 8 8 蒙眼 0 8 0 0 2 8 5 6 8 8 3 8 不蒙眼 8 1 8 8 0 8 8 8 8 8 8 8 参考文献 1 DavidF.G.BusinessStatistics:ADecision-makingApproach.北京 :中国统 计出版 社,2003 2 RonaldM.W.商 务统计 导论.北京:北京大 学出版 社,2003 3 RobertD.M,DouglasA.L.商务经 济统计 方法(英 文版).第九 版 .北 京:机械 工业 出版 社 ,1998参考 文献 301             4 吴 喜之.非参 数统计 .北 京:中国 统计出 版社,1999 5 张 文彤主 编.SPSS11统计分 析教程 (基础篇 ).北 京:北京 希望电 子出版 社,2002 6 吴 喜之,王兆军 .非 参数统 计方法 .北京 :高等 教育出 版社,1996 7 茆 诗松主 编.统计手 册.北京:科 学出版 社,2003 8 刘 彤.利用非 参数方 法对上 海股市 周末效 应的研 究.数理统 计与管 理,2003          302   第 14章 无 序分类 变量的 统计推 断 χ2 检验 第 章 无序分类变量的统计推断       χ2 检验    通过 前面的 学习,读 者已经 知道,变量可 被分为 连 续性 变 量和 分 类 变量 两 大类,而 后者 又可 被 细分为 有序、无 序变量 两种。 对于各 组所在 总体定 量变量 平均水 平的比 较,可 以使用前 面学过 的 t检 验和方 差分析 来分析 ;秩和 检 验则 用 于 比较各 组所 在 总 体有序 分类 变 量的 分布 情况 是否 相 同;本章 将要介 绍的 χ2 检 验则用 于检验 某无序 分类变 量各水 平在两 组或 多组 间 的分 布是 否一 致 。除此 之外,它 还可以 用于检 验一个 分类变 量各水 平出现 的概率 是否等 于指定 概率;一 个连续 变 量的分 布是否 符合某 种理论 分布等 ,具体而 言,其 用途主 要包括 以下几 个方面 : (1)检验某 个连续 变量的 分布是 否与某 种理论 分布相 一致,如 是否符 合正态 分布,是 否服从 均 匀分布 ,是否服 从 Poisson分 布,等 等。 (2)检验某 个分类 变量各 类的出 现概率 是否等 于指定 概率。 如 36选 7的彩 票抽奖 中,是否 每 个数字 出现的 概率是 否各为 1/36;掷硬 币时,正反两 面出现 的概率 是否均 为 0.5。 (3)检验某 两个分 类变量 是否 相互 独 立。 如 吸烟 (二 分 类变 量:是、否 )是 否与 呼 吸 道疾 病 (二 分类变 量:是、否)有关 ;产品原 料种类 (多分类 变量)是 否与产 品合格 (二分类 变量)有 关? (4)检验控 制某种 或某几 种分类 因素的 作用 以后 ,另两 个 分类 变 量 是否 相 互独 立 。如 上例 中 ,控制性 别、年 龄因素 影响以 后,吸烟 是否和 呼 吸道 疾 病有 关 ;控 制 产 品加 工 工艺 的影 响后,产 品 原料类 别是否 与产品 合格有 关? (5)检验某 两种方 法的结 果是否 一致。 如两种 诊 断方 法 对同 一 批 人进 行 诊断,其 诊断 结果 是 否一致 ;两种方 法对客 户进行 价值类 别预测 ,预测 结果是 否一致 。 本章 主要介 绍 χ2 检验的 后 4种 应用,有关分 布检验 的内容 请参看 相关章 节。 14.1 χ2 检验基础 14.1.1 χ2 检验原理 χ2 检验 是以 χ2 分 布为基 础的一 种常 用 假 设检 验 方法,主 要用 于 分 类变量 ,根 据样 本数 据推 断 总体的 分布与 期望分 布是否 有显著 差异,或 推断两 个 分类 变 量是 否 相 互关 联 或相 互 独 立。它 的 原假设 是: H0:观 察频数 与期望 频数没 有差别 χ2 检验 的基本 思想是 :首先 假设 H0 成立,基 于此 前 提计 算 出 χ2 值,它 表 示观 察值 与理 论值 之 间的偏 离程度 。根据 χ2 分 布,χ2 统 计量,以及自 由度可 以确定 在 H0 假 设成立 的情况 下获 得当14.1 χ2 检验 基础 303             前 统计量 及更极 端情况 的概率 P。如 果 P值 很小,说 明观察 值与理 论值偏 离程度 太大,应 当拒绝 原 假设,表 示比较 资料之 间有显 著差异 ;否则 就不能 拒 绝原 假 设,尚不 能认 为 样本 所代 表的 实际 情 况和理 论假设 有差别 。 14.1.2 χ2 值的计算与意义 χ2 值表 示观察 值与理 论值之 间 的偏 离程 度。 如 何来 计 算这 种 偏 离程 度 呢? 设 A代 表某 个 类 别的观 察频数 ,E代 表基于 H0 计算 出的期 望频数 ,A与 E之差 被称为 残差。 显然,残 差可 以表 示 某一个 类别观 察值和 理论值 的偏离 程度,但 如 果将 残差 简 单 相加以 表示 各 类别 观察 频数 与期 望 频数的 差别,则 有一定 的 不足 之 处。因 为 残差 有 正有 负,相 加 后 会 彼 此 抵消 ,总和 仍 然 为 0。 为 此可以 将残差 平方后 求和。 另一方 面,残差 大小是 一个相 对的概 念,相 对于期 望频数为 10时 , 20的 残差非 常大;可 相对于 期望频 数为 1000时 20的 残 差就 很小了 。 考虑 到 这一 点,人们 又将 残 差平方 除 以期望 频数再 求和,以 估计 观 察频数 与 期望 频 数的差 别。这 就是 常用 的 χ2 统计量 , 由 于它最 初是由 英国统 计学家 KarlPearson在 1900年首次 提出 ,因 此也被 称为 Pearsonχ2,其计 算 公式为 : χ2 =6 (A-E)2 E =6 k i=1 (Ai -Ei)2 Ei =6 k i=1 (Ai -npi)2 npi (i=1,2,3,⋯ ,k) (14.1) 其 中,Ai 为 i水 平的观 察频数 ,Ei 为 i水平 的期望 频数,n为总 频数,pi 为 i水平 的期 望频 率。i水 平 的期望 频数 Ti 等于 总频数 n×i水平的 期望 概 率 pi。 当 n比较 大 时,χ2 统 计量 近 似服 从 k-1 个 自由度 的 χ2 分布。 从式 (14.1)可 见,当观 察频数 与期望 频数完 全 一致 时,χ2 值 为 0;观察 频 数与 期望 频数 越接 近 ,两者之 间的差 异越 小 ,χ2 值 越 小 ;反 之,观 察频 数 与 期 望 频 数 差 别 越 大 ,两 者 之 间的 差 异 越 大 ,χ2 值 越大。 换言之 ,大的 χ2 值 表明观 察频数 远离 期 望频 数,即表 明远 离 假设 。 小的 χ2 值表 明 观察频 数接近 期望频 数,接近 假设。 因此,χ2 是观 察频 数 与 期望频 数之 间 距离 的一 种度 量指 标 ,也是假 设成立 与否的 度量指 标。如 果 χ2 值“小 ”,研究者 就倾向 于不拒 绝 H0;如 果 χ2 值大,就 倾 向于拒 绝 H0 。但 χ2 在 每个具 体 研究中 究竟 要 大 到什 么 程 度才 能 拒 绝 H0 呢?这 就 要 借助 于 χ2 分 布求出 所对应 的 P值 来确定 。 14.1.3 χ2 分布 当 n比较大 时,χ2 统计量 近似服 从 k-1个 自由 度 的 χ2 分布 (见 图 14.1)。在 自 由 度固 定 时 ,每个 χ2 值 与一个 概率值 (P值)相 对应,此概 率值 即 为在 H0 成 立 的 前提 下 ,出 现这 样一 个样 本 或偏离 假设总 体更远 (与总体 的差异 比 当前 样 本 还要 大 )的 样本 的概率 。 如果 P值 小于 或等 于 用户所 设的显 著性水 平,则 应 拒绝 H0,接 受 H1 ,即观察 频数 与期 望频 数 不 一致。 如果 P值 大 ① Pearson当初发表在 《哲 学杂志 》上的论文题 目为:Onthecriterionthatagivensystemofdeviationsfromtheprobableinthe caseofacorrelatedsystemofvariablesissuchthatitcanbereasonablysupposedtohavearisenfrom random sampling。          304   第 14章 无 序分类 变量的 统计推 断 χ2 检验 于 用户所 设的显 著性水 平,则不 拒绝 H0,认 为观察 频数与 期望频 数无 显 著差异 ,没 有足 够理 由说 观 察频数 与期望 频数不 一致。 P值越 小,说 明 H0 假设 正 确的 可能 性越 小;P值 越大 ,说明 H0 假 设 正确的 可能性 越大。 图 14.1 χ2 分布(自由度为 10) 14.2 拟合问题 样本率与已知总体率的比较 利用 单样本 均值比 较的 t检验 ,可以检 验样本 所在总 体的均 值与 已 知值是 否存在 显 著差异 ; 即 样本均 值与已 知值的 差异,是 因为样 本所在 总体的 均值与 已知值 确实有 差别,还是由于 随机抽 样 引起的 差异。 这是针 对连续 变量 而言 ,如果 是 分 类变 量,就 不 能 使用 进 行均 值 比 较的 t检验 , 而 是要使 用进行 率比较 的 χ2 检验。 假设 一个总 体中,某 个变量 的可能 取值有 n个水 平,现 在 已知 有 一 个样 本 ,该 样本 中变 量的 可 能取值 也只有 这 n个 水平,即 一批分 类数据 ,现在 需 要从 这 批分 类 数 据出 发 ,来 判断 总体 各取 值 水平出 现的概 率是否 与已知 概率相 符,即该 样本是 否 的确 来 自已 知 的 总体 分 布。这 就是 本节 所 说的单 样本率 与总体 率的比 较,也有 人称它 为拟合 问题。 在统计 学上 可 以利 用 χ2 检 验这 一分 析 方法来 解决此 类问题 。 14.2.1 分析实例 例 14.1 某公 司经营 多年,形 成了 一 套成 熟的 企业 文 化和 管理 体系,例 如 根据 多 年 的运 营 经 验,经理 层、监 察员、办 事员三 种职务 类别的 比例大 约在 15∶5∶80为宜,这样运 行效率 最 高。两 年 前公司 原管理 层集体 退居二 线,新任 管理层 上任后 对公司 结构进 行了较 大的变 动,有员 工担心 这 是否已 经导致 了职 务 类 别比 例 的 失 调,影 响 到公 司 的 高效 运 行。 目前 三 种 职 务 的人 数 比 为 84∶27∶363,如何 用数据 分析来 解决此 问题呢 ? 上述 问题是 一个有 关样本 构成比 与已知 总体构 成 比 进行 比较的 统 计 学问 题。 在此 问题中 , 总 体构成 比即为 多年运 营所得 到的最 佳比例 ,在该 总 体 中,职 务 这一属 性(也称 为 “变 量”)只有14.2 拟 合问题 样 本率与 已知总 体率的 比较 305             三 个水平 (值):经理 、监察 员、办事 员,各 水 平 的期 望 构成 比 分 别是 15%、5% 、80%,而 目前 样本 中 观察到 的构成 比 分别 是 84/474=17.7%、27/474=5.7%、363/474 =76.6%,和 理 论 值有 差 距 ,那么,这两者 间的差 异只是 由于随 机误差 造成的 ,还 是真 的 构成 比 和 以前 有 所变 化 ?该 问题 可 以用 χ2 检验 来解决 。相应 的统计 假设为 : H0:目 前三个 职务的 总体构 成比仍 然分别 为 15%、5%和 80% H1:目 前三个 职务的 构成比 不再是 15%、5% 和 80% 以上 假设也 可以写 成:目前 的职务 构成比 与以前 相比没 有差别 ;或者 领导层 的更替并 未影响 职 务构成 比。这 三种假 设方式 在此处 是等价 的,哪个 都可以 。 下面 按照 χ2 检验 的原理 来计算 χ2 统计量 。 表 14.1显 示 了计 算过 程。 其 中,第一 列显 示了 具 体的职 务类别 ,第二列 为相应 水平的 观察频 数,第 3列为 相 应 水平 的 期望 频 率,第 4列为 相应 水 平的期 望频数 ,等于总 频数 474乘以 相应的 期望频 率,最 后一列 为相应 水平的 χ2 统 计量。 表 14.1 χ2 统计量的计算过程 观察频数 期望频率 期望频数 残差 χ2 Manager 84 0.15 71.1 12.9 2.34 Custodial 27 0.05 23.7 3.3 0.46 Clerical 363 0.80 379.2 -16.2 0.69 合计 474 1.00 474 0 3.49 最终 总的 χ2 统计 量的计 算公式 为: χ2 =6 k i= 1 (Ai -npi)2 npi =(84-474×0.15)2 474×0.15 +(27-474×0.05)2 474×0.05 +(363-474×0.8)2 474×0.8 =3.492 这样 大小的 χ2 统 计量代 表了 当 前 样 本数 据偏 离 原 假 设 的 程 度,那么 是 否能 够 拒绝 H0 呢 ? 需 要考虑 该 χ2 值对应 的概率 ,即在 其 原假 设 所假 定 的 总体中 进行 抽 样,得 到 和总 体具 有当 前这 样 大差异 的样本 ,以及比 现有差 异更大 样本的 概率有 多大。 如果 概率 值 很小 ,低 于所 设 定的 Al- pha水 准,即 在 H0 假 设成立 的情况 下,获得 当前该 样本及 更极端 样本(和理 论总 体 间的 差异 比现 在 还大)的 可能性 非常小 ,成为了 一次抽 样研究 中 不应 发 生的 小概 率事 件,就 应 当怀疑 原假 设的 真 实性,从 而拒绝 H0 ;反之,如果概 率值较 大,就无 充分理 由拒绝 H0。 本 例中 查表 可得 当自 由度 为 2时,3.492所对 应的 P值 为 0.174,即在原 假设 所 规 定的总 体中,平 均做 100次 抽样 ,大 约有 17次 可以得 到当前 样本构 成比 或更 极端的 样本 构成 比,所 以 ,在显 著 性 水平 0.05时 ,我 们不 拒 绝 H0 假设 。即认 为观察 频数与 期望频 数没有 显著差 别,目 前三个 职务的 总体构 成比仍然 分别为 15%、5% 和 80%。 讨论 :本例中 使用的 数据是 公司全 体员工 的数 据 ,从而 引 出了 一 个 问题:该数 据究 竟是 算总 体 还是算 样本? 如果算 总体,那 为什么 要进行 假 设检 验? 正 确 的答案 主要 是 看分 析者 希望 回答 什 么样的 问题,由 于公司 处于一 个不断 发展变 化 的过 程 中,每 时每 刻 都 可能 有 人进 入、辞职 或者 晋 升,从这 个角度 讲,虽 然使用 的是全 体员工 的数据 ,这里 仍 然 可以把 它看 成 是一 个变 化过 程中          306   第 14章 无 序分类 变量的 统计推 断 χ2 检验 的 样本,从 而进行 检验。 除非出 现了统 计学差 异,才 专门为 之采取 措施,调 整职务 比例,以 免无谓 的 调整影 响公司 体系的 稳定。 实践 工作中,有很 多单样本率与总体率进行比较的例子 。如 骰子是 否公平 ,检验 各面出 现的频 率 是否各等于 1/6;检验 彩票中 奖号 码的分布是否均匀分布,以检验彩票开奖是否作弊 ;国家人口老 龄 化问题是否更严重了;某产品的市场占有份额是否 较以 前更大 ;某病 的发病 率是 否较前 降低等。 14.2.2 检验方法的 SPSS实现 前面 用手工 计算的 方法给 出了 相应 结果,下 面 介绍 该检 验如 何 在 SPSS中 实 现。 打开 SPSS 自 带文件 Employeedata.sav,此文件 中 的变 量 jobcat即 记录 了公 司 全 体 员工 的职 务类 别。由 于 这 个问题 也可被 理解为 考察样 本所在 总体的 类别构 成 比是 否 和已 知 总 体的 类 别构 成比 相同,因 此 在 SPSS的菜单 中单样 本 χ2 被放置 在二项 分布、K-S检验等 分布类 型 检验方 法中。 具体 的软 件 操作如 下: Analyze→NonparametricTests→Chi-Square TestVariableList框:jobcat ExpectedValues: Values:0.8:Add|0.05:Add|0.15:Add OK 操作 中所用 到的对 话框如 图 14.2所示,左下角 的 ExpectedRange单 选框组 用 于设 定需 要检 验 的变量 的取值 范围,在 此范围 之外的 取值将 不进入 分析。 此处使 用默认 值,要 求系统从 数据中 自 行读取 ,用户也 可使用 Usespecifiedrange框组 自行指 定。中 下部的 ExpectedValues单选 框组 用 于指定 已知总 体的各 分类构 成比,默 认为各 类 别构 成 比相 等 ,因 本 例 中各 类 别构 成比 不相同 , 因 此使用 下方的 Values自 行定义 ,注意数 值的排 列次序 和 数据 文 件中 各类 别的 取 值排 列次 序应 当 相同,因 为它们 之间存 在着一 一对应 的关系 。 图 14.2 单样本 χ2 检验的对话框14.2 拟 合问题 样 本率与 已知总 体率的 比较 307             主对 话框的 右侧还 有 Exact和 Options两个 按 钮,前 者 用于 进行 确切 概 率 计 算,后 者 可要 求 输 出描述 统计量 和对缺 失值处 理方式 进 行 设置 。 全部 设 置完 毕 后单 击 OK按 钮,即得 到结 果如 表 14.2、表 14.3所 示。 表 14.2 EmploymentCategory 表 14.3 TestStatistics    表 14.2给出 了样本 中三个 职务 级 别的 观 察 频数 (ObservedN)和 根据 总 体构 成比 计算 出的 期 望频数 (ExpectedN),以及 观察频 数与期 望 频数 之 差 残差 (Residual),和前 面的 表格 相对 应 ,应不难 理解。 表 14.3给出 的是单 样本 χ2 检 验 的结 果 ,具体 包 括 χ2 统计 量(Chi-Square)、自由 度 (df),以 及 对应的 概率值 (Asymp.Sig)。可见 χ2 统 计量 为 3.492,自由 度 为 2,对应 的 概率 为 0.174。结 果 和前面 完全相 同。 14.2.3 单样本 χ2 检验的其他话题 1.χ2 检验的 样本量 要求 读者 可以看 到上面 的检验 统计量 表 中带 了 一 行脚 注 说明:所 有单 元 格的 期 望 频 数均 大 于 5 (0cells(.0%)haveexpectedfrequencieslessthan5.),最小 期望 频数为 23.7(Theminimum ex- pectedcellfrequencyis23.7)。为什 么会有 这样一 条说明 呢?前 面曾经 提到过 ,只有当 n比 较大 时 ,χ2 统计 量才近 似服从 k-1个自由 度的 χ2 分布 。该要 求具体 到每一 个单元 格,就是 要最 小期 望 频数均 大于 1,且至 少有 4/5的 单元格 期望频 数大于 5,此 时使用 χ2 分布 计算 出 的概 率值 才是 准 确的。 如果数 据不符 合要求 时,可以 采用确 切概率 法进行 概率的 计算,详见上 一章。 2.期望频 率 上面 的操作 指定了 每个水 平的期 望构成 比。在 指 定时,可 以看到 软件 并 没有 要求 将期 望频 率 与各个 分类水 平相对 应,那么 软件如 何知道 0.8对 应的就 是 Clerical而不 是 Manager呢? 因为 在 jobcat这个变 量中,共有三 个取值 ,分别 为 1、2、3;其标 签 分别 对 应 了办 事 员、监管 员 和 经理 。 由 于输入 期望构 成比的 顺序为 0.8、0.05、0.15。 所 以它 认 为 1,也 就 是 Clerical对 应了 第一 个输 入 的期望 频率 0.8,2对 应第 2个期望 频率 0.05,3对应第 3个期 望频率 0.15。也 就是说 :对数值 变 量而言 ,数值从 小到大 依次对 应第一 个到最 后一个 期望频 率。对 字符型 变量而 言,字符 值按字 母 升序排 列后,依 次对应 第一个 到最后 一个期 望频率 。          308   第 14章 无 序分类 变量的 统计推 断 χ2 检验 在 ExpectedValue中,既 可输入 期望频 率,也 可 输入 各 自 比例 数 。如 果 输 入 期望 频 率,则 要 求 ①各频 率取值 为 0到 1之间 的数。 ②各频 率之 总和 为 1。 如此 例中,输 入 0.8、0.05、0.15,均 大 于 0小 于 1,且和 为 1。除此 之外,还 可输入 比例数 ,此时 ,第 i水平 对应的 期望频 率为第 i水平 对 应的比 值 /总比 值。如 此例中 就可输 入三个 级别各 自相比 对应比 例:80、5、15,结果相 同。 另外 ,如果各 水平的 期望频 率相同 ,则不 用一一 指 定各 水 平期 望 频 率,而 是直 接告 诉软 件各 水 平频率 相等,只 需要选 择 ExpectedValue:Allcategoriesequal即可。 3.使用频 数格式 数据 本例 中使用 的数据 为原始 录入格 式,一个 案 例就 代 表一 位 员工 的 情 况。 但如 果数 据为 频数 格 式,即每 一行代 表一个 水平,另外用 一个频 数变量 代表该 水平的 频数。 此时在 分析时首 先需要 告 诉 SPSS具体哪 一个变 量是频 数变量 。如何 实现呢 ?利用 数据准 备一章 中提到 的 WeightCases 即 可。在 指定了 频数变 量后,再 进行 χ2 分 析才能 够得到 正确的 结果。 14.3 相关问题 两(多)个率或构成比的比较 前面 大家学 习 了样 本 率与已 知总体 率 的检验 方法,显 然,其 中 所使用 的 χ2 检验 原 理可 以非 常 容易地 推广到 两样本 或多样 本比较 的问题 ,也就是 说,比 较两个 或多个 样本其 所在总体 另一个 分 类变量 的发生 率或构 成比是 否相同 。如果 换一个 角度考 虑,分组 因素其 实也是 一个分 类变量 , 因 此此类 问题也 可理解 为检验 二分类 变量的 取值是 否相互 关联,或 者检验 一 个变量 (如性别 )的 取 值不同 是否对 另一个 变量(如 血型)的 取值有 影响。 但无论 如 何来 理 解,问题 的 本质 都是 相同 的 ,统计学 上都可 以用 χ2 检 验来解 决此类 问题。 在讲 解二分 类变量 相关问 题的 χ2 检验 前,有 必要先 学习一 下列联 表。 列联 表 是用 于描 述和 检 验分类 变量间 相关关 系的最 基础的 技术,它 实际上 是两个 变量的 联合频 数表,每一行是 列变量 在 行变量 取值相 同时的 频数表 。每一 列是行 变量 在列 变 量取 值 相同 时 的 频数 表。 以 SPSS自带 数 据集 Employeedata.sav为例,表 14.4显示 了 性 别 (行变 量 )与 职位 类 别 (列 联表 )的 列 联表 。 表 内容区 的第一 、二行分 别显示 了女性 人群与 男性人 群的各 职位类 别的频 数,第 一、二、三 列分别 显 示了办 事员、监 察员和 经理人 群的性 别频数 。每 个 单元 格 显 示的是 对应 的 行变 量水 平与 列变 量 水平的 交叉人 群信息 。如 206是“女 性”“办事 员”的人 数。 表 14.4 Gender* EmploymentCategoryCrosstabulation14.3  相关问 题 两(多)个 率或构 成比的 比较 309                列联 表又称 为 R×C表 ,其中 R代表行 数,即行 变量有 R个取 值;C代表列 数,列变 量有 C个 取 值。如 表 14.4,可 称为 2×3表 ,行变 量“性别 ”有两个 取值,男 性和女 性;列 变量“职位 类别”有 3个取 值,办事 员、监 察员和 经理。 当表内 容区为 两行两 列,即 2×2表 时,又称 为四格 表 ,因 其包 含 四个单 元格而 得名。 最常 见的列 联表包 含两个 变量。 列联表 也可用 于描述 三个变 量或更 多变量 的关系。 列联表 可 仅用于 描述数 据,为决 策者提 供“数 据 是 什么”的 信 息。 除此 之外 ,列 联表 还 常用 于 推 断性 研 究 中,如推 断总体 人群中 性别是 否与职 位类别 有关系 ,或者 性别是 否与工 资等级 有关系,等等。 14.3.1 分析实例 例 14.2 某妇 女联合 会 向 工 会 提 出 质疑 ,认为 该 公 司在 对 女 性 员 工 的 职 位安 排 上 存在 歧 视 。因为 该公司 216名 女性雇 员中,只 有 10人 (4.6% )为 经理 ,其 余 206名为 办事 员;而 258名 男 性雇员 中,74名(28.7%)为 经理,数 据见 SPSS自带 数 据集 Employeedata.sav。但 是 工 会说 , 男 女间职 位类别 比例的 差异,只 是一个 随机误 差,并 不是真 的存在 性别歧 视。哪 种说法才 是正确 的 呢? 这一 问题可 以看成 是比较 两个性 别组的 职位构 成 比是 否 相同,也 可以 看 成是 两个 分类 变量 的 独立性 检验,相 应的检 验假设 为: H0:性 别与职 位类别 独立,或 男性与 女性的 职位类 别构成 比没有 差别 H1:性 别与职 位类别 不独立 ,或男性 与女性 的职位 类别构 成比有 差别 表 14.4已经 列出了 所有可 能的性 别与职 位类别 组合下 的观察 频数。 显然,如果能 够确 定在 性 别与职 位类别 独立的 假设下 的期望 频数,就 能用 χ2 分 布来确 定观察 和期 望频 数 是否 有显 著差 异 。首先 ,假定性 别与职 位类别 独立的 H0 假设 为真,然后 去检 验数 据 是 否与 假 设一 致 。注 意到 在 表中,共 有 363名办 事员,27名 监察员 ,84名经理 。用比 例来表 示,有 363/474=76.6% 的雇员 为 办事员 ,27/474=5.7%的 雇员 为 监察 员,84/474=17.7% 的 雇员为 经理。 如 果独立 性假 设为 真 ,认为这 些比率 对男女 都适用 ,则应 当期望 216名 女 性雇员 中 有 165.4名 (76.6% ×216)办事 员 ,12.3名(5.7% ×216)监察 员,38.3名 (17.7% ×216)经 理。对 于 258名 男 性应 用 同 样的 比 例 ,最后可 得出如 表 14.5所示 的期望 频数。 表 14.5 Gender* EmploymentCategoryCrosstabulation 令 Eij代表 列联表 中第 i行第 j列的类 别的期 望 频 数。 在这 个 记 号下重 新考 虑 女 性(第 i=1 行 )中监察 员(第 j=2列)的期 望频数 的计算 ,即期 望 频数 E12 。根据 前 面计 算 期望 频数 的讨论 ,          310   第 14章 无 序分类 变量的 统计推 断 χ2 检验 此 处有:E12 =(27÷474)×216=12.3。该表 达 式稍 加变 形 ,可 写为 :E12 =27×216 474 =12.3。 还可 写 为:E12 =Ti=1Tj=2 T ,其中 Ti =1为 第 1行 之 和,Tj =2为第 2列 之和 ,T为总 人 群。 将 该 公式 推 广 ,从而就 可以得 到独立 性检验 中列联 表的期 望频数 计算公 式: Eij= Ti ×Tj T 其 中 Ti 为第 i行之 和,Tj 为 第 j列之 和,T为总人 群。 将观 察频数 与期望 频数进 行 比较 的 统 计方 法 与上 节 单 样本 率 与 已 知率 的比 较 类 似。χ2 统 计 量计算 公式如 下: χ2 =6 r i= 1 6 c j=1 (Aij -Eij)2 Eij 其 中,Aij为 观察 频 数,Eij为 期望 频数 ,6 r i=1 6 c j=1 表示 将 r×c个单 元 格 累加 。对 于 r行 c列 的列 联 表 ,检验统 计量 χ2 服 从 自 由度 为(r-1)×(c-1)的 χ2 值 分 布。 并 要求 ,总 频 数即 T大 于等 于 40,所有单 元格的 期望频 数都大 于或等 于 1,且不 超过 20% 的单元 格的期 望频数 小于 5。 本例 数据中 ,最小的 期望频 数为 12.3,总频 数为 474,满足 χ2 检验 条件。 因此可 以进行 χ2 统 计 量的计 算: χ2 = 6 r i=1 6 c j= 1 (Aij -Eij)2 Eij = (206-165.4)2 165.4 +(0-12.3)2 12.3 +(10-38.3)2 38.3 + (157-197.6)2 197.6 +(27-14.7)2 14.7 +(74-45.7)2 45.7 =79.277 df=(r-1)×(c-1)=2×1=2 检验 统计量 χ2 值 为 79.277,自由 度为 2。对 于检验 显著性 水平 α=0.05,由 自由度为 2的 χ2 界 值 χ2 0.05 =5.99,79.277>5.99,P<0.05,所 以拒 绝 H0 假 设,得出 性 别与 职 位 类别 不 独 立的 结 论 。根据 样本数 据中男 性经理 构成比 较高的 事实,可 以认为 该公司 的确存 在职务 上的性 别歧视 。 本例 中 χ2 统计量 非常大 ,所对 应的 P值 非常小 。当概 率值远 小于 0.05时 ,将可以 很有 把握 的 得出结 论,拒绝 H0 。但由 于 χ2 检验是 一种近 似的检 验方法 ,如果 χ2 统 计量所 对应的 P值在界 值 0.05附 近,或 者样本 量较小 、单元格 理论频 数较少 ,使得 χ2 检 验的 近 似效果 不佳时,下结 论时 要 非常小 心。一 种稳妥 的办法 是在报 告时给 出确切 概率值 ,而不只 是拒绝 H0 假 设。也可 以增大 样 本量,再 作检验 。 讨论 :需要注 意的是 ,χ2 检验 仅仅告 知使用 者各类 别 的构 成 和分 布 是否 相 同,本例 中的 职务 类 别为无 序 分类变 量,监察 员和 办 事员间 不能比 较 次序大 小,因此 可以 进 行 χ2 检验。 如果 为有 序 分类变 量的话 ,则使用 χ2 检验并 不合适 ,而应当 用上一 章介绍 的秩和 检验方 法加以 分析。14.3  相关问 题 两(多)个 率或构 成比的 比较 311             14.3.2 检验方法的 SPSS实现 在 SPSS菜单 中,只 能看到 Analyze→Nonparametrictest→Chi-square⋯ ,可打开 对话框 时发现 , 这 里只能 进行单 样本率 与总体 率的比 较,却无 法进行 多个率 或构成 比的比 较。是 不是 SPSS没有 提 供此项 功能呢 ?当然 不 是。找 不到 它 是 因 为它 实在 藏得 有 点隐 蔽 。在上 面 的讲 解 中 已经 知 道 ,多个率 或构成 比的比 较与列 联表关 系 甚密 。SPSS就是 把 它放 在了 Crosstabs对话 框中(参见 图 14.3)。 下面 仍以例 14.2来 介绍 SPSS中 多样本 χ2 检 验的实 现方法 ,具体 操作如 下: Analyze→DescriptiveStatistics→ Crosstabs Rows框:gender Columns框:jobcat Cells:Counts框组 : Expected:Continue Statistics: Chi-square:Continue OK 在操 作中,首 先需要 指定行 变量和 列变量 分别到 Row(s)和 Column(s)列 表中,但 这仅 仅指 定 了相应 的一个 行变量 ×列变 量的列 联表,如 果希 望进 行 检验 ,则 进入 Statistics子 对话 框,左上 角 即为 χ2 检验 选项。 如图 14.4所 示。 图 14.3 Crosstab主对话框 图 14.4 Statistic子对话框    Crosstabs过 程共有 4个子 对话框 ,除 上面 的 Statistic外,这 里还 用 到了 Cells子 对话 框,在其 中 要求输 出了各 单元格 的理论 频数。 相应 的分析 结果如 表 14.6和表 14.7所 示。          312   第 14章 无 序分类 变量的 统计推 断 χ2 检验 表 14.6 Gender* EmploymentCategoryCrosstabulation 表 14.6给出 的表格 是性别 和职务 的交叉 表,可 见 除实 际 频数 外 ,其中 还 给出 了所 要求 的期 望 频数。 表 14.7 Chi-SquareTests 表 14.7即为 χ2 检验结 果表。 在第一 行,它 依次给 出了 Pearsonχ2 统计量 ,自由度 ,Pearsonχ2 统 计量相 应的近 似概率 (Asymp.Sig.,即近似 P值)。本 例中,χ2 =79.277,与自 由 度为 2的 理论 χ2 分 布比较 ,可以 看出近 似概率 和精确 概率均 为 0.000。 此处,真实概 率并不 是 0,显示为 0是因 为 四舍五 入的缘 故。如 果希望 得到准 确数值 ,则进入 编辑状 态后双 击精确 概率单 元格,可 以发现 精 确概率 是 8.77×10-20。远 小于 0.05或 0.01的 显著性 水平,拒 绝 H0 假设,接 受 H1 假 设,即就 此 数据来 说,可以 非常大 的把握 说性别 与职位 类 别不 独 立,从 样本 频 数 与期 望 频数 的差 距来看 , 女 性更容 易成为 办事员 ,而男性 更容易 得到经 理和监 察员的 职位。 上面 只 对性 别 和 职务 的 关系 进 行了 分 析,并 未 考 虑其他 因素 的 影 响,但 也许 有读 者会 考虑 到 ,应当还 有其他 因素对 职务有 影响,例如可 能不同 性 别的 学 历层 次 有 差异,这同 样会 导致 职务 分 布的不 同,应当 控制学 历的影 响后再 进行分 析。如 果希望 这样做 ,则实 际上就 进入了多 因素分 析 的领域 。本章 后面介 绍的分 层 χ2 可以控 制一个 或几个 分类因 素的作 用,而如 果 希望 同时 控制 如 年龄这 种连续 变量的 作用,则 可参见 本丛书 高级篇 中的 Logistic回 归等相 关章节 。 14.3.3 多样本 χ2 检验的其他话题 1.χ2 检验中 的默认 输出 读者 可以看 到在 χ2 检验 结果表 格中 给 出 了 Pearson χ2 统计 量 ,相应 的 自 由 度及 检 验 概率 。14.3  相关问 题 两(多)个 率或构 成比的 比较 313             除 此之外 ,还给出 了似然 比(LikelihoodRatio)检验 、Fisher精 确概率 法。如 果是四 格表检 验,还会 给 出连续 校正(ContinuityCorrection)χ2 检 验。下 面简要 介绍一 下这几 种方法 。 (1)连续性 校正 χ2 检验 。本法 只适用 于四格 表资 料 ,在 样本 含 量大 于 40,所 有单 元格 的期 望 频数均 大于 1,且只 有 1/5以下 的单元 格的期 望频数 小于 5大于 1时,要对 χ2 统计量进 行连续 性 校正。 这是因 为,当表 格较小 时,由 于 χ2 统计量 与理论 χ2 分布相 差较大 ,统计 学家 FrankYates 提 出对 χ2 统计 量 进行 校 正,使 之更接 近 理论 χ2 分布 ,故也 称 为 Yates校正。 近 年来蒙 特卡 罗随 机 模拟表 明,Yates校正 似乎有 一点矫 枉过正 ,但在 实践工 作中依 然经常 用到。 (2)Fisher精确 概率法 。对四 格表资 料,即 使不选 中 Exact子对话 框中的 Exact,SPSS也会给 出 Fisher精确概 率法检 验结果 。如果 安装了 SPSSExactTest模块,并 在对 话 框中 指定 要求 进行 Exact检验 时,对 其他 列 联 表 也会 给 出 Fisher精 确 概 率 检 验结 果。 Fisher检 验 计 算 在边 缘 合 计 (即 Ti 和 Tj)固定 时,改变 单元格 取值生 成的所 有可 能 表格 的 概率,并 给出 在 H0 假设成 立时,获 取 此差别 或更大 差别 样 本 的准 确 概 率 值。 与 Pearsonχ2 和 似 然比 χ2 相 比 ,优 势 在 于不 需 要 近 似 ,结果最 准确,但计算 时消耗 资源大 。在样 本含量 小于 40,或 有格 子 的期 望频 数小 于 1的 四格 表 中,需要 用 Fisher精确 概率法 。对 于 其他 列联 表,如 果 有 单元 格 的 期 望 频 数 小于 1,或 大 于 1 小 于 5的 期望频 数较多 时,也可 以采用 该法。 (3)似然比 χ2(LikelihoodRatio)。与 Pearson χ2相比,检验的 是同样 的 H0 假 设,即行 变量与 列 变量之 间 相互独 立,不同 的是 χ2 的计 算 公式 不 一样 ,在处理 多维表 时 有更大 的优势 。大 多数 情 况下,二 者的结 论是基 本一致 的。 (4)线性(LinearbyLinear) χ2。检 验的 H0 假设是 行变量 与列变 量 之间无 线性相 关。 在列 联 表分类 变量中 很少用 ,更多用 于连续 变量。 2.χ2 检验对 数据的 要求 不同 的统计 方法各 有优势 ,可依据 数据情 况而选 用不 同的 结 果。 首 先,当 样本 量较 小时,尽 量 选择 Fisher精 确概率 法。其 次,如果 样本含 量大 于 40,最小单 元 格期 望频数 大于 5时 ,可参看 Pearsonχ2 检验结 果。再 次,如果 是四格 表,20%以下 的单元 格期望 频数小 于 5但大 于 1,可 以参 照 连续性 校正 χ2 结果 。 对于 四格表 以外的 列联表 ,如果有 单元格 的期望 频数小 于 1,或大 于 1小于 5的期 望频 数较 多 时,可以 采用增 大样本 含量,邻近行 列合并 或无意 义 行列 删 除的 方 法 使数 据 符合 以上 要求,从 而 利用 Pearsonχ2 检验 进行率 或构成 比的比 较。 另外 ,在 SPSSχ2 检验结 果表格 的注释 中标明 了该 次 χ2 检 验中,最 小的期 望 频数是 多少,有 多 少百分 比 的 单 元 格 的 期 望 频 数 小 于 5,作 此 注 释 就 是 为 了 提 醒 大 家 查 看 数 据 是 否 符 合 Pearsonχ2 检验的 要求。 最后 ,有关多 个 率或 构 成比的 两 两比 较 χ2 检验是 对多个 率 或构成 比的比 较,如 果 想对 其中 的 两个率 进行相 互比较 时,最好 能够采 用更加 复杂 的 分类数 据模型 ,如对 数 线性 模型 或者 Logis- tic回归 模型进 行分析 ,采用 列联表 分割等 方法只 能得到 近似的 结果,最 好不要 使用。          314   第 14章 无 序分类 变量的 统计推 断 χ2 检验 14.4 两分类变量间关联程度的度量 χ2 检验 可以从 定性的 角度说 明两个 变量是 否存在 关联,当 拒绝 H0 时,在 统 计上有 把握 认为 两 个变量 存在相 关。但 接下来 的 问 题是 ,如果 变 量 之间 存 在相 关性 ,它 们之 间 的关 联 强 度有 多 大 ?例如 作一个 客户满 意度的 研究,研 究者发 现价格 、质量 、服务都 与总体 满意度 相关,但 哪项与 总 体满意 度关系 更密切 一些呢 ?当前 为提高 客户满 意度,最 需要做 的是调 整价格 ,提高服 务水平 还 是改进 产品质 量?这 里就来 深入探 讨一下 对分类 变量关 联程度 的度量 方式。 针对不同 的变量 类 型,在 SPSS中 可以计 算各种 各样 的相 关指 标 ,而且 Crosstabs过程 也对 此 提 供 了完 整 的 支持 , 但 此处只 涉及测 量二分 类变量 间关联 强度的 指标,更 系统的 相关程 度指标 体系参 见下一 章。 14.4.1 相对危险度与优势比 实际 应用中 ,χ2 值的 大小可 以粗略 的反映 两变量 联 系的 强 弱,但 是这 很 难有 更贴 近实 际的 解 释,研究 者只能 从它的 大小上 有一个 关联强 弱的印 象。但 是如果 有一个 指标能 够告诉 研究者 : 男 性和女 性相比 ,购买该 产品的 可能性 是女性 的 3倍 ,这就 非常容 易理 解。 相对 危 险度(Relative Risk,简 称 RR)和优势 比(OddsRatio,简称 OR,也翻 译成比 值比)就 可以满 足这一 要求,它 们与其 他 关联测 量参数 的最大 不同之 处在于 ,RR值 和 OR值关 心的是 行 变量 某一 水平 和 列变 量某 一水 平 相对于 基础水 平的关 联程度 ,即不同 水平间 的比较 ,而上 述的关 联测量 参数关 心的则是 行变量 各 水平和 列变量 各水平 的关联 程度。 1.相对危 险度 RR值 是一个 概率的 比值,是 指实 验 组 人 群反 应阳 性 概 率与 对 照组 人群 反应 阳 性 概 率的 比 值 。用公 式表示 : RR=Pt Pc =a/nt c/nc 其中 ,Pt 为实验 组人群 反应阳 性概率 ,Pc 为对 照组人 群反应 阳性概 率,nt 为 实验 组 总人数 ,a 为 实验组 反应阳 性人数 ,nc 为对 照 组总人 数,c为对 照组 反应 阳 性人 数。RR值 用于 反 映 实验 因 素 与反应 阳性的 关联程 度。取 值范围 从 0到 无限 大。 数值 为 1时,表 明实 验 因素 与反 应阳 性无 关 联;小于 1时,表明实 验因素 导致反 应阳性 的发生 率降低 ;大于 1时,表 明实验 因素导致 反应阳 性 的发生 率增加 。 2.优势比 显然 ,RR的 解释非 常容易 理解,但 是 RR的 计算要 求得到 各 组的 反 应概率 ,由 于在 回顾 性研 究 中很难 求得人 群反应 概率的 估 计值,因此 也无 法进行 RR值 的估 计 ,此 时 研 究者 往 往 使用 OR 值 代替 RR值 ,来反 映实验 因素与 对照因 素的关 联强度 。OR值 是一个 比 值的比 。 是反 应阳 性人 群 中实验 因素有 无的比 例与反 应阴性 人群中 实验因 素有无 的比例 之比。 计算公 式可以表 达为:14.4 两分 类变量 间关联 程度的 度量 315             OR=a/b c/d=ad bc 其 中,a为反应 阳性 组 实验因 素阳性 人 数,b为 反 应阳性 组实验 因 素阴 性人数 ,c为反应 阴 性组实 验 因素阳 性人数 ,d为 反应阴 性组实 验因素 阴性人 数。显 然,如 果 OR大于 1,则 说 明该 试验 因素 更 容易导 致结果 为阳性 。或者 说采用 试验因 素和结 果为阳 性有关 联。 由于 优势比 是两个 比值的 比值,因 此它不 太好 解 释,而 解 释相 对 危 险度 则 要容 易得 多,因此 大 多数情 况下人 们希望 能够将 优势比 按照相 对危险 度的含 义来解 释。当 所关注 的事件发 生概率 比 较小时 (<0.1),优势比 可作为 相对危 险度的 近似。 14.4.2 分析实例 例 14.3 某公 司实行 数据库 营 销,其 杂志 销售 部每 个 月向 数据 库中 的 人 们 发送 征 订 邮件 , 但 是回应 率极低 。他们 希望找 到一种 好的方 法来定 位潜在 的客户 ,只向这 些客户 发放邮 件,从而 节 省人力 物力。 数据库 中的资 料包 括:个人 一般 信 息(年龄 、性 别、婚 姻状 况 、收 入、受 教 育水 平 及 是否退 休等),个 人行为 特征(主 要交通 工具、有无手 机、呼机 、电视 、CD及是 否 订阅 报纸 )。另 外 ,在发送 邮件后 ,还有 一个变 量也加 入到了 数据库 中:是否 对邮件 进行回 应,即 是否在邮 件的提 示 下进行 杂志购 买。经 研究发 现,报纸 订阅与 邮 件回 应 有相 关 性。该 部门 经 理想 了解 报纸 订阅 者 回应邮 件的概 率是非 订阅者 的几倍 。数据 见 SPSS自带文 件 demo.sav。 列联 表分析 表明,并 不是有 太多人 对杂志 的邮件 做出回 应,但 是其中 报纸订 阅人人群 占了较 大 比例。 经 χ2 检验,P值为 0.000,故 认为订 阅报纸 与邮件 回应是 相关的 。那么 报纸订 阅者 的回 应 概率是 未订阅 者的多 少倍呢 ?由于 参与分 析的两 个 变量 均 为二 分 类 变量,该问 题就 可以 通过 计 算 RR来加 以解决 。在 SPSS中的 具体操 作如下 : Analyze→DescriptiveStatistics→ Crosstabs Rows框:News Columns框:Response Statistics: Risk Continue OK 分析 结果如 表 14.8和表 14.9所 示。 表 14.8 Newspapersubscription* ResponseCrosstabulation          316   第 14章 无 序分类 变量的 统计推 断 χ2 检验 表 14.9 RiskEstimate 在此 处,对于 报纸订 阅者而 言,邮 件响应 的相对 危险度 是其回 应概率 与非报 纸订阅者 的回应 概 率的比 值,其估 计值是 13.7% /8.2% = 1.668。 同样,无 回 应的 相 对危 险 度 是其 未 回 应概 率 与 非报纸 订阅者 未回应 概率的 比值,即 86.3% /91.8% = 0.940。通过 这些结 果可知,报纸 订阅 者 对于邮 件的回 应概率 是 非 报纸 订 阅者 的 1.668倍 ,或者 说 无 回 应 的概 率 是 非 报 纸订 阅 者 的 0.94倍。 优势 比 OR是两 个比数 的 比。一 件事 件 的 比数 是 它 发 生 的概 率 除 以不 发 生的 概 率。本 例 中 ,报纸订 阅者对 邮件的 回应比 数是 13.7% /86.3% = 0.158。 同样,非报 纸订 阅 者对 邮件 的回 应 比数是 8.2% /91.8% = 0.089。 则优势 比(OddsRatioforNewspapersubscription(Yes/No)) 的 值是 0.158/0.089 =1.775。OR也是邮 件回应 的 相 对危 险度与 无 回 应的 相 对危 险 度 之比 值 (1.668/0.940=1.775)。 OR值 和 RR值具 体含义 的解释 见表 14.10。 表 14.10 OR值和 RR值具体含义的解释 人  群 响应 参数 计  算 释  义 订阅报纸者 回应 RR 380/2768 299/3632=1.67 订阅报纸者的邮件回应率是未订阅报纸者的 1.67倍 OR 380/2388 299/3333=1.77 订阅报纸者的邮件回应率约是未订阅报纸者的 1.77倍 未回应 RR 2388/2768 3333/3632=0.94 订阅报纸者的邮件不回应率是未订阅报纸者的 0.94倍 OR 2388/380 3333/299=0.56 订阅报纸者的邮件不回应率约是未订阅报纸者的 0.56倍 未订阅报纸者 回应 RR 299/3632 380/2768=0.60 未订阅报纸者的邮件回应率是订阅报纸者的 0.60倍 OR 299/3333 380/2388=0.56 未订阅报纸者的邮件回应率约是订阅报纸者的 0.56倍 未回应 RR 3333/3632 2388/2768=1.06 未订阅报纸者的邮件不回应率是订阅报纸者的 1.06倍 OR 3333/299 2388/380=1.77 未订阅报纸者的邮件不回应率约是订阅报纸者的 1.77倍14.5  一致性 检验与 配对 χ2 检验 317                由于 本例是 前瞻性 的研究 设计,能 够直接 求得两 种人群 各自的 回应概 率,可 以直接得 到相对 危 险度的 估计值 ,即报纸 订阅者 回应概 率是 非 报 纸订 阅 者的 1.668倍 。 如果 向 100名 非报 纸订 阅 者发邮 件,有 8人回应 的话,那么,向 100名 报纸订 阅者 发邮 件,会有 8×1.668=13.344人回 应 。为此 ,如果购 买报纸 订阅者 的数据 库,将 会使邮 件回应 率提高 ,并能在 实施这 项措施 以前,对 结 果有一 个大致 的估计 。 14.5 一致性检验与配对 χ2 检验 14.5.1 Kappa一致性检验 在 Pearsonχ2 检 验中,对行变 量和列 变量的 相关性 作了检 验 ,其中 行变 量和 列 变量 是一 个事 物 的两个 不同属 性,如果 两个变 量 独立的 话,可以 期望 第 i行 j列 单元格 中 频数为 n×pi ×pj,其 中 n为总 观察频 数,pi 为 第 i行的概 率,pj 为第 j列的 概率。 还有 一种列 联表,其 行变量 和列变 量反映 的是一 个事物 的同一 属性的 相同水 平,只是 对该属 性 各水平 的区分 方法不 同。这 相当于 在研究 设计中 采 用了 配 对设 计 ,例如 在 一张 表内 显示 某病 的 诊断结 果,行变 量为一 种诊断 方法,列变量 为另一 种 诊断 方 法;或者 在一 张 表内 显示 对某 事物 的 评价等 级,行变 量和列 变量分 别显示 不同裁 判员的 评价。 这种表 有一个 特征:行的数目 与列的 数 目总是 相同的 。如果 希望检 验这两 种区分 同一属 性 的方 法 给出 的 结 果是 否 一致,则 不应 当使 用 Pearsonχ2 检 验,因 为 Pearson χ2 检验 并不适 用于这 种配对 设 计的 数 据,它无 法 检验 结果 的一 致 程度。 此时,可 以采用 Kappa一致性 检验对 两种方 法结果 的一致 程度进 行评价 。 例 14.4 某公 司期望 扩展业 务,增开 几家分 店,但 对 开店地 址 不太 确定。 于是选 了 20个地 址 ,请两位 资深顾 问分别 对 20个地址 作了一 个评价 ,把它们 评为好 、中、差 三个等 级,以便 确定应 对 哪些地 址进行 更进一 步调查 ,那么这 两位资 深顾问 的评价 结果是 否一致 ?(数据 见 site.sav) 在 SPSS中,依然用 Crosstabs对话框 ,将两 个 顾 问的 评 价结 果分 别作 为 行 变 量或 列 变 量,并 在 Statistics子对 话框中 指定要 求作 Kappa统 计分析 。 另外因 本例 样 本 量很小 ,故 要求 计算 确切 概 率以保 证结果 的正确 性。SPSS中 具体操 作如下 : Analyze→DescriptiveStatistics→ Crosstabs Rows框:cons1 Columns框:cons2 Statistics: Kappa:Continue Exact: Exact:Continue OK 结果 如表 14.11和 表 14.12所示 。          318   第 14章 无 序分类 变量的 统计推 断 χ2 检验 表 14.11 Ratingfrom consultant1* Ratingfrom consultant2Crosstabulation 表 14.12 SymmetricMeasures 注意 这里 Kappa检 验的 H0 假设是 :Kappa=0,即 两 者 完全 无 关。 表 14.12显示 Kappa值为 0.429,P值为 0.001,拒绝 H0 假 设(两位 顾 问的 评 价结 果 不 一致 ),接 受 H1 假 设,认为 两位 顾问 的 评价结 果 是 存在 一致性 的 。但 根 据经 验 ,一般 认 为当 Kappa≥ 0.75时 表明 两者一 致 性 较好 ; 0.75>Kappa≥ 0.4时一 致性一 般,Kappa<0.4则 表明两 者一致 性较差 。此处 的估计 值为 0.429, 因 此实际 上本例 中数据 的一 致性 并不 是 很 强。特 别是 有 一 个 地址 两人 竟给 出 了完 全 对 立的 评 价 。 一致 性检验 在医学 研究中 用得很 多。如 研究一 种简单 易行的 诊断方 法是否 可替代另 一种结 果 可靠但 操作繁 杂的诊 断方法 ,就会用 到一致 性检验 。 另外 ,在数 据 分 析中,比较 两种 预测 方法 预 测结果 的一致 性时也 可能会 用到 Kappa检 验。 14.5.2 配对 χ2 检验 通过 上文的 Kappa检验,解 决了两 种测量 间究竟 有 无关 联 的问 题 。但 是 通过 对列 联表 的观 察 ,发现两 位顾问 的评价 似乎 不 太 一样 ,这种 假 设 又如 何 来加 以 分 析?McNemar配对 χ2 检验 就 是 经典的 配对检 验,专门 用于解 决此类 问题。 在 Statistics子 对话框 的 左下 角 就是 McNemar复选 框 ,例如例 14.4,选 择后相 应的结 果输出 如表 14.13所 示。 表 14.13 Chi-SquareTests14.6  分层 χ2 检验 319             此处 的原假 设为:两 顾问的 评价结 果无差 别,显 然,P值 小于 0.05,因此 拒 绝了 该假 设,认为 应 当是有 差别的 ,从样本 数据看 ,应当 是第一 个顾问 倾向于 评价得 更高。 现在 ,Kappa检验 认为两 者的评 价存 在 一 致性,而 配 对 χ2 检验 则认 为两 者 的结 果 是 有差 别 的 。实际 上,这两 个结论 并不矛 盾,参 考前面 对 Kappa值 的评 价方式 就 可 以理 解。 另外 ,这 两者 在 信息的 利用上 也有差 异。Kappa检验会 利用列 联 表中的 全部 信 息,而 McNemar检验 只会 利用 非 主对角 线单元 格上的 信息,即 它只关 心两者 不一致 的评价 情况,用于比 较两个 评价者间 存在怎 样 的倾向 。因此 ,对于一 致性较 好,即绝 大 多数 数据 都在 主 对角 线上 的 大 样 本列 联 表,McNemar 检 验可能 会失去 实用价 值。例 如对 1万 个案 例 进 行一 致 性 评价 ,9995个 都 是 完 全一 致 的,分 布 在 主 对 角 线 上 ,另 有 5个 分 布 在 左 下 的 三 角 区 ,显 然,此 时 一 致 性 相 当 的 好 。 但 如 果 使 用 McNemar检验 ,由于它 并不考 虑主对 角线上 的数据 ,只会 利用上 、下三 角 区的信 息,此时 反而 会得 出 两种评 价有差 异的结 论来。 14.6 分层 χ2 检验 在 例 14.2中 ,经 χ2 检 验 发 现 男 性 与 女 性 的 职 位 类 别 分 配 确 实 存 在 差 异 。 可 这 种 差 异 是 不 是 真 的 是 由 性 别 引 起 的 呢 ? 如 果 女 性 人 群 学 历 普 遍 低 ,因 而 导 致 职 位 类 别 低 ,而 男 性 中 学 历 普 遍 高 而 导 致 职 位 类 别 高 ,做 性 别 与 职 位 类 别 独 立 性 的 χ2 检 验 时 ,也 会 得 到 “男 性 与 女 性 在 职 位 类 别 分 配 上 存 在 差 异 ”的 结 果 。 这 种 职 位 类 别 的 差 异 表 面 上 看 是 性 别 差 异 ,但 实 质 上 却 是 由 学 历 程 度 引 起 的 ,而 不 是 一 个 性 别 歧 视 问 题 。 在 这 里 ,由 于 男 性 人 群 和 女 性 人 群 中 学 历 分 布 上 有 差 异 ,也 就 是 说 两 组 人 群 不 具 有 可 比 性 ,所 以 可 能 会 导 致 得 出 有 偏 颇 的 结 论 。 面 对 这 样 的 两 个 在 学 历 程 度 上 分 布 不 均 的 人 群 ,该 如 何 去 检 验 这 两 个 人 群 在 职 位 类 别 的 分 配 比 例 上 是 否 存 在 差 别 呢 ? 要 想 得 出 真 实 的 有 关 性 别 与 职 位 类 别 的 相 关 结 果 ,必 须 去 掉 这 种 不 平 衡 。 分 层 χ2 检 验 为 解 决 此 类 问 题 提 供 了 一 种 好 的 方 法 。 分层 χ2 是 把研究 对象分 解成不 同层次 ,每层 分别研 究行变 量与列 变 量的相 关。如 按工 资级 别 分成低 、中、高 层,分别 研究低 、中、高 工资的 人报纸 订阅与 邮件回 应的关 系;按 受教育水 平分成 本 科以下 、本科、硕士、博 士 及 以上 ,分 别研 究 性别 与 职 位 类别 的 关 系,借 以 排 除 这 些分 层 因 素 (如 工资级 别、受教 育水 平 )对 行变 量 与列 变 量 关联 的 干 扰。 分 层 因 素 在 几 个 组之 间 的 分布 不 均 ,既可能 削弱了 原本存 在的行 变量与 列变量 间的关 系,也 可能使 得原本 不存在 关系的两 个变量 的 关系呈 现统计 学显著 性。 例 14.5 某零 售连锁 店对 3家分 店的 客 户满 意度进 行 了 调查 ,数 据见 cmh.sav。 其中 一项 指 标是在 购物时 是否经 常向店 员寻求 帮助,现 希望分 析寻求 帮助与 性别间 有无联 系。 使用 SPSS的 Crosstabs对话 框,将 gender和 contact分 别作 为行 变量 和 列变 量,并要 求作 χ2 检 验,即可 得到分 析结果 如表 14.14所 示。          320   第 14章 无 序分类 变量的 统计推 断 χ2 检验 表 14.14 Chi-SquareTests 可见 当使用 所有数 据进行 分析时 ,可以认 为两者 间是有 联系的 。但是 ,有分 析者考虑 到可能 在 不同分 店间顾 客的平 均求助 倾向并 不相同 ,因此又 可以对 数据分 层进行 分析,操作如下 : Analyze→DescriptiveStatistics→ Crosstabs Rows框:gender Columns框:contact Layer1of1框 :store Statistics: chi-square:Continue Cells:Percentage: Row:Continue OK 分析 结果如 表 14.15和表 14.16所示,注意相 应的表 格都进 行过编 辑。 表 14.15 性别 * 寻求帮助 StoreCrosstabulation 由表 14.15可见,三 个分店 顾客的 求助倾 向似 乎 是 有些 差 异,比 如 第二 家 分店 要偏 高一些 , 而 第一、三 家要低 一些。14.6  分层 χ2 检验 321             表 14.16 Chi-SquareTests 表 14.16分 别是对 各分店 数据进 行的 χ2 检验 ,可见 虽然 P值 大小各 异,但 均无统 计 学差异 。 但 是,由于 分层以 后样本 量大大 减小,这究竟 是因为 检 验效 能 不足 导 致 的无 差 异,还是 真的 无差 异 ?为此 可 以使 用 Cochran’sandMantel-Haenszelχ2 检 验来 分析,这 种方法 可以 在考 虑了分 层 因 素的影 响后给 出检验 结果,操 作如下 : Analyze→DescriptiveStatistics→ Crosstabs Rows框:gender Columns框:contact Layer1of1框 :store Statistics: Cochran’sandMantel-Haenszelstatistics:Continue OK 表 14.17 TestsofHomogeneityoftheOddsRatio 结果 中首先 给出的 是层间 差异的 检验(参 见表 14.17),即考 察不 同层 间 gender与 contact的 联 系是否 相同,分 别 采 用 了 两 种 检 验 方 法,可 见 结 论 相 同,认 为 在 不 同 分 店 间 层 间,gender与 contact的联 系是相 同的。 表 14.18 TestsofConditionalIndependence          322   第 14章 无 序分类 变量的 统计推 断 χ2 检验 表 14.18给 出的是 分层 χ2 检 验 的 结 果,即考 虑 了 (或 者说 去 除了 )分 层 因 素 的 影 响 后,对 gender与 contact的 关联的 检验结 果,共给 出 CMH χ2 检 验 和 MH χ2 检 验两 种 结 果,前 者 是后 者 的 改进,可 见 P值 均小于 0.05,即可 以认为 性别与 求助有 关。 表 14.19 Mantel-HaenszelCommonOddsRatioEstimate 表 14.19给 出的是 ORMH 值(调整 了分层 因素作 用 后的综 合 OR值 )、ORM H 值的 自然 对数、可 信 区间及 其相应 的 P值,可 见统计 检 验结论 和前面 一致,ORM H =0.636,即去 除 了不同 分店 的混 杂 效应后 ,和女性 相比,男性顾 客寻求 帮助的 优势比 为 0.636,或者说 更不容 易寻求 帮助。 分层 χ2 检 验是一 种很好 的控制 其他因 素的方 法,使 分析者 能得到 更 准确的 结果。 如果 数据 量 足够大 ,还可以 引入更 多的分 层因素 加以控 制。但 是,和 SAS中 的 CMH χ2 不同 ,SPSS提 供的 CMH χ2 检验 只能进 行二分 类变量 的检验 ,而不 能进行 多 分 类变 量 的检 验 。这是 因为 分层 χ2 只 是 对分层 因素进 行了简 单的控 制,当各 层间效 应的大 小不同 ,或者 说分层 因素和 要分析的 变量间 存 在交互 作用时 ,分层 χ2 检验 就不 再 适 用。而 这 种情 况 在多 分 类 变 量 的 分 层 分析 中 会 经常 遇 到 ,此时应 当使用 对数线 性模型 或者 Logistic模 型来进 行更 为 深入 和 准 确的 分 析,这些 方法 请参 见 本丛书 《SPSS统计分 析高级 教程》的 相关章 节,这 里不再 详述。 14.7 本 章 小 结 (1) χ2 检 验是以 χ2 分布为 基础的 一种常 用假 设 检验 方法 ,常用 作 计数 资 料的 显著 性检验 。 其 基本思 想是:首 先假设 观察频 数与期 望频数 没有差 别。而 统计量 χ2 值表 示观 察 值与 理论 值之 间 的偏离 程度。 当 n比 较大时 ,χ2 统计 量近似 服从 k-1个 自由度 的 χ2 分布。 在自由 度 固定时 , 每 个 χ2 值与一 个概率 值(P值)相对 应,此概 率值即 为在 H0 假设 成立的 前提下 ,出现这 样一 个样 本 或更大 差别样 本的 概率 。 如 果 P值 小 于 或 等 于 用户 所 设 的 显 著 性 水 平,则 应 拒 绝 H0,接 受 H1。 (2)关联程 度的测 量:χ2 检 验从定 性的角 度分析 是否存 在相关 ,而各 种 关联 指标 从定 量的 角 度分析 相关的 程度如 何。不 同的指 标适用 于不同 类型的 变量。 � RR值 是一个 概率的 比值,是 指实验 组人 群反 应阳性 概率 与对 照 组人 群反 应阳 性 概率 的思考与 练习 323             比 值。用 于反映 实验因 素与反 应阳性 的关联 程度。 � OR值是 比值的 比。是 反应阳 性人群 中实验 因素有 无的比 例与反 应阴性 人 群中 实验 因素 有 无的比 例之比 。在下 列两个 条件 均满 足时,可 用 于估 计 RR值。 ①所 关注 的 事件 发 生 概率 比 较 小(<0.1)。这个 条件保 证比值 比将能 对相对 危险度 有一个 好 的近 似。 ②所 设 计的 研究 是病 例 对照研 究。 � 在 SPSS中,Crosstabs过程的 Statistics子对 话框中 选中 Risk会自动 给出 OR与 RR值。 (3)Kappa检验 与配对 χ2 检 验:Kappa一 致 性 检验 对 两种 方 法结 果 的 一致 程 度 进 行 评价 。 配 对 χ2 检验则 用于分 析两种 分类方 法的分 类结果 是否有 差异。 (4)分层 χ2 检验 :分层 χ2 是 把研究 对象分 解成不 同层次 ,按各 层 对象来 进 行行 变 量与 列变 量 的独立 性研究 。可在 去除 分层 因 素下 更 准 确地 对行 列 变 量 的独 立 性 进行 研 究。在 SPSS中 , Crosstabs过程的 Statistics子对 话框中 选中 Cochran’sandMantel-Haenszelstatistics会自动 给出分 层 χ2 检 验结果 。 思考与练习 1.在周六 晚 节 目 单 修 订 前 后,分 别 作 了 收 视 率 的 调 查。 在 节 目 修 改 前 ,收 视 率 记 录 为 ABC29% ,CBS28% ,NBC25% ,独立电 台 18%。 节目 修 改 后,300个 家庭 所组 成 的样 本 产 生下 列 电 视收视 数据:ABC95个 家庭,CBS70个 家庭,NBC89个 家 庭,独 立电台 46个 家 庭。取 显著 性水 平 α=0.05,检 验电视 收视率 是否已 经发生 了变化 。请用 软件 SPSS作分 析,并 解释各 表含义 。 2.在周六 晚节目 单修订 前后,分别作 了收视 率的调 查。在 节目修 改前,300个家庭收 视记录 为 :ABC76个家庭 ,CBS89个家庭 ,NBC83个家庭 ,独立 电台 52个家庭 。节目 修改后 ,300个 家庭 所 组成的 样本产 生下列 电视 收视 数据:ABC95个 家 庭,CBS70个 家 庭,NBC89个 家庭 ,独 立电 台 46个 家庭。 取显著 性水平 α=0.05,检 验电视 收视率 是否已 经发生 了变化 。请用 软件 SPSS作分 析 ,并解释 各表含 义(请将 本题与 第 1题 作比较 )。 3.三名推 销员三 个月内 的销售 数量报 告如题 3表。 取 显著 性 水平 α=0.05,检验 推销 员与 产 品类型 的独立 性。你 有何结 论? 题 3表 推销员 产品 A B C Michael 14 12 4 David 21 16 8 Alice 15 5 10    4.一家生 产性公 司从三 家供应 商处购 买某零 件,但 该零件 经 常出现 次 品。 在记 录的 445件 零 件质量 数据中 ,100件来 自 A公 司 ,其中 90件质 量 等 级为 良好,3件 有 小 缺陷 ,7件 有 大 缺陷 ; 195件 来自 B公 司,其 中 170件质量 等 级为 良好,18件 有小缺 陷,7件有 大 缺陷;150件来自 C公 司 ,其中 135件质 量等级 为良好 ,6件 有小 缺 陷,9件 有 大 缺陷。 取 显著 性 水平 α=0.05,检验 供 应 商与零 件质量 的独立 性。你 的分析 结果能 告诉采 购部门 什么?          324   第 14章 无 序分类 变量的 统计推 断 χ2 检验 参考文献 1 StatisticalAnalysisUsingSPSS.SPSSInc.Chicago,Illinois,2001 2 茆 诗松,周纪芗 .概率论 与数理 统计.北京:中 国统计 出版社 ,1996 3 陈 希孺.数理统 计学简 史.长沙 :湖南 教育出 版社,2002 4 张 文彤主 编.SPSS11统 计分析 教程(基 础篇).北 京:北 京希望 电子出 版社,2002 5 魏 宗舒等 译.统 计学.第 二版.北京:中 国统计 出版社 ,1997 6 张 建华等 译.商 务与经 济统计 (原书第 7版).北 京:机 械工业 出版社 ,2000第 章 相关分析与回归分析 唯物 论者认 为任何 事物之 间都是 有联系 的,这种 联系无 非存在 强弱、直接间 接的差别 。相关 分 析就是 通过定 量的指 标来描 述这种 联系。 在上一 章中实 际上已 经接触 到了相 关分析的 指标体 系 ,根据变 量的不 同类型 ,可以 选用各 种各样 的相关 程度描 述指标 。本章 将针对 连续变量 的情形 就 此问题 作进一 步的深 入探讨 ,并对回 归方法 也作一 简单介 绍。 图 15.1 两变量间关系的示意图 相关 分 析和 回 归 分析 都 可以 用 来考 察 两 个连 续 变量 间 的 关系,但 反映的 是不 同的 侧 面:图 15.1所示的 两幅散 点图坐 标尺度 相同,都 反映了 X和 Y两个 变量 的 关 联趋势 ,但 它们 有两 个明 显 的差别 。首先 ,左图的 散点明 显要比 右图中 稀疏一 些,这 表明左 图中两 变量在 数量上的 联系是 弱 于右图 的。如 果要用 统计指 标对这 种差别 进行表 述,则应 当进行 相关分 析,相 关系数就 可以反 映 散点的 疏密,左 图计算 出的相 关系 数 没 有右图 的大。 其 次,如 果 在图 中 观察 当 X变动 时 Y的 数 量变化 ,则会发 现在左 图中当 X每增 加一个 单 位时,Y平 均 增加的 较多,而 在右 图 中 X增 加一 个 单位时 Y平均增 加的较 少。即 左图中 X的变 动对 Y数 值的影 响要 比 右图中 大,这种 差别 在统 计 中可以 使用回 归分析 来加以 表述。 15.1 相关分析简介 15.1.1 相关分析的指标体系 尽管 在提及 相关分 析时,往 往考察 的都是 两个连 续变量 的相关 关系,但实际 上对任何 类型的 变 量,都可 以使用 相应的 指标进 行相关 关系的 考察。 而且 在 上 一章中 大家 就 已经 接触 到了 一些 相 关指标 。为了 能使读 者建立 一个完 整的相 关分析 体 系,这 里 首先向 大家 介 绍针 对不 同的 变量          326   第 15章 相 关分析 与回归 分析 类 型时可 供使用 的相关 分析指 标种类 。 测量 相关程 度的相 关系数 有很多 ,各种参 数的 计 算 方法及 特点 各 异。有 的 是 基于 χ2 值,有 的 则主要 考虑预 测效果 。有些 是对称 性的,有 些 是非 对称 性 的(在 将变 量的 位 置互 换时 ,对 称性 参 数将不 变,非对 称性参 数则会 改变)。 大部分 关联强 度参数 取值范 围在 0~1之间 ,0代表 完全 不 相关,1代表 完全相 关;但 是,对于 反映定 序变量 或连续 变量间 关联 程 度的参 数,其取 值范 围则 在 -1~1之 间,绝对 值代表 相关程 度,而 符号则 代表是 正相关 还是负 相关。 1.连续变 量的相 关指标 显然 ,这种情 况是最 常见的 ,此时 一般使 用积差 相关系 数,又称 Pearson相关 系数来表 示其相 关 性的大 小,但严 格地讲 ,积差 相关 系数 只 适用 于两 变量 呈 线性 相关时 。 其数 值 介 于 -1~1之 间 ,当两变 量相关 性达到 最大,散点呈 一条直 线时取 值 为 -1或 1,正 负 号表 明 了相 关的 方向;如 两 变量完 全无关 ,则取值 为 0。 作为 参数方 法,积差 相关分 析有一 定的适 用条 件 ,当数 据 不能 满 足 这些 条 件时,分 析者 可以 考 虑使用 Spearman等 级相关 系数来 解决这 一问题 。 2.有序变 量的相 关指标 所谓 有序的 等级资 料的相 关性 /一 致性高 ,就是 指 行变 量 等级 高 的 列变 量 等级 也高 ,行 变量 等 级低的 列变量 等级也 低。如 果行变 量等级 高而列 变 量 等级 低,则 被 称 为不 一 致。在 详细 介绍 所 用指标 之前先 要搞清 楚两个 指标的 含义:当 按此两 变量取 值列出 交叉表 后,P代 表两 变量 的一 致 对子数 ,Q代 表两变 量不一 致的对 子数。 所 谓一致 对子 数 就 是指行 变量 等 级高 的列 变量 等级 也 高,反之 亦然。 按此可 以计算 下面的 5个 指 标,它 们 实际 上 均 是基 于 Gamma统 计量 衍生 出来 的 。 (1)Gamma统 计量:描 述有序 分类数 据联系 强度 的 度量。 介 于 -1~1之 间,当观 察值 集中 于 对角线 处时,其 取值为 -1或 1,表示 两者取 值绝 对 一 致或 绝 对不 一 致;如 两 变量 完全 无关,则 取 值为 0。它 的计算 公式非 常简单 ,γ=(P-Q)/(P+Q)。 (2)Kendall�sTau-b:讲 解该系 数必须 要先解 释 a 系数,该系数 是以同 序对 P与 异序 对 Q之 差 为分子 : a = P -Q n(n-1)/2    理论 上 a 的取值 范围是 ±1,但 是 当 相同 等 级太 多 时,会 使 其 的 极 大 值 与 极小 值 不 能达 到 ±1,为此 在分母 上按照 相同等 级的 对子 数 进行 了校 正,以 保证 取 值 范围 能达 到 ±1。 此即 b 系 数 ,因校正 后公式 比较复 杂,这 里不再 给出。 (3)Kendall�sTau-c:在 Kendall�sTau-b的 基础上 又进一 步考虑 了整张 列联表 的大小 ,并对其 进 行了校 正。 (4)Somers�D(C|R):d系 数为 Somer所创,因 此称 Somer�sd。它是 b 的不对 称调整 ,只校正 了 自变量 相等的 对子。 分别给 出了 dyx和 dxy两个 系数: dyx = P-Q P +Q +Py ,dxy = P -Q P +Q +Px15.1 相 关分析 简介 327                dyx表示 x为自 变量,y为 因变量 时的情 况,其 中 Py 表 示仅在 y方向 的同分 对。 3.名义变 量的相 关指标 对于 名义变 量,实际 上上一 章中所 学习 的 χ2 检 验 中 的 χ2 值就 可以 用于 测 量两 个 变 量的 相 关 性,而这 里介绍 的更专 业的指 标实际 上多数 也就是 从 χ2 值进 一步衍 生 而来。 可 以用 以下 几个 指 标来评 价相关 性。 (1)列联系 数(ContingencyCoefficient):基于 χ2 值 得出,公 式为 χ2 /(χ2 +n),其中 n为总样 本 量。其 值介于 0~1之 间,越 大表明 两变量 间相关 性越强 。 (2)PhiandCramer�sV:这两者 也是基 于 χ2 值的 ,Phi是 基于 χ2 值和 总观察 频数计 算而来 ,� = χ2 /n。在 四格表 χ2 检 验中介 于 0~1之 间,其 他 列联 表 时其 取 值 理论 上 没 有 上限 ,值 越大 , 关 联程度 越强。 Cramer�sV是 Phi的一 个 调整 ,较 Phi在关 联 程 度的 测量上 相 对 保守 ,经 调整 后 使 得取值 范围在 任何列 联表中 ,取值均 不超过 1。 指标的 绝对值 越大,则相关 性越强 : V = �2 /min[(r-1),(c-1)]    分母 中的 min[(r-1),(c-1)],表示选 择(r-1),(c-1)中的较 小 者作为 除数。 经过 这样 的 改进,V的取 值范围 就在[0,1]之间 了,因此 V系数 就克服 了 �系数 不能 与其 他 相关 系数 间进 行 比较的 缺点。 (3)λ系数 (Lambda):用于反 映自 变 量 对因 变 量的 预 测效 果,即知 道自 变 量取 值 时 对因 变 量 的预测 有多少 改进,或 者说知 道自 变 量 的取 值 时期 望 预 测误 差 个数 减 少 的比 例,Lambda将误 差 定义为 列(行)变 量预测 时的错 误,其预 测值是 基于个 体所在 行(列)的 众数。 值 为 1时表 明知 道 了自变 量就可 以完全 确定因 变量取 值,为 0时表明 自变量 对因变 量完全 无预测 作用。 λ = 6 fim -Fym n-Fym    fim 为 每一类 x中 y分布的 众数次 数,Fym 为 y次 数分布 的众数 次数。 λ相关 来自消 减误 差比 率 ,对计算 结果自 然也从 消减误 差比例 的角度 解释。 即“根据 x去 估计 y可以减 少百分 之 λ的误 差 ”。λ必 定处于 0~1之间。 另外 要注意 的是,如 果将表 中两 个 变 量的 位 置 对 换 ,计算 出 的 λ值将 会 不 同,就 是 说,行 变 量 为自变 量、列变 量为自 变量时 的结果 是不一 样的。 当无法 确定自 变量与 因变量 时,可以 取两个 λ平均值 作为 λ相关量 ,SPSS会同 时给出 这三种 结果。 (4)不确定 系数(UncertaintyCoefficient):其 值介于 0~1之间,和 Lambda类似,也 用于 反映 当 知道自 变量后 ,因变量 的不确 定性 下 降了 多少 (比例 ),只 是在 误 差 的 定义 上稍 有差 异。以 熵 为 不确定 性大小 的度量 指标,共 会输出 行变量 为 自变 量、列 变 量为 自 变 量、对 称不 确定 系数 三个 结 果,后者 为前两 者的对 称平均 指标。 4.其他特 殊指标 除以 上较为 系统的 指标外 ,当希望 测量一 个名义 变量和 连续变 量间的 相关程 度时,还 可以使 用 一个叫 做 Eta的指 标,它所 对应的 问题以 前 是用 方 差 分析 来 解决 的 。实际 上,Eta的 平方 表示 由 组间差 异所解 释的因 变量的 方差的 比例,即 SS组 间 /SS总。          328   第 15章 相 关分析 与回归 分析 在上 一章中 学习了 Kappa、OR、RR等统计 指标,它 们实 际 上也 都 是 相关 程 度的 测量 指标,因 上 一章已 有专门 讲述,这 里不 再 重 复。事 实上,在 Crosstabs过 程的 Statistics子 对话 框 中 提供 了 非 常整齐 的相关 分析指 标体系 ,如图 15.2所 示,大家 可以在 上面找 到上文 介绍的 几乎全 部指标 。 图 15.2 Crosstabs过程的 Statistics子对话框中的相关指标体系 15.1.2 一些基本概念 下面 以连续 变量为 主来深 入学习 相关分 析中的 有关知 识。相 关分析 有一个 显著的特 点是变 量 不分主 次,被置 于同等 的地位 。它的 一些常 用术语 如下: (1)直线相 关:这是 最简单 的一种 情况,两 变量 呈 线 性共 同 增大,或 者呈 线 性— 增 — 减 的情 况 。讨论 的范围 基本上 限于直 线相关 。 (2)曲线相 关:两变 量存在 相关趋 势,但 并非线 性 ,而是 呈 各种 可 能 的曲 线 趋势。 此时 如果 直 接进行 直线相 关分析 ,有可能 得出无 相关性 的结论 。 (3)正相关 与负相 关:如果 A变 量增 加时 B变 量也增 加,则 称为正 相关,如 A变量增 加时 B 变 量减小 ,则为负 相关。 (4)完全相 关:两变 量的相 关程度 达到了 亲密无 间 的程 度,当得 知 A变 量 的取 值时 ,就 可以 准 确推算 出 B变量 的取值 。又分 为完全 正相关 和完全 负相关 两种。 当数 据为有 序变量 或者名 义变量 时,一般 不再考 虑直线 、曲线 相关的 问题,但 正、负相 关和完 全 相关这 些概念 则仍然 适用。 15.1.3 SPSS中的相应功能 除上 文所述 Crosstabs过程提 供了比 较完整 的相关 分析指 标体系 外,SPSS还 在 Statistics菜单 的 Correlations子菜 单中提 供了几 个更专 业的相 关分析 过程: (1)Bivariate过 程:此过 程用于 进行两 个或多 个变量 间的参 数或 非 参数相 关分析,如果 是多 个 变量,则 给出两 两相关 的分 析 结 果。 这 是 Correlations子 菜单 中最 为常 用 的 一 个过 程 ,实际 上15.2 简 单相关 分析 329             对 Bivariate过程 的使用 可能占 到相关 分析的 95%以上 。 (2)Partial过程 :如果需 要进行 相关分 析的两 个变量 其取值 均受到 其他变 量的影 响 ,就 可以 利 用偏相 关分析 对其他 变量进 行控制 ,输出控 制其他 变量影 响后的 相关系 数,Partial过 程就 是专 门 进行偏 相关分 析的。 (3)Distances过程 :调用此 过程可 对同一 变量内 部各 观 察 单位间 的数 值 或各 个不 同变 量间 进 行相似 性或不 相似性 (距离)分 析 ,前 者 可 用于 检 测观 测 值 的接近 程度,后 者 则常 用 于 考察 各 变 量的内 在联系 和结构 。该过 程一般 不单独 使用,而 是用于 因子分 析、聚 类分析 和多维尺 度分析 的 预分析 ,以帮助 了解复 杂数据 集的内 在结构 ,为进 一步分 析做准 备。 对于 更复杂 的相关 分析问 题,如两 组变量 间 的相 关 分析 等,在 SPSS中 还 有典 型相 关分 析等 更 复杂的 功能可 供调用 ,但这 已 经 超 出了 本书 的 讲 授范 围 ,对 此感 兴趣 的读 者 请参 见 本 丛书 的 《SPSS统 计分析 高级教 程》一书 。 15.2 简单相关分析 一般 认为,相 关和回 归的概 念是在 1877— 1888年间由 FrancisGalton提 出的,并在 1889年出 版 的《自然 遗传》一 书中总 结了自 己的工 作。但 真正使 这方面 的理论 系统化 的是 KarlPearson,正 是 后者的 出色工 作使得 相关和 回归理 论大放 光彩,并 得到了 广泛的 应用。 而为了 纪念他 的贡献 , 简 单相关 分析中 所用的 相关系 数就也 被称为 Pearson相关系 数。 15.2.1 方法原理 1.系数计 算 当两 个连续 变量在 散点图 上的散 点呈现 直线趋 势时,就 可以认 为二者 存在直 线相关 趋势,也 称 为简单 相关趋 势。Pearson相关系 数,也 称积差 相关系 数就是 人们定 量地 描述 线 性相 关程 度好 坏 的一个 常用指 标。 为了 介绍相 关系数 的计算 方法,需 要首先 从方差 开始讲 起。对 于相关 分析中 的两个 变量,其 方 差 SSX 和 SSY 分别 反映了 各自的 变异程 度,在相 关与回 归分析 中这两 个方差 又被记 为 lxx和 lyy。 以 X的样本 方差为 例,其 计算公 式为: lxx =6 n i=1 (xi -珋x)2 /(n-1)    在相 关分析 中,协方 差是一 个非常 重要的 概念,它用符 号 lxy 来表 示 ,其 计算 公 式和 方差 非常 类 似,如下 : lxy = 6 n i=1 (xi -珋x)(yi -珋y)/(n-1)    可见 ,样本协 方差是 离均差 乘积在 样本 中的 平 均,它 可 以被 近 似看 成 反映 了 变 量 X与 Y之 间 的联系 强弱和 方向。 若离均 差乘积 平均后 接近 0,则 表明变 量 X和 Y的部分 取值同 向 ,部 分取          330   第 15章 相 关分析 与回归 分析 值 反方向 ,因而离 均差乘 积有正 有负相 互抵消 ,其和 就接近 于 零。而 如果 X、Y为同向变 化,则离 均 差成绩 大多为 正,其和 也为正 ,反之 则离均 差积和 为负。 显然 ,协方差 可以反 映两变 量相关 性的大 小,但 由于协 方差 的大 小与 X,Y的量纲有 关,不同 问 题中的 协方差 不可直 接比较 。因此 考虑使 用 X、Y的 方差对 其进行 标化,如 下: R2 = l2 xy /(lxxlyy)    由于 是同时 使用 X和 Y的方 差进行 标化,所 以分子 为协方 差的平 方。 该指 标 被称 为决 定系 数 ,取值范 围在 0~1之 间,可以 很好的 反映两 变量 间 相 关性 的 强弱:决 定系 数 越大,表 明两 变量 相 关程度 越高;当 两变量 为完全 相关时 ,决定 系数为 1;当 两变量 间不相 关时,决定系 数为 0。 但是 ,决定系 数仍然 存在问 题。由 于协方 差平方 后均为 正,从 而决定 系数不 能反映相 关的方 向 。因此 为了便 于应用 ,可以在 标化协 方差时 不 是将 分 子平 方 ,而 是 将 分母 开 根号 用于 标化,如 下 : r=lxy / lxxlyy    上述 指标就 是相关 系数,显 然,它 也是标 准化之 后 的协 方 差,可以 很好 的 反映 相关 程度 的强 弱 ,而且数 值范围 为 -1~+1,其正负 就反映 了相关 的方向 ,便于应 用。 归纳 起来相 关系数 具有如 下特点 : (1)相关系 数 r是 一个无 单位的 量值,且 -1<r<1。 (2)r>0为正 相关,r<0为负 相关。 (3) |r|越 接近于 1,说明相 关性越 好,|r|越接近 于 0,说明 相关性 越差。 2.相关系 数的检 验方法 计算 出样本 的相关 系数后 必须对 其进行 检验,以 确定 其 不 是从一 个数 值 为 0的相 关系 数的 总 体中抽 出的(避 免计算 出的数 值是由 于抽样 误差所 导致的 )。它的 假设检 验如下 : H0:ρ=0,两 变量间 无直线 相关关 系 H1:ρ≠0,两 变量间 有直线 相关关 系 检验 的方法 主要是 t检 验,公式 为:t=r-0 sr ,ν=n-2。 求出统 计量后 即 可根 据自 由度 得到 P 值 ,通过 P值与临 界值的 比较就 可 以进 行 判 断了 。 但是 在 SPSS的 结果 中只 会 给出 相 关 系数 值 和 最终的 P值,并 不会给 出统计 量 t的具体 计算结 果。 3.积差相 关系数 的适用 条件 任何 一种统 计方法 都是有 适用条 件的,对 统计 方 法运 用 的 好坏和 正确 不 在于 是否 能写 出公 式 或能否 计算出 结果,而 在于针 对数据 特征懂 得运用 正 确的 统 计方 法 。在 相 关分 析中 首先 要考 虑 的问题 就是两 个变量 是否可 能存在 相关关 系,如果 得到了 肯定的 结论,那才有 必要进行 下一步 定 量的分 析。另 外在进 行相关 分析前 必须注 意以下 几个问 题: (1)积差相 关系数 适用于 线性相 关的情 形,对于 曲线相 关等更 为复杂 的情形 ,积差相 关系数 的 大小并 不能代 表其相 关性的 强弱。 (2)样本中 存在的 极端值 对积差 相关系 数的计 算影响 极大,因 此要慎 重考虑 和处理 ,必要时 可 以对其 进行剔 除,或者 加以变 量变换 ,以避 免因为 一两个 数值导 致出现 错误的 结论。需 要注意15.2 简 单相关 分析 331             的 是,有的 时候在 分别观 察每 个 变 量 时极 端值 并 不 明显,但 是 联合 观察 两个 变 量时 就 会 凸现 出 来 。 (3)积差相 关系数 要求相 应的变 量呈双 变量正 态 分布,注 意双变 量正 态 分布 并非 简单 的要 求 X变量和 Y变量 各自服 从正态 分布,而 是要求 服从一 个联合 的 双变 量 正态分 布,如 图 15.3所 示。 图 15.3 双变量正态分布及其样本散点图 在以 上几条 要求中 ,前两者 要求最 严,第 三条比 较 宽松,违 反时系 数的 计 算结 果也 是比 较稳 健 的。一 般而言 ,分析者 可以使 用图形 工具来 对以上 条件加 以考察 ,散点 图和直 方图是最 常用的 工 具。特 别是散 点图,它 可以同 时考察 变量间 是 否存 在 线性 相 关、有 无 极端 值 、变 量的 分布 是否 接 近正态 ,因 此在 相 关分 析 考 察适 用 条件 时 更 为常 用。 图 15.4是对 数 据集 Cars.sav中 的变 量 mpg和 engine绘 制的散 点图和 双变量 联合直 方图,从 散点 图 中 可见这 两个 变 量呈 现出 了曲 线分 布 的趋势 ,并且至 少有一 个离群 值(35号,注意该 离群散 点在单 独观察 这两 个变 量 的时 候很 不明 显 ),而双变 量联合 直方图 则同样 提示出 数据中 有 离群 值,因此 该数据 时 不宜 直 接进行 线性 相关 分 析的。 图 15.4 适用条件的图形化观察          332   第 15章 相 关分析 与回归 分析 15.2.2 分析实例 例 15.1 上海 医科大 学儿科 医院研 究某种 代乳粉 的营养 价 值是 用 大白鼠 做试验,得大 白鼠 进 食量(g)和 体重增 量(g)间 的关系 的 原始 数 据如 下 ,试分 析 两者 有 无 直线 相 关关 系 。(此 例参 见 金丕焕 所著的 《医用统 计方法 》第二版 ,第 110页) 表 15.1 进食量和体重增量的数据 动物编号 1 2 3 4 5 6 7 8 9 10 进食量(g)feed 820 780 720 867 690 787 934 679 639 820 体重增量(g)weight 165 158 130 180 134 167 186 145 120 158    对于 本例,首 先应该 意识到 的是题 中的变 量均为 连续性 变量,因此在 相关指 标体系中 应当考 虑 使用描 述两个 连续性 变量相 关性的 指标。 其中最 简 单,也 是 最常 用 的 即为 积 差相 关 系 数。由 于 积差相 关系数 有一些 适用条 件,因此 首先应 对此进 行考察 。本例 样本量 较小,因此不需 要绘制 二 、三维直 方图,直接观 察原始 数据即 可发现 并无明 显 的极 端 值,随后 利用 散 点图 做进 一步 的观 察 如图 15.5所示。 图 15.5 进食量与体重增量的散点图 从散 点图可 以发现 如 下信息 :① 两变量 间 存在 着明显 的相关 趋 势;② 这种 相关趋 势 呈现线 性 趋势,因 此可以 考虑使 用线性 相关 的 级差 相 关 系数加 以刻 画 ;③ 散 点图 上 没有 发现 明显 的异 常 值,或者 说强影 响点。 综上,本例应 当可以 直接进 行相关 分析。 1.操作步 骤与界 面说明 本例 的操作 步骤如 下: Analyze→Correlate→ Bivariate Variables框 :feed、weight OK15.2 简 单相关 分析 333             显然 ,对于双 变 量 的 相 关 分 析 而 言 ,操 作 是 非 常 简 单 的 ,Bivariate过 程 主 对 话 框 (参 见 图 15.6(a))上 部用于 选择希 望进行 相 关 分析 的 变量 ;中 部的 CorrelationCoefficients复 选 框 组用 于 进 一步选 择不同 的相关 分析指 标,有 Pearson相 关系数 、等级 相 关系数 和秩 相 关系 数三 种可 供选 择 ,默认为 前者;在其下 方的 TestofSignificance单 选框组 用于确 定是进 行相关 系 数的单 侧 (One- tailed)或双侧 (Two-tailed)检验,默认为 双 侧检 验 ;最下 方 的 Flagsignificantcorrelations复选 框要 求 在结果 中用星 号标记 有统计 学意义 的相关 系数,默 认 选中 。此时 P<0.05的 系数值 旁会 标记 一 个星号 ,P<0.01则 标记两 个星号 。 Options子 对话框 (参见图 15.6(b))主 要用于 选择 需要 计算的 描述 统计 量 (包 括均 数、标准 差 、离均差 平方和 以及协 方差阵 )和缺失 值处理 方法,可根据 需要自 行选择 。 (a) (b) 图 15.6 Bivariate过程的对话框 2.结果解 释 相关 分析的 结果输 出非常 简单,如 表 15.2所示 。 表 15.2 Correlations 表 15.1给出 的就是 积差相 关系数 的结果 ,也就 是 要 求的 Pearson相 关系 数 。结果 是以 对角 阵 的形式 给出的 ,由于这 里只分 析了两 个变量 ,因此 给 出 的是 2×2的 方 阵。 每个 单元 格共 分为 三 行,分别 是相关 系数、P值和 样本 数 。可以 看 到变 量 feed和 weight的相 关系 数 为 0.940,对 相 关 系数的 检验双 侧的 P值 小于 0.01,所以可 以认为 feed和 weight两 者 有非 常 密切 的关 系,而且          334   第 15章 相 关分析 与回归 分析 随 着 feed的 增加,weight也随 之加大 。 如果 在 Options子对 话框中 选择了 Cross-productdeviationsandcovariances复选框,则会 输出 如 表 15.3所示的 分析结 果,表 格中包 括了离 均差平 方 和以 及 协方 差 值,大 家 可以 按照 前述 公式 计 算出相 关系数 应当为 r=1817.467/ 8434.044×470.456,结 果正 是 表 中所 示 的 0.94,这 可 以 帮助大 家理解 前面的 计算过 程。 表 15.3 Correlations 15.2.3 秩相关系数 计算 积差相 关系数 的整个 过程大 家都已 经熟悉 了,有朋 友可能 马上就 会问:计算积差 相关系 数 的要求 那么高 ,要求 x、y都 要服从 正态分 布,那如 果数据 达不到 那么高 的要求 又需衡 量两 变量 之 间的相 关关系 时 该 如何 解 决呢? 别担 心 ,SPSS提供 了 别 的 方 法 ,也 就 是 在 CorrelationCoeffi- cients复选 框组中 的 Spearman选项,它会要 求计算 Spearman相 关系数 。 Spearman相 关 系 数又 称 为秩 相 关系 数 ,是利 用 两 变量的 秩次 大 小 作线性 相关 分析 ,对 原始 变 量的分 布不作 要求,属 于非参 数统计 方法。 因此它 的 适用 范 围较 Pearson相 关系 数要 广得多 。 即 使原始 数据是 等级资 料也可 以计算 Spearman相 关系数 。对于 服从 Pearson相 关 系数 的数 据亦 可 计算 Spearman相关 系数,但统计 效能比 Pearson相关系 数要低 一些(不 容易检 测出两者 事实上 存 在的相 关关系 )。 Spearman相关 系数的 计算公 式可以 完全套 用 Pearson相 关系数 的计算 公式,但 公式中 的 x和 y用 x和 y相 对应的 秩次代 替即可 。样本 含量 n小 于等 于 50的 时 候 Spearman相 关系 数的 检验 可 以通过 查界值 表判断 ,大于 50后检 验公式 与积差 相关系 数相同 。 对于 上面的 例子,如 果计算 秩相关 系数的 话,则 结果如 表 15.4所示。 从结 果中可 以看到 Spearman相 关系数 为 0.899,P值小 于 0.001,在 α=0.05的水 平 上是拒 绝 原假设 的,结论 和前面 相同。15.3  偏相关 分析 335             表 15.4 Correlations 15.2.4 Kendall�s等级相关系数 在 CorrelationCoefficients复选 框组中 除了 Pearson相 关系数 、Spearman相关 系 数两 个选 项外 还 有一个 Kendall�stau-b等级相 关系数 的选项 ,本章开 始已 经 介绍 了 相 关分 析 的指 标体 系,显然 这 个 Kendall�stau-b等级 相关系 数是用 于反映 分类变 量相关 性的指 标,适 用于两 个变量均 为有序 分 类的情 况。对 于上例 ,如果计 算等级 相关系 数,则 结果如 表 15.5所示。 表 15.5 Correlations 可见 分析结 论和前 面相同 。本例 无需质 疑是定 量 数据,且 并未违 反积 差 相关 系数 的适 用条 件 ,因此使 用积差 相关系 数来描 述相关 情况是 合适的 ,这里 仅仅是 演示计 算。而 且大家可 以发现 对 相同的 数据,秩 相关系 数和等 级相关 系数的 绝对值 都小于 积差相 关系数 ,显然 这是由于 在秩变 换 或者数 据按有 序分类 处理时 会损失 信息所 导致的 。 15.3 偏相关分析 15.3.1 方法原理 1.偏相关 所能解 决的问 题 辩证法里 有这样一对概念,现象和本质。所谓通过现象看本质 的关键 就是 因为某 些现象可能会          336   第 15章 相 关分析 与回归 分析 干扰大家对于本质的认识。在相关分析中也存在这样的问题。就像世界上没有两片完全一模 一样的 树叶一样,也不存在完全独立 于其他事物的个体和现象。在研究 两个 事物或现象 之间的 关系的 时候, 只有充分考虑到其他事物和现象对两者之间的影响 ,才可 能将两者真正的联系显现出 来。 但是 ,前面介 绍的相 关分析 是 分析 两个 计量 资 料间 的关系 ,在 计算 积 差 相关 系数、Spearman 相 关系数 和 Kendall’s相 关系数 的时候 都没有 考虑第 三方的 影响,这就有 可能导 致对事物 的解释 出 现偏差 。下面 用一个 例子对 此问题 作进一 步的说 明。 例 15.2 研究 者收集 了一批 汽车的 资料,数 据见 auto.sav,现希望 分析汽 车价格 (price)和每 加 仑汽油 可行驶 千米数 (mpg)间的相 关关系 。 如果 直接考 察这两 个变量 间的关 系,则计 算出的 积差相 关系数 如表 15.6所 示。 表 15.6 Correlations 可以 看到相 关系数 r=0.469,P<0.05,也就 是说如 果 单考 虑 汽车 价格 与每 千 米油 耗之 间的 关 系的话 两者呈 负相关 ,可以认 为油耗 越大的 汽车价 格越高 。这个 结果看 起来当 然不太 合理,消 费 者怎么 会愿意 为更耗 油的汽 车掏更 多的钱 呢?显 然,这里 忽略了 一个重 要的影 响因素 :汽车重 量 ,汽车越 重,则 显然会 越耗油 ,但 同 时价 格也 会 越 高,前 面 的 分析 没有 考虑 汽 车本 身 重 量的 影 响 ,得到的 可能是 假象。 那么如 果控制 了汽车 重量的 影响,结果又 会是怎 么样的 呢?先来 初步了 解 一下偏 相关分 析的原 理。 2.偏相关 分析的 计算公 式 偏相 关分析 是在相 关的基 础上考 虑了两 个因素 以 外的 各 种作 用 ,或者 说 在扣 除了 其他 因素 的 作用大 小以后 ,重新来 考察这 两个因 素间的 关联程 度。 这 种 方法目 的就 在 于消 除其 他变 量关 联 性的传 递效应 。 偏相 关系数 在计算 时可以 首先分 别计算 三个因 素 之间 的 相关 系 数,然 后 通过 这三 个简 单相 关 系数来 计算偏 相关系 数,公式 如下: r12(3) = r12 -r13r23 1-r2 13 1-r2 23 (15.1)    式(15.1)就是 在控制 了第 三 个 因素的 影响 所 计算 的第 一、第二 个因 素 之 间 的偏 相 关 系数 。 当 考虑一 个以上 的控制 因素时 的公式 类推。 事实 上,如果 从回归 的角度 来解释 ,偏相 关系数 就 是首 先 以希 望 分 析的 变 量为 因变 量,被控 制 的变量 为自变 量分别 拟和两 个回归 方程,然 后将所 得的两 组残差 进行简 单相关 分析,有 兴趣的 读 者可以 自行尝 试一下 。 15.3.2 分析实例 这里 继续前 面 对 汽 车 数 据 的 分 析,考 虑 到 汽 车 的 重 量 也 会 影 响 价 格 ,首 先 对 汽 车 价 格15.3  偏相关 分析 337             (price)、每 千米汽 油消耗 量(mpg)和 汽车自 重(weight)三个 变量进 行相关 分析如 表 15.7所示。 表 15.7 Correlations 可见 重量和 价格、耗 油量间 均存在 相关关 系,如 果 要正 确 评价 耗 油 量和 价 格间 的关 系,就应 当 控制重 量的影 响,这里 考虑使 用偏相 关分析 ,操作 如下: Analyze→Correlate→ Partial Variables框 :price、mpg Controllingfor框:weight Options: ZeroOrderCorrelations:Continue OK (a) (b) 图 15.7 偏相关分析的对话框 偏相 关分析 所使用 的对话 框和相 关分析 极为相 似,只是 在主对 话框中 新出现 了 一个 Control- lingfor框,如图 15.7(a)所示,用于选 择需要 在偏相 关 分 析时 进行控 制 的 变量 。如 果不 选入,则 进 行的是 普通的 相关分 析(求出 的是积 差相关 系 数)。若 在 如图 15.7(b)所示 的 Options子 对话 框 中选择 Zero-ordercorrelations复选框 ,则可 以在给 出偏相 关系数 的同时 也给出 包括协变 量在内 所 有变量 两两相 关的系 数阵。          338   第 15章 相 关分析 与回归 分析 相应 的分析 结果如 下,表 15.8就 是考虑 了汽车 自重的 影响以 后价格 和油耗 的偏相 关系 数方 阵 ,可以看 到相关 系数为 -0.068,P值为 0.567。可见 当 校正 汽车 自 重 的因 素 后,价格 和汽 车油 耗 的关系 并不密 切。在 本例中 可以看 到原先 显示出 的 价格 和 油耗 之 间 呈负 相 关是 一种 假象,这 种 假象出 现的原 因是因 为汽车 自重这 一个因 素起着 作用。 表 15.8 Correlations 15.4 Distances过程 简单 相关和 偏相关 有一个 共同点 ,那就是 对 所分 析 的数 据 背景 应 当 有一 定 程度 的 了 解。例 如 在简单 相关的 例题中 代乳粉 和老鼠 增重之 间的关 系 是在 常 理上 可 以 推断 的 ,在 这种 情况 下进 一 步进行 积差相 关系数 的计算 ,以在定 量的水 平上对 这种关 联予以 确认。 同理,计算偏相 关系数 也 是同样 的情况 ,只是又 在计算 积差相 关系数 的基础 上 考虑 了 其他 因 素 的影 响 。但有 时候 会遇 到 一种情 况,在分 析前对 数据所 代表的 专业背 景 知识 尚 不充 分 ,本 身 就 属于 探 索性 的研 究,这时 往 往就需 要先对 各个指 标或者 案 例 的差 异 性、相 似 程度 进 行考 察,以先 对数 据 有一 个 初 步的 了 解 ,然后再 根据结 果考虑 如何进 行深入 分析。 Distances过 程就可 以用于 计算 记录 (或 变量 )间 的 距离 (或 相 似 程度 ),根 据变 量 的 不同 类 型 ,可以有 许多距 离、相 似程度 测量指 标供用 户选择 。 但由 于 本模 块 只 是一 个 预分 析过 程,因此 距 离分析 并不会 给出常 用的 P值 ,而只 给出各 变 量 /记 录间的 距 离大小 ,以供 用 户自行 判断 相似 性 。 15.4.1 距离测量与相似性测量的指标体系 如 前 所 述 ,Distances过 程 可 以 计 算 距 离 测 量 指 标 或 者 相 似 性 测 量 指 标,这 可 以 在 主 对 话 框 中 加 以 切 换 ,会 分 别 弹 出 不 同 的 子对 话 框 ,如 图 15.8所 示 ,有 多 种 指 标 可 供 设 定,这 里 分 述 如下 。 1.距离测 量指标 以案 例间的 距离测 量为例 ,其基本 原理就 是将变 量看成 是构成 空间的 维度,然后案例 就构成 了 这样一 个多维 空间中 的散点 ,求出这 些散点 的空间 距离,即为相 应的距 离测量 值。根据 不同的15.4 Distances过程 339             图 15.8 距离测量与相似性测量的 Measure子对话框 数 据类型 ,距离测 量指标 也有所 不同。 (1)连续性 变量:默 认为欧 氏距离 (欧几里 得距离 ),具体 有: �  Euclideandistance:欧 几里得 距离,以 两变量 差值平 方和的 平方根 为距离 ,就是平 常所理 解 的空间 距离。 �  SquaredEuclideandistance:欧 氏平方 距离,以 两变量 差值 平 方 和为距 离,这种 测量 方法 更 重视较 大的数 值和距 离。 �  Chebychev:切比雪 夫距离 ,以两变 量绝对 差值的 最大值 为距离 。 �  Block:以两 变量绝 对差值 之和为 距离。 �  Minkowski:闵可夫 斯基距 离,以 两变量 绝对差 值 p次 幂 之和的 p次 根 为距 离,用户 可以 在 Power框中更 改分量 值之差 的次方 p的 大小。 当 p=2时即为 欧氏距 离。 �  Customized:自 定 义 距 离 公 式,用 户 需 要在 Power框 中 定 义 分量 值 之 差的 次 方,在 Root 框 中定义 分量值 之差的 开方。 以两变 量绝对 差值 p次幂之 和的 r次根 为距离 。 (2)频数表 资料:默 认为 χ2 值 测距,具 体有: �  Chi-squaremeasure:χ2 值测 距。 �  Phi-squaremeasure:ψ2 值测距 ,即将 χ2 值 测距除 以合计 频数的 平方根 。 (3)二分类 变量:默 认为欧 氏距离 ,具体 有: �  Euclideandistance:计 算公式 为 SQRT(b+c),其 中 b、c分 别 为 四 格 表 中对 角 线 上的 元 素 ,最小值 为 0,最大 无限。 �  SquaredEuclideandistance:即 |b+c|,最小 为 0,最大 无限。 �  Sizedifference:最小 距离为 0,最大无 限。 �  Patterndifference:0~1的 无级测 距。 �  Variance:以方 差为测 距,最小 为 0,最大 无限。 �  LanceandWilliams:Bray-Curtis非等距 系数,介 于 0~1之间 。          340   第 15章 相 关分析 与回归 分析 2.相似性 测量指 标 相似 性测量 指标实 际上就 是前述 的那些 相关分 析指标 体系,只 是更为 详细一 些,主要 分为以 下 两类: (1)计量资 料:可以 采用 PearsonCorrelation即常 用 的 积距 相 关系 数 ,也可 采 用 Cosine,即以 变 量矢量 的余弦 值为距 离,大小 界于 -1~ +1,数值 越大表 明相似 性越高 。 (2)二分类 变量:给 出了一 大堆测 量指标 ,其实 非 常少 用 ,这里完 全没 有 罗列 出来 凑字 数的 必 要。大 家只需 要使用 默认的 RussellandRao(以 二分点 乘积为 配对系 数)即可 。 上面 只是简 单的解 释了一 下各种 指标的 含义,当 使用不 同的距 离测量 指标时 ,得到的 结果可 能 完全不 同,对于 在不同 分析问 题中对 各种距 离 /相 似 性测 量 指标 的 选 择问 题 ,感 兴趣 的读 者可 以 参考本 丛书高 级教程 中聚类 分析一 章,这里 不再详 述。 15.4.2 分析实例 例 15.3 某实 验室制 作了一 张 基因 芯 片,上面 一共 检 测了 上万 个基 因 ,现 在从 数 据 库中 提 取 出 7个 基因的 数据,由 于对这 7个基 因的生 物学功 能现在 一无所 知,因 此首先 想对其进 行距离 测 量,看看 哪几个 基 因“距 离”比较 接 近,然 后 可 以 通过 临床 或 实 验室 进 一步 验证 。数 据 见 dis- tance.sav。 对本 例我们 不再加 以详细 讨论,只 是给出 分析过 程的演 示,相 应的操 作如下 : Analyze→Correlate→ Distances Variables框 :fpgs~irf2 BetweenVariables OK 操作 中用到 的界面 如图 15.9所示 。 图 15.9 Distances过程的主对话框15.5 简 单回归 分析 341             表 15.9即为 变量间 两两的 距离计 算结果 ,通过 这张表 可以看 出代号 为 CDK2AP1,TCEB1和 IRF2的三个 基因比 较接 近,可 以粗略 的划分 为一类 ,而 FPGS,ELF3和 GFRA2可以 划为另 外一类 , 而 NFE2感觉 有点 左右摇 摆,可 能会作 为单 独的一类。这样就可以进一步考虑以 后的研 究了。 表 15.9 ProximityMatrix 15.5 简单回归分析 作为 对两连 续变量 间关联 性分析 的完善 ,本章最 后将介 绍线性 回归分 析的基 本知识 ,由于回 归 模型较 为复杂 ,这里将 不作深 入讨论 ,更为 详细的 内容均 被放在 了本丛 书的《SPSS统 计分 析高 级 教程》一 书中,希 望深入 学习回 归模型 的朋友 请参见 该教程 。 15.5.1 方法原理 1.简单回 归所能 解决的 问题 在本 章开始 曾经提 到过,相 关和回 归描述 的是两 变量间 联系的 不同侧 面,简 单回归分 析就是 寻 找因变 量数值 随自变 量变化 而变化 的直线 趋势,并 在散点 图上找 到这样 一条直 线,相应 的方程 也 就被称 为直线 回归方 程。 通过 回归方 程解释 两变量 之间的 关系会 显的更 为 精确,例 如可以 计算 出 大白 鼠每 进食 一个 单 位代乳 粉体重 平均增 加的单 位数量 ,这是相 关分析 无法做 到的。 除了描 述两变 量的关 系以外 , 通 过回归 方程还 可以进 行预测 和控制 ,预测就 是 在回 归 方程 中 控制 了 变 量 x的取 值范 围就 可以 相 应的得 到变量 y的上 下限,而 控制则 正好相 反,也 就是通 过限制 结果变 量 y的 取值范 围来 得到 x的上 下限。 这两点 在实际 的应用 中显得 尤为重 要。 2.简单回 归分析 的原理 和要求 如果 将两个 事物的 取值分 别定义 为变量 x和 y,则 可以 用回 归 方程 ^y=a+bx来描 述两 者的          342   第 15章 相 关分析 与回归 分析 关 系,这里 需要注 意的有 两点,第一,变 量 x称 为自 变 量,而 y为因 变 量,一 般 来讲 应该 有理 由认 为 是由于 x的变 化而导 致 y发 生变化 。第二 ,^y不是 一 个确定 的 数值,而是 对应 于某 个 确 定 x的 群 体的 y值平均 值的估 计。该 方程的 含义可 以从其 等式右 边的组 成来理 解。即 每个预 测值 都可 以 被分解 成两部 分: (1)常量(constant):为 x等于零 时回归 直线在 y轴 上的截 距 即 x取 值为 零 时 y的 平均 估计 量 。 (2)回归部 分:它刻 画因 变 量 y的取 值中,由 因变 量 y与自 变 量 x的 线 性 关系 所 决 定的 部 分 ,即可以 由 x直 接估计 的部分 。β称为 回归系 数(CoefficientofRegression),又 称 其为 回归 线的 斜 率(Slope)。 估计 值 ^y和 每一个 实测值 之间的 差被称 为残差 ,一般用 εi 表示。 它 刻画了 因变量 y除 了自 变 量 x以 外的其 他所有 未进入 该模型 或未知 但可能 与 y有 关的随 机和非 随机因 素共同 引起 的变 异 ,即不能 由 x直 接估计 的部分 。往往 假定 εi 服 从正态 分布 N(0,σ2)。 回归 方程中 的参数 a和 b一般是 通过最 小二乘 原 理估 计 出来 的 ,所谓 最 小二 乘原 理就 是指 使 得坐标 中每一 对 x变 量和 y变量所 对应的 点 到回 归 直线 纵 向距 离 的 平方 和 ,或 者说 残差 的平 方 和最小 。 在介 绍积差 相关系 数时,曾 经提到 过在计 算时要 求 x和 y都 必须服 从正态 分布,进 行简 单回 归 分析对 数据也 有一定 的要求 ,这里给 出的是 基本的 适用条 件: �  线 性趋 势 :自变量 与因 变 量 的关系 是线 性 的,如 果 不是,则 不能 采用 线性回 归 来 分析 。 这 可以通 过散点 图来加 以判断 。 �  独立性 :可表述 为因变 量 y的 取值相 互 独立 ,之 间没 有 联系 。 反映到 模型 中,实际 上就 是 要求残 差间相 互独立 ,不存在 自相关 ,否则 应当采 用自回 归模型 来分析 。 �  正态性 :就自变 量的任 何一个 线性组 合,因 变量 y均服从 正态分 布,反映 到模型 中,实际 上 就是要 求残差 服从正 态分布 。 �  方差齐 性:就自 变量的 任何一 个线性 组合,因 变 量 y的方 差 均 相同,实质 就是 要求 残差 的 方差齐 。 如果 只是建 立方程 ,探讨自 变量与 因变量 间的关 系,而 无需根 据自变 量的取 值预测因 变量的 容 许区间 、可信区 间等,则后两 个条件 可以适 当放宽 。 3.回归系 数的计 算和检 验 公式 中 a和 b的数 值分别 通过下 列公式 算出: b= lxy /lxx,a=y-bx,v=n-2    回归 系数 b计算出 来以后 需要对 其进行 假 设检 验,以 确 定 求出的 不为 0的回 归系 数并 不是 由 于抽样 误差而 导致的 。对于 回归系 数的假 设检验 可用 t检验 和方差 分析,公 式分别 如下: (1)t检验:其 检验统 计量为 tb =(b-β)/Sb,其中 Sb 为 回归 系 数的 标 准 误,其 定 义 为 Sb = SY.X 1/lxx,ν=n-2。 (2)方差 分 析 :其 原 理 和 前 面 的 单 因 素 方 差 分 析 相 同,F= MS回 归 MS剩 余 = SS回 归 /ν回 归 SS剩 余 /ν剩 余 ,ν回 归 =1,15.5 简 单回归 分析 343             ν剩 余 =n-2。 4.回归分 析的区 间估计 在回 归分析 的结果 应用时 ,经常会 涉及到 区间估 计的问 题,这 里分述 如下: (1)总体回 归线的 可信区 间 可以 对回归 线的总 体进行 可信区 间的估 计,该 区 间估 计 范 围在散 点图 上 表现 为一 个二 维空 间 的弧形 区带,也 被称为 回 归线 的 置信 带 (ConfidenceBand)。 以 95%的 区 间 为 例,其 含 义是 在 满 足线性 回归的 假设 条件 下,两 条 弧 形曲 线 所形 成 的 区 域 包 含 真 实 总体 回 归 直 线 的置 信 度 为 95%。其 标准误 如下: SY X = SY.X 1 N + (X-珔X)2 6 (Xi -珔X)2    相应 的总体 回归线 100(1-α)% 置信带 为:Y±tα(n -2)SY 。因 为 其 方差 是 X的 函数 ,所 以其 置 信带在 均数(珔X,珔Y)处 的宽度 最小,越远离 该均数 点,则其 区间宽 度越大 。 (2)个体 Y预 测值的 区间估 计 指的 是当 X为 某定值 时,个 体 Y值的 参考 值范 围 的波 动范围 ,其 分布 的 标 准 差 SY|Xp 按下 式 估 计: SY|Xp = SY.X 1+ 1 n + (Xp -珔X)2 6 (X-珔X)2     为了简化计算,当 X与 珔X接近且 n充分大时,可用 SY· X 代替 SY|Xp,其参 考值区间为Y±tα(n -2)SY。 该 区间是 比总体 回归线 置信区 带 更远离 的两 条 弧 形曲线 ,以 95% 的 区间 为 例 ,表示 的 是 期望 有 95%的数 据点所 落入的 范围。 图 15.10 加绘可信区间与参考值范围的散点图 在 SPSS中研 究者可 以使用 散点图 对简单 回归分 析进行 非常直 观的图 形呈现 ,如图 15.10所          344   第 15章 相 关分析 与回归 分析 示 ,可见在 图中可 以直接 绘制出 回归线 、回归 线的 95% 可信区 间和个 体值的 95% 参考值 范围,并 加 绘出实 测值和 预测值 的差距 (残 差),大 大 方便 了 实 际使 用。 需要 特别 指 出 的 是,注 意 上述 预 测 区间均 未超过 自变量 的取值 范围,在 自变量 的 最小 、最大 值 处自 动 终 止,这 很好 的反 映了 回归 关 系不能 随意外 延的原 则。 15.5.2 分析实例 这里 利用相 关分析 中采用 的例题 来进一 步进行 回 归 分析 ,计算 它 的 回归 方 程。与 相关 分析 类 似,在回 归分析 前首先 要考虑 的问题 就是两 个变量 是否可 能存在 某种趋 势,通 过前面的 散点图 已 经得到 了肯定 的结论 ,因此直 接进行 回归分 析,操 作如下 : Analyze→Regression→Linear Dependent框:weight Independent框:feed OK 操作 中用到 的界面 如图 15.11所 示。 图 15.11 Regress过程的主对话框 分析 结果较 为复杂 ,一共会 出现 4张表格 ,依次 解释如 下: 表 15.10是 对模型 中各个 自变量 纳入模 型情况 进行的 汇总,由 于本例 只有一 个自变 量,所以 结 果显得 比较单 薄。可 以看到 进入模 型的只 有一个 feed一 个 变量,变 量选 择 的方 法为 强行 进入 法 ,也就是 将所有 的自变 量都放 入模 型 中 (尽管 本 例只 有 一 个)。筛 选自 变 量 的 方法 有 很 多种 , 不 同的情 况可以 选择不 同的筛 选方法 ,具体请 参考本 丛书的 《SPSS统计分 析高级 教程》一 书。 表 15.11是 对模型 的简单 汇总,其 实就是 对回归 方程拟 和情况 的描述 ,通过 这张表 可以 知道 相 关系数 的取值 (R),相 关 系 数的 平 方 即 决 定系 数 (R Square),校 正 后 的 决 定 系 数 (AdjustedR Square)和回 归系数 的标准 误(Std.ErroroftheEstimate)。注意 这里的 相关系 数大小 和前面 相关15.5 简 单回归 分析 345             表 15.10 VariablesEntered/Removedb 分 析中计 算出的 结果完 全相同 。决定 系数的 取值为 0~1,它的 含 义就 是自 变量 所 能解 释的 方差 在 总方差 中所占 的百分 比,取值 越大说 明模型 的效果 越 好。 通 俗一点 来讲 就 是决 定系 数越 大该 因 素所起 的作用 越大。 表 15.11 ModelSummary 表 15.12即 为对模 型进行 方差分 析的结 果,大家 应该 还 记 得在对 回归 系 数作 检验 的时 候有 两 种方法 ,其中一 种就是 方差分 析。可 以看到 方差分 析的结 果 F值 为 60.197,P值 小于 0.05,所 以 该模型 是有意 义的,由 于只 有 一 个 自变 量,也就 等价 于 说 该 自变 量的 回归 系 数是 有 统 计意 义 的 。在简 单回归 中方差 分析的 结果和 t检 验的结 果完全 等价,大 家可以 和下面 的结果 加以比 较。 表 15.12 ANOVAb 表 15.13为 最后一 张结 果 表 格,个 人 认为 也 是 最 重要 的一 张 ,其中 给 出 了 回归 方 程 中常 数 项 、回归 系 数 的估 计 值 和检 验 结果,可 见 a= -17.357,b=0.222,通过 它就 可以 写 出 回 归方 程 了 ,如下: 体重增 量 =-17.357+0.222×进 食量 表 15.13 Coefficientsa 这表 明进食 量每增 加 1个 单位,体 重 平均 会 增加 0.222个 单位。 表 格 中还 使用 t检 验对 各          346   第 15章 相 关分析 与回归 分析 参 数进行 了检验 ,其中对 常数项 是检验 其是 否为 0,可见并 为 拒 绝原 假 设,但 这 在回 归 问 题中 一 般 是没有 实际意 义的,因 此不用 加以关 心。对 回归系 数的检 验拒绝 了原假 设,认 为上述影 响是的 确 存在的 ,注意其 统计量 t值 实际上 就是前 述方差 分析 F值的平 方根,两 个检验 结果是 完全 等价 的 。 15.5.3 相关与回归分析的联系和区别 相关 与回归 分析虽 然都用 于表述 两变量 间的联 系,但其 侧重点 不同,前者更 多的是描 述其数 量 上联系 的密切 程度,而 后者则 重点说 明自变 量在数 量 上的 变 化对 因 变 量数 量 的影 响 程 度。但 是 这两者 也有着 非常密 切的联 系:首先 ,对一 组数据 若 同时计 算 r与 b,它们 的 正负 号是 一致的 ; 其 次,对同 一样本 ,r和 b的假设 检验是 完全等 价的;第 三,决 定系数 的 计算公 式 为 l2 xy /(lxxlyy),其 中 l2 xy /lxx其 实就是 SS回 归 ,而 lyy就是 SS总 ,于是公 式就 变成 了 SS回 归 /SS总 ,SS回 归 可 以理 解 为 y的变 异 中可以 由 x所 解释的 部分,而 SS总 也就 是 y的总 变异 了。所 以相关 系 数其 实 就是 变 量 x所能 解 释的变 量 y变 异的百 分比的 开根号 。相关 系 数越 大 表示 x所能 解 释 的变异 也就 越大 ,当 然两 者 之间的 关系也 就越密 切。 15.6 本 章 小 结 (1)虽然一 般所说 的相关 分析均 是指两 个连续 变 量的 相 关性,但 实际 上 任意 测量 尺度 的两 个 变量都 可以有 相应的 指标来 描述其 相关程 度大小 。 (2)相关系 数 r表 示两变 量间的 直线相 关程度 ,r值的 范围为 -1~1。r为正 表 示 X与 Y之 间 为正相 关,r为负 表示负 相关。 r接近于 零表示 两变量 间关系 不密切 ,r的绝对 值 接近 于 1表示 两 变量间 关系较 密切。 但 r有 抽样误 差,故 算得相 关 系数 之 后,必 须检验 相 应的总 体相关 系 数 ρ 是 否为 0。 (3)研究中 一般只 涉及直 线相关 关系,但 理论上 讲,可 以 进行 变 量 间的 曲 线相 关分 析;如果 希 望扣除 其他变 量的影 响,可以 进行偏 相关分 析;如 果 变量 不 满足 线 性 相关 分 析的 适用 条件,则 可 以进行 Spearman秩 相关分 析。 (4)相关分 析和回 归分析 具有密 切的联 系,如果 要用 统 计 指标对 变量 数 量联 系的 密切 程度 进 行表述 ,则应当 进行相 关分析 ;如果 希望反 映一个 变 量变 化 时对 另 一 个变 量 数量 的影 响大小 , 则 应当使 用回归 分析。 相 关系数 ρ大小 反映了 两 个变 量之间 的密 切程 度,而 回归系 数 β反映了 X与 Y对应 的平均 数量变 化关系 ,两 者的 正负 号 和 假设 检 验是 一致 的,但两 者 没有 定 量 对应 关 系 。 思考与练习 1.某 医师研 究婴儿 出生体 重和双 顶径的 数量关 系,收集 了婴儿 出生体 重(X,g)和 双顶径 (Y,参考 文献 347             mm)数据 如表,请 分析两 者的数 量关系 ? 题 1表 X(g) 273 299 226 315 294 260 383 273 234 329 302 357 Y(mm) 94 88 91 99 93 87 94 93 81 94 94 91    2.请 按照求 回归的 方式对 偏相关 分析实 例进行 重 新 分析 ,首先 以 重 量为 自 变量,价 格、耗油 量 分别为 因变量 建立 各自 的 回 归方 程,并 使 用 Save子对 话 框 中 右 上角 的 功能 存 储 残 差 (使 用 Unstandaized复 选框),最后用 这两组 残差进 行简单 相 关分 析 ,并将结 果和 直 接用 偏相 关分 析的 结 果相比 较。 参考文献 1 杨 树勤主 编.卫 生统计 学.第三 版.北 京:人民 卫生出 版社,1995 2 方 积乾主 编.卫 生统计 学.第五 版.北 京:人民 卫生出 版社,2003 3 张 文彤主 编.SPSS11统计 分析教 程(基础 篇).北京 :北京 希望电 子出版 社,2002 4 张 文彤主 编.SPSS11统计 分析教 程(高级 篇).北京 :北京 希望电 子出版 社,2002 5 陈 希孺.数理统 计学简 史.长沙 :湖南 教育出 版社,2002 6 金 丕焕主 编.医用统 计分析 方法.第二版 .上海:复旦大 学出版 社,2003  附录 1 SPSS13版新增功能介绍 在本书即将 定稿 之时,SPSS12简体中文版已经进入 了最后 的测试阶段 ,而 SPSS13英 文版也 已 开始进行内部测试,预计将于今 年年底 发布。 为了能 使 读者 对 SPSS软 件的最 新发展趋 势有一 个 大致的了解,这里将结合目前所掌握的一些情况,对 SPSS13一 些主 要的功 能改进加以介绍。 SPSS从 12版起开 始全部 采用 Java语言 开发,经 过两年 多的 不 断 改进,目前 整个 代码 体系 已 基本成 熟,这一 点将在 13版 的稳定 性和执 行效率 上 会 有很 好的体 现 。除 此 以外,对 于大 家最 为 关心的 软件功 能,这一 版本主 要进行 了以下 几个方 面的改 进: 1.增强的 数据管 理功能 在 10版以后 ,SPSS的每个 新增版 本都会 对数据 管理功 能作一 些改进 ,以使 用户的 使用 更为 方 便。13版 中的改 进可能 主要有 以下几 个方面 : (1)超长变 量名:在 12版 中,变量 名已经 最多可 以为 64个字 符 长度,13版 中 可能 还要 大大 放 宽这一 限制,以 达到对 当今各 种复杂 数据仓 库更好 的兼容 性。 (2)改进的 Autorecode过程:该 过程将 可以 使 用自 动编 码模版 ,从 而用 户可以 按 自 定义 的 顺 序,而不 是默认 的 ASCII码顺序 进 行变 量 值 的重 编 码。 另 外,Autorecode过 程将 可 以 同时 对 多 个变量 进行重 编码,以 提高分 析效率 。 (3)改进的 日期、时 间函数 :本次 的改进 将使得 两个日 期、时间 差值的 计算,以及对日 期变量 值 的增减 更为容 易。 2.更完善 的结果 报告功 能 从 10版起,对数据 和结果 的图表 呈 现功 能 一 直是 SPSS改进 的 重 点。 在 12版 中 ,SPSS推 出 了全新 的常规 图功能 ,报表功 能也达 到了比 较完善 的地 步 。13版将 针对 使用 中 出现 的一 些问 题 ,以及用 户的需 求对图 表功能 作进一 步的改 善。 (1)统计图 :在经过 一年的 使用后 ,新的 常规图 操 作界 面 已基 本 完 善,本 次的 改进 除使 得操 作 更为便 捷外,还 突出 了 两 个 重点 。首 先 在 常 规图 中引 入 更 多 的交 互 图功 能 ,如 图 组 (Paneled Charts),带误差 线的分 类图形 如误差 线条图 和线图 ,三维效 果的简 单、堆 积和分 段饼图等 。其次 是 引入几 种新的 图形,目 前已知 的有人 口金字 塔和点 密度图 两种。 (2)统计表 :几乎全 部过程 的输出 都将会 弃用文 本,改 为更美 观的枢 轴表。 而且枢轴 表的表 现 和易用 性会得 到进一 步的提 高,并加 入了一 些 新的 功 能,如 可以 对 统 计量 进 行排 序、在表 格中 合 并或省 略若干 小类的 输出等 。此外 ,枢 轴表 将 可以 被 直 接导 出 到 PowerPoint中,这 些无 疑都 方 便了用 户的使 用。 ① 在 测试过程中 ,软 件功 能还会有所修 改,因此 最终 面世 的 SPSS13版其 功 能可 能会 和此 处 的介绍 略有 差 异。 SPSS12 中文 版的功 能和已面世 的英 文版本并无 差异,这里 不再详述。附录 1 SPSS13版新 增功能 介绍 349             3.为 ComplexSamples模块增 加统计 建模功 能 ComplexSamples是 12版中新 增的模 块,用 于 实 现复 杂抽 样的 设计 方 案,以及 对 相 应的 数 据 进行描 述。但 当时并 未提供 统计建 模功能 。在 13版中,这将会 有很大 的改观 。一般线 形模型 将 会被完 整地引 入复杂 抽样模 块中,以 实现对 复杂抽 样研究 中各种 连续性 变量的 建模预 测功能 , 例 如对市 场调研 中的客 户满 意度 数 据进 行 建 模。 对 于分 类 数 据,Logistic回 归 则将 会 被 系统 的 引 入。这 样,对于 一个任 意复杂 的抽样 研究,如 多阶段 分 层 整群 抽 样,或 者更 复杂 的 PPS抽样 , 研 究者都 可以在 该模块 中轻松 地实现 从抽样 设计、统 计描 述 到 复杂统 计建 模 以发 现影 响因 素的 整 个分析 过程,方 差分析 模 型、线 形 回归 模 型、Logistic回 归 模 型等 复杂 的统 计 模型 都 可 以加 以 使 用,而操 作方式 将会和 完全随 机抽样 数据的 分析操 作没有 什么差 别。可 以预见 ,该模块 的推出 将 会大大 促进国 内对复 杂抽样 时统计 推断模 型的正 确应用 。 本系 列丛书 中的《SPSS与市 场研究 》一 书将 会 介绍 复 杂抽 样模 块的 功 能,届时 将 会 对其 建 模 功能作 一介绍 。 4.新增的 ClassificationTree模块 这个 模块实 际上就 是将以 前单独 发行的 SPSSAnswerTree软件整 合进了 SPSS平台 。笔者 几 年前在 自己的 网站上 介绍 SPSS11的 新 功能 时,曾 经 很 尖锐地 指出 SPSS目 前的 产 品 线过 于 分 散,应当 把各种 功能较 单一的 小软件 ,如 AnswerTree、SamplePower等整合 到 SPSS等 几个平 台 上去。 看来 SPSS公司也 意识到 了这一 点,而 AnswerTree就是 在此背 景下第 一个被 彻底 整合 的 产品。 ClassificationTree模 块基于 数据挖 掘中 发展 起来 的 树 模 型对 分类 变量 或 连续 变 量 进行 预 测 ,可以方 便、快 速的对 样本进 行细分 ,而不需 要 用户 有 太多 的 统计 专 业 知识 。目 前在 市场 细分 和 数据挖 掘中有 较广泛 的应用 。现在 已 知 该模 块将会 提 供 AnswerTree中 的 CHAID、Exhaus- tiveCHAID、C&RT和 QUEST全部四 种算法 。 为了 方便新 老用户 的使用 ,Tree模块 在操作 方式上 不再使 用 AnswerTree中的向 导 方式,而 是 SPSS近两 年开始 采用的 交互式 选项卡 对 话 框。 但是,整 个选 项 卡界 面的 内 容实 际 上 是和 原 先 的向导 基本一 致的,另 外,模型 的结 果输 出仍 然 是 AnswerTree中 标 准 的树 形 图,这使 得 An- swerTree的 老用户 基本上 不需要 专门的 学习就 能够懂 得如何 使用该 模块。 由于 树结构 模型的 方法体 系和传 统的统 计方法 完 全不 同 ,贸然引 入可 能 会引 起读 者统 计方 法 体系的 混乱。 为此,本 次编写 的高级 教程并 未介绍 该模块 ,而将 在高级 教程的 下一个版 本以及 关 于市场 细分问 题的教 材中对 其加以 详细介 绍。 5.更好的 SPSS系列 产品兼 容性 随着 自身产 品线的 不断完 善,SPSS公司 的产品 体 系已 经 日益 完 整,而 不 同产 品间 的互 补和 兼 容性也 在不断 加以改 进。在 13版本 中,SPSS软件 已经 可 以 和其他 一些 最 新的 产品 很好 地整 合 在一起 ,形成更 为完整 的解决 方案。 例 如,SPSS、SPSSDataEntry和 新发 布 的 SPSSTextA- nalysisforSurveys一 起就 形 成 了 对调 查 研 究 的 完 整 解 决 方 案。而 新 增 的 SPSSClassification Trees模块 将使得 SPSS软件 本身就 能够针 对市场 细分工 作提供 更为完 整的方 法体系 。  附录 2 SPSS函数一览表 本部 分的内 容是基 于目前 上 市的最 高版 本 SPSS12编写 的 。在 SPSS中 共 有十 大 类 函数 , 包 括:数学 函数、累计概 率函数 、概率密 度函数 、日期 时 间 函数 、逆分 布 函 数、缺 失值 函数 、随 机函 数 、统计函 数、字 符串函 数和其 他函数 。 每个 函数由 两部分 构成,一 部分是 函数名 称,以 大写字 母表示 ;另一部 分是参 数,以小 写字母 表 示,一个 函数中 可以有 一个或 几个参 数,每 个参数 之间用 逗号分 隔,所有 参数用 括号括 起来。 参数 是使用 函数时 要替换 和更改 的部分 ,因此掌 握函数 ,就必 须掌握 每个参 数的意义 。每个 参 数要求 的表达 式的形 式是不 一样的 ,有的要 求 是数 值 型(既 可以 是具 体 数字 ,也可以 是数 值型 变 量);有的 要求是 字符型 (既可以 是具体 字符,也可以 是字符 型变量 );有的要 求是 日 期型(既可 以 是具体 日期时 间,也可 以是 日 期 型 变量 );还有 的 参 数对 其 取 值 范 围 有具 体 要 求。SPSS的 函 数 中涉及 的参数 大致可 归纳为 以下: �  数 字或 数 值型 变 量 作 参 数,如 num、radians、mod、high、low、test、pos、length、divisor、 value、numexpr、numvar、variable。 �  各种分 布 的 参数 ,如 quant、prob、shapel、r、scale、loc、df、mean、、std、sample、hits、to- tal、threshold、size、min、max、zvalue、nc。 �  字符 或 字 符 型 变 量 作 参 数,如 high、,low、test、char、needle、haystack、strexpr、value, variable。 �   数 值 或 时 间 日 期 型 变 量 作 参 数,如 timevalue、day、month、year、quarter、weeknum、 daynum、hours、min、sec、datevalue。 �  变量作 参数,如 variable。 下面 分类介 绍十大 类函数 。 1.数学函 数 见附 表 2.1。 附表 2.1 数学函数 函数形式 返回值类型 函 数 说 明 ABS(num) 数值型 计算“num”的绝对值 例:ABS(-3)=3 ARSIN(num) 数值型 返回“num”的反正弦值,以弧度为单位,num需介于 -1~1之间 ARTAN(num) 数值型 返回“num”的反正切值,以弧度为单位 COS(radians) 数值型 返回“radians”的余弦值 EXP(num) 数值型 返回 e的“num”次幂 例:EXP(2)=e2 =7.389附 录 2 SPSS函数一 览表 351             续表 函数形式 返回值类型 函 数 说 明 LG10(num) 数值型 返回“num”的以 10为底的对数值 例:LG10(100)=lg100=2 LN(num) 数值型 返回“num”的自然对数值 例:LN(7.389)=2 LNGAMMA(num) 数值型 返回“num”的完全 Gamma函数的自然对数值 例:LNGAMMA(5)=3.18 MOD(num,mod) 数值型 返回“num”除以“mod”以后的余数,“mod”不能为零 例:MOD(3,2)=1 RND(num) 数值型 返回“num”四舍五入以后得到的整数值 例:RND(4.7)=5 SIN(radian) 数值型 返回“num”的正弦值,参数必须为数值型 例:SIN(3.14)=0 SQRT(num) 数值型 返回“num”的平方根,参数必须为数值型,又不为负数 例:SQRT(4)=2 TRUNC(num) 数值型 返回“num”截尾以后得到的整数值 例:TRUNC(4.7)=4 2.累计概 率函数 主要 有 CDF族函数 ,用于 计算当 概 率函 数 值等 于 quant时 指定 分 布 函 数的 下侧 (左 侧 )累 计 概率值 ,共有 25种常 用分布 可供选 择(见附 表 2.2)。在 它的基 础上又 衍生出 了 SIG 族 函数和 NCDF族 函数,前 者用于 计算分 布的右 侧累计 概率 值 ,后 者则 返回 非 中心 化 分布 函数 的下侧 (左 侧 )累计概 率值,其 中非中 心化分 布需要 多指定 一个非 中心参 数。 附表 2.2 累计概率函数 函数形式 返回值类型 函 数 说 明 CDF.BERNOULLI (quant,prob) 数值型 返回参数为“prob”的贝努利分布的“quant”分位点的累积概 率值 CDF.BETA ( quant, shape1, shape2) 数值型 返回参数为“shape1、shape2”的贝塔分 布的“quant”分位点的 累积概率值 CDF.BINOM (quant,n,prob) 数值型 返回实验次数(n)和成功概率(Prob)的二项分布的 “quant” 分位点的累积概率值 CDF.BVNOR(q1,q2, r) 数值型 返回相关系数为“r”的双变量标准正态分布的“q1,q2”分位点 的累积概率值 CDF.CAUCHY (quant,loc,scale) 数值型 返回位置、比例 参 数 分别 为 “loc”和 “scale”的 柯西 分 布 的 “quant”分位点的累积概率值 CDF.CHISQ(quant, df) 数值型 返回自由度为“df”的卡方分布的“quant”分位点的累积概率 值 CDF. EXP (quant, shape) 数值型 返回参数为“shpae”的指数分布的“quant”分位点的累积概率 值          352   附录 2 SPSS函数一 览表 续表 函数形式 返回值类型 函 数 说 明 CDF.F(quant,df1,df2) 数值型 返回自由度为“df1\df2”的 F分布的“quant”分位点的累积概 率值 CDF.GAMMA (quant,shape,scale) 数值型 返回来自给定形状参数(shape)和比例参数(scale)的 Γ分布 的“quant”分位点的累积概率值 CDF.GEOM(quant,prob) 数值型 返回概率参数为“prob”的几何分布的“quant”分位点的累积 概率值 CDF.HALFNRM (quant,mean,std) 数值型 返回总体 均数 为“mean”和标 准差为“std”的 半正 态分 布的 “quant”分位点的累积概率值 CDF.HYPER (quant,total,sample,hits) 数值型 返回总体 为“total”和对应 项大 小为 “hits”以及样 本大 小 为 “sample”的超几何分布的“quant”分位点的累积概率值 CDF.IGAUSS (quant,mean,scale) 数值型 返回来自给定均数和标准差的反高斯分布的 “quant”分 位点 的累积概率值 CDF.LAPLACE (quant,mean,scale) 数值型 返回均值为“mean”和比例参数为“scale”的拉 普拉 斯分 布的 “quant”分位点的累积概率值 CDF.LOGISTIC (quant,mean,scale) 数值型 返回均值为“mean”和比例 参数 为“scale”的 Logistic分 布的 “quant”分位点的累积概率值 CDF.LNORMAL (quant,a,b) 数值型 返回参数为“a,b”的对数正态分布的“quant”分位点的累积概 率值 CDF.NEGBIN (quant,thresh,prob) 数值型 返回次数参数为“thresh”和概率为“prob”的获取成功所需试 验次数的“quant”分位点的累积概率 CDF.NORMAL (quant,mean,stddev) 数值型 返回均 值 为 “mean”和 标 准 差 为 “stddey”的 正 态 分 布 的 “quant”分位点的累积概率值 CDF.PARETO (quant,threshold,shape) 数值型 返回参数为“threshold”和形 状参数 shape的帕累 托分 布 的 “quant”分位点的累积概率值 CDF.POISSON (quant,mean) 数值型 返回均值为“mean”的泊松分布的“quant”分位点的累积概率 值 CDF.SMOD (quant,size,df) 数值型 返回 参数 为“size,df”的 Studentizedmaximum modulus的 “quant”分位点的累积概率值 CDF.SRANGE (quant,size,df) 数值型 返回参数为“size,df”的 Studentizedrangestatistic的“quant” 分位点的累积概率值 CDF.T(quant,df) 数值型 返回自由度为“df”的 T分布的“quant”分位点的累积概率值 CDF.UNIFORM (quant,min,max) 数值型 返回最小值为“min”和最大值为“max”的均匀分布的“quant” 分位点的累积概率值 CDF.WEIBULL (quant,a,b) 数值型 返回参数为“a,b”的威布尔分布的“quant”分位点的累积概率 值 CDFNORM(zvalue) 数值型 返回标准正态分布的“zvalue”分位点的累积概率值 NCDF.BETA (quant,shape1,shape2,nc) 数值型 返回形状参数为 “shape1,shape2”和非 中心 参数为“nc”的非 中心贝塔分布的“quant”分位点的累积概率值 NCDF.CHISQ (quant,df,nc) 数值型 返回自由度为“df”和 非中 心参 数为 “nc”的 非中 心 χ2 分布的 “quant”分位点的累积概率值附 录 2 SPSS函数一 览表 353             续表 函数形式 返回值类型 函 数 说 明 NCDF.F (quant,df1,df2,nc) 数值型 返回自由度为“df1,df2”和非 中心 参数 为“nc”的非 中心 F分 布的“quant”分位点的累积概率值 NCDF.T(quant,df,nc) 数值型 返回自由度为“df”和非中心 参数 为“nc”的非中心 T分 布的 “quant”分位点的累积概率值 SIG.CHISQ(q,df) 数值型 返回自由度为“df”的卡方分布的“quant”分位点的右侧累积 概率值 SIG.F(q,df1,df2) 数值型 返回自由度为“df1,df2”的 F分布的“quant”分位点的右侧累 积概率值 3.概率密 度函数 主要 有 PDF族函 数 ,用于计 算 当概 率 函数 值等 于 quant时 指定 分 布函数 的点概 率 密度值 , 共 有 25种 。从中 又衍生 出了 NPDF函 数,共有 4种,用 于计算 非 中心 化分 布 函数 的点 概率 密度 值 。它们 和上面 的 CDF函数及 NCDF函 数可一 一对应 ,此处不 再重复 。 4.日期时 间函数 主要 有四大 类(见 附表 2.3),在计 算 时均以 1582年 10月 15日为 基线时 间,它 们 的功 能如 下 : CTIME:返回数 值型变 量 ,参 数 “timevalue”为 时 间 变 量 或 表 达 式 ,即 一 般 要 使 用 Time或 Date系列函 数来设 置变量 参数,返 回 该日 期 和基 线 时 间相 差 的累 计 日、时、分 或 秒数 ,计 算时 会 将 上一层 次的差 异换算 下来,如 将小时 换算为 分。 TIME:返回数 值型时 间变量 ,参数 “day”“hour”“min”“sec”为数值 ,反映 当前时 间的秒 数。 DATE:返回数 值型时 间变 量,参 数“day”“month”“quarter”“year”“weeknum”“daynum” 均 为数值 型,反映 当前时 间距基 线日期 的秒数 。 XDATE:返 回数值 变量,参数“datevalue”必 须为时 间变量 或表达 式,即 一般要 使 用 Time或 Date系列函 数来设 置变量 参数,返 回 该日 期 和基 线 时 间相 差 的日、时、分 或 秒 数,注 意 只 计算 同 级 差异,如 计算秒 时不考 虑分的 差异。 附表 2.3 日期时间函数 函数形式 返回值类型 函 数 说 明 CTIME.DAYS(timevalue) 数值型 返回“timevalue”距基线日期的累计天数,包括小数,“timeval- ue”必须是数字或日期格式的表达式 例:CTIME.DAYS(1952/02/03)=134886.00 CTIME.HOURS(timevalue) 数值型 返回“timevalue”距基线日期的累计 小时数,包括小数,“time- value”必须是数字或日期格式的表达式 例:CTIME.HOURS(1952/02/03)=3237264.00 CTIME.MINUTES(timeval- ue) 数值型 返回“timevalue”距基线日期的累计 分钟数,包括小数,“time- value”必须是数字或日期格式的表达式 例:CTIME.MINUTES(1952/02/03)=194235840.00          354   附录 2 SPSS函数一 览表 续表 函数形式 返回值类型 函 数 说 明 CTIME.SECONDS(timeval- ue) 数值型 返回“timevalue”距基线日期的累计秒数,包括小数,“timeval- ue”必须是数字或日期格式的表达式 例:CTIME.SECONDS(1952/02/03)=11654150400.00 DATE.DMY (day,month, year) 日期数值型 返回日期“year”年“month”月“day”日距基线日期的秒数 例:DATE.DMY(02,03,1982)意思是 1982年 3月 2日 DATE.MDY (month,day, year) 日期数值型 返回日期:“year”年“month”月“day”日距基线日期的秒数 例:DATE.MDY(02,03,1982)意思是 1982年 2月 3日 DATE.MOYR(month,year) 日期数值型 返回日期:“year”年“month”月 1日距基线日期的秒数 例:DATE.MOYR(02,1982)意思是 1982年 2月 DATE.QYR(quarter,year) 日期数值型 返回日期:“year”年第“quarter”季第 1天距基线日期的秒数 例:DATE.QYR(3,1982)意思是 1982年第 3季度 DATE.WKYR (weeknum, year) 日期数值型 返回日期:“year”年第 “weeknum”周 第 1天距基线 日期 的秒 数 例:DATE.WKYR(21,1982)意思是 1982年第 21周DATE.YRDAY (year,day- num) 日期数值型 返回日期:“year”年第“daynum”天距基线日期的秒数 例:DATE.YRDAY(1982,21)意思是 1982年第 21天 TIME.DAYS(days) 日期数值型 返回“days”天的秒数,“days”必须为数值 例:TIME.DAYS(1)=86500意思是 1天为 86400s TIME.HMS(hours) 日期数值型 返回“hour”小时的秒数,“hour”必须为数值 例:TIME.HMS(1)=3600意思是 1h为 3600s TIME.HMS(hours,min) 日期数值型 返回“hour”小时“min”分钟的秒数,“hour”、“min”必须为数 值 例:TIME.HMS(1,30)=5400意思是 1h30min为 5400sTIME.HMS(hours,min, sec) 日期数值型 返回“hour”小 时“min”分“sec”秒的秒 数,“hour”、“min”、 “sec”必须为数值 例:TIME.HMS(1,1,1)=3661意思是 1h1min1s=3661s XDATE.DATE(datevalue) 数值型 返回“datevalue”距 离 1582年 1月 1日 的秒数,与 CTIME. SECONDS(timevalue)相似。 例:XDATE.DATE(1952/02/03)=11654150400.00 XDATE.HOUR(datevalue) 数值型 返回“datevalue”为本天第几时,为整数,介于 0~23之间 例:XDATE.HOUR(02-MAR-200302 ∶30∶30)=2 XDATE.JDAY(datevalue) 数值型 返回“datevalue”为本年度第几天,为整数,介于 1~366之间 例:XDATE.JDAY(31-DEC-2004)=366 XDATE.MDAY(datevalue) 数值型 返回“datevalue”为本月第几天,为整数,介于 0~31之间 例:XDATE.MDAY(31-DEC-2003)=31 XDATE.MINUTE(dateval- ue) 数值型 返回“datevalue”为本时第几分,为整数,介于 0~59之间 例:XDATE.MINUTE(02-MAR-200302 ∶30∶29)=30 XDATE.MONTH (dateval- ue) 数值型 返回“datevalue”为本年度第几月,为整数,介于 1~12之间 例:XDATE.MINUTE(02-MAR-200302 ∶30∶29)=30附 录 2 SPSS函数一 览表 355             续表 函数形式 返回值类型 函 数 说 明 XDATE.QUARTER(dateval- ue) 数值型 返回“datevalue”为本年度第几季,为整数,介于 1~4之间 例:XDATE.QUARTER(02-MAR-200302∶30∶29)=1 XDATE.SECOND (dateval- ue) 数值型 返回“datevalue”为本分第几秒,为整数,介于 1~60之间 例:XDATE.SECOND(02-MAR-200302 ∶30∶29)=29 XDATE.TDAY(datevalue) 数值型 返回 “datevalue”距 离 1582年 1月 1日 的 整 数 天 数。 与 CTIME.SECONDS(timevalue)相似。 例:XDATE.TDAY(02-MAR-200302∶30∶29)=153541.00 XDATE.TIME(datevalue) 日期数值型 返回“datevalue”为当天的第几秒 例:XDATE.TIME(02-MAR-200302 ∶30∶29)=26430.00 XDATE.WEEK(datevalue) 数值型 返回“datevalue”为当年的第几整周,取值为 1~53 例:XDATE.WEEK(02-MAR-200302∶30∶29)=9.00 XDATE.WKDAY (dateval- ue) 数值型 返回“datevalue”为星期几、取值为 1~7的整数 例:XDATE.WEEK(02-MAR-200302∶30∶29)=1.00 XDATE.YEAR(datevalue) 数值型 返回“datevalue”四位数整数表示的年号 例:XDATE.YEAR(02-MAR-200302 ∶30∶29)=2003.00 YRMODA(year,month,day) 数值型 返回“year”年“month”月“day”天距离 1582年 10月 14日的 天数。“year”、“month”、“day”均为整数 例:XDATE.YEAR(03,3,2)=153541.00 5.逆分布 函数 主要 为 IDF族 ,相当于 CDF族 函数的 反函数 ,返回 指定分 布 在下 侧累 计概 率 值概 率为 所给 数 值时的 函数值 。共有 25个,和 CDF族函数 一 一对 应,此 处 不 再重复 ,仅 列出 单独的 PROBIT 函 数(见附 表 2.4)。 附表 2.4 逆分布函数 函数形式 返回值类型 函 数 说 明 PROBIT(prob) 数值型 返回标准正态分布在累积概率为“prob”时对应的分位数 例:PROBIT(0.975)=1.96 6.缺失值 函数 见附 表 2.5。 附表 2.5 缺失值函数 函数形式 返回值类型 函 数 说 明 NMISS(variable(⋯ )) 数值型 返回“variable(⋯ )”中含缺失值的变量个数 MISSING(variable) 逻辑型 判断变量“variable”是否为缺失值,如是,返回“1”,否则返回“1” SYSMIS(numvar) 逻辑型 判断数值型变量“numvar”是否为系统缺失值 VALUE(vanable) 数值型 / 字符型 返回变量“vanable”的值,即使是用户自定义的缺失值也返回, 并不再把它看作缺失值          356   附录 2 SPSS函数一 览表 7.随机函 数 主要 为 RV 系列函 数,它 返回真 随机数 ,其余的 两 个 函数 返 回的 是 伪 随机 数 (见 附表 2.6)。 RV函 数共有 25个 ,同样可 以和 CDF系 列一一 对应,这 里不再 重复。 附表 2.6 随 机 函 数 函数形式 返回值类型 函 数 说 明 NORMAL(stddev) 数值型 返回服从均值为 0,标准差等于“stddev”的正态分布的伪随机 数 UNIFORM(max) 数值型 返回服从最小值为 0,最大值为“max”的均匀分布的伪随机数 8.统计函 数 见附 表 2.7。 附表 2.7 统 计 函 数 函数形式 返回值类型 函 数 说 明 CFVAR (numexpr,numexpr[,...]) 数值型 返回“numexpr”中有效值构成样本的变异系数,需要两个或以 上 value,可以为本函数指定有效变量的最小个数 MAX (value,value[,...]) 数值型 或字符型 返回“value”中的最 大值,需要两个或两个以上 value,可以为 本函数指定有效变量的最小个数 例:MAX(2,3,7,9)=9;MAX(a,b,c,d)=d MEAN (numexpr,numexpr[,...]) 数值型 返回“numexpr”这些数值型变量的算术平均值,需要两个或两 个以上 numexpr,可以为本函数指定有效变量的最小个数 例:MEAN(3,4,8)=5 MIN (value,value[,...]) 数值型 或字符型 返回 value中的最小值,需要两个以上 value,可以为本函数指 定有效变量的最小个数 例:MAX(2,3,7,9)=2;MAX(a,b,c,d)=a NVALID (variable[,...]) 数值型 返回“variable[,...]”这些变量中含有 有效值的变量的个数, 此函数需要一个 以上 的变 量,它 们必 须是当前数据 文件 中的 变量 SD (numexpr,numexpr[,...]) 数值型 返回“numexpr”这些数值型变 量中含有有效值的变量的标准 差,此函数需要两个或两个以上的 数值型变量,可以为此函数 指定有效变量的最小个数 SUM (numexpr,numexpr[,...]) 数值型 返回“numexpr”这些数值型变量中含有有效值的变量的总和, 此函数需要两个 或以 上的 数值型变量,可以为此函 数指 定有 效变量的最小个数 VARIANCE (numexpr,numexpr[,...]) 数值型 返回“numexpr”这些数值型变量中含有有效值的变量的方差, 此函数需要两个 以上 的数 值型变量,可以为此函数 指定 有效 变量的最小个数 9.字符串 函数 见附 表 2.8。附 录 2 SPSS函数一 览表 357             附表 2.8 字符串函数 函数形式 返回值类型 函 数 说 明 CONCAT (strexpr,strexpr[,...]) 字符型 返回“strexpr”合并而成的字符串,需要两个或两个以上的表达式 例:CONCAT(a,b)=ab INDEX (haystack,needle) 数值型 返回“needle”在 “haystack”中第 一次 出现的位置,如果“hay- stack”中没有“needle”则返回 0 例:INDEX(abc,b)=2 INDEX (haystack,needle,divisor) 数值型 参见前一函数,其中将“needle”均分为“divisor”个字符组成的 字符串,“needle”的字符串长度必须能被“divisor”整除 例:NDEX(chicago,atlcag,2)=5 INDEX(chicago,atlcag,3)=4 INDEX(seattle,atlcag,2)=3 INDEX(seattle,atlcag,3)=0 LENGTH(strexpr) 数值型 返回“strexpr”的长度,包括尾部空格,如果希望得到不包含尾 部空格的长度,可以用 LENGTH(RTRIM(strexpr)) 例: ENGTH(abcde)=5 LENGTH(RTRIM(abcde  ))=5 LOWER(strexpr) 字符型 返回“strexpr”中的大写字母变为小写 例:LOWER(aBcD)=abcd LPAD (strexpr,length) 字符型 返回 值 为 “strexpr”左 侧 添 加 空 格 直 到 整 个 长 度 达 到 “length”,“length”为 1~255之间的正整数 例:LPAD(ab,5)=ab LPAD (strexpr,length,char) 字符型 参见前一函数,不 同的 是,在“strexpr”前不 是添 加空 格,而是 添加“char”,“char”必须是一个单一字符 例:LPAD(ab,5,c)=cccab LTRIM(strexpr) 字符型 删除“strexpr”的左侧空格 例:LTRIM( ab)=ab LTRIM(strexpr,char) 字符型 删除“strexpr”左侧的“char”,“char”必须是一个单一字符 例:LTRIM(aatt,a)=tt MBLEN.BYTE (strexpr,pos) 数值型 用于多字节的亚洲语言,返回字符串“strexpr”指 定位置“pos” 的字符包括的字节数 RINDEX (haystack,needle) 数值型 返回“needle”在 “haystack”中 最 后 一 次 出 现的 位 置,如 果 “haystack”中没有“needle”则返回 0 例:RINDEX(abcb,b)=4 RINDEX (haystack,needle,divisor) 数值型 参见前一函数,其中将“needle”均分为“divisor”个 字符 组成 的字符串,“needle”的字符串长度必须能被“divisor”整除 例:RINDEX(chicago,atcago,2)=6 RPAD(strexpr,length) 字符型 返回 值 为 “strexpr”右 侧 添 加 空 格 直 到 整 个 长 度 达 到 “length”,“length”为 1~255之间的正整数 例:RPAD(ab,5)=ab RPAD(strexpr,length,char) 字符型 参见前一函数,不 同的 是,在“strexpr”后不 是添 加空 格,而是 添加“char”,“char”必须是一个单一字符 例:RPAD(ab,5,c)=abccc          358   附录 2 SPSS函数一 览表 续表 函数形式 返回值类型 函 数 说 明 RTRIM(strexpr) 字符型 删除“strexpr”的右侧空格 例:RTRIM(ab )=ab RTRIM(strexpr,char) 字符型 删除“strexpr”右侧的“char”,“char”必须是一个单一字符 例:LTRIM(aatt,t)=aa SUBSTR(strexpr,pos) 字符型 返回“strexpr”中从“pos”位置开始至最后一个字符的字符串, “pos”是一个数字 例:SUBSTR(factory,2)=actory SUBSTR (strexp,pos,length) 字符型 返回“strexpr”中从 “pos”位置 开始,长度 为“length”的 字符 串,“pos”、“length”均为整数 例:SUBSTR(factory,2,3)=act UPCAS(strexpr) 字符型 返回“strexpr”中的小写字母变为大写 例:LOWER(aBcD)=ABCD NUMBER (strexpr,format) 数值型 以“format”格式返回“strexpr”的数值 例:NUMBER(3.2,f8.1)=3.2(为数值型) STRING(num,format) 字符型 以“format”格式读取“num”数值,把它返回字符型 例:STRING(-1.5,F5.2)=-1.50(为字符型) 10.其他 函数 见附 表 2.9。 附表 2.9 其 他 函 数 函数形式 返回值类型 函 数 说 明 ANY (test,value,(value...)) 逻辑型 如果“test”与各“value”中的任何一个匹配,则 返回 “1”,否则 返回“0” 例: NY(a,b,c,d)=0 ANY(a,b,a,d)=1 LAG(variable) 数值型或 字符型 返回前一条记录的“variable”的取 值,对第一条记录返回系统 缺失值(对于数值型变量)或空格(对于字符型变量) LAG(variable,ncases) 数值型或 字符型 返回前面第 n条记录的“variable”的取值,为前 n条记录返回 系统缺失值(对于数值型变量)或空格(对于字符型变量) RANGE (test,low,high, (low,high...)) 逻辑型 如果“test”落在“low”与“high”确定的范围内,则返回“1”,否 则返回“0”。如果“low”与“high”为字符,必须等长度 例: NY(2,10,20)=0 ANY(d,a,f)=1  附录 3  种情形下最常用统计检验 方法索引 1.单变量    单个自 变量:连 续 样本 t检 验 有 序多分 类 单样本 秩和检 验 无 序多分 类 单样本 χ2 检 验 二 分类 二项分 布确切 概率法 2.因变量 :连续 变量 单个自 变量:连 续 相关分 析,回 归分析 有 序多分 类 单因素 方差分 析,结 果解释 时利用 有序信息 无 序多分 类 单因素 方差分 析 二 分类 两样本 t检 验    多个自 变量:连 续变量 为主 线性回 归模型 分 类变量 为主 方差分 析模型 ,和回 归模型 实际上 等价 3.因变量 :有序 分类变 量 单个自 变量:连 续 有序分 类的 Logistic回归 有 序多分 类 秩相关 分析、CMH χ2 无 序多分 类 多样本 秩和检 验(H 检 验) 二 分类 两样本 秩和检 验(W 检 验)    多个自 变量:连 续变量 为主 有序分 类的判 别分析 ,有序 分类的 Logistic回归 分 类变量 为主 有序分 类的 Logistic回归 4.因变量 :无序 分类变 量    单个自 变量:连 续 无序分 类的 Logistic回归 有 序多分 类 可将自 /因变 量交换 后分析 无 序多分 类 χ2 检验,深入分 析可用 对数线 性模型 二 分类 χ2 检验    多个自 变量:连 续变量 为主 判别分 析、无 序分类 的 Logistic回归 ① 这 里给出的仅 仅是 各种情况下 最常见 的分析 方法 ,便 于初 学者选用,并不 意味着 必须要使用 相应的 方法来分析 。          360   附录 3 各 种情形 下最常 用统计 检验方 法索引 分 类变量 为主 无序分 类的 Logistic回归 5.因 变量:二 分类变 量    单个自 变量:连 续 二分类 Logistic回 归 有 序多分 类 可将自 /因变 量交换 后分析 无 序多分 类 χ2 检验,二分类 的 Logistic回归 二 分类 四格表 χ2 检 验,确 切概率 法    多个自 变量:连 续变量 为 主 判 别分 析 、二 分类 Logistic回 归,两法 结 果 实际 等 价 分 类变量 为主 二分类 Logistic回 归 6.多元分 析方法 考察 的特征 需要由 多个因 变量来 表示,同 时研究 多个自 变量对 它们的 影响:多元方差 分析模 型 、多元回 归模型 。 希望 将变量 和纪录 分成若 干个类 别,但类 别数不 清楚,或各类 别的特 征不明 :聚类分 析。 已知 分类情 况,研究 目的是 希望建 立判别 方程,对 以后 新 进入 的 案 例进 行 所属 类别 的预测 : 判 别分析 。 需要 探索多 个连续 变量间 的内在 联系或 数据的 内在结 构:因子 分析。 需要 探索多 个分类 变量间 的内在 联系或 数据的 内在结 构:对应 分析。 考察 多个概 念间的 相似程 度,并寻 找受访 者用于 评价相 似性的 标准:多维尺 度分析。 生存 时间和 生存结 局都是 需要关 心的因 素,同时 数据中 存在大 量的失 访:生 存分析。 得到 的是时 间序列 数据,需 要根据 历史资 料对以 后的情 形加以 预测:时间序 列模型。  附录 4 统计术语英汉名词对照表 本对 照表并 不代表 SPSS官方 的意 见 ,仅仅是 为初 学者 提 供的 一份 统计 英 文术 语 参 考译 名 索 引,因此 在个别 术语在 译法上 可能和 即将发 布的 SPSS12简体中 文版有 所差异 。 由于 在不同 行业内 ,统计术 语的使 用频率 和翻 译 方 式各 不 相同,因 篇幅 所 限,本对 照表 中只 是 提供了 最为常 用的术 语。在 可能有 多种译 法时,主 要采用 最为标 准和常 用的一 种,并随 后标出 备 选的其 他译法 ,或者相 应术 语 更为 通 俗 的称呼 (但 与字 面 含义 无 关 )。如 censoring对 应的 译 法 为:删失 ,失访 ,终检。 这表示 以上三 种译法 均很常 见,但 以删失 最为妥 当。这 种推荐次 序仅仅 是 笔者个 人的看 法,供广 大读者 参考。 A accuracy 精确度 actualfrequency 实际频 数 adjustedvalue 校正值 alternativehypothesis 备择假 设 analysisofcovariance 协方差 分析 analysisofvariance,ANOVA 方差分 析 arithmeticmean 算术均 数 asymmetricdistribution 非对称 分布 autocorrelation 自相关 B barchart 条图 bayes theorem 贝叶斯 定理 bias 偏倚,偏性 binomialdistribution 二项分 布 bivariatenormaldistribution 双变量 正态分 布 block 区组 boxplot 箱图,箱线图 C canonicalcorrelation 典型相 关 case-controlstudy 病例一 一对照 研究 categoricalvariable 分类变 量 cell 单元 censoreddata 截尾数 据 censoring 删失,失访,终 检 centrallimittheorem 中心极 限定理 centraltendency 集中趋 势 chanceerror 随机误 差 classmid-value 组中值 clusteranalysis 聚类分 析 clustersampling 整群抽 样 coding 编码 coefficientofcontingency 列联系 数 coefficientofcorrelation 相关系 数 coefficientofdetermination决定系 数 coefficientofpartialcorrelation 偏相关 系数 coefficientofproduct-momentcorrelation 积差相 关系数 coefficientofrankcorrelation 等级相 关系数 coefficientofregression 回归系 数 coefficientofskewness 偏度系 数 coefficientofvariation 变异系 数 cohortstudy 队列研 究 communalityvariance 公共方 差 comparability 可比性 completeassociation 完全相 关          362   附录 4 统 计术语 英汉名 词对照 表 completerandom design 完全随 机设计 conditionallikelihood 条件似 然 conditionalprobability 条件概 率 confidenceinterval,CI 可信(置 信)区间 confidencelimit,CL 可信(置 信)限 confirmatoryfactoranalysis验证性 因子分 析 confirmatoryresearch 证实性 研究 conjointanalysis 联合分 析 consistencytest 一致性 检验 constraint 约束 contingencytable 列联表 (r×c表 ) contributionrate 贡献率 control 对照,控制 controlledexperiments 对照实 验 correction 校正 correctionforcontinuity 连续性 校正 correlation 相关 correlationanalysis 相关分 析 correlationcoefficient 相关系 数 correspondenceanalysis 对应分 析 counts 计数,频数 covariance 协方差 Coxregression Cox回 归 criteriaforfitting 拟合准 则 criticalvalue 临界值 cross-overdesign 交叉设 计 cross-sectionanalysis 横断面 分析 cross-sectionsurvey 横断面 调查 crosstabulationtable 交叉表 crosstabs 交叉表 cumulativefrequency 累计频 数 cumulativeprobability 累计概 率 curvefit 曲线拟 合 curvilinearregression 曲线回 归 D datareduction 数据缩 减 datatransformation 数据变 换 dataset 数据集 degreeoffreedom 自由度 degreeofreliability 可靠度 densityfunction 密度函 数 dependentvariable 因变量 deviation 离差 discretevariable 离散变 量 discriminantanalysis 判别分 析 distribution 分布 distribution-freemethod 任意分布方法,分布 自由方 法 doseresponsecurve 剂量反 应曲线 dummyvariable 哑变量 ,虚拟变 量 E eigenvalue 特征值 ,特征根 eigenvector 特征向 量 equivariance 等方差 error 误差 errorofestimate 估计误 差 estimatedvalue 估计值 euclideandistance 欧氏距 离 event 事件 expectedvalues 期望值 designofexperiment 实验设 计 exploratorydataanalysis 探索性 数据分 析 exponentialcurve 指数曲 线 extrapolation 外推法 extremes 极端值 ,极值 F F-distribution F分 布 factoranalysis 因子分 析 factorscore 因子得 分 factorial 阶乘 factorialdesign 析因试 验设计 falsenegative 假阴性 falsepositive 假阳性 finitepopulation 有限总 体 fittedvalue 拟合值 fittingacurve 曲线拟 合附录 4  统计术 语英汉 名词对 照表 363             forecast 预测 fourfoldtable 四格表 frequency 频数 frequencydistribution 频数分 布 G generallinearmodel,GLM一般线 性模型 generalizedlinearmodel 广义线 性模型 geometricmean 几何均 数 goodnessoffit 拟合优 度 H half-life 半衰期 harmonicmean 调和均 数 hazardfunction 风险函 数 hazardrate 风险率 heterogeneity 异质 heterogeneityofvariance 方差不 齐 heteroscedasticity 方差不 齐 hierarchicalclusteringmethod 分层聚 类法 histogram 直方图 homogeneity 同质,齐性 homogeneityofvariance 同方差 性 homogeneitytest 齐性检 验 homoscedasticity 方差齐 性 hypothesistest 假设检 验 I independence 独立性 independentvariable 自变量 initialmeanvectors 初始凝 聚点 interaction 交互效 应 intercept 截距 interpolation 插值 inter-quartilerange 四分位 数间距 intervalestimation 区间估 计 inversematrix 逆矩阵 iteration 迭代 K K-meansmethod K-均值 聚类法 Kaplan-Merier curve Kaplan-Merier 曲 线 kendallsrankcorrelationKendall等级相 关 Kolmogorov-Smirnovtest K-S检 验 KruskalandWallistest K-W 检验,H 检验 kurtosis 峰度 L lackoffit 拟合劣 度,失拟 Latinsquaredesign 拉丁方 设计 leastsquaremethod 最小二 乘法 legend 图例 level 水平 levelofsignificance 统计意 义水平 lifetable 寿命表 likelihoodfunction 似然函 数 likelihoodratiotest 似然比 检验 linegraph 线图 linear 线性 linearcorrelation 直线相 关 linearequation 线性方 程 linearprogramming 线性规 划 linearregression 线性回 归 lineartrend 线性趋 势 loading 载荷 log-ranktest 时序检 验 logarithmicscale 对数尺 度 logisticregression logistic回 归 logittransformation logit转 换 loglinearmodel 对数线 性模型 M maineffect 主效应 matcheddata 配对资 料 matching 匹配 maximum likelihoodmethod最大似 然法 maximum likelihoodratiotest 似然比 检验          364   附录 4 统 计术语 英汉名 词对照 表 mean 均值 meansquare,MS 均方 measurementbias 测量性 偏倚 median 中位数 medianeffectivedose 半数效 量 medianlethaldose 半数致 死量 mediansurvivaltime 中位生 存时间 mediantest 中位数 检验 M-estimators M 估计量 minimum lethaldose 最小致 死量 missingvalue 缺失值 multidimensionalscalinganalysis,MDS 多维尺 度分析 multinomialdistribution 多项分 布 multiplecomparison 多重比 较 multiplecorrelation 复相关 ,多重 相关 multiplecovariance 多元协 方差 multiplelinearregression 多重线 性回归 multipleresponse 多重应 答,多 选题 multistagesampling 多级抽 样 multivariateregression 多元回 归 multivariatestatisticalanalysis 多 变 量 统 计 分 析 , 多元统 计分析 N negativecorrelation 负相关 nostatisticalsignificance 无统计 学意义 nominalvariable 名义变 量 nonlinearregression 非线性 回归 nonparametricstatistics 非参数 统计 nonparametrictest 非参数 检验 normaldistribution 正态分 布 nullhypothesis 原假设 ,无效 假设 numericalvariable 数值变 量 O observationunit 观察单 位 observedvalue 观测值 oddsratio,OR 优势比 ,比数 比 one-sidedtest 单侧检 验 one-wayANOVA 单因素 方差分 析 optimum allocation 最优分 配 orderstatistics 顺序统 计量 orderedcategories 有序分 类 orthogonalexperimentaldesign 正交试 验设计 outlier 异常值 ,离群值 overallsurvey 普查 P paireddesign 配对设 计 paired(matched)t-test 配对 t检验 parameter 参数 parametricstatistics 参数统 计 parametrictest 参数检 验 partialcorrelation 偏相关 partiallikelihood 偏似然 函数 partialregressioncoefficient偏回归 系数 pathanalysis 路径分 析 percentbargraph 百分条 图 percentage 百分比 ,百分数 percentile 百分位 数,位点 periodicity 周期性 piegraph 饼图,圆图 placebo 安慰剂 pointestimation 点估计 Poissondistribution Poisson分布 polynomialcurve 多项式 曲线 population 总体 populationmean 总体均 值 positivecorrelation 正相关 posteriordistribution 后验分 布 powerofatest 检验效 能 powerofstatistics 检验效 能 precision 精度 principalcomponentanalysis主成分 分析 priordistribution 先验分 布 productmoment 乘积矩 ,协方差附录 4  统计术 语英汉 名词对 照表 365             product-limitmethod 乘积极 限法 proportion 构成比 prospectivestudy 前瞻性 研究 P-value P值 Q qualitativeevaluation 定性评 价 qualitativemethod 定性方 法 quantile-quantileplot Q-Q 图 quantitativeanalysis 定量分 析 quantitativeevaluation 定量评 价 quartile 四分位 数 questionnaire 问卷 quickcluster 快速聚 类 R random event 随机事 件 random sampling 随机抽 样 randomization 随机化 randomizedallocation 随机分 配 randomizedblockdesign 随机区 组设计 randomizedcontroltrial 随机对 照试验 randomizeddoubleblindcontroltrial 随机双 盲对照 试验 range 极差,全距 rankcorrelation 等级(秩 )相关 ranksum test 秩和检 验 rankeddata 等级资 料 rate 率 ratio 比 raw data 原始资 料 regressionanalysis 回归分 析 regressioncoefficient 回归系 数 regressionSS 回归平 方和 relativenumber 相对数 relativerisk,RR 相对危 险度 reliability 可靠度 ,信度 replacementlevel 更替水 平 residual 残差 residualstandarddeviation剩余标 准差 residualsum ofsquare 残差平 方和 ridgetrace 岭迹 riditanalysis Ridit分析 riskratio 危险比 ,风险比 rotation 旋转 r×ctable r×c表 S sample 样本 samplesize 样本量 samplingerror 抽样误 差 samplingfraction 抽样比 samplingstudy 抽样研 究 samplingsurvey 抽样调 查 scale 测量尺 度 scatterdiagram 散点图 scoretest 比分检 验 screening 筛检 selectionbias 选择性 偏倚 semilogarithmiclinegraph半对数 线图 sequentialdesign 序贯设 计 signtest 符号检 验 signedrank 符号秩 significancelevel 显著性 水准 significancetest 显著性 检验 simplecorrelation 简单相 关 simpleregression 简单回 归 skewness 偏度 slope 斜率 spearmanrankcorrelationspearman等 级相关 sphericaldistribution 球型分 布 standarddeviation,SD 标准差 ,标准离 差 standarderror,SE 标准误 ,标准误 差 standardnormaldistribution标准正 态分布 standardization 标准化 standardizedpartialregressioncoefficient 标准化 偏回归 系数 statistic 统计量 statisticalcontrol 统计控 制          366   附录 4 统 计术语 英汉名 词对照 表 statisticalgraph 统计图 statisticalinference 统计推 断 statisticalsignificance 统计学 意义 statisticaltable 统计表 stem andleafgraph 茎叶图 step-wisemethod 逐步法 strata 层(复数 ) stratification 分层 stratifiedclustersampling 分层整 群抽样 stratifiedsampling 分层抽 样 structuralequationmodeling结构方 程模型 sum ofsquares 离差平 方和 sum ofsquaresofdeviationsfrom mean 离均差 平方和 survey 调查 survivalanalysis 生存分 析 survivalcurve 生存曲 线 survivalprobability 生存概 率 survivalrate 生存率 survivaltime 生存时 间 symmetry 对称 syntheticindex 综合指 数 syntheticalevaluation 综合评 价 systematicerror 系统误 差 systematicsampling 系统抽 样 T t-distribution t分布 tendencyofdispersion 离散趋 势 teststatistic 检验统 计量 testingofhypotheses 假设检 验 theoreticalfrequency 理论频 数 timeseriesanalysis 时间序 列分析 t-test t检验 two-sidedtest 双侧检 验 two-stageleastsquaresmethod 二阶段 最小二 乘法 two-stagesampling 二阶段 抽样 two-stepcluster 两步聚 类法 two-tailedprobability 双尾概 率 two-tailedtest 双侧检 验 two-wayANOVA 两因素 方差分 析 two-waytable 双向表 typeIerror I类错误 typeIIerror II类错 误 U unbiasedestimate 无偏估 计 uniform distribution 均匀分 布 upperlimit 上限 u-test u检 验 V variable 变量 variance 方差 variancecomponentestimation 方差分 量估计 varimaxorthogonalrotation方 差 最 大 化 正 交 旋转 W weight 权重 weightedlinearregressionmethod 加权直 线回归 weightingmethod 加权法 Z zerocorrelation 零相关 z-transformation 标准正 态(z)变 换  SPSS产品简介 SPSS系列统 计分析 产品是 完全适 应数据 分析流 程的一 系列软 件 产品 的 统称,包括 SPSS统 计 分析软 件包和 AMOS、AnswerTree、SPSSDataEntry、SamplePower、SmartViewerW ebServ- er等 独立的 软件产 品。 SPSS统计分 析软件 包运用 统计学 原理进 行数据 分析,采 用模 块 化设计 技术 (包括 一个 基本 模 块和十 个辅助 模块)增 强产品 的灵活 性;基本 模 块与 辅 助模 块、独立 软 件产 品 的不同 整合 方式 可 以满足 不同的 数据分 析需要 ,优化从 方案规 划到最 终提交 分析结 果的全 部流程 。 作为 SPSS的最 新版本 ,SPSS12.0forWindows在数 据准备 、结果 管理、图 形 演示 以及 其他 许 多方面 都做了 重要改 进,功能 更强大 ,显示 更直观 ,操作更 便捷。 博 塔(中国 )有限公 司 Http://www.spssbj.com.cn 北 京 100086 海 淀区中 关村南 大街 2号数码 大厦 A座 1203室 电 话:+86(10)8251-5131/5132/5133/5135/5139/5215 传 真:+86(10)8251-5137 上 海 200050 上 海市长 宁区延 安西路 889号 太平洋 中心 907室 电 话:+86(21)5240-2011 传 真:+86(21)5240-2107
还剩372页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 10 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

vanny1978

贡献于2018-04-08

下载需要 10 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf