内容简介
《数理统计与数据分析(原书第3版)》将现代统计学的重要思想引入数理统计课程中,强调了数据分析、图形工具和计算机技术,并注重统计的实务和应用. 本书内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法,主要包括概率、随机变量、联合分布、期望、极限定理、抽样调查、参数估计、假设检验、数据汇总、两样本比较、方差分析、分类数据分析和线性最小二乘等。
《数理统计与数据分析(原书第3版)》用真实数据分析了实际问题,以此增强读者对理论的理解;作者将自助方法与传统的推论性过程结合起来,增加了蒙特卡罗方法. 此外,为了使概念更清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力。
《数理统计与数据分析(原书第3版)》适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考。
《数理统计与数据分析(原书第3版)》用真实数据分析了实际问题,以此增强读者对理论的理解;作者将自助方法与传统的推论性过程结合起来,增加了蒙特卡罗方法. 此外,为了使概念更清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力。
《数理统计与数据分析(原书第3版)》适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考。
作者简介
作者:(美)JohnA.Rice 译者:田金方
JohnA.Rice于加利福尼亚大学伯克利分校获得博士学位,并一直任教于该校统计系,现为该校统计学名誉教授。他是美国数理统计学会成员,发表过多篇理论和应用统计学论文。其研究兴趣集中于海量和需要高强度计算的随机数据的分析方法。
目录
第 1 章 概率 .1
1.1 引言 .1
1.2 样本空间 1
1.3 概率测度 3
1.4 概率计算:计数方法 5
1.4.1 乘法原理 .6
1.4.2 排列与组合 7
1.5 条件概率 12
1.6 独立性 17
1.7 结束语 19
1.8 习题 .20
第 2 章 随机变量 26
2.1 离散随机变量 26
2.1.1 伯努利随机变量 27
2.1.2 二项分布 28
2.1.3 几何分布和负二项分布 29
2.1.4 超几何分布 30
2.1.5 泊松分布 31
2.2 连续随机变量 34
2.2.1 指数密度 36
2.2.2 伽马密度 38
2.2.3 正态分布 39
2.2.4 贝塔密度 41
2.3 随机变量的函数 .42
2.4 结束语 45
2.5 习题 .46
第 3 章 联合分布 51
3.1 引言 .51
3.2 离散随机变量 52
3.3 连续随机变量 53
3.4 独立随机变量 60
3.5 条件分布 61
3.5.1 离散情形 61
3.5.2 连续情形 62
3.6 联合分布随机变量函数 67
3.6.1 和与商 68
3.6.2 一般情形 70
3.7 极值和顺序统计量 73
3.8 习题 .75
第 4 章 期望 .82
4.1 随机变量的期望 .82
4.1.1 随机变量函数的期望 85
4.1.2 随机变量线性组合的期望 87
4.2 方差和标准差 91
4.2.1 测量误差模型 94
4.3 协方差和相关 96
4.4 条件期望和预测 102
4.4.1 定义和例子 102
4.4.2 预测 106
4.5 矩生成函数 108
4.6 近似方法 .112
4.7 习题 116
第 5 章 极限定理 123
5.1 引言 123
5.2 大数定律 .123
5.3 依分布收敛和中心极限定理 .125
5.4 习题 130
第 6 章 正态分布的导出分布 133
6.1 引言 133
6.2 .2 分布、t 分布和 F 分布 133
6.3 样本均值和样本方差 .134
6.4 习题 136
第 7 章 抽样调查 138
7.1 引言 138
7.2 总体参数 .138
7.3 简单随机抽样 140
7.3.1 样本均值的期望和方差 .140
7.3.2 总体方差的估计 145
7.3.3 X 抽样分布的正态近似 148
7.4 比率估计 .152
7.5 分层随机抽样 157
7.5.1 引言和记号 157
7.5.2 分层估计的性质 157
7.5.3 分配方法 160
7.6 结束语 163
7.7 习题 164
第 8 章 参数估计和概率分布拟合 176
8.1 引言 176
8.2 粒子排放量的泊松分布拟合 176
8.3 参数估计 .177
8.4 矩方法 179
8.5 最大似然方法 184
8.5.1 多项单元概率的最大似然估计 .187
8.5.2 最大似然估计的大样本理论 .189
8.5.3 最大似然估计的置信区间 .193
8.6 参数估计的贝叶斯方法 197
8.6.1 先验的进一步注释 204
8.6.2 后验的大样本正态近似 .205
8.6.3 计算问题 206
8.7 效率和克拉默{拉奥下界 207
8.7.1 例子:负二项分布 210
8.8 充分性 212
8.8.1 因子分解定理 212
8.8.2 拉奥{布莱克韦尔定理 215
8.9 结束语 216
8.10 习题 217
第 9 章 假设检验和拟合优度评估 228
9.1 引言 228
9.2 奈曼{皮尔逊范式 229
9.2.1 显著性水平的设定和p 值概念 .232
9.2.2 原假设 232
9.2.3 一致最优势检验 233
9.3 置信区间和假设检验的对偶性 233
9.4 广义似然比检验 235
9.5 多项分布的似然比检验 236
9.6 泊松散布度检验 240
9.7 悬挂根图 .242
9.8 概率图 244
9.9 正态性检验 248
9.10 结束语 249
9.11 习题 250
第 10 章 数据汇总 .260
10.1 引言 260
10.2 基于累积分布函数的方法 260
10.2.1 经验累积分布函数 .260
10.2.2 生存函数 262
10.2.3 分位数{分位数图 266
10.3 直方图、密度曲线和茎叶图 268
10.4 位置度量 270
10.4.1 算术平均 271
10.4.2 中位数 272
10.4.3 截尾均值 274
10.4.4 M 估计 .274
10.4.5 位置估计的比较 275
10.4.6 自助法评估位置度量的变异性 275
10.5 散度度量 277
10.6 箱形图 278
10.7 利用散点图探索关系 .279
10.8 结束语 281
10.9 习题 281
第 11 章 两样本比较 289
11.1 引言 289
11.2 两独立样本比较 289
11.2.1 基于正态分布的方法 .289
11.2.2 势 298
11.2.3 非参数方法:曼恩{惠特尼检验 299
11.2.4 贝叶斯方法 305
11.3 配对样本比较 .306
11.3.1 基于正态分布的方法 .307
11.3.2 非参数方法:符号秩检验 308
11.3.3 例子:测量鱼的汞水平 310
11.4 试验设计 311
11.4.1 乳腺动脉结扎术 311
11.4.2 安慰剂效应 312
11.4.3 拉纳克郡牛奶试验 .312
11.4.4 门腔分术 313
11.4.5 FD&C Red No.40 313
11.4.6 关于随机化的进一步评注 314
11.4.7 研究生招生的观测研究、混杂和偏见 315
11.4.8 审前调查 315
11.5 结束语 316
11.6 习题 317
第 12 章 方差分析 .328
12.1 引言 328
12.2 单因子试验设计 328
12.2.1 正态理论和 F 检验 329
12.2.2 多重比较问题 333
12.2.3 非参数方法:克鲁斯卡尔{沃利斯检验 335
12.3 二因子试验设计 336
12.3.1 可加性参数化 337
12.3.2 二因子试验设计的正态理论 339
12.3.3 随机化区组设计 344
12.3.4 非参数方法:弗里德曼检验 346
12.4 结束语 347
12.5 习题 348
第 13 章 分类数据分析 354
13.1 引言 354
13.2 费舍尔精确检验 354
13.3 卡方齐性检验 .355
13.4 卡方独立性检验 358
13.5 配对设计 360
13.6 优势比 362
13.7 结束语 365
13.8 习题 365
第 14 章 线性最小二乘 373
14.1 引言 373
14.2 简单线性回归 .376
14.2.1 估计斜率和截距的统计性质 376
14.2.2 拟合度评估 378
14.2.3 相关和回归 383
14.3 线性最小二乘的矩阵方法 386
14.4 最小二乘估计的统计性质 388
14.4.1 向量值随机变量 388
14.4.2 最小二乘估计的均值和协方差 392
14.4.3 .2 的估计 394
14.4.4 残差和标准化残差 .395
14.4.5 ˉ 的推断 396
14.5 多元线性回归:一个例子 397
14.6 条件推断、无条件推断和自助法 401
14.7 局部线性平滑 .403
14.8 结束语 405
14.9 习题 406
附录 A 常用分布 415
附录 B 表 417
部分习题答案 433
参考文献 447
1.1 引言 .1
1.2 样本空间 1
1.3 概率测度 3
1.4 概率计算:计数方法 5
1.4.1 乘法原理 .6
1.4.2 排列与组合 7
1.5 条件概率 12
1.6 独立性 17
1.7 结束语 19
1.8 习题 .20
第 2 章 随机变量 26
2.1 离散随机变量 26
2.1.1 伯努利随机变量 27
2.1.2 二项分布 28
2.1.3 几何分布和负二项分布 29
2.1.4 超几何分布 30
2.1.5 泊松分布 31
2.2 连续随机变量 34
2.2.1 指数密度 36
2.2.2 伽马密度 38
2.2.3 正态分布 39
2.2.4 贝塔密度 41
2.3 随机变量的函数 .42
2.4 结束语 45
2.5 习题 .46
第 3 章 联合分布 51
3.1 引言 .51
3.2 离散随机变量 52
3.3 连续随机变量 53
3.4 独立随机变量 60
3.5 条件分布 61
3.5.1 离散情形 61
3.5.2 连续情形 62
3.6 联合分布随机变量函数 67
3.6.1 和与商 68
3.6.2 一般情形 70
3.7 极值和顺序统计量 73
3.8 习题 .75
第 4 章 期望 .82
4.1 随机变量的期望 .82
4.1.1 随机变量函数的期望 85
4.1.2 随机变量线性组合的期望 87
4.2 方差和标准差 91
4.2.1 测量误差模型 94
4.3 协方差和相关 96
4.4 条件期望和预测 102
4.4.1 定义和例子 102
4.4.2 预测 106
4.5 矩生成函数 108
4.6 近似方法 .112
4.7 习题 116
第 5 章 极限定理 123
5.1 引言 123
5.2 大数定律 .123
5.3 依分布收敛和中心极限定理 .125
5.4 习题 130
第 6 章 正态分布的导出分布 133
6.1 引言 133
6.2 .2 分布、t 分布和 F 分布 133
6.3 样本均值和样本方差 .134
6.4 习题 136
第 7 章 抽样调查 138
7.1 引言 138
7.2 总体参数 .138
7.3 简单随机抽样 140
7.3.1 样本均值的期望和方差 .140
7.3.2 总体方差的估计 145
7.3.3 X 抽样分布的正态近似 148
7.4 比率估计 .152
7.5 分层随机抽样 157
7.5.1 引言和记号 157
7.5.2 分层估计的性质 157
7.5.3 分配方法 160
7.6 结束语 163
7.7 习题 164
第 8 章 参数估计和概率分布拟合 176
8.1 引言 176
8.2 粒子排放量的泊松分布拟合 176
8.3 参数估计 .177
8.4 矩方法 179
8.5 最大似然方法 184
8.5.1 多项单元概率的最大似然估计 .187
8.5.2 最大似然估计的大样本理论 .189
8.5.3 最大似然估计的置信区间 .193
8.6 参数估计的贝叶斯方法 197
8.6.1 先验的进一步注释 204
8.6.2 后验的大样本正态近似 .205
8.6.3 计算问题 206
8.7 效率和克拉默{拉奥下界 207
8.7.1 例子:负二项分布 210
8.8 充分性 212
8.8.1 因子分解定理 212
8.8.2 拉奥{布莱克韦尔定理 215
8.9 结束语 216
8.10 习题 217
第 9 章 假设检验和拟合优度评估 228
9.1 引言 228
9.2 奈曼{皮尔逊范式 229
9.2.1 显著性水平的设定和p 值概念 .232
9.2.2 原假设 232
9.2.3 一致最优势检验 233
9.3 置信区间和假设检验的对偶性 233
9.4 广义似然比检验 235
9.5 多项分布的似然比检验 236
9.6 泊松散布度检验 240
9.7 悬挂根图 .242
9.8 概率图 244
9.9 正态性检验 248
9.10 结束语 249
9.11 习题 250
第 10 章 数据汇总 .260
10.1 引言 260
10.2 基于累积分布函数的方法 260
10.2.1 经验累积分布函数 .260
10.2.2 生存函数 262
10.2.3 分位数{分位数图 266
10.3 直方图、密度曲线和茎叶图 268
10.4 位置度量 270
10.4.1 算术平均 271
10.4.2 中位数 272
10.4.3 截尾均值 274
10.4.4 M 估计 .274
10.4.5 位置估计的比较 275
10.4.6 自助法评估位置度量的变异性 275
10.5 散度度量 277
10.6 箱形图 278
10.7 利用散点图探索关系 .279
10.8 结束语 281
10.9 习题 281
第 11 章 两样本比较 289
11.1 引言 289
11.2 两独立样本比较 289
11.2.1 基于正态分布的方法 .289
11.2.2 势 298
11.2.3 非参数方法:曼恩{惠特尼检验 299
11.2.4 贝叶斯方法 305
11.3 配对样本比较 .306
11.3.1 基于正态分布的方法 .307
11.3.2 非参数方法:符号秩检验 308
11.3.3 例子:测量鱼的汞水平 310
11.4 试验设计 311
11.4.1 乳腺动脉结扎术 311
11.4.2 安慰剂效应 312
11.4.3 拉纳克郡牛奶试验 .312
11.4.4 门腔分术 313
11.4.5 FD&C Red No.40 313
11.4.6 关于随机化的进一步评注 314
11.4.7 研究生招生的观测研究、混杂和偏见 315
11.4.8 审前调查 315
11.5 结束语 316
11.6 习题 317
第 12 章 方差分析 .328
12.1 引言 328
12.2 单因子试验设计 328
12.2.1 正态理论和 F 检验 329
12.2.2 多重比较问题 333
12.2.3 非参数方法:克鲁斯卡尔{沃利斯检验 335
12.3 二因子试验设计 336
12.3.1 可加性参数化 337
12.3.2 二因子试验设计的正态理论 339
12.3.3 随机化区组设计 344
12.3.4 非参数方法:弗里德曼检验 346
12.4 结束语 347
12.5 习题 348
第 13 章 分类数据分析 354
13.1 引言 354
13.2 费舍尔精确检验 354
13.3 卡方齐性检验 .355
13.4 卡方独立性检验 358
13.5 配对设计 360
13.6 优势比 362
13.7 结束语 365
13.8 习题 365
第 14 章 线性最小二乘 373
14.1 引言 373
14.2 简单线性回归 .376
14.2.1 估计斜率和截距的统计性质 376
14.2.2 拟合度评估 378
14.2.3 相关和回归 383
14.3 线性最小二乘的矩阵方法 386
14.4 最小二乘估计的统计性质 388
14.4.1 向量值随机变量 388
14.4.2 最小二乘估计的均值和协方差 392
14.4.3 .2 的估计 394
14.4.4 残差和标准化残差 .395
14.4.5 ˉ 的推断 396
14.5 多元线性回归:一个例子 397
14.6 条件推断、无条件推断和自助法 401
14.7 局部线性平滑 .403
14.8 结束语 405
14.9 习题 406
附录 A 常用分布 415
附录 B 表 417
部分习题答案 433
参考文献 447
序言
前 言
本书的目标
这本书反映了我对第一门统计学课程的认识,而这对很多学生来说可能是最后的统计课程。
这样的课程应该包括数理统计的一些经典内容(如似然法),以及描述统计学和数据分析的一些内容,特别是图形显示、试验设计和复杂的实际应用。它还应该体现出计算机在统计学中所起的不可或缺的作用。这些主题适当地交织在一起,可以将现代统计学的本质展示给学生。分别讲授两个主题的课程 || 一个是理论,一个是数据分析,对我来讲似乎有点造作。此外,很多学生仅学习一门统计学课程,而没有时间学习两门或两门以上这方面的课程。
数据分析与统计实践
为了将上述主题融合在一起,我一直在努力地撰写一本能够紧密结合统计实践的教科书。只有分析实际数据,才能使我们明白形式理论和通俗数据分析方法所扮演的角色。我围绕着各种问题组织了这本书,这些问题都需要使用统计方法来解决,此外书中包含很多实际例子,借此引入和介绍理论内容。这样安排的优点是理论构建在寓意深刻的背景内容下,对其逐步补充和加强,与通俗的分析方法结合在一起。我认为,这种方法是适合于统计学的,其历史发展主要是由实践需要来促进的,而不是抽象或美学的思考。同时,我也没有回避学生应该知道的数学内容。
第3 版
本书第1 版于 1988 年问世,第2 版于 1994 年出版。尽管本书基本的目的和结构没有改变,但是新的版本反映了统计学科的发展,尤其是计算方面的革新。
这一版最显著的变动是对贝叶斯推断的处理。我将最后一章的材料做了迁移,分散于之前的各章中,这是由于很多老师很难讲授到这一章。现在贝叶斯推断首先出现在第3章的条件分布中。然后,在第8章与频率学派方法同步讲解,那里的贝叶斯方法可以非常自然地解决最大似然估计量。第9章假设检验的引言部分现在以贝叶斯公式作为开端,然后再转向奈曼{皮尔逊范式。
这样做的一个好处是似然比的至关重要性更突出。在应用中,我强调无信息先验,说明频率学派和贝叶斯学派得出的定性结论具有相似性。
概率论章节新增了基因组学和金融统计的例子。这些材料除了与相应的主题相关外,还可以很自然地强化基本概念。例如,连接函数 (copulas) 强调了边际分布和联合分布之间的关系。其他变动包括第10章探索性数据分析中散点图和相关系数的介绍,以及第14章中利用局部线性最小二乘进行非参数平滑的简介。本版新增了将近 100 道习题,主要集中在第7 .14章,同时还包括几个新的数据集,有些数据集完全可以用于计算机实验室上机操作。此外, 还修改了前面版本中解释含糊不清的一些段落。
概要
当然,我们可以从目录中找到完整的大纲,这里,我仅仅强调几点,并指出教师讲授课程时需要取舍的章节内容。
前 6章包含概率论的内容,特别是与统计学密切相关的内容。第1章以非测度论的观点介绍概率论的基本内容,以及初等组合方法。在这一章和其他概率章节中,我尽可能地利用现实世界的例子,而不是使用球与盒子的抽样模型。
第2章介绍了随机变量的概念。我选择将离散型和连续型随机变量放在一起讨论,而不是把连续情形推迟到以后再进行介绍。本章介绍了几个常见分布。这样安排的好处是它能为后面的章节提供一些讨论和介绍的内容。
第3章继续讨论随机变量,但是转向联合分布。教师可以跳过雅可比行列式,这不会有损课程的连续性,因为它们很少在本书的其余部分出现。如果教师乐意之后做些回溯工作,可以在讲解时跳过 3.7 节极值和顺序统计量的内容。
期望、方差、协方差、条件期望和矩生成函数共同构成第4章。教师可以跳过条件期望和预测,尤其是没有计划讲解稍后的充分统计量时。这一章之后的部分介绍了 ± 方法 (误差传播方法),这个方法多次出现在统计学的章节中。
第5章在非常严格的假设条件下证明了大数定律和中心极限定理。
第6章汇编了与正态分布有关的常用分布,以及利用通常的正态随机样本计算所得统计量的抽样分布。我没有在此浪费过多的时间,但确实介绍了统计学章节所必需的知识点, 学生很有必要学习这些分布。
第7章是有关抽样调查的内容,以非常规但比较自然的方式导入统计学的研究议题。很多学生在学习抽样调查内容时感到比较模糊,而恰恰在抽样调查中很自然地提出了一系列比较特殊的具体统计问题。从历史上看,抽样调查涉及了很多重要的统计概念,并可以将其用作传播介质引入在后面的章节中深入介绍的概念和技术,例如:
作为随机变量的估计量的思想,具有与之相关联的抽样分布。
偏倚、标准误差和均方误差的概念。
置信区间和中心极限定理的应用。
通过研究分层估计量揭示试验设计的概念以及相对效率的概念。
期望、方差和协方差的计算。
抽样调查不受欢迎的原因之一是其计算十分令人讨厌。然而,这种讨厌也有其长处,学生可以在这样的计算中得到锻炼。教师可以灵活地掌握介绍本章概念的深度。比率估计和分层部分是可选的,初次讲授时完全可以跳过,或稍后再讲这些概念,这并不影响课程的连续性。
第8章介绍参数估计,它是由拟合数据的概率律问题引起的,其中介绍了矩方法、最大似然方法和贝叶斯推断方法,同时还介绍了效率的概念,证明了克拉默{拉奥不等式。8.8 节介绍了充分性的概念及其一些衍生问题。可以跳过克拉默{拉奥下界和充分性的内容。在我看来,充分性的重要性通常被过度强调了。负二项分布的内容也可以跳过。
第9章介绍了假设检验及其拟合优度检验的应用,这配合第8章的内容.(这个内容还会在第11章深入讨论。)这里还简要展示了图方法。如果课时有限,教师可以跳过本章最后的 9.6 节(泊松散布度检验)、9.7 节(悬挂根图)和 9.9 节(正态性检验)。
第10章介绍了几种描述性方法,其中的很多技术都会在后面的章节中出现。本章强调了图方法的重要性,并介绍了稳健性的概念。将描述性方法放在本书的后面似乎有点怪异, 这样做是因为描述性方法通常有其随机性的一面,三章之后再介绍之可以使学生有足够的基础知识去研究各种汇总统计量的统计行为(例如,中位数的置信区间)。我在讲授课程时,会较早地介绍这部分内容。例如,在抽样调查实验中,我让学生制作抽取样本的箱形图和直方图。教师可以跳过生存函数和危险函数。
第11章介绍了两样本问题的经典分析方法和非参数方法。假设检验的概念第一次出现在第9章,在此做了更深一步的介绍。本章的末尾讨论了试验设计并解释了观测研究的一些内容。
前面 11章是初级课程的核心,涵盖了估计和假设检验的构造理论、图和描述性方法以及试验设计的内容。
教师可以自由地选择第12章到第14章的内容。特别地,没有必要按照书中给定的顺序讲解这些章节。
第12章利用方差分析和非参数技术讨论了单因子和二因子试验设计问题。多重比较问题第一次出现在第11章末,在此进行了深入讨论。
第13章简单讨论了分类数据分析, 介绍了齐性和独立性的似然比检验, 并叙述了麦克尼马尔检验。最后,通过前瞻性和回顾性研究的讨论引入了优势比的估计问题。
第14章讨论了线性最小二乘。首先介绍了简单线性回归,接着利用线性代数讨论了更一般的情形。我选择运用矩阵代数,但尽可能地将其维持在简单和具体层面上,没有超过初级一学期(每学年分为四学期制度中的一学期) 课程所讲授的内容。特别地,我没有介绍一般线性模型的几何分析内容,也没有试图将回归和方差分析统一起来。在这一整章中,理论结果伴随着更多基于残差分析的定性数据分析步骤。在本章末,我通过局部线性最小二乘介绍了非参数回归。
计算机使用和习题解答
计算是现代统计不可或缺的一部分。它是数据分析的本质,可以帮助我们理清基本概念。我的学生使用开源软件包 R,将其安装在自己的计算机上就可以使用。也可以使用其他的软件包,但在这本书中,我没有讨论其他的软件程序。原书配套的 CD 内容可从华章网站 (www.hzbook.com)下载,其中包括书中涉及的数据。
这本书包含大量的习题,从例行的基本概念强化题到具有一定难度的分析题。我认为习题解答,特别是非常规的习题,是非常重要的。
致谢
我要感谢很多人,他们直接和间接地促成了第1 版面世。Richard Olshen、Yosi Rinnot、Donald Vlvisaker、Len Ha。和 David Lane 在教学中使用了早期版本,他们提出很多有益的意见。他们和我自己课堂中的学生提供了很多建设性的意见。助教,尤其是 Joan Staniswalis、Roger John-son、Terri Bittner 和 Peter Kim,解答了很多习题,发现其中的很多错误。很多审稿人给出了有益的建议:Rollin Brant,多伦多大学;George Casella,康奈尔大学;Howard B。Christensen,杨百翰大学;David Fairley,俄亥俄州立大学;Peter Guttorp,华盛顿大学;Hari Iyer,科罗拉多州立大学;Douglas G。Kelly,北卡罗来纳大学;Thomas Leonard,威斯康星大学;Albert S。Paul-son,伦斯勒理工学院;Charles Peters,休斯敦大学;Andrew Rukhin,马萨诸塞大学安默斯特校区;Robert Schaefer,迈阿密大学;Ruth Williams,加州大学圣地亚哥分校。Richard Royall 和 W.G。Cumberland 热心地提供了第7章抽样调查所使用的数据集。我在休假时有幸在国家标准局度过了愉快的一年,那里的统计学家让我留意到书中其他几个数据集。我深深地感激编辑 John Kimmel,他的耐心、毅力和信念促成这本书的出版。
使用过本书第1 版的很多学生和教员给出了坦诚的评论,这极大地影响了第2 版的修订。我要特别感谢 Ian Abramson、Edward Bedrick、Jon Frank、Richard Gill、Roger Johnson、Torgny Lindvall、Michael Martin、Deb Nolan、Roger Pinkham、Yosi Rinott、Philip Stark 和 Bin Yu。我要向无意间遗漏的同仁表示道歉。最后,我要感谢 Alex Kugushev 在进行修订时所提供的鼓励和支持,感谢 Terri Bittner 在校正和解答新的习题时所做的细致工作。
很多人促成了第3 版的问世。我想感谢如下这些审稿专家:Marten Wegkamp,耶鲁大学;
Aparna Huzurbazar,新墨西哥大学;Laura Bernhofen,克拉克大学;Joe Glaz,康涅狄格大学;Michael Minnotte,犹他州立大学。我深深地感激很多读者,他们慷慨地花费大量时间指出书中的错误,并提出了很多改善结构安排之类的良好建议。特别地,Roger Pinkham 发送了很多有益的电子邮件信息,Nick Cox 指出了大量的语法错误。Alice Hsiaw 详细评述了第7.14章。我还想感谢 Ani Adhikari、Paulo Berata、Patrick Brewer、Sang-Hoon Cho Gier Eide、John Einmahl、David Freedman、Roger Johnson、Paul van der Laan、Patrick Lee、Yi Lin、Jim Linnemann、Rasaan Moshesh、Eugene Schuster、Dylan Small、Luis Tenorio、Richard De Veaux 和 Ping Zhang。Bob Stine 贡献了金融数据; Diane Cook 提供了意大利橄榄油的数据; Jim Albert 提供了篮球数据集,很漂亮地解释了回归向均值的问题; Rainer Sachs 提供了可爱的染色质分离数据。我要感谢编辑Carolyn Crockett 坚强的毅力和耐心,使这一版修订的愿望得以实现,还要感谢这个充满活力且高效的工作团队。我要向无意间遗漏其姓名的其他人表示道歉。
John A。Rice译 者 序
《Mathematical Statistics and Data Analysis》是美国加州大学名誉教授 John A。Rice 所著的一本优秀的概率论与数理统计教材,1988 年由 Thomson Brooks/Cole 出版,并于 1994 年再版,2003 年机械工业出版社购买了该书在中国的影印版权,发行了影印本,2007 年本书的第3版问世。书中直观而深刻的统计思想,简明而翔实的数据分析实例,新颖而丰富的图形工具和计算机技术使其别具风格,开创了概率论与数理统计教程著述方式的先河,引领了数理统计发展的方向,深受广大读者喜爱和专家学者的好评,至今,已被美国、英国、加拿大和中国的许多大学选为概率论与数理统计的教材或参考书。
John A。Rice 教授(1944|)在加州大学伯克利分校获得博士学位,并一直任教于该校统计系,现为统计学名誉教授,美国数理统计学会成员,发表过多篇理论和应用统计学论文,其研究兴趣集中于海量和需要高强度计算的随机数据的分析方法,例如时间序列。他的近期研究工作主要集中在两个天文项目上:探测太阳系外围地区(柯伊伯带)的物体和探测伽马射线脉冲星。
译者于 2003 年看到本书后,深为其内容和特色所吸引。自 2004 年春季至今,译者在为面向研究生和本科生所开设的概率论与数理统计和统计学等多门课程中连续使用这本书。同时,在面向财经类专业研究生开设的统计学课程的讲授中,也系统介绍了本书的基本理论和方法,利用Excel、R 和 SAS 等统计软件包实现了教程中的数据分析实例和习题,众多学生受益匪浅。积多年使用该教材的经验以及各类不同层次本科生及研究生对该教材的反映,我们深感这不仅是一本不可多得的概率论与数理统计教材,也是一本与经济学、管理学、医学、天文学、生物学、工学、社会学等其他学科紧密结合,展示统计学应用的优秀教科书或参考书。随着第3 版的问世,其内容更加丰富和完善,涵盖了目前前沿的统计分析方法,时间不仅没有使其过时,相反随着岁月的流逝,得到越来越多同行的关注。如果我们希望找到能够借以站立的巨人肩膀,那么这本著作将是一个很好的选择。
根据本人粗浅的理解,简要概述本书的特色和贡献如下:
内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法。
讲述材料的方式以数据分析为主,注重统计的实务和应用。
借助于经管、生物医学、金融、社会等领域的实际问题,增强读者对理论的理解和方法的使用。
强调图形工具和计算机技术,反映了计算机在统计学中扮演的越来越重要的角色;将自助法与传统的推论性过程结合起来,增加了蒙特卡罗方法。
叙述过程化繁为简。本书既避免从理论到理论,又防止理论与实际脱节,而是理论构建在寓深刻的背景内容下,对其逐步补充和加强,并与通俗的分析方法结合在一起。这种方法不是抽象或美学的思考,同时,也没有回避学生应该知道的数学内容,适合于统计学的实践要求。
为使概念更加清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力。
本书适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考。译者向广大读者推荐这本书,旨在希望它不仅成为读者学习概率论与数理统计学科的“捷径”,而且也能成为迈向其他相关学科前沿领域的“阶梯”。
在翻译过程中,我努力做到“信、达、雅”,但由于水平有限,译稿难免存在不当之处,请博雅之士不吝赐教,在此预先表示感谢,并于今后重印校正。
本书是在机械工业出版社王春华编辑的热心促动下翻译完成的,对其认真负责、精益求精的工作表示感谢。此外还要感谢翻译过程中提供宝贵意见的同事和同学们,他们帮助我不断提升本书的译文水平。感谢我的家人和朋友,感谢他们的理解和支持。
田金方
2011 年 3 月 7 日于山东经济学院
本书的目标
这本书反映了我对第一门统计学课程的认识,而这对很多学生来说可能是最后的统计课程。
这样的课程应该包括数理统计的一些经典内容(如似然法),以及描述统计学和数据分析的一些内容,特别是图形显示、试验设计和复杂的实际应用。它还应该体现出计算机在统计学中所起的不可或缺的作用。这些主题适当地交织在一起,可以将现代统计学的本质展示给学生。分别讲授两个主题的课程 || 一个是理论,一个是数据分析,对我来讲似乎有点造作。此外,很多学生仅学习一门统计学课程,而没有时间学习两门或两门以上这方面的课程。
数据分析与统计实践
为了将上述主题融合在一起,我一直在努力地撰写一本能够紧密结合统计实践的教科书。只有分析实际数据,才能使我们明白形式理论和通俗数据分析方法所扮演的角色。我围绕着各种问题组织了这本书,这些问题都需要使用统计方法来解决,此外书中包含很多实际例子,借此引入和介绍理论内容。这样安排的优点是理论构建在寓意深刻的背景内容下,对其逐步补充和加强,与通俗的分析方法结合在一起。我认为,这种方法是适合于统计学的,其历史发展主要是由实践需要来促进的,而不是抽象或美学的思考。同时,我也没有回避学生应该知道的数学内容。
第3 版
本书第1 版于 1988 年问世,第2 版于 1994 年出版。尽管本书基本的目的和结构没有改变,但是新的版本反映了统计学科的发展,尤其是计算方面的革新。
这一版最显著的变动是对贝叶斯推断的处理。我将最后一章的材料做了迁移,分散于之前的各章中,这是由于很多老师很难讲授到这一章。现在贝叶斯推断首先出现在第3章的条件分布中。然后,在第8章与频率学派方法同步讲解,那里的贝叶斯方法可以非常自然地解决最大似然估计量。第9章假设检验的引言部分现在以贝叶斯公式作为开端,然后再转向奈曼{皮尔逊范式。
这样做的一个好处是似然比的至关重要性更突出。在应用中,我强调无信息先验,说明频率学派和贝叶斯学派得出的定性结论具有相似性。
概率论章节新增了基因组学和金融统计的例子。这些材料除了与相应的主题相关外,还可以很自然地强化基本概念。例如,连接函数 (copulas) 强调了边际分布和联合分布之间的关系。其他变动包括第10章探索性数据分析中散点图和相关系数的介绍,以及第14章中利用局部线性最小二乘进行非参数平滑的简介。本版新增了将近 100 道习题,主要集中在第7 .14章,同时还包括几个新的数据集,有些数据集完全可以用于计算机实验室上机操作。此外, 还修改了前面版本中解释含糊不清的一些段落。
概要
当然,我们可以从目录中找到完整的大纲,这里,我仅仅强调几点,并指出教师讲授课程时需要取舍的章节内容。
前 6章包含概率论的内容,特别是与统计学密切相关的内容。第1章以非测度论的观点介绍概率论的基本内容,以及初等组合方法。在这一章和其他概率章节中,我尽可能地利用现实世界的例子,而不是使用球与盒子的抽样模型。
第2章介绍了随机变量的概念。我选择将离散型和连续型随机变量放在一起讨论,而不是把连续情形推迟到以后再进行介绍。本章介绍了几个常见分布。这样安排的好处是它能为后面的章节提供一些讨论和介绍的内容。
第3章继续讨论随机变量,但是转向联合分布。教师可以跳过雅可比行列式,这不会有损课程的连续性,因为它们很少在本书的其余部分出现。如果教师乐意之后做些回溯工作,可以在讲解时跳过 3.7 节极值和顺序统计量的内容。
期望、方差、协方差、条件期望和矩生成函数共同构成第4章。教师可以跳过条件期望和预测,尤其是没有计划讲解稍后的充分统计量时。这一章之后的部分介绍了 ± 方法 (误差传播方法),这个方法多次出现在统计学的章节中。
第5章在非常严格的假设条件下证明了大数定律和中心极限定理。
第6章汇编了与正态分布有关的常用分布,以及利用通常的正态随机样本计算所得统计量的抽样分布。我没有在此浪费过多的时间,但确实介绍了统计学章节所必需的知识点, 学生很有必要学习这些分布。
第7章是有关抽样调查的内容,以非常规但比较自然的方式导入统计学的研究议题。很多学生在学习抽样调查内容时感到比较模糊,而恰恰在抽样调查中很自然地提出了一系列比较特殊的具体统计问题。从历史上看,抽样调查涉及了很多重要的统计概念,并可以将其用作传播介质引入在后面的章节中深入介绍的概念和技术,例如:
作为随机变量的估计量的思想,具有与之相关联的抽样分布。
偏倚、标准误差和均方误差的概念。
置信区间和中心极限定理的应用。
通过研究分层估计量揭示试验设计的概念以及相对效率的概念。
期望、方差和协方差的计算。
抽样调查不受欢迎的原因之一是其计算十分令人讨厌。然而,这种讨厌也有其长处,学生可以在这样的计算中得到锻炼。教师可以灵活地掌握介绍本章概念的深度。比率估计和分层部分是可选的,初次讲授时完全可以跳过,或稍后再讲这些概念,这并不影响课程的连续性。
第8章介绍参数估计,它是由拟合数据的概率律问题引起的,其中介绍了矩方法、最大似然方法和贝叶斯推断方法,同时还介绍了效率的概念,证明了克拉默{拉奥不等式。8.8 节介绍了充分性的概念及其一些衍生问题。可以跳过克拉默{拉奥下界和充分性的内容。在我看来,充分性的重要性通常被过度强调了。负二项分布的内容也可以跳过。
第9章介绍了假设检验及其拟合优度检验的应用,这配合第8章的内容.(这个内容还会在第11章深入讨论。)这里还简要展示了图方法。如果课时有限,教师可以跳过本章最后的 9.6 节(泊松散布度检验)、9.7 节(悬挂根图)和 9.9 节(正态性检验)。
第10章介绍了几种描述性方法,其中的很多技术都会在后面的章节中出现。本章强调了图方法的重要性,并介绍了稳健性的概念。将描述性方法放在本书的后面似乎有点怪异, 这样做是因为描述性方法通常有其随机性的一面,三章之后再介绍之可以使学生有足够的基础知识去研究各种汇总统计量的统计行为(例如,中位数的置信区间)。我在讲授课程时,会较早地介绍这部分内容。例如,在抽样调查实验中,我让学生制作抽取样本的箱形图和直方图。教师可以跳过生存函数和危险函数。
第11章介绍了两样本问题的经典分析方法和非参数方法。假设检验的概念第一次出现在第9章,在此做了更深一步的介绍。本章的末尾讨论了试验设计并解释了观测研究的一些内容。
前面 11章是初级课程的核心,涵盖了估计和假设检验的构造理论、图和描述性方法以及试验设计的内容。
教师可以自由地选择第12章到第14章的内容。特别地,没有必要按照书中给定的顺序讲解这些章节。
第12章利用方差分析和非参数技术讨论了单因子和二因子试验设计问题。多重比较问题第一次出现在第11章末,在此进行了深入讨论。
第13章简单讨论了分类数据分析, 介绍了齐性和独立性的似然比检验, 并叙述了麦克尼马尔检验。最后,通过前瞻性和回顾性研究的讨论引入了优势比的估计问题。
第14章讨论了线性最小二乘。首先介绍了简单线性回归,接着利用线性代数讨论了更一般的情形。我选择运用矩阵代数,但尽可能地将其维持在简单和具体层面上,没有超过初级一学期(每学年分为四学期制度中的一学期) 课程所讲授的内容。特别地,我没有介绍一般线性模型的几何分析内容,也没有试图将回归和方差分析统一起来。在这一整章中,理论结果伴随着更多基于残差分析的定性数据分析步骤。在本章末,我通过局部线性最小二乘介绍了非参数回归。
计算机使用和习题解答
计算是现代统计不可或缺的一部分。它是数据分析的本质,可以帮助我们理清基本概念。我的学生使用开源软件包 R,将其安装在自己的计算机上就可以使用。也可以使用其他的软件包,但在这本书中,我没有讨论其他的软件程序。原书配套的 CD 内容可从华章网站 (www.hzbook.com)下载,其中包括书中涉及的数据。
这本书包含大量的习题,从例行的基本概念强化题到具有一定难度的分析题。我认为习题解答,特别是非常规的习题,是非常重要的。
致谢
我要感谢很多人,他们直接和间接地促成了第1 版面世。Richard Olshen、Yosi Rinnot、Donald Vlvisaker、Len Ha。和 David Lane 在教学中使用了早期版本,他们提出很多有益的意见。他们和我自己课堂中的学生提供了很多建设性的意见。助教,尤其是 Joan Staniswalis、Roger John-son、Terri Bittner 和 Peter Kim,解答了很多习题,发现其中的很多错误。很多审稿人给出了有益的建议:Rollin Brant,多伦多大学;George Casella,康奈尔大学;Howard B。Christensen,杨百翰大学;David Fairley,俄亥俄州立大学;Peter Guttorp,华盛顿大学;Hari Iyer,科罗拉多州立大学;Douglas G。Kelly,北卡罗来纳大学;Thomas Leonard,威斯康星大学;Albert S。Paul-son,伦斯勒理工学院;Charles Peters,休斯敦大学;Andrew Rukhin,马萨诸塞大学安默斯特校区;Robert Schaefer,迈阿密大学;Ruth Williams,加州大学圣地亚哥分校。Richard Royall 和 W.G。Cumberland 热心地提供了第7章抽样调查所使用的数据集。我在休假时有幸在国家标准局度过了愉快的一年,那里的统计学家让我留意到书中其他几个数据集。我深深地感激编辑 John Kimmel,他的耐心、毅力和信念促成这本书的出版。
使用过本书第1 版的很多学生和教员给出了坦诚的评论,这极大地影响了第2 版的修订。我要特别感谢 Ian Abramson、Edward Bedrick、Jon Frank、Richard Gill、Roger Johnson、Torgny Lindvall、Michael Martin、Deb Nolan、Roger Pinkham、Yosi Rinott、Philip Stark 和 Bin Yu。我要向无意间遗漏的同仁表示道歉。最后,我要感谢 Alex Kugushev 在进行修订时所提供的鼓励和支持,感谢 Terri Bittner 在校正和解答新的习题时所做的细致工作。
很多人促成了第3 版的问世。我想感谢如下这些审稿专家:Marten Wegkamp,耶鲁大学;
Aparna Huzurbazar,新墨西哥大学;Laura Bernhofen,克拉克大学;Joe Glaz,康涅狄格大学;Michael Minnotte,犹他州立大学。我深深地感激很多读者,他们慷慨地花费大量时间指出书中的错误,并提出了很多改善结构安排之类的良好建议。特别地,Roger Pinkham 发送了很多有益的电子邮件信息,Nick Cox 指出了大量的语法错误。Alice Hsiaw 详细评述了第7.14章。我还想感谢 Ani Adhikari、Paulo Berata、Patrick Brewer、Sang-Hoon Cho Gier Eide、John Einmahl、David Freedman、Roger Johnson、Paul van der Laan、Patrick Lee、Yi Lin、Jim Linnemann、Rasaan Moshesh、Eugene Schuster、Dylan Small、Luis Tenorio、Richard De Veaux 和 Ping Zhang。Bob Stine 贡献了金融数据; Diane Cook 提供了意大利橄榄油的数据; Jim Albert 提供了篮球数据集,很漂亮地解释了回归向均值的问题; Rainer Sachs 提供了可爱的染色质分离数据。我要感谢编辑Carolyn Crockett 坚强的毅力和耐心,使这一版修订的愿望得以实现,还要感谢这个充满活力且高效的工作团队。我要向无意间遗漏其姓名的其他人表示道歉。
John A。Rice译 者 序
《Mathematical Statistics and Data Analysis》是美国加州大学名誉教授 John A。Rice 所著的一本优秀的概率论与数理统计教材,1988 年由 Thomson Brooks/Cole 出版,并于 1994 年再版,2003 年机械工业出版社购买了该书在中国的影印版权,发行了影印本,2007 年本书的第3版问世。书中直观而深刻的统计思想,简明而翔实的数据分析实例,新颖而丰富的图形工具和计算机技术使其别具风格,开创了概率论与数理统计教程著述方式的先河,引领了数理统计发展的方向,深受广大读者喜爱和专家学者的好评,至今,已被美国、英国、加拿大和中国的许多大学选为概率论与数理统计的教材或参考书。
John A。Rice 教授(1944|)在加州大学伯克利分校获得博士学位,并一直任教于该校统计系,现为统计学名誉教授,美国数理统计学会成员,发表过多篇理论和应用统计学论文,其研究兴趣集中于海量和需要高强度计算的随机数据的分析方法,例如时间序列。他的近期研究工作主要集中在两个天文项目上:探测太阳系外围地区(柯伊伯带)的物体和探测伽马射线脉冲星。
译者于 2003 年看到本书后,深为其内容和特色所吸引。自 2004 年春季至今,译者在为面向研究生和本科生所开设的概率论与数理统计和统计学等多门课程中连续使用这本书。同时,在面向财经类专业研究生开设的统计学课程的讲授中,也系统介绍了本书的基本理论和方法,利用Excel、R 和 SAS 等统计软件包实现了教程中的数据分析实例和习题,众多学生受益匪浅。积多年使用该教材的经验以及各类不同层次本科生及研究生对该教材的反映,我们深感这不仅是一本不可多得的概率论与数理统计教材,也是一本与经济学、管理学、医学、天文学、生物学、工学、社会学等其他学科紧密结合,展示统计学应用的优秀教科书或参考书。随着第3 版的问世,其内容更加丰富和完善,涵盖了目前前沿的统计分析方法,时间不仅没有使其过时,相反随着岁月的流逝,得到越来越多同行的关注。如果我们希望找到能够借以站立的巨人肩膀,那么这本著作将是一个很好的选择。
根据本人粗浅的理解,简要概述本书的特色和贡献如下:
内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法。
讲述材料的方式以数据分析为主,注重统计的实务和应用。
借助于经管、生物医学、金融、社会等领域的实际问题,增强读者对理论的理解和方法的使用。
强调图形工具和计算机技术,反映了计算机在统计学中扮演的越来越重要的角色;将自助法与传统的推论性过程结合起来,增加了蒙特卡罗方法。
叙述过程化繁为简。本书既避免从理论到理论,又防止理论与实际脱节,而是理论构建在寓深刻的背景内容下,对其逐步补充和加强,并与通俗的分析方法结合在一起。这种方法不是抽象或美学的思考,同时,也没有回避学生应该知道的数学内容,适合于统计学的实践要求。
为使概念更加清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力。
本书适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考。译者向广大读者推荐这本书,旨在希望它不仅成为读者学习概率论与数理统计学科的“捷径”,而且也能成为迈向其他相关学科前沿领域的“阶梯”。
在翻译过程中,我努力做到“信、达、雅”,但由于水平有限,译稿难免存在不当之处,请博雅之士不吝赐教,在此预先表示感谢,并于今后重印校正。
本书是在机械工业出版社王春华编辑的热心促动下翻译完成的,对其认真负责、精益求精的工作表示感谢。此外还要感谢翻译过程中提供宝贵意见的同事和同学们,他们帮助我不断提升本书的译文水平。感谢我的家人和朋友,感谢他们的理解和支持。
田金方
2011 年 3 月 7 日于山东经济学院
更多阅读: