2009年,中国轻工业出版社“万千心理”出版了拙作《心理统计学》。在不到3年的时间里,这本书受到广泛的欢迎,许多师生给了我热情的鼓励和有益的建议。2012年,在“万千心理”的支持下,本书第二版问世。在第二版的修订过程中,我又从多位长期从事心理统计学教学的老师那里获得了许多教益,他们分别是南京师范大学邓铸老师、东北师范大学王景英老师、原西南大学凤四海老师和首都师范大学方平老师。在这里,再次表示感谢!
一转眼,又是3年过去了。2016年上半年,本书入选了华东师范大学精品教材建设专项项目,这意味着要对本书进行一次新的修订,意味着本书又向着成为精品的目标迈进了一步。
课堂上要做到的,在教材中就应该得到充分的体现。故本书的前两版都力求做到以下三点:
第一,明确具体的教学目标——在学习每一章的具体内容之前,要为学习者构建一个目标系统。为此,本书从第5章开始,每一章都以该章能解决什么样的实际问题开头。读者看了这个开头,就可以知道,对于搜集到的数据,统计学家会提出什么样的问题。等学完这一章,再回过头来看开头这些问题,想想自己能否回答这些问题。如果读者看到问题就能说出应当采取何种方法解答,知道运用这些方法时需要注意些什么,学习的目标基本上就达到了。
第二,脉络清楚的内容体系——教学需要脉络清楚、循序渐进地呈现内容。本书对课程内容的编排以理清心理统计学的内容体系为原则,着重体现知识之间的联系,并将其与现实生活中的统计性思考相对照。这样做的根本目的同样是帮助学生弄清何种问题适合用何种统计学方法求解。为了帮助读者更顺畅地阅读和使用本书,在各章开头都有“本章提要”,告知这一章的主旨和重点内容,说明该章能解决什么样的问题;各章最后又将重要的术语和原理(附英文)加以总结,以便查阅。本书还特意在一些重点、难点处增加了些方块贴士,它们有的是解释性的(帮助理解原理),有的是提示性的(联系前后内容,帮助记忆和思考),有的是警示性的(避免粗心造成的忽视和混淆),还有的是启发性的(阐述统计思想)。
第三,灵活多变的实践情境——帮助学习者掌握各种变式情形。心理统计学的实践性很强,只有不断地运用,才能熟练而灵活地掌握。为此,本书收录了大量例题和习题,并为部分习题提供了参考答案(以方便自学者)。熟悉了这些例题和习题,今后遇到实际问题时,即使一时不能准确选择统计分析方法,至少也可以凭借对题目的熟悉感选出可能找到解法的大致章节。
当然,这不是在鼓励读者做大量的习题。相反,在认真完成了适量的习题后,更需要读者自身的统计实践。其实,无论是在生活还是工作中,只要你是一个有心人,就可以搜集到各种数据。针对这些数据,选用合适的统计方法加以分析,把分析结果与老师、同学、同事和朋友们分享。假以时日,你就会喜欢上统计学这门学科,并且逐渐能够灵活运用。
本次在保留前两版特色的基础上,根据以下原则进行了修订:
(1)配合课堂教学改革,将其编写成“课前便于自学理解、课中便于练习讨论、课后便于检索使用”的教材。
(2)兼顾不同类型和学习能力的学生,兼顾读者的不同需要(如考研复习、使用SPSS等软件、毕业论文数据处理等)。增补近年来使用得越来越多的统计分析方法,例如,偏相关分析、虚拟变量、logistic回归等。
(3)加强教材的教学性特征。进一步优化各章原有的内容提要、导读问题、复杂概念辨析、易错之处提醒、各种方法之间的联系、实际生活中的统计学、术语、实习题等内容;附录中还首次加入了3份自测试卷,供学习者检验学习效果。
(4)内容分层:将教学内容分为基础内容、拓展内容(正文中的方框内容和带有“★”号的章节)、统计软件使用和论文写作中的统计分析结果报告方式(归入附录四),便于使用者选择教学内容。
在课时紧张的情况下,可以精简部分内容,例如条件概率、功效函数、关于总体比例的假设检验、多列相关、品质相关、偏相关分析、虚拟变量、logistic回归、科克伦Q检验、单样本游程检验、柯尔莫哥洛夫-斯米尔诺夫检验等。但是,建议不要整章或大面积地删减。例如,如果整个略去“非参数检验”,学生将来遇到计量水平低的数据时,可能连思考的方向都没有,或者用错了统计方法也意识不到。
关于统计软件,特别提醒一下初学者:在完整掌握统计学基本理论体系之前,最好不要对软件形成依赖,否则很容易在复杂的数据面前选错统计方法。其实,在扎实掌握基本原理、了解相关术语的英文表述之后,学习统计软件的效率极高,几乎可以无师自通。
心理学研究的对象是随机现象,其定量分析的基本手段是统计学;统计学包括描述统计学和推断统计学,后者是现代统计学的主要内容。
● 心理统计学为心理学中不同类型的问题提供对应的统计分析方法。
确定现象:
可以看到,确定现象的特点是只要知道一些必要的已知条件(例如“在1个标准大气压下”、“纯水”、“0℃”),总可以得出确定的结果(“结冰”)。而随机现象则不同,每一次观察的结果都可能不同,例如,虽然都是上海市的7月7日,但是每年7月7日的气温都是不一样的。
在因果关系十分复杂的科学领域,即使在基本条件相同的情况下,每做一次观察或试验,都可能得到不同的结果。这意味着,我们往往无法根据已知的有限条件精确地预测结果,每做一次预测,也都可能出现偏差。我们将这种无法精确预测的现象,称为随机现象。它的定义可以表述为:在一定的条件下,可能出现也可能不出现,或者可能这样出现也可能那样出现的一类现象。
随机现象之所以存在,是因为人类在预测此类现象时无法穷尽影响其发生和发展的全部原因(或因素)。从这个意义上讲,任何现象都多多少少带有一定的随机性,完全确定的现象是很少的。就算是确定现象,如果进一步预测其具体情况,也可能变成随机现象。例如,“种瓜得瓜”可以算作确定现象,但是种瓜之后能收获多大的瓜,就不确定了。可以说,随机现象遍及自然与社会之中。
这样一来,随机现象岂不成了“听天由命”的代名词?表面上看,随机现象如此变化无常,似乎是没有规律可循的。但是,在数学家看来,它们不仅有规律可循,而且有数量上的规律性。而统计学就是研究随机现象的数量规律性的应用数学分支。
要总结出随机现象的数量规律性,就需要大量试验和观察。不论是自然界中的还是社会生活中的随机现象,都有一个共同特点:个别试验或观察的结果总是不确定的、杂乱无章的,但是将大量个别结果综合起来,却可以得到比较稳定的数量规律性。例如,医院每天都有婴儿出生,而且每天的性别比例都不同,但是长期的观察和计算发现,新生儿的男女比例大约是106∶100。这个比例就是数量规律性的体现。还有,虽然每天上下班在路上用的时间都不一样,但是可以计算出一个平均数;虽然我们不知道某个勤奋的学生下一次的考试成绩,但是可以断言,在其他条件相同的前提下,他取得好成绩的可能性(概率)比懒惰者更大。这里的平均数和概率也是数量规律性的指标。
统计学建立在大量试验和观察的基础上,这就是大数定理的由来。大数定理又称大数法则:虽然每次观察结果可能都不同(偶然性),但是大量重复观察的结果可以形成稳定的数量特征(必然性)。大数定理对认识随机现象具有普遍的指导意义,是统计学的理论基石。
对于随机现象,虽然无法精确预测其结果,但是我们可以通过计算,判断它出现的概率有多大,不出现的概率有多大;或者这样出现的概率有多大,那样出现的概率有多大。用概率来说话,这就是统计学家的工作。
心理现象在很大程度上就是随机现象。
当你与一位老朋友久别重逢,你的第一句话会表达怎样的情感?你也许会表示惊讶(“怎么是你?”),也许会表示高兴(“我们终于又见面了!”),也许会表示抱怨(“怎么这么多年杳无音讯?”),等等。究竟先说哪一句,恐怕是随机的。
如果请你随口说出一种水果的名称,你会说哪一种?很多人会说“苹果”,因为它是水果中最典型、最常提到的样例。但是,不是每个人都会说“苹果”,有些人会说“梨子”,有些人会说“葡萄”、“橘子”等,这也是一种随机现象。
如果对一个人进行多次智力测验,尽管这个人的各方面情况在短期内没有发生显著的变化,但是每次测得的智商也可能不同。所以心理测验的结果也有很大的随机性。
诸如此类的例子还可以举出很多。总而言之,心理现象是一种随机现象,要定量地研究随机现象,就需要运用统计学方法来总结其数量规律性(例如,反应时间的平均数和标准差,智商的概率分布特点等)。因此,心理学需要统计学,它是一门统计性科学。
统计学在其发展过程中,逐步形成了数理统计学和应用统计学两大分支。数理统计学以概率论为基础,阐明统计学的数学原理,推导和证明有关的数学公式,从而为各个学科的研究者提供适用的数学工具和方法。应用统计学是数理统计学理论在各个学科领域的应用。现在,应用统计学已经在物理学、天文学、生物学、医学、社会学等众多学科领域广泛“落户”,这其中也包括心理学领域的应用统计学分支——心理统计学。
人类最早的“结绳记事”就是一种原始的统计活动。后来,统计学带上了很强的国家特征,因为要维护对国家的统治,统治者就必须通过统计了解和掌握本国的自然资源和人力物力等要素情况。统计学在我国更是有着悠久的历史,距今4000多年前的夏朝就开始进行人口统计了。我国古代政治家商鞅把“十三数”(全国粮食储存数、人口数、壮年男子数、壮年女子数、老年人数、儿童人数、官吏人数、士兵人数、靠游荡混饭吃的人数、商贩人数、马的匹数、牛的头数和牲口草料数)作为反映基本国情的数量指标。可见,这时已经有了全国规模的人口调查制度,而且已经对人口按照年龄、职业等进行分组统计,甚至有了国民经济各种数量的对比分析。
人类一开始的统计活动主要是描述性质的,就是将搜集到的统计资料所包含的信息用一些描述性的特征量尽可能简洁而充分地反映出来。例如,一个国家的人口总数就是最简单的特征量。如果细分,还可以分别计算男性与女性人口数、各年龄阶段人口数、各行业从业者人数等。描述统计学阐述的就是搜集资料以及提炼和描述这些资料的方法,同时,它又是推断统计学的基础。
■ 偏态量和峰态量用来描述数据的分布特征——偏离正态的程度和高低宽窄的程度。
大约在20世纪20年代之前,统计学的主要内容还是描述统计学。后来,推断统计学逐渐发展起来,其地位越来越重要,而且在内容上也占有越来越大的比重,成为统计学的主干部分。推断统计学就是运用概率论研究如何根据样本信息推断样本来自的总体的相应信息,它包括参数估计和假设检验这两种形式(分别详见第7章和第8章)。
描述统计学中提到的所有特征量都可以分为样本的和总体的。参数估计就是根据样本的特征量(统计量)来估计总体的相应特征量(参数)。例如,在编制智力测验时,需要了解各年龄阶段男女人口的平均成绩,以此作为今后计算智商的标准(又称“常模”)。但是,我们不大可能对全国所有人实施测验,于是,我们随机抽取一部分参试者(例如,每个年龄段抽取800名男女参试者)作为样本,然后根据这些参试者完成智力测验的平均成绩(样本统计量)来估计各年龄段的全国男女人口的平均成绩(总体参数)。
假设检验则是对总体的参数或分布形态的假设做出保留或拒绝的决策。例如,我们要考察A、B两种条件对参试者的反应时间有无显著影响,但是不可能让全世界的人都来参加实验。这时我们可以抽取两组参试者作为样本,一组在A条件下进行操作,另一组在B条件下完成相同的任务,然后比较两组参试者的平均反应时间有没有显著差异。虽然只有很少一部分人参加了我们的实验,但是其结论是针对所有人的。比较的步骤是,先假设两种条件下的参试者的反应时间没有显著差异,再进行相应的统计运算,根据得到的概率,最终确定是否保留这个假设。
将描述统计学与推断统计学结合起来,就可以清晰地看到统计学其实可以被看作一个研究过程:以系统的方式搜集和整理资料,进而根据这些资料做出与总体相关的决策。
统计学研究的是随机现象的数量规律性。为了数学表述的方便,我们将表示随机现象的各种可能结果的变量称为随机变量。这里说的“各种可能结果”是随机变量的可能取值。随机现象和随机变量只是表述上的不同:如果说随机现象“可以这样发生,也可以那样发生”,那么随机变量就“可以取这个值,也可以取那个值”。
随机变量的取值可以是质的不同,也可以是量的不同。掷出的一枚硬币落地后是正面朝上还是反面朝上,就是两个不同的取值,且两者间是质的不同;新生儿的性别,可以是男性,也可以是女性,也是不同质的取值。但是,考试的得分、心理测验的分数、完成一项任务的用时以及正确率等,则是量的不同。
量的差异本身就是用数字表示的,例如,考试成绩。质的差异可以用文字符号表示,也可以用数字表示,例如,用“H”表示正面朝上,用“T”表示反面朝上;或者用5、4、3、2、1分别表示优、良、中、及格、不及格等。
引入随机变量的概念,是为了更好地对随机现象进行定量的研究。因为单是知道随机变量可以取哪些值是不够的,还要研究它取各个值的可能性(概率)。
在统计学中,每一个原始数据都是从个体那里获得的。例如,要研究人的智力,就要编制一个能够比较有效地测定智力的量表,然后才能进行测验和评定。从每个人那里,我们都能得到一个(或一系列)原始数据(观察值)。这里说的每个人就是“个体”,他们都有一个共同特性——智力水平。如果能测定世界上每一个人的智力,那就知道了“人”这个总体的智力情况。不过,限于人力、物力、经费和时间,对全世界每个个体都进行测定是不可能的。只能抽取一部分个体进行测定,这一部分个体就组成了一个样本。我们往往根据样本的情况来推断总体的情况。
样本是从总体中抽取的作为观测对象的一部分个体。
总体有无限总体和有限总体之分。如果一个总体包含的个体数目是无限的,就称为无限总体;如果一个总体包含的个体数目是有限的,就称为有限总体。例如,我们要研究今年某市小学一年级男生的肺活量情况,这时,该市今年入学的所有小学一年级男生就构成了一个有限总体。可是,当我们更笼统地说要研究小学一年级男生的身高时,从理论上来讲,古今中外的小学一年级男生都应该成为研究对象,这就没有一个明确的数目了,因而是一个无限总体。另外,就算只对一个学生进行测量,如果我们对他进行无数次的测量(至少从理论上可以这样假设),则测量得到的一切可能结果也可形成一个无限总体,只不过这时的个体不是学生本人,而是测量所得的值——观察值。总体是有限总体还是无限总体,可能会影响该选择何种统计运算方法。
样本对推断统计学有特殊的意义。统计推断就是根据样本信息来推断总体的情况。由于各种客观条件的限制,我们无法将总体中的所有个体都观察一遍,这时更是必须抽取样本。不仅如此,在保证一定的研究精度的前提下,抽样的个体数总是越少越好。
样本中包含的个体数称为样本容量,一般用n表示。样本容量越大,样本的数字特征就越接近总体,从而能更精确地反映总体的情况。但是,容量过大则没有必要,那样反而会失去降低研究成本的意义。一般来说,n≥30的样本称为大样本,n<30的样本称为小样本。大样本和小样本所用的统计方法不一定相同。
在生活中,广义的总体—样本关系无处不在。例如,我们通常会根据一个人的行为表现来判断其人品。可是,我们只能观察到其一部分行为(相当于样本),以此来估计其人品(相当于总体)。由于观察到的样本不同,我们就可能对同一个人做出不同的评价。