本书对教育学及其相关领域中的定量研究设计及统计方法进行了全方位的展示。本书内容主要适用于在研究生阶段学习中、高级定量研究课程的学生,同时也适用于教育、咨询、康复治疗、心理学、社会学、社会服务(社工)及人类发展学等相关领域的研究者。
本书的主要目的是帮助读者从概念和方法论的层面深入理解中高级定量研究的方法,同时掌握基于SPSS的统计分析操作,并能对数据结果进行解读。为达到这一目的,读者需要理解特定研究背景下研究的概念、方法、统计转换过程、方法论遵循的原则、基于计算机的数据分析、APA格式的结果展示以及结合研究背景的结果解读。对于那些对理解统计概念的解析表达式感到吃力的读者;本书通过强调对概念的理解来帮助他们掌握那些在完成学术论文与专业研究中所必须的研究工具。
在已出版的关于教育学与社会学领域研究设计及统计方法的教科书中,大部分的中、高级教材不是过于晦涩(术语化、数学化)就是过于精简。而在以“应用操作”为侧重点的教科书中,涉及SPSS的操作过程、数据语法、输出表格占据了内容的绝大部分篇幅,却牺牲了理论及方法论上的严谨性。为了填补现有教科书的不足,本书以循序渐进的方式,在平衡理论意义及统计转化的基础上,兼顾读者对于定量概念的理解和统计方法的应用。例如,“比较所研究的变量在不同组间的差异”这一问题,将依次在应用单样本t检验、非参数检验、方差分析、多元方差分析及结构方程模型的案例中进行讨论。又如,有关“效度”的概念,将在测量、研究设计、结构方程模型的框架下进行讨论。同时,本书着重对涉及违反统计假设、效果量、置信区间、样本量及常见的错误概念(如,应使用“多元方差分析还是多个独立的方差分析”)进行了探讨。本书分为四部分,总计二十四章。每章的结尾都为读者提供了相关知识点的总结及习题。
第一部分:心理学与教育学中的测量。本部分包含三章。第1章介绍了教育学背景下的变量及测量的尺度。重点探讨了教育学背景下测量的性质、变量的类型、测量尺度的类型及转换、不同尺度所允许的代数运算、运算符及基本的运算律。第2章介绍了有关测量分数信度的经典模型、信度的类型以及复合分数的信度。第3章重点处理有关测量工具的效度(例如:测试、问卷和测量表)及效度的类型(内容效度、效标效度及构念效度)的相关概念。
第二部分:研究方法。本部分包含两章。第4章处理关于研究问题、研究假设、定量研究类型(非实验性研究、实验性研究)及影响内部效度、外部效度的因素等相关的问题。第5章介绍了包含定量数据分析方法的前实验设计、真实验设计。重点讨论了蕴含于此类心理学、教育学研究设计中的概念及方法论原则。
第三部分:单变量数据分析。本部分包括十四个章节。前五章(第6、7、8、9和10章)涵盖了基础统计操作并为进一步理解、应用心理学、教育学中的中级统计提供了平台。接下来的六章(第11至第16章)介绍了中级统计操作:相关分析、回归分析以及包含非参数方法的方差分析。最后的三个章节(第17、18和19章)介绍了更高级的统计方法:多元回归、方差分析,以及二者之间的关系。
第四部分:多变量数据分析。本部分包括五个章节。内容包含逻辑回归、多元方差分析、探索性因素分析、验证性因素分析和结构方程模型的一些元素。这些统计方法的分析框架被简化,注重对概念的理解、计算机的应用及在心理与教育研究背景下的结果解读三个方面。
本书中应用于SPSS运算的案例所使用的数据可以通过本书的在线补充链接进行下载(http://cehd.gmu.edu/book/dimitrov)。这个网址同时提供了:①每章习题的答案;②书中涉及的一些话题的附录;③部分统计操作的数据语法:验证性因素分析、路径分析和主流统计软件(LISREL、AMOS、EQS和Mplus)框架中潜在变量的组间比较;④与本书内容相关的其他参考文献(书籍、文章及网上的资料)。
第1章 变量及测量的尺度
与普遍看法不同,科学不只是发现新的事实,并把它们纳入知识体系中。科学的基本目标是对自然现象的一般理论提供解释。建立、修改和扩展理论过程的重要步骤,包括解释、理解、预测和控制。正如Kerlinger(1986, p.9)所提到的,这是由理论的定义和性质决定的:
理论是一系列相互关联的构念(概念)、定义和命题,通过确定这些变量之间的关系,呈现对某现象的系统观点,以解释和预测这一现象。
研究者可能希望通过诸如性别、社会经济地位、考试焦虑、自尊、动机、语言能力以及数学能力等一系列变量来“解释”(或“预测”)一个学生的学习成绩。在“解释”的过程中,研究者应当遵循一定的科学方法:对于影响学生学习成绩的“预测因素”的选择,应在关于“如何在学校获得成功”(在校成功)的理论模型指导下进行。想要更好地通过上述因素对学习成绩进行“预测”,研究者则需要使用两个(或更多)相互“竞争”的在校成功理论模型来检验假定的预测关系。为了能够从假设检验中得到有效的解释和结论,收集假设关系中所涉及变量的准确测量指标(数据)是一个重要的前提条件。因此,研究者必须清楚地了解所要研究的变量的性质以及所用测量工具(量表)的特性。
一般情况下,变量是一个人(或对象)的任意一个特点,这个特点会因不同的人或不同的时间点而改变。例如,体重是一个变量,不同的人有不同的值,虽然有些人的体重可能是相同的。体重在不同的时间点也可以取不同的值,例如,当对一个人进行重复测量时(在为期一年的减肥治疗中,每月监控减肥效果)。通常,我们用斜体的大写字母X、Y和Z来表示变量。如果一项研究涉及很多的变量,我们可以使用有下角标的大写字母表示不同的变量。例如,在教育研究中,用大学新生的高中平均绩点(GPA)、学习能力倾向测验(SAT)的成绩和所修大学预修(AP)课程的数量来预测新生在大学的成功。我们可以用Y来表示被预测的变量(Y=在大学的成功),用带下角标的X来表示作为预测源的变量,X1=高中平均绩点,X2=SAT成绩,X3=所修大学预修课程的数量。
变量也可以根据其性质、不同的特点、测量的量表进行描述(或分类),例如,可观测变量与不可观测(隐藏、潜伏)变量或连续与离散变量,下文将对这些进行讨论。我们也可以使用斜体小写字母(如,a、b、c、d或其他字母)来表示常数(constants),即在整个分析中保持不变的数字。
能被直接测量的变量在行为学研究中被称为可观测变量(observable variables)。例如,在上面提到的教育研究中,学生的性别、种族、年龄、体重、身高、年级、社会经济地位、大学预修课程的数量和高中平均绩点均为可观测变量。另一方面,如智力、对学习的态度、动机、焦虑、语言能力和数学能力等不能被直接观测的变量被称为潜在(不可观测的或隐藏的)变量或构念。通常情况下,我们会给构念下一个可操作定义,以确定用哪些可观测变量作为该构念的测量指标。例如,焦虑的测量指标包括一个人对于焦虑测验题目的回答、心跳和皮肤电反应,或他对于实验的反应,在后文中,潜在变量和构念是等价的概念。
值得注意的是,构念的操作定义应该基于一个特定的理论。因此,构念的测量指标的正确性取决于这个理论的正确程度。例如:一个关于创造力的理论假设,对于一个给定的问题,能提供不同的方法来解决这个问题的人更有创造力,那么解决单个问题(或任务)方法的数量,就可以被当作创造力的指标。然而,如果这个理论被证明是错误的,那么一个人在这个指标上的分数就不是对创造力的有效评估。我们会在第3章和第23章进一步学习关于构念的验证和测量。
在研究性学习中,我们还须厘清所涉及的变量是连续变量还是离散变量。连续变量可以在特定的数字区间中取任何可能值。例如,在一个中学生群体中,学生的身高是一个连续变量,因为它可以是测量区间内的任何值(通常是四舍五入到厘米)。所有与距离、重量和温度有关的变量在本质上都是连续的。连续变量的其他例子有学生的年龄;在课堂观察中投入工作的时间;在数学、科学和阅读能力等学科领域上的成就水平。在心理与教育研究中,所有的潜在变量(构念)在本质上是连续的——例如,学业成就、动机、焦虑、抑郁和态度(例如,对学校、宗教或种族群体的态度)。
离散变量只能取孤立的值(例如,整数)。离散变量的测量通常包括计算和枚举某个事物的发生次数。例如,计数变量可以是一段作文里的拼写错误次数,或者是一场篮球比赛中个体球员的进球次数(得分)。
对潜在变量(阅读理解)的测量我们可以把测量看成一个过程,它包括三个组成部分——测量的对象、一组数字和一种标尺系统,通过这个系统我们可以给被测量变量的量级赋值。测量对象可以是可观测变量(比如身高、年龄、年级)或者潜在变量(比如动机、语言能力或者态度)。任何潜在变量都可以被看成一个隐藏的连续体(维度),其量级在给定的方向上逐渐增长(如,若用一条直线表示连续体,则该直线为从左至右递增,见图1.1)。如1.1.1节所述,心理与教育中的潜在变量通常用可观测的指标(如测验题目)定义。一个人在这些指标上的总分数,就是这个人在潜在变量的连续体上的“隐藏”量级所被赋的值。
在这一章中,术语“量级”将表示一个人在潜在变量的连续体中的位置,而“在量级上被赋的值”将会代表一个人在潜在变量的可观测指标上的得分(如测验题目)。我们也将据此区分“量级间的距离”和“数字间的距离”。
比方说,我们用一个有20个二选一题目(1=正确,0=错误)的测验来测量中学生的阅读能力。这些题目可以作为阅读能力这一潜在变量的可观测指标。学生的总测验成绩是这名学生在阅读理解的实际量级上所赋的值。如图1.1中所示,M1、M2、M3、M4表示4个学生(米奇、克里斯蒂、彼得和吉尔)在阅读能力这个连续体上的真实量级(但实际上是“隐藏”的),与这些量级对应的数字(总成绩)分别是10、12、17和19。对21个二选一题目,存在着21个“离散”整数(也许这个测试的成绩是0, 1, 2,…, 19, 20)可以赋予连续变量阅读能力的量级。对于这个“悖论”的解释是,每个值必须被看成一个得分区间的中点,这样,所有分数区间的总体就在数轴上覆盖了一个连续的、无“间断”的区间。在这个例子中有21个这样的区间:[–0.5, 0.5]中点为0,[0.5, 1.5]中点为1,等等,一直到区间 [19.5, 20.5] 中点为20。
类别尺度把人(或事物)分到独有的类别中,比如,按性别、种族、职业,等等。类别尺度的值只可用来表示类别的“名称”,类别尺度由此得名(在拉丁语,“nome”意为“名称”)。值得强调的是,类别尺度的值不能反映分类变量的“量级”。比如,如果我们用类别尺度“1=男,2=女”来表示性别,这并不代表1和2是赋予不同性别“量级”的值。因此,类别尺度实际上并不是一个真正的测量量度,因为我们不能根据人们在名称上的分类,而把个体安置到任何(以增加或减少排序的)序列里。考虑到这一点,类别尺度仅被用于对心理与教育数据进行编码和分析。
顺序尺度是对一个被测量的变量(特征、性质)的量级排序并赋予这些顺序尺度与序值相同的数字。例如,图1.1就是一个用顺序尺度测量的例子,因为学生真实的阅读理解的量级(M1、M2、M3和M4)与分数的增长顺序相同(分别为10、12、17和19)。我们也可以说,在顺序尺度中,对于任何两个个体,在被测量的变量(特征)上拥有得更多的人,将会被赋予更高的分数。然而,顺序尺度并没有显示这两个人在这个变量上的差异有多少。换句话说,在被测量变量的真实量级上,顺序尺度提供了个体间排序的信息,而非这些量级间的距离。比如在一个选美比赛中,如果顺序尺度中的值1、2和3代表第一、第二和第三,表明了选手中哪个“更漂亮”,相同的数字差异2–1=3–2并不一定意味着得第一和第二的选手之间在真实的“美貌程度的差异”跟得第二和第三的选手之间的差距是相同的。
等距尺度提供了被测量的变量在实际量级中关于顺序和距离的信息。具体来说,如果被测变量量级间差异相同,这些量级在区间量表上所赋的值之间的差异也相同。为了说明这一点,我们再来看看图1.1中阅读理解的潜在量级。如果我们假设米奇和克里斯蒂在阅读理解中的潜在差异与彼得和吉尔之间的差异相同(即,M2–M1=M4–M3),那么,这就是一个等距尺度。因为米奇和克里斯蒂被赋的值间的差异与彼得和吉尔的分值间的差异是相等的(12–10=19–17)。
然而,值得注意的是,等距尺度的零点是人为定义的。换句话说,用等距尺度测量一个变量时,赋予“零”一个给定量级并不意味着这个量级实际上是“缺失的”(即,完全没有量级)。例如,温度的测量是一个等距尺度,但是如果在某一时刻的温度是“零度”(华氏或摄氏),并不意味着这一刻没有温度。等距尺度的零点(原点)是约定俗成的,而且可以通过适当的线性转换来移动(上升或下降)。例如,从摄氏到华氏的转换公式为:F=(9/5)C+32,其中C和F分别代表了摄氏和华氏的温度计读数。因此,如果C=0,那么F=32(即,0℃对应32℉)。要说明的是,因为零点(原点)在等距尺度中是人为定义的,而且不代表被测量特征的缺失,所以在等距尺度中,两个值的比率不表示与这两个值对应的特征的量级的比率。比如,如果两个温度计连续两天的读数是星期二20℃、星期三10℃,我们不能说,“星期二比星期三热一倍”,只能说星期三的温度比星期二的温度低了10℃(或者说温度下降了10℃)。