当前位置: 东星资源网 > 大学生 > 心理 > 正文

心理测量教育

时间:2017-03-12 来源:东星资源网 本文已影响 手机版

心理测量教育

一、名词解释1. 学绩:通常是指个体经过对某种知识或技术的学习或训练之后所取得的“成绩”,一般表现为个体心理品质在知识、技能或某种能力方面的增加和提高,是个体认识性心理品质的发展。2. 学绩测验:是对个体在一个阶段的学习或训练之后知识、技能的发展水平的测定。3. 标准化学绩测验:是指在心理与教育测量学原理指导下,遵循一定的程序所编制的各方面质量都达到规定标准的学绩测验。4. 斯坦福成就测验:属于综合性学绩考察测验,也是一种供团体使用的常模参照测验。它有两个配套测验,一个是斯坦福早期学校成就测验,一个是斯坦福学业技能测验。二、简答与论述1. 简述学绩测验的作用?P171①学生经过一个阶段的学习,到底获得了多少知识,提高了多大的能力,可以通过学绩测验进行测定。学绩测验的结果反馈给学生,学生可以总结学习经验,纠正不足,利于学生进一步学习。②学绩测验结果反馈给教师,教师可以总结教学经验,利于教师进一步改进教学。③学校还使用学绩测验甄别学习困难儿童,诊断学生学习困难的原因,以便即时制定和采取补救措施,帮助学生全面掌握所学知识,全面提高专业能力。④学校还应用学绩测验辅助教学管理。升学、毕业、升级、留级、划分班级组别都需要学绩测验的信息。

⑤现代社会的人事管理也应用学绩测验。人员录用、晋职提级都可以利用学绩测验,以测验成绩作为重要的取舍依据。2. 标准化学绩测验的基本要求?P174①命题组卷标准化。标准化试卷的所有试题都是经过精心编制的,试题测量目标明确,语词意义清晰,试题难度、区分度、达到规定标准。②施测标准化。标准化测验必须在统一标准的环境下施测。统一标准环境包括测验场所的标准统一、测验时间统一、测验的指导语统一、提供给考生的测验材料统一、材料出示的顺序统一。③评分标准化。标准化测验的评分在测验编制的同时就要制定好标准答案和评分规则。标准答案要正确、规范,最好是唯一的。评分规则应尽量细致、客观,最好是没有伸缩性的。④测验分数解释标准化。对于常模参照性测验,其意是编制测验时必须搜集常模样本,编制好测验常模。3. 标准化学绩测验的编制步骤P175-177①确定测验目的,选定测验编制的方法。②分析测量目标,拟定测验编制计划。③编题征题与选题组卷。④调查测验质量参数,编制测验常模。

⑤编写测验指导书,正式出版发行。4. 题库的基本要求有哪些?你认为建设题库有什么好处?P179(1)基本要求:植根于一种科学的测量理论;储备有一定数量的试题,所有试题品质优良,技术参数完备;题库内部结构层次清楚、分类严谨、试题检索方便;题库管理方便、可控性强、易于维护更新;保密性强。(2)好处:一些大规模的标准化学绩测验应用范围广,施测周期短,对试卷的需要比较频繁。每次都临时编题组卷,耗费大而效率又不高。解决这个问题的一个有效办法就是建设一个题库。应用题库组拼标准化学绩测验的试卷,具有经济、高效而且保密性强的特点。5. 教师自编课堂测验的特点?P182-183①测验形式灵活多变,与测验目的完全一致。②测验内容与教材内容高度一致。③测验难度切合学生的实际水平。④测验编制简易快速。6. 教师自编课堂测验应注意的问题(或教师如何做好自编课堂测验)P184-186①教师要深入研究教材,深入调查学生。②要维护准确稳定的合格标准。③要客观评价自己的命题技术,合理使用各种题型。④要注意总结命题经验,提高命题技术。

⑤要尽量控制评分误差,防止简单粗糙。⑥要做一些定量分析研究。第十二章 能力测验(上)一、名词解释1. 比内-西蒙量表: 2. 斯坦福-比内量表:3. 韦克斯勒量表:4. 瑞文推理测验:是由英国心理学家瑞文编制的一种团体智力测验,又称瑞文渐进图阵。它是非文字型的图形测验,分为3个水平:瑞文标准推理测验、瑞文采图推理测验、瑞文高级推理测验。二、简答与论述1. 论述传统智力测验的若干问题?P192-196(1)传统智力测验的结构效度。(2)传统智力测验的功能。(3)传统智力测验的公平性。对此持怀疑态度者主要从以下几个方面提出质疑:①性别差异。②职业差异。③文化和教育差异。(4)传统智力测验的预测效度。在用智力测验对个体未来可能成功程度作预测时,一般都假定所测的智力是个体相当稳定的特质。而事实上,人的智力并非一成不变,它会由于某些因素的影响而发生变化。智力的可变性主要表现于以下几个方面:①智力随年龄成熟而发展。②智力随环境而变化。③智力随个性特质的不同而产生不同变化。2. 论述智力测验存在的合理性?P197首先,智力本身虽具有可变性,但从另一个角度来说,它也具有稳定性。其次,智力测验实际运用于选拔和安置人员时,往往被实践证明其对学生和职业等效标的预测具有较好的效度,因而可以有效地帮助决策者提高决策正确率。再次,由于智力测验对不同团体可能存在的不公平性,人们已经试图从改善智力测验本身来缓解这一问题,比如改善题目结构,或据亚文化群的特点为不同团体编制不同的测验,或在同一测验中为不同团体制定子常模等。最后,虽然人们指出传统智力测验的种种不是和局限,并且从各种角度提出了更全面更完善的智力评估手段的设想,也有很多人在实践中作了诸多尝试,但至今仍未出现成熟的、超越于传统智力测验之上的智力评估工具。因此,传统智力测验在智力评估中的地位目前仍是不可取代的。第十三章 能力测验(下)一、名词解释1. 学术能力倾向测验:简称SAT,相当于我国的高考,是大学录取新生的一项主要参考依据,每年在美国和世界各地举行多次。2. 分辨能力倾向测验:简称DAT,是由美国心理公司于1947年初版,并于1963年和1972年两次修订和进一步完善,是应用最广泛的成套能力倾向测验之一,主要适用于初中和高中学生的教育咨询及就业指导。3. 一般能力倾向成套测验:简称GATB,是20世纪40年代由美国劳工部就业保险局设计而成的综合式职业性向测验。二、简答与论述1. 简述能力倾向测验的特点?P211(1)测验的目的。能力倾向测验的目的不在于总结过去,而在于预测未来,即预测个体在将来的学习或工作中可能达到的成功程度。与智力测验相比,能力倾向测验预测的目的性更强,它试图说明个体在多种能力上的潜在优势,并进而和专业或工作所需结合起来。(2)测验的编制。能力倾向测验一般同时测量几种能力因素,以分测验形式组成,每个分测验针对一种能力,每个测验应该是独立的,并且,各分测验间的相关要尽可能低。测验的内容涉及广泛,不像成就测验那样具有明确限定的内容范围,且较少涉及与学校习得知识有关的内容。另外,各分测验必须使用相同的常模样本,且应具有较高的信度。(3)测验结果的解释。①一般能力倾向测验往往会用能力剖面图来呈现个体内差异。②针对不同工作,不同能力因素的权重应有变化。一般采用多重回归模式解决这一问题。2. 现在流行的创造力测验依据的理论基础是什么?(1)1950年,吉尔福特在美国心理学年会上作了题为《创造性》的著名演讲。(2)吉尔福特将创造力定义为发散思维的能力,即对规定的刺激产生大量的、变化多端而又独特的反应的能力。他指出,现有的传统的智力测验一般注重于聚合思维的测量,测验项目通常要求被试从给定的若干备选答案中选出一个,评分则以固定的正确答案为标准,并不鼓励被试作出多样化的与众不同的反应,因此,被试的创造力在智力测验中无法得到充分的反映。(3)吉尔福特的发散思维测验与其关于创造力的定义和他关于智力结构的阐述结合起来:视创造力为发散思维能力,发散思维又是智力三维结构中操作维度所包含的五个因素之一;而作为操作因素,发散思维又可以与智力结构中的5种内容因素,以及6种结果因素组合出30种心理能力因素。第十四章 人格测验一、名词解释1. 自陈人格量表:自陈人格测量就是根据测量的人格特质,编制许多有关的问题,要求受测者根据自己的实际情况逐一回答这些问题,然后根据受测者的答案,去衡量受测者在这种人格特之上表现的程度。为完成自陈人格测量而编制的测量工具叫自陈量表或自陈问卷。2. 投射:指个人对客体特征的想象式解释,在这种解释中,个人具有将自己身上发生的心理过程无意识地附着在客体身上的倾向。换句话说,投射是个人把自己的思想、态度、愿望、情绪、性格等心理特征无意识地反应在对事物的解释之中的心理倾向。3. 投射技术:弗兰克认为投射技术能够唤醒被试内心世界或人格特征的不同表现形式,从而在对测验项目的反应中投射出被试内在的需要和愿望。基本方式是向受测者提供预先编制的一些未经组织的、意义模糊的标准化刺激情境,让受试者在不受任何限制的情况下,自由地对刺激情境作出他的反应,然后通过分析受测者的反应,推断受测者的人格特质。二、简答与论述1. 对人格定义的理解?P228现代西方心理学家对人格本质的理解至少在4个方面是一致的或基本一致的。第一,绝大多数心理学家都强调或事实上承认人格的整体性。人格虽然可能表现为各种不同的具体形式,但各种心理成分彼此交织,互相结合,组成一个整体。第二,所有心理学家都承认人格的独特性,即承认没有两个人的人格是完全相同的。第三,绝大多数心理学家都承认人格对个人行为的调节功能,即认为人的行为至少部分地决定于行为者的人格特征。第四,所有的心理学家都主张人格的相对稳定性,即认为人格对行为的调节功能具有跨时间和跨情境的特征。因此,一个人格定义无论用什么样的词语表述,只要包含了上述4方面的内容,就抓住了人格的实质。根据这一认识,我们把人格(或性格)理解为个人在与环境的相互作用过程中形成的相对稳定的心理特质和行为倾向的整体组织,它决定着个人行为的独特性。这个定义并不意味着完善,但它包含了人格的主要性质,也容易理解。2. 自陈量表的特点?P232(1)自陈量表的题量较大,多数用于测量人格的若干特质。(2)自陈量表通常采用纸笔测验,即将测验项目印在纸上装订成册,另有一张答卷纸,将备选选项印在答卷纸上,被试一边阅读测验项目,一边在答卷纸上选择适合于自己的选项。这样可以同时测量许多人。(3)自陈量表的计分规则简单而客观,施测手续比较简单,测验分数容易获得解释。因此一般对测验情境和施测者的要求不像智力测验那样严格。3. 投射测验的特点?P242(1)测验材料没有明确的结构和确切的意义,这就为受测者提供了针对测验材料进行广阔自由联想的机会和空间。(2)受测者对测验材料的反应不受限制,可以根据自己对测验材料的理解作任何想象式解释,因此受测者对测验材料的解释在很大程度上不是决定于测验材料的性质,而是决定于受测者的人格特征和当时的心理状态。(3)测验的目的具有明显的隐蔽性,受测者事先并不知道施测者对他的反应作何心理学的解释,这就在很大程度上避免了受测者的伪装和防卫,使测验的结果更能反映受测者真实的人格特征。(4)对测验结果的解释重在对受测者的人格特征获得整体性的了解,而不是对某个或某些单个人格特质的关注。(5)投射测验的内容多为无明确意义的图片,在测验时不受语言文字的限制,所以,被广泛地应用与人格的跨文化研究。(6)相对于自陈量表,投射测验的最大局限是计分上的困难,这使得研究者对测验结果难以进行确定的定量分析。第十五章 其他心理与教育测验一、名词解释二、简答与论述1. 瑟斯顿量表的优缺点其信度一般在0.8~0.9之间。不足主要有以下有几点:第一是制作过程复杂,选题目、找专家评价都很困难;第二是用中位数代表态度等级不一定合适,因为中位数相同,但其余的反应未必一致;第三是项目的挑选和等级确定以专家的评判为依据,专家的意见是否代表一般人值得怀疑;第四是等距量表事实上是是否真正等距,亦把握不准。尽管如此,《瑟斯顿量表》在主题比较清楚、调查范围不广的态度问题调查上效果还是比较好的。2. 利克特量表的优缺点优点是制作过程简单,而且能广泛接受与态度主题有关的项目;另外可通过增加项目而提高效度,并且允许受测者充分表达态度的强烈程度。问题与不足是相同的态度分数者可能持有不同的态度模式,从总分只能看出一个人的赞成程度,而无法对态度差异作进一步的解释。第十六章 测量的综合应用一、名词解释1. 心理咨询:是求询者就其心理冲突、心理障碍或轻度心理疾病向有专业技术的咨询人员诉说、询问,咨询人员分析问题的原因和症结并寻求解决问题的办法,提高对生活的适应性和对周围环境的调节能力。2. 教育评价:是根据教育目标,在系统收集资料的基础上,对教育过程及其结果进行价值判断的过程。二、简答与论述教育评价的功能与阶段(1)其功能大致可以概括为3点:一是导向功能,由于教育评价的标准是教育目标,这个标准的确立为人们指明了努力方向,一旦经过评价发现偏离了教育目标,人们就会主动调整自己的行为,向符合目标的方向前进;二是管理功能,科学的教育评价,可使人们明确自己的现状和职责,一旦人们发现自己的不足,就会想办法予以改进,从客观效果上讲,达到了激发人的动机,调动人的积极性的效果;三是诊断和选拔功能,这是教育评价的基本功能,教育评价可以使我们了解人的德、能、勤、绩等多个方面的情况,是进一步施加影响或进行选拔的依据。(2)教育评价过程通常分为3个阶段:第一是确立明确的可操作的教育目标,作为对事实进行判断的标尺,这个标尺是明确与否、正确与否会直接影响评价结果;第二是根据教育目标选择或编制可以测量这些教育目标的工具或方法,选择或编制测量工具或方法应以测量理论为指导,力求使用最有效的手段来获取事实资料;第三是通过测量所收集的资料和数据,对照教育目标形成一个价值判断。第十七章 心理与教育测量理论的新发展一、名词解释二、简答与论述1. 经典测验理论的局限性P288第一是经典测验理论的信度估计精度不高。第二是经典测验理论的误差指标笼统单一、不精细。第三是经典测验理论各种参数的估计对样本的依赖性太大。第四是经典测验理论参数指标之间的配套性较差。15心理测量学复习要点.txt21春暖花会开!如果你曾经历过冬天,那么你就会有春色!如果你有着信念,那么春天一定会遥远;如果你正在付出,那么总有一天你会拥有花开满圆。心理测量学 第一节 概述 第一单元 测量与测量量表 一、什么是测量 测量就是依据一定的法则用数字对事物加以确定。

定义中包括三个主要的元素:(1)事物 (2)数字 (3)法则。

[测量所用的数字具有自然数的特点,即具有:(1)区分性;(2)等级性;(3)等距性;(4)可加性。] 二、测量要素 任何测量都应该具备两个要素:既参照点和单位。

1、参照点有两种:a.绝对零点 b.相对零点 2、好的单位必须具备两个条件:一为有确定的意义,即对同一单位,所有的人的理解意义要相同,不能出现不同的理解。二是有相同的价值。即相邻两个单位点之间的差别总是相等的。

三、测量量表 测量的本质是根据某一法则将事物数量化,即在一个定有单位和参照点的连续体上把事物的属性表现出来,这个连续体称为量表。

根据量表的精确度,斯蒂文斯将量表从低级到高级分成四种水平: 一命名量表: 这是测量水平最低的一种量表形式,只是用数字代表事物或把事物归类。

1、代号——用数字来代表个别事物,如学生和运动员的编号等。

2、类别——用数字来代表某一具有某种属性的事物的全体,即把某种事物确定到不同的性质的类别中。如用1代表男,用2代表女,或用不同的数字代表不同的职业等。

二顺序量表:它比命名量表水平高,其中的数字不仅指明类别,同时指明类别的大小或含有某种属性的程度,如学生的考试名次、工资的级别、能力等级等。在顺序量表中,既无相等单位,双无绝对零点,数字仅表示等级,并不表示某种属性的真正量或绝对值。

三等距量表 :它比顺序量表又进了一步,不但有大小关系,而且具有相等的单位,其数值可以相互做加减运算,但没有绝对的零点,因此不能做乘、除运算。典型的类子就是摄氏温度。

四等比量表:是最高水平的量表,既有相等单位又有绝对零点。此种量表在物理测量中容易见到,长度、重量、时间等都是等比量表。所得的数值可以做加减乘除运算。

一般说来,心理测量表是在顺序量表上进行的,因为对于人的智力、性格、兴趣、态度等,没有绝对零度是难以确定的,而且,在心理测量中,相等单位也是很难获得的。

第二单元 心理测验的基本概念 一、心理测验的定义 : 所谓心理测验,就是依据心理学理论,使用一定的操作程序,通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段。

四个要素: 1、心理测量的对象是人的行为; 2、心理测量必须选择有代表性的样本; 3、心理测量必须有相同的条件; 4、心理测量必须以常模作为测量依据。

二、心理测验的性质 (一)间接性 :只能通过一个人对测验项目的反应来推论出他的心理特质。特质是个人对刺激作反应的一种内在倾向。是个体特有的、稳定的、可辩别的特征,它又是一个抽象产物,一个构思,而不是一个直接测量到的有实体的个人特点。

(二)相对性 :对人的行为做比较,没有绝对标准。(三)客观性:包括(1)测验的刺激是客观的;(2)对反应的量化是客观的;(3)对结论的推论是客观的。测验的客观性实际上就是测验的标准化问题。包括测验用的项目或作业标准化、评分记分的原则和手段的标准化、分数转换和解释经过了标准化。

[测验的客观性不包括()的客观性。绝对的标准] 第三单元 心理测验的分类 一、按测验的功能分类 (一)智力测验:其功能是测验人的一般智力水平。

(二)特殊能力测验:如音乐、绘画、机械技巧、文书才能测验。

(三)人格测验:个性中除能力以外的部分的测验。

二、按测验材料的性质分类 (一)文字测验:儿童和成人智力量表中的言语量表部分均属文字测验。缺点是容易受被试者文化程度的影响。

(二)操作测验:操作测验也称非文字测验。多属于对图形、工具、模型的辨认和操作,无须使用言语作答,所以不受文化因素的限制,可用于学前儿童和不识字的成人。

三、按测验材料的严谨程度分类 (一)客观测验:无须发挥想像力来猜测和遐想。

(二)投射测验 1.概念:投射法是指向被试者提供一些未经组织的刺激 情境,让他在不受限制的情境下,自由地表现出他的反应,分析反应的结果,便可推断出他的人格结构。

2.投射技术的种类 (1)联想法——罗夏墨迹测验 (2)构造法——主题统觉测验 (3)表露法——主要有: a.画人测验 b.知觉—运动测验 (4)完成法——(句子填充测验、逆境对话测验) 句子填充测验:我最喜欢_ _ _ _。

我最讨厌_ _ _ _。

四、按测验的方式分类 (一)个别测验:以一对一的形式来进行。优点在于主试对被试的言语和情绪状态有仔细的观察,并且有充分的机会与被试者合作,所以结果可靠。缺点是时间不经济。

(二)团体测验:一个主试者同时对多个被试者实施的测验。如著名的陆军甲种和乙种测验。

五、按测验的要求分类 (一) 最高行为测验——成就测验、学绩测验 。

(二) 典型行为测验——一般人格测验等。

第四单元 如何看待心理测验 一、错误的测验观 (一)测验万能论 (二)测验无用论 二、正确的测验观 (一)心理测验是重要的心理学研究方法之一、是决策的辅助工具 (二)心理测验作为研究方法和测量工具尚不完善。

第五单元 心理测验在心理咨询中的应用 在我国目前情况下,心理门诊中运用较多的大致有这样3类心理测验: 一、智力测验 ; 二、人格测验; 三、心理评定量表。

心理测验在咨询和心理治疗过程中并不是必不可少的一个环节,如果通过与咨询或治疗对象的交谈,对其问题已形成明确的看法,就可以放弃不必要的心理测验。有时过多的使用还会影响咨询、治疗的过程和效果。

第六单元 心理测验的发展史 一、科学心理测验的产生与发展 (一)三个重要人物:1、高尔登(F.Galton),首先倡导科学心理测验的学者 。[英国生物学家和心理学家高尔顿的主要贡献]:(1)提出了不同气质特点和智能是按身体特点的不同而遗传的; (2)研究差异的遗传性,便设计了测量差异的方法,典定了统计学基础;(3)第一个提出了相关的概念,创立了积差相关法,这使判定心理测验的信度、效度和进行因素分析成为可能。

2、卡特尔(J.M.Cattell),卡特尔(1)在《心理》杂志上发表“心理测验与测量”一文,这是心理测验第一次出现于心理学文献中;(2)认为心理学应立足于实验与测验;(3)认为心理测验应有统一的标准。3、比内(A.Binet),编写了世界上第一个正式的心理测验。

(二) 20世纪心理测验的主要发展: 1、操作测验的发展 2、团体智力测验的发展 3、能力倾向测验的发展 4、人格测验的发展 二、现代心理测验在我国的发展(参见本课程教学参考资料:专栏5-1中国古代的心理测验思想) 九连环是一种中国民间的智力游戏,其设计之巧妙,也可和现代的魔方、魔棍相配美。称为“中国的迷津”。七巧板 被称为唐图,即“中国的图板”。近些年来我国的心理学学正在致力于测验的本土化。

第二节 测验的常模 常模参照分数解释的测验:律师考试就是这样,即使大家考试都考得特别好,也只要前面的百分之几。根据大家的成绩。

标准参照分数解释的测验:国家心理咨询师的考试,出了两份卷子:基础理论,操作技能,满分一百,及格六十。两科都满60,可以得到分数。门槛已经设好了。大家都能跳过门槛,就都能通过。很多人都没有通过,也就不能过去了。通过与不通过,参照一个事先设定好的标准,来解释分数。叫做标准参照分数解释。

第一单元 常模团体 一、常模团体的性质 常模团体是由具有某种共同特征的人所组成的一个群体,或者是该群体的一个样本。它用一个标准的、规范的分数表示出来,以提供比较的基础。

任何一个测验都有许多可能的常模团体 。对测验编制者而言,常模的选择包括:确定一般总体、确定目标总体、确定样本。对测验的使用者来说,要考虑的问题是,现有的常模团体哪一个最合适。

二、常模团体的条件 (一)群体的构成必须明确界定 (二)常模团体必须是所测群体的代表性样本 (三)样本的大小要适当 。总体数目小,只有几十个人,则需要100%的样本。如果总体数目大,相应的样本也大,一般最低不小于30或100个。全国性常模,一般应有2000~3000人为宜。[在实际工作中,应从经济的或实用的可能性和减少误差这两个方面来综合考虑样本的大小。] (四)标准化样组是一定时空的产物(具有新近性) 三、取样的方法 一简单随机抽样 二系统抽样 :系统抽样方法的关键是计算组距。系统抽样要求目标总体无序可排,也无等级结构存在。

三分组抽样 : 四分层抽样 :有分层按比例抽样与分层非比例抽样之分。此方法最常用。

四、常模分数与解释 一常模分数:常模分数就是施测常模样本被试后,将被试者的原始分数按一定规则转换出来的导出分数。

二常模:常模分数构成的分布,就是通常所说的常模(norm),它是解释心理测验分数的基础。

[常模表示一种最简单、最基本的且常用的呈现常模资料的方法,它的构成要素是:①对常模团体的具体描述;②原始分数;③导出分数。][导出分数的特性:①具有意义;②与原始分数等值;③等单位;④具有参照点。][取样是指从()中选择有代表性的样本。目标人群] 第二单元 常模的类型 一、发展常模(年龄量表) (一)发展顺序量表 。最早的一个范例是葛塞尔发展程序表 。按月份显示儿童在运动水平、适应性、语言、社会性四个方面的大致发展的水平。

4周能控制眼球运动;16周能使头部保持平衡;28周能用手抓握东西并玩弄;40周能控制躯干、坐立或爬行;52周能控制腿脚运动、站立和行走。皮亚杰发现,儿童不同时期出现不同的守恒概念:5岁时理解质量守恒;6岁时掌握重量守恒;7岁时有容量守恒概念。

[皮亚杰的研究着重于从婴儿到十多岁儿童认知过程的发展,尤其注重某些特殊概念的形成,其中最著名的工作就是对()概念的研究。守恒] (二)智力年龄 比内-西蒙量表中首先使用智力年龄的概念。

计算方法:假如某儿童6岁组的题目全部通过,7岁组通过4题,8岁组通过3题,9岁组通过2题,其智龄为:6(岁)+4×2(月)+3×2(月)+2×2(月)=6岁+18月=7岁6个月。

智力年龄,简称智龄,一个儿童在年龄量表上所得到的分数,就是代表他的智力水平的年龄。

(三)年级当量 :年级当量实际上就是年级量表,测验结果说明属哪一年级的水平,在教育成就测验中最常用。

[发展量表的基本要素;(1)一组可以区分不同年龄组的题目;(2)一个常模团体;(3)常模表。] 二、百分位常模 (一)百分等级:指在常模样本中低于这个分数的人数的百分比。公式(5-1):PR=100-(100R-50/N) [王红在30名同学中的物理成绩是80分,排名第5名,则其百分等级为(85)。] (二) 百分点: 也称百分位数。计算处于某一百分比例的人对应的测验分数是多少。

直线内插法:例:高考的最高分为695,其百分等级为100,最低分为103分,百分等级为1,要录取20%的学生进入大学,百分等级为80的百分位数(PP)。按直线内插法:100-80/695-PP=80-1/PP-103 得PP=575 (三)四分位数和十分位数 : 四分位数和十分位数只是百分位数的两个变式,其含义相似。百分位数是将量表分成100份,而四分位则是将量表分成四等份,十分位则是分成十等份。

三、标准分常模 标准分数是将原始分数与平均数的距离以标准差为单位表示出来的量表。因为它的基本单位是标准差,所以叫标准分数。

标准差的作用:一是可以直接反映被测值的离散程度;二是可以直接作为一个单位反映被测值偏离平均值的情况。

1.线性转换的标准分数 公式(5-2))Z=(X-X)/SD 其中X 为任一原始分数,X样本平均分数,SD为样本标准差。由此可见Z可以用来表示某一分数与平均数之差的几倍。

因为存在小数和负数,而且单位过大,通常将z转换成另一形式: 公式(5-3):Z=A+BZ Z为转换后的标准分数,A、B为根据需要指定的常数。

2.非线性转换的标准分数 。当原始分数不是常态分布时,也可以使之常态化,这一转换过程就是非线性的。步骤为:A、对每个原始分数值计算累计百分比;B、在常态曲线面积中,求出位于该百分比的z分数。

(1)T分数:以50为平均数(即加上一个常数50),以10为标准差(乘以一个常数10)来表示。(麦柯尔最早使用) 公式(5-4):T=50+10z` [最早使用T分数的是麦柯尔。] (2)标准九分:是以5为平均数,以2为标准差的一个分数量表。

(3)标准十分:以5(5.5)为平均数,以1.5为标准差的一个分数量表。

(4)标准二十分:以10为平均数,以3为标准差的一个分数量表。

四、智商及其意义 1.比率智商 (斯坦福大学推孟教授于1916年修订而成斯坦福-比内量表)。比率智商(IQ)等于心理年龄(MA)与实足年龄(CA)之比。为小数将商乘以100。

公式(5-5) IQ=MA/CA×100 缺点:由于智力是由快到慢再到停止的一个过程,所以不适合年龄较大的被试。

2.离差智商 (韦克斯勒) :表示的是个体智力在年龄组中的位置。] 离差智商的平均数为100,标准差定为15。

公式(5--6):IQ=100+15Z`=100+15(X-X)/SD 必须指出:从不同的测验获得的离差智商只有当标准差相同或接近时才可以比较,标准差不同,其分数的意义便不同。(参见本课程教学参考资料:专栏5-2几种导出分数间的相互关系) [离差智商的优点:(1)建立在统计学基础之上;(2)它表示的是个体智力水平年龄组中所处的位置;(3)是表示智力高低的一种理想指标。] [若儿童的心理年龄高于其生理年龄,则智力较一般儿童高,若心理年龄低于其生理年龄,则智力较一般儿童低。但在实践中发现,单纯用心理年龄来表示智力高低的方法缺乏不同()儿童间的可比性。年龄] 五、注意的问题 1、发展常模换算及解释时需要注意的问题 : 只适合于所测特质随年龄发展变化的情况,对成年人不适用;只适用于在典型环境下成长的儿童;一年的差异在不同年龄有不同的含义。

2、百分位换算及解释时需要注意的问题 :顺序量表,缺少相等单位。靠近中央的原始分数差异扩大,而两端的差异缩减。不能比较和说明不同被试间分数差异的数量。

3、标准分数换算及解释时需要注意的问题 :计算非线性转换的标准分数时,特质的分数实际上应该是常态分布。标准差不同,其分数的意义不同。

第三单元 常模分数的表示方法 一、转换表法 :最简单而且最基本的表示常模的方法就是转换表,有时也叫常模表。

二、剖面图法 :剖面图就是将测验分数的转换关系用图形表示出来,效果更直观。

第三节 测验的信度 第一单元 信度的概念 一、信度的定义 信度是指同一被试者在不同时间内用同一测验(或用另一套相等的测验)重复测量,所得结果的一致程度。

信度只受随机误差的影响。随机误差越大,信度越低。

第一个测试的实际分数(X)总是由真实分数(T)和误差(E)两部分构成。

(公式5-7):X=T+E 如果用方差代表具体分数,就得到(公式5-8)。

在测量理论中,信度被定义为:一组测量分数的真实分数方差与总方差(实得分数的方差)的比率。(公式5-9)。

真实分数是无法统计的,因此公式5-9还可以转化为(公式5-10)。

二、信度的指标 1.信度系数与信度指数 : 大部分情况下,信度是以信度系数为指标,它是一种相关系数。是真分数方差与实得方差的比值。(公式5-11)。

信度指数的平方就是信度系数。(公式5-12) 2.测量标准误 测量的标准误与信度之间有相互消长的关系:信度越高,标准误越小;信度越低,标准误越大。

第二单元 信度评估的方法(四个) 一、重测信度 :使用同一测验,在同样条件下对同一组被试者前后施测两次测验,求两次得分间的相关系数,叫重测信度,又称稳定性系数。一般是两周到四周较宜,间隔时间最好不超过六个月。

由于人的多数心理特征如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间,不会有很大的变化。

二、复本信度: 又称等值性系数。它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系数。这个相关系数就代表了复本信度的高低。复本信度反映的是测验在内容上的等值性,故又称等值性系数。

复本信度也要考虑两个复本实施的时间间隔。如果两个复本几乎是在同一时间内施测的,相关系数反映的才是不同复本的关系,而不掺有时间的影响。如果两个复本的施测相隔一段时间,则称重测复本信度或稳定与等值系数。

[复本信度的缺点:(1)如果测量的行为易受练习的影响,则复本信度只能减少而不能完全消除这种影响;(2)由于第二个测验只改变了题的内容,已经掌握的解题原则可以迁移到同类的问题;(3)对于许多测验来说,建立复本是十分困难的。] 三、内部一致性信度 1.分半信度:分半信度指采用分半法估计所得的信度系数。这种方法估计信度系数只需一种测验形式,实施一次测验。通常是在测验实施后将测验按奇、偶分为等值的两半,并分别计算每位被试在两半测验上的得分,求出这两半分数的相关系数。这个相关系数就代表了两半测验内容取样的一致程度,因而属于内部一致性系数。

修正公式是斯皮尔曼-布朗公式:( 公式5-14)。

斯皮尔曼--布朗公式为经验公式,它的假设条件是两半测验的变异数相等,但实际资料有时未必完全符合这一条件。当假设不成立时,可采用弗朗那根公式或卢伦公式,直接求得测验的信度系数。

2.同质性信度:同质性主要代表测验内部所有题目间的一致性。当各个题目的得分有较高的正相关时,不论题目的内容和形式如何,则测验为同质的。

相反,即使所有题目看起来好象测量同一特质,但相关很低或为负相关时,则测验为异质的。

几个计算同质性信度的公式如下: (1)库德-理查逊公式 (用于0、1记分) 计算同质性信度,常用的是K-R20公式,在各测题难度相同或近似的情况下,还可采用计算更为简便的K-R21公式。

[K-R20公式、K-R21公式有别于克伦巴赫α系数的是,它们只能用于()。是非题](2)克伦巴赫α系数 (不适用于多重记分) 四、评分者信度 : 用于测量不同评分者之间所产生的误差。(0.90以上,才认为是客观的)。

为了衡量评分者之间的信度高低,可随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度。

当多个评分者评定多个对象,并以等级法记分时,可采用肯德尔和谐系数作为评分者信度的估计。

[下列描述中正确的是:(1)随机抽取若干份测验卷,由两位评分者按评分标准分别给分,然后再根据每份测验卷的两个分数计算相关,即得评分者信度;(2)所有题目看起来好象测同一特质,但相关很低或负相关时,则测验为异质的;(3)人的多数心理特征如智力、性格、兴趣等,具有相对的稳定性,间隔一段时间,不会有很大的变化;(4)不同信度反映测验误差的不同来源。] 第三单元 信度与测验分数的解释 一、解释真实分数与实得分数的相关 信度系数可以解释为总的方差中有多少比例是由真实分数的方差决定的,也就是测验的总变异中真分数造成的变异占百分之几。

二、确定信度可以接受的水平 当rxx< .70时,测验不能用于对个人作出评价或预测,而且不能做团体比较;当.70≤ rxx .85时,可用于团体比较;当rxx ≥ .85时,才能用来鉴别或预测个人成就或作为。

三、解释个人分数的意义 作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。

测量标准误可以通过第一次测验的结果及信度估计到:(公式5-15)。

例:在一个智力测验中,某个被试的iQ为100,这是否反映了他的真实水平?如果再测一次,他的分数将改变多少? X―1.96SE<XT≤X+1.96SE (公式5-16) 已知该智力测验的标准差为15,信度系数为.84,则其iq的测量标准误和可能范围为:套(公式5-15)得 SE= 6 , 即: IQ=100±1.966=100±11.76≈88~112 我们可以说这个被试的真实性IQ可能性落在88与112之间,即若再测一次,他的智商低于88、高于112的可能性不超过5%。

四、比较不同测验分数的差异 差异分数的标准误:(公式5-17)。

例;某被试在韦氏成人智力测验中言语智商为102,操作智商为110。已知两个分数都是以100为平均数,15为标准差的标准分数。假设言语测验和操作测验的分半信度分别为0.87和0.88。问其操作智商是否显著高于言语智商呢? 首先计算出差异分数的标准误:SED=7. 5 在统计上,经常要求两个分数的差异程度达到0.05的显著水平,才能承认不是误差的影响。因此,将差异标准误(7.5)

心理测量教育

乘以1.96,结果为14.7,这表明个体在韦氏测验两半得分的差异高于大约15分,才能达到0.05显著水平。上述被试的差异分数110-102=8是不显著的。

第四单元 影响信度的因素 一、样本特征 (一)样本团体异质性的影响 若获得信度的取样团体较为异质的话,往往会高估测验的信度,相反则会低估测验的信度。

(二)样本团体平均能力水平的影响 因为每个题目具有不同的难度,对幼年者和能力水平较低者,其信度值相对较低。

二、测验长度 (一)测验越长,测题取样或内容取样越有代表性 (二)测验越长,被试的猜测因素影响就越小。

(三)测验太长,有时反而会引起被试者疲劳和反感而降低可靠性。

通过斯皮尔曼--布朗公式的导出公式可计算出最少应增加的题数:(公式5--18)。

例:一个包括40个题目的测验信度为0.80,欲将信度提高到0.90,问至少需要增加多少题目? 根据斯皮尔曼布朗公式:K=0.90(1—0.80)/ 0.80(1—0.90)=2.25 即要取得0.90的信度,测验长度就为原来的2.25,即需要增加40×2.25=50个题目。

三、测验难度 (地板效应与天花板效应) 洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测题,0.70;四择一测题,0.74;三择一测题,0.77;是非题,0.85。

只有平均难度水平为50%时,才能使测验分数分布范围最大。

四、时间间隔: 两次测验相隔时间越短,其信度系数越大 注意事项 斯皮尔曼-布朗公式为校正分半信度的经验公式,它的假设是两半测验分数的变异数相等。当假设不成立时,可以采用弗朗那根(Flanagan)公式或卢伦(kulon)公式之一,直接求得测验的信度系数。

对于一些复杂的、异质的心理学变量,采用单一的同质性测验是不行的,因而常常采用若干个相对异质的分测验。

第四节 测验的效度 [美国心理学会在1974年发行的《教育与心理测量之标准》一书中将效度分为:(1)内容效度;(2)构想效度;(3)效标效度。] 第一单元 效度的概念(有效性或者说准确性) 一、效度的定义 : 在心理测验中,效度是指所测量的与所要测量的心理特点之间符合的程度,或者简单地说是指一个心理测验的准确性。(是科学测量工具重要的必备条件)。

因为测验分数的总方差等于真实方差与误差方差之和(公式5-8),而真实方差又分成两部分,即有关方差与无关的但稳定的方差:(公式5-19) 以公式5-19代入公式5-8得:(公式5-20) 在测验理论中,效度被定义为在一组测量中,与测量目标有关的真实方差(或称有效方差)与总方差的比率,即:(公式5--21) 二、效度的性质 1.效度具有相对性任何测验的效度是对一定的目标来说的,或者说测验只有用于与测验目标一致的目的和场合才会有效。[效度具有相对性,在评鉴测验的效度时,必须考虑测验的(目的)与(功能)。] 2.效度具有连续性 测验效度通常用相关系数表示,它只有程度上的不同,而没有“全有”或“全无”的区别。效度是针对测验结果的。

测验效度是“测验结果”的有效性程度。

第二单元 效度评估的方法 一、内容效度(content-related validity) 一什么是内容效度: 内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是否是所欲测量的行为领域的代表性取样。

二内容效度的评估方法:(确定) 1.专家判断法 (描述性语言) 请有关专家对测验题目与原定内容的符合性做出判断,看测验的题目是否代表规定的内容。如果专家认为测验题目恰当地代表了所测内容,则测验具有内容效度。由这种估计效度的方法,是一个逻辑分析的过程,所以内容效度又称“逻辑效度”。

为了使内容效度内容确定过程更为客观,弥补专家的不足,可采用如下几个步骤: (1)定义好测验内容的总体范围,描述有关的知识与技能及所用材料的来源; (2)编制双向细目,确定内容和技能各自所占比例,并由测验编制者确定各题所测是何种内容与技能; (3)制定评定量表来测量测验的整个效度。2.统计分析法 :包括(1)对评分者一致性的评定;(2)两个测验复本的相关性和课程内容的学习等分析;(3)再测法。

3.经验推测法 :通过实践来检验效度。

三内容效度的特性: 内容效度经常与表面效度(face validity)混淆。表面效度是由外行对测验作表面上的检查确定的,它不反映测验实际测量的东西,只是指测验表面上看来好像是测量所要测的东西;内容效度是由够资格的判断者(专家)详尽地、系统地对测验作评价而建立的。

[最高行为测验注重表面效度,测典型行为时则应该把表面效度降低,尽量不让你知道在测试的内容。这就是内容效度与表面效度的区别。] 二、构想效度(construct-related validity) 一构想效度指(1)测验能够测量到理论上的构想或特质的程度,(2)即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何。(3)涉及的是心理学的理论概念问题。(4)构思效度。

二构想效度的估计方法: 1.对测验本身的分析:[可以作为构想效度的证据有:①测验的内容有效;②测验内部一致性;③被试者对题目的反应特点] 2.测验间的相互比较:[(1)相容效度:与其他测量同一构思的测验有相关;(2)区分效度:与测量不同构思的测验无相关:(3)因素分析法:种因素与原先的理论构思一致,则说明构思效度很高。) 3.效标效度的研究证明 4.实验法和观察法证实 三、效标效度(criterion-related validity) 一什么是效标效度 效标效度又称实证效度,反映的是测验预测个体在某种情境下行为表现的有效性程度。根据效标资料是否与测验分数同时获得,又可分为同时效度和预测效度两类。

一个好的效标必须具备以下条件: ①效标必须能最有效地反映测验的目标,即效标测量本身必须有效; ②效标必须具有较高的信度,稳定可靠,不随时间等因素而变化; ③效标可以客观地加以测量,可用数据或等级来表示; ④效标测量的方法简单,省时省力,经济实用。

二效标效度的评估方法 1.相关法:相关法是评估效标效度最常用的方法,它是求测验分数与效标资料间的相关,这一相关系数称为效度系数。

[效度系数的计算:①积差相关法;②点二列公式;③二列公式; ④贾思朋多系列公式。] 2.区分法:区分法是检验测验分数能否有效地区分由效标所定义的团体的一种方法。

3.命中率法 : 命中率法是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法。四种情况:预测成功而且实际也成功;预测成功但实际上失败;预测失败而事实成功;预测失败且实际上也失败。称正确的预测为命中,不正确的预测为失误。

命中率高低常随划分测验分数成功与失败的临界分数的高低面变化。临界分数越高,正命中率也越高;反之,临界分数越低,则正命中率也越低。

第三单元 效度的功能 一、预测误差 : 效度系数的实际意义常常以决定性系数来表示,意旨相关系数的平方,它表示测验正确预测或解释的效标的方差占总方差的比例。

二、预测效标分数 :如果X与Y两变量呈直线相关,只要确定出二者间的回归方程,就可以从一个变量推估出另一个变量。

三、预测效率指数 E=100(1-K) 预测效率指数E值的大小表明使用测验比盲目猜测能减少误差,如一个测验的效度系数为0、80,E=40,这表明由于该测验的使用,使得我们在估计被试的效标分数时减少了(40)的误差。

第四单元 影响效度的因素 一、测验本身的因素 : (1)测验取材的代表性;(2)测验长度;(3)试题类型、难度;(4)区分度以及编排方式等都会影响效度。

二、测验实施中的干扰因素 一主试的影响因素 二被试的影响因素 三、样本团体的性质 一样本团体的异质性 :样本团体越同质,分数颁布分布范围越小,测验效度就越低;样本团体越异质,分数分布范围越大,测验效度就越高。

[一般而言,若获得信度的取样团体较为异质的话,往往会(高估)测验的信度,否则就会低估测验的信度] 二干涉变量:对于不同性质的团体,同一测验的效度会有很大的不同。

美国心理学家吉塞利提出如何找出干涉变量的方法: 1、用回归方程求得每个人的预测效标分数,将该分数与实际效标分数相比较,获得差异数D。如果D的绝对值很大,说明测验中的可能存在干涉变量。

2、根据样本团体的组成分析,找出对照组,分别计算效度,从而找出干涉变量。

3、对于欲测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个团体。对于预测性团体低的,存在干涉变量。

四、效标的性质 效标与测验分数之间的关系是否是线性关系是很重要的因素。皮尔逊积差相关系数的前题条件是假设两个变量的关系是线性分布。如果是非线性分布则皮尔逊积差相关系数会低估相关的大小。

效标测量本身的可靠性是值得考虑的一个问题。效标测量的可靠性即效标测量的信度。

(信度与效度的关系:信度是效度的必要而非充分的条件,效度是受信度的制约。) 第五节 项目分析 包括定性分析和定量分析两个方面,定性分析包括考虑内容和效度,题目编写的恰当和有效性等;定量分析主要是指对题目难度和区分度等。

第一单元 项目的难度 一、定义 难度(difficulty),顾名思义,是指项目的难易程度。在能力测验中通常需要一个反映难度水平的指标,在非能力测验(如人格测验)中,类似的指标是“通俗性”。

难度的指标通常以通过率表示,即以答对或通过该题的人数百分比来表示(公式5-31):P=R/N×100%(用P 代表,P值越大,难度越低) 二、计算方法 一二分法记分的项目:通过记1分,错误记0分,对这类题目可直接用公式5-31计算难度。

当被试人数较多时,则可根据测验的总成绩将被试分成三组:分数最高的27%被试为高分组,分数最低的27%被试为低分组,中间46%的被试为中间组。分别计算高分组和低分组的通过率,经两组通过率的平均值作为每一题的难度。(公式5-32) 由于选择题允许猜测,所以通过率可能因机遇作用变大,吉尔福特提出了一个难度校正公式(公式5-33): CP=KP-1/K-1 二非二分记分的项目 当测验项目为问题答题或不能用二分法记分的形式时,一般用下面的公式计算难度。(公式5-34) 三、难度水平的确定 一项目的难度: P值越接近0或接近1,越无法区分被试间能力的差异。相反,P值越接近于0.50,区别力越高。

在选择题目时,最好使试题平均难度接近0.50,而各题难度在0.50±0.20之间。

当测验用于选拔或诊断时,应该较多地选择难度值接近录取率的项目。对于选择题来说,P值一般应大于概率水平。对是非题其难度值应该为0.75最为合适;而对于四选一题,其难度值约为0.63时最为合适。

[洛德(Lord)提出在学绩测验中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测题,0.70;四择一测题,0.74;三择一测题,0.77;二择一题,()。0.85] 二测验的难度 如果样本具有代表性,对于中等难度的应该接近常态分配。但有些测验,如掌握性测验或标准参照测验,分数分布出现偏态是允许的。

[数学测验的第7题满分为15分,该题考生的平均分为9.6分,测该题的难度为(0.64)] P=R/N×100% [在340个学生中,答对项目的人数为120人,则该项目的难度为(0.6)][在70名被试者中选为高分组和低分组的被试者各有100人,其中高分组有70人答对第一题,低分组有40人答对第一题,则第一题的难度为(0.55) 第二单元 项目的区分度 一、定义 项目区分度(item discrimination),也叫鉴别力,是指测验项目对被试的心理特性的区分能力。

区分度取值范围介于-1至+1之间,假如项目得分与实际能力水平之间呈负相关,则区分度为负值;若呈正相关,则区分度为正值;相关系数越大,区分度越高。当区分度为负值时,则意味着被试实际能力越高,该项目的得分反而越低,这种情况一般很少发生,如果出现,该项目应该淘汰。

二、计算方法 在理论上,项目区分度是以项目得分高低与实际能力水平高低之间的相关来表示。而实际能力用的最多的是测验总分。[计算项目难度的公式:(1)P=R/N×100%;(2)P=(PH+PZ)/2;(3)P= (P369页) 一鉴别指数 (注意排列顺序) 1、按测验总分高低排列答卷; 2、确定高分组与低分组,每一组取答卷总数27%; 3、分别计算高分组与低分组在该项目上的通过率或得分率; 4、按下列公式估计项目的鉴别指数:(公式5-35):D=PH—PC 1965年,美国专家伊贝尔提出评价项目性能标准是:0.40以上为“很好”;0.30--0.39为“良好,修改后会更佳”;0.20--0.29为“尚可,但需修改”;0.19以下为“差,必须淘汰”。

二相关法 (记住它的方法及适用范围) 计算区分度最常用的方法。即以某一项目分数与效标成绩或测验总分的相关作为该项目区分的指标。相关越高,表明项目越具有区分的功能。

1.点二列相关 :适用于一类变量为二分变量,另一类变量为连续变量的成对变量相关的计算。

2.二列相关 :适用于两个连续变量,但其中一个变量被人为分成两类。

3.Φ相关法 :适用于两个变量均为二分称名变量。若将测验总分按及格、不及格或录取、淘汰划分,便可计算Φ相关系数。

4、积差相关 三、区分度与难度的关系 总体上说,中等难度的项目区分度最高。

一般说来,较难的项目对高水平的被试区分度高,较易的项目对水平低的被试区分度高,中等难的项目对中等水平的被试区分度高。

第六节 测验编制的一般程序 第一单元 测验的目标分析 一、测验的对象 :年龄、受教育程度、社会经济、阅读水平等。

二、测验的用途 :描述、诊断、选拔、预测。

一显示性测验:指测验题目和所要测量的心理特征相似的测 验。如成就测验。

古德纳夫分为:样本测验和标记测验。

样本测验——题目取自一个很明确的总体的测验。如测综合运算能力。

标记测验——题目取自一个全开放的总体的测验。如智力测验。

二预测性测验:指预测一些没被测量的行为的测验。

如GRE中的词汇测验。

[ 项目难度的分布一般以(常态)分布为好,这样不仅能保证多数项目有较多的区分度,而且可以保证整个测验对被试者有较高的区分力。] 三、测验的目标 :是指编制的目标是用来测什么的,即用来测什么样的心理变量或心理特征。

一工作分析 ——对于选拔和预测功用的预测性测验,它的主要任务就是要对所预测的行为活动作具体的分析,称之为任务分析或工作分析。包括两个步骤: 第一是确定哪些心理特征和行为可能使要预测的活动达到成功; 第二是建立衡量被试是否成功的标准,这个标准我们称之为效标。

二对特定概念下定义 ——如果测验是为了测量某种特殊的心理品质或特点,那么测验编制者就必须给所要测量的心理或行为特质下定义,然后必须发现该特质所包含的维量将通过什么行为表现出来或怎样进行测量。

三确定测验的具体内容 ——如果测验是描述性的显示测验,它的目标分析的主要任务则是确定显示的内容和技能,从中取样。[目标分析包括:(1)工作分析;(2)对特定的概念下定义;(3)确定测验的具体内容。] 第二单元 测题的编写 一、搜集资料(避免直接翻译国外的测验题) 一已出版的标准测验 二理论和专家的经验 三临床观察和记录 二、命题 的一般原则 一内容方面 :(1)题目的内容符合测验的目的;(2)内容的取样要有代表性;(3)题目间的内容相互独立。

二文字方面 :(1)使用当代语言;(2)语句要简明扼要;(3)最好一句话一个概念。(3)排除与答案无关的因素。

三理解方面 :(1)题目要有确切答案;(2)题目的内容不超出受测团体的知识水平和理解能力;(3)题目格式不要被人误解;(4)除创造力测验与人格测验外,不应具有引起争议的可能。

四社会敏感性方面:尽量避开社会敏感性问题,如涉及社会禁忌或个人隐私的题目不应使用。

如必须涉及时,菲力普列举了几条策略供参考: 1、命题时假设被试具有某种行为,使他不得不在确实没有该行为时才否定,可避免否定答案过多的倾向。如:“你平均多久才手淫一次,每月一次?每周一次?每天一次?从不?” 2、命题时假定规范不一致,如“有些医生认为吸烟有害,而另一些医生认为吸烟有益,你认为呢?” 3、提出该行为是常见的,虽然是违规的,如“多数人在看色情电影时有性冲动,你呢?” 三、测题的编制要领(分提供性和选择性两大类题目) 1.选择题:由两部分构成:题干和选项。

选择题注意事项: (1)题干所提的问题必须明确,尽量使用简单而且明晰的词语。

(2)选项切忌冗长 ,要简明扼要。

(3)每题只给一个正确答案,其它属诱答。

(4)各选项长度应相等。

(5)避免题干用词与选项用词一致 。

(6)选项最好用同一形式 2.是非题。

是非题又叫正误题,是指出一个论点要被试判断是否正确,或是从是非两个答案做出选择,因此可以把是非题看作是两个备选答案的选择题 编制是非题应注意: (1)内容应以有意义的概念、事实或基本原则为基础。

(2)每道题只能包含一个概念。

(3)尽量避免否定的叙述,尤其是要避免用双重否定的叙述。

(4)若是表达意见的题目,最好说明意见的来源和根据。

(5)“是”、“非”题目的数目应有适应的比例,基本相等,且要随机排列。

[在编制是非题时,“是”、“非”题大致相等或答“否”题略多,是控制肯定定势的有效方法。] 3.简答题 在客观测验试题中,只有简答题是提供型题目,它要求被试用一个正确的词或句子来完成或填充一个未完成句子的空白,或者是提供一个正确的答案。有时将前者称之为填充题,后者称之为简答题。

编制简答题三原则: (1)宜用问句形式。如果使用未完成的句子,则空格尽量放在最后。

(2)如果是填充形式,空格不宜太多,过多空格会使题意不明确,并且所空出的应该是关键词句。

(3)每题应只有一个正确答案,而且答案要简短而具体。对不完整的答案,应事先规定评分标准。

4.操作题 操作题是介于一般认知结果的纸笔测验和在未来真实情境的实际活动之间的测验,是让被试实际操作,如画图、走迷津、拼配物体等,可作为纸笔测验题的补充。

编制操作测验的四条原则: (1)明确所要测量的目标,并将其操作化; (2)尽量选择真实性较高的项目; (3)指导语要简明扼要,并有具体的要求; (4)制定评分标准,确定计分方法。

第三单元 测验的编排和组织 一、合成测验 一选择与审定试题 1.选择试题形式 选择题目时,需要考虑的几点: (1)测验的目的和材料的性质 (2)接受测验的团体的特点 (3)各种实际因素 2.审定题目 审定题目要注意以下几个问题: (1)题目的范围应与测验计划所列的内容技能双向目表一致; (2)题目的数量要比最后所需数目多一倍至几倍,以备筛选和编制复份; (3)题目的难度必须符合测验目的的需要; (4)题目的说明必须清楚明白。

二测题的编排 测验编排的一般原则: 1、测题的难度排列宜逐步上升。

2、尽可能将同类型的测题组合在一起。

3、注意根据各种类型测量题本身的特点排列题目。

常见的两种排列方式: 1、并列直进式:是将整个测验按试题材料的性质归为若干分测验,在同一分测验的试题则依其难度由易到难排列。如韦克斯勒的成人、儿童和幼儿三个智力量表。2、混合螺旋式:是先将种类试题依难度分成若干不同的层次,再将不同性质的试题予以组合,作交叉式的排列,其难度则渐次升进。如比内--西蒙智力量表。

[测验编排的一般原则应排除()答案混合排列] 二、预测与项目分析 一预测 预测应注意以下几个问题: 1、预测对象应取自将来正式测验准备应用的群体。

2、预测的时限过程与情境应力求与将来正式测验时的情况相近似。

3、预测的时限可稍放宽一些,最好 使每个被试都能将题目做完。

4、在预测过程中,应对被试的反应情形随时加以记录。

二项目分析 对项目的分析包括质的分析和量的分析两个方面。前者是从内容取样的适切性、题目的思想性以及表达是否清楚等方面加以评鉴;后者是对预测结果进行统计分析,确定题目的难度、区分度、备选答案的合适度等。

三、信度和效度考察 一信度 二效度 四、常模制订 测验分数必须与某种参照系统比较,方能显出它所代表的意义。多数心理测验是把个人所得的分数与代表一般人同类行为的分数相比较,以判别其所得分数的高低。此处的“代表一般人同类行为的分数”,即为“常模”。

五、编写指导手册 测验指导手册的内容有: 1.测验的目的和功用。

2.测验编制的理论背景以及测验中的材料是根据什么原则、应用什么方法选择出来的,许多手册还提供选择题目的统计指标。

3.如何实施测验的说明。

4.测验的标准答案和记分标准。

5.常模资料,包括常模表、常模适用的团体及对测验分数如何做解释。

6.测验的基本特征,包括难度、鉴别力、信度、效度和因素分析的资料,以及这些资料取得的条件和情境,包括调查的样本和时间。

第七节 心理测验的使用 第一单元 主试的资格 [主试者的知识结构包括:(1)本行业专业知识;(2)心理学基础知识;(3)心理学专业理论知识;(4)心理测验专业技能] 一、知识结构 二、专业理论知识和专业技能 一专业理论知识 :[(1)了解测验的特点和性质;(2)熟悉它的作用的局限性;(3)了解测验的基本特征;(4)熟悉测验标准化的必要。] 二专业技能 :具备专业技能与经验;经过专业训练;熟悉有关测验的(1)内容;(2)适用范围;(3)测验程序;(4)记分方法等。

三、职业道德(主试者) (一)测验的保密 (二)测验中个人隐私的保护 (三)测验的控制使用 第二单元 测验的选择 一、所选测验必须适合测量的目的 二、所选测验必须符合心理测量学的要求 第三单元 测验前的准备及注意事项 一、测验前的准备工作 一预告测验 二准备测验材料 三熟悉测验指导语 四熟悉测验的具体程序 二、测验中主试的职责 1、应按照指导语的要求实施测验; 2、测验前不讲太多无关紧要的话; 3、对于被试的反应,不带任何暗示; 4、对特殊问题要有心理准备,应沉着冷静、机智、灵活地应付。

三、建立协调关系 协调关系(rapport)是一个专业术语,在临床心理咨询、心理治疗中经常用到。

第四单元 测验实施的程序及要素 一、指导语 (一)对被试的指导语 1、如何选择反应形式(划√、口答、书写); 2、如何记录这些反应(答卷纸、录音、录象); 3、时间限制; 4、如果不能确定正确反应时该如何操作(是否允许猜测等); 5、例题(当题比较生疏时,给出附有正确答案的例题十分必要); 6、有时告知被试测验目的。

(二)对主试指导语 二、时限 大多数典型行为的测验不受时限时间的限制。

[一般说来,心理测验除(典型行为测验)以外,都有时限。] 三、测验的环境条件 首先必须完全遵从测验手册的要求; 其次是记录下任何意外的测验环境因素; 第三,在解释测验结果时也必须考虑这一因素。

第五单元 被试误差及控制方法 一、应试技巧与练习效应 (一)应试技巧 “测验油子”:①能觉察也正确答案与错误答案的细小差别;②懂得合理分配测验时间;③常常是各种题型都见过,多数情况下会比他们能力相当但缺乏测验经验或技巧的被试者获得更好的分数;(4)熟悉测验的程序。

(二)练习效应 1、教育背景较差、经验较少或智力较高者,其受练习效应的影响较大; 2、着重速度的测验,练习效应为明显; 3、重复实施的测验,受练习效应影响的程度要大于复本测验; 4、两次测验之间的时距越大,练习效应越小,相距三个月以上练习效应可忽略不计; 5、一般的平均练习效应,约在1/5个标准差以下,并且仅限于第一次与第二次重测,第三次以后练习效应增加不明显。

二、动机与焦虑因素 (一)应试动机 在测量成就、智力和能力倾向等变量时,只有被试动机强烈,才可能尽力回答,取得好成绩。

在测量态度、兴趣及人格等典型行为时,若给人以好的印象,会使测验分数降低;若给人以差的印象,则会使测验分数升高。

(二)测验焦虑 一般说来,适度的焦虑会使人的兴奋性提高,注意力增强,提高反应速度,从而提高智力测验、成就测验和能力倾向测验的成绩。

测验焦虑的影响因素: 1、能力高的人,测验焦虑一般较低,而对自己能力没有把握的人,测验焦虑较高; 2、抱负水平过高,求胜心切的人,测验焦虑较高; 3、具有某种人格特点,如缺乏自信、患得患失、情绪不稳定的人易产生测验焦虑; 4、测验成绩与被试的关系重大,或被试受到的压力过大,容易使其产生测验焦虑; 5、经常接受测验的人焦虑较低,而对测验程序不熟悉,尤其是测验中采取了新的题目形式或实施程序会增加测验焦虑。

三、反应定势 反应定势亦称反应风格,是独立于测验内容的反应倾向,即由于每个人回答问题的习惯不同,而使能力相同的被试得到不同的测验分数。

(一)求“快”与求“精确”的反应定势 [除非‘反应速度“本身即为重要的研究目标,否则应让被试者充分的时间反应,同时应该注明每题的答题时间,以减少求“快”与求“精确”的定势影响。] (二)喜好正面答题的反应定势(肯定定势) [编制是非题时,“是”“否”大致相等或答“否”题略多,是控制肯定定势的有效方法。] (三)喜好特殊位置的反应定势 [在测验编制过程中,正确而答案的位置在整个测验中出现在各位置的概率相等,就可以控制这种位置定势。] (四)喜好较长选项的反应定势 [有些被试认为选项长、内容多,一般是正确答案,在无法确定何者正确时,有偏好长选项的反应定势。在编制测验时,只要我们尽量使选项的长度一致,就不难避免这类问题。] (五)猜测的反应定势 第六单元 测验的评分 一、原始分数的获得 客观评分的三点要求:(准确地记分合分) 1、及时而清楚地记录反应情况; 2、要有一张标准答案或正确反应的表格,即记分键。

3、将被试的反应和记分键比较。

二、原始分数的导出 只有根据常模样本的某些特征,找出被试者的原始分数对应的导出分数,就可以对测验分数作出有意义的解释。

第七单元 测验结果的报告 一、测验分数的综合分析 (一)应根据心理测验的特点进行分析。如在韦氏智力测验中,通常是在测得的IQ加减5的方法判断。

(二)不能把分数绝对化,更不能仅根据一次的结果轻易下结论,要做到: 1、必须将个人在测验前的经历考虑在内; 2、测验情境也是一个需要考虑的因素。

3、有常模资料是不够的,还必须有测验的信度和效度资料。一定要依从最相近的团体、最匹配的情境中获的资料。

4、 对来自不同测验的分数不能直接加以比较。

二、报告分数的具体建议 不应把测验分数直接告诉被试本人或家长、学校班主任等有关人员,应告诉的是测验分数的解释和建议。

(1)避免使用专业术语。

(2)要保证当事人知道这个测验测量或预测什么。

(3)要使当事人知道他是和什么团体在时行比较。

(4)要使当事人知道如何运用他的分数。

(5)要考虑测验分数将给当事人带来什么心理影响。

(6)要让当事人积极参与测验分数的解释。[为了使不同测验分数可以相互比较,在经典测验理论的指导下,测验等值的计算方法主要有两大类:一类是等百分位等值法;另一类叫线性等值法。线性等值法计算就是用相同的(标准分数)作等值基础的。应用公式:1、提高信度一个包括40个题目的测验信度为0.80,欲将信度提高到0.90,通过斯皮尔曼一布朗公式的导出公式计算出至少应增加()个题数 0.9(1-0.8)÷0.8(1-0.9)=2.252.25×40=90 90-40=502、求难度数学测验的第7题满分为15分,该题考生的平均得分为9.6分,则该题的难度为()。9.6÷15=0.643、求总方差值效度系数的实际意义常常以决定系数来表示,如测验的效度是0.80,则测验的总方差中有()的方差是测验分数的方差。第一章 心理与教育测量概论* 教学要点:* 通过本章的学习,了解测量的基本性质及其要素,测量量表的四种水平,心理测量的本质、基本条件及功能,对心理测量有一个概括化的了解。* 第一节 一般测量概述* 第二节 心理与教育测量的性质* 第三节 心理与教育测量的种类及其功能* 第四节 心理与教育测量工作者的素质要求及道德准则第一节 一般测量概述 心理与教育测量在心理科学、教育科学的基础学科和应用学科之间起着一种中介作用。* 一、测量及其种类* 二、测量的基本要素* 三、测量的量表第一节 一般测量概述* 一、测量及其种类* 1 .测量(Measurement) 的定义 * 测量就是依据一定的法则 使用量具 对事物的特征 进行定量描述 的过程。

第一节 一般测量概述* 3.测量的分类 (根据测量对象的性质和特点) * 物理测量:长度、重量、面积、速度等。* 生理测量:化学成分、生理机能等。* 社会测量:人口普查、经济统计、民意调查等。* 心理测量:智力、人格、成就、职业兴趣、态度* 二、测量的基本要素* 1. 参照点(Reference Point)* 采用相对参照点为测量起点的测量结果只能进行加减运算,而不能进行乘除运算。比如,智商 * 2. 单位(Unit )三、测量量表第二节 心理与教育测量的性质* 一、心理与教育测量的定义* 依据一定的心理学和教育学理论 ,使用测验 对人的心理特质和教育成就 进行定量描述 的过程。

* 回顾:测量的定义心理与教育测量的特点: 1。所依据的很大程度上只是一种理论* 典型例子——智力理论:* (1)抽象的思维能力。斯皮尔曼认为,所谓智力是认识事物关系的能力。* (2)学习能力。如盖茨认为,所谓智力,是关于学习能力的合成力。* (3)对环境的适应能力。如斯滕认为,智力是对生活的新课题和条件的一般性心理适应力。* (4)作为媒介变量。如弗里曼认为,智力是智力测验所测定的东西。* 智力结构的构成成分:* (1)斯皮尔曼强调智力二因素论,一般因素和特殊因素 比内量表和韦氏量表都是按照二因素论编制,主要用来测G因素。* (2)桑代克强调多因素论,社会智力、具体智力、抽象智力* (3)瑟斯顿强调群因素理论* (4)卡特尔又强调流体智力和晶体智力* (5)加德纳则强调多元智力理论* 2。对象是人的心理特质和教育成就——间接测量* 3。量具是由有关领域的专家编制* 4。精确度远不及物理测量的高

心理测量教育

为了论述的方便,先从物理测量谈起。一般地说,在长度、时间、重量之类的物理测量中,对测量结果的描述几乎是没有争议的。这是因为它们是直接测量,它们的操作方法或规则(法则)已经被人们所接受。而作为大脑的产物——心理现象来说,就不能直接测量,但是人的心理必定会在人的具体活动中和行为中有所表现,倘若我们对智力或人格特征这些测量对象有着明确的操作定义,便可根据它寻找一组作业或刺激(实际上就是一组测题或问卷)用以引起被试的行为,而从中推论出其智慧能力或个性特征。譬如,要测量智力,便得首先弄清“智力是什么”、“哪些活动是智力活动”,而后才能定出一组作业,让被试对此作出反应,借以得到他完成这组作业的成绩,而此成绩就是他的智慧效率。然后我们就由直接测得的智慧效率推测他的智力。由此可见,心理测量是间接的测量。

教育测量:就是对学生的学习能力、学业成绩、兴趣爱好、思想品德以及教育措施上许多问题的数量化测定。它主要用于对学生精神特性的测定。教育测量具有以下特点: 1、教育测量一般是间接测量 2、教育测量的度量单位是相对的 3、教育测量是为实现教育目的服务的 4、教育测量的对象是复杂的

心理测量教育

本书广泛地吸取了中外心理测量方面专著的精华以及心理测量研究的最新成果,把握了心理测量领域的理论与实践背景,同时也突出了中国特色。本书不仅介绍了经典测量的类型及其编制程序与技术,同时详尽地介绍了一些测量领域的新发现、新趋势、对现代测量理论、项目反应理论、概化理论以及验证性因素分要等作了详细的介绍。 本书的内容编排匠心独具,从心理测量的历史回顾、心理测量的一般介绍入手,帮助读者获得对心理测量的感性认识,然后到测量理论,深化对技术的理解与认识,最后是掌握测验编制与开发技术以及测验的正确使用,从而完成对心理测量体系的理解与掌握。

下载的回帖支持下吧,整理上传很辛苦的说~~~

下载地址:(右击选择“使用迅雷下载”,右击没有这一选项的,就右键“复制快捷方式”到迅雷“新建”里)

目录

第一篇 绪论

 第一章 心理测量和测验的历史回顾

 第二章 心理测量和测验的一般介绍

第二篇 测验的种类

 第三章 智力测验

 第四章 人格测验

第三篇 测量的理论

 第五章 信度

 第六章 效度

 第七章 项目分析

 第八章 量表与常模

第四篇 测验的编制和使用

 第九章 测验的编制

 第十章 测验的使用

友情链接:

标签:心理与教育测量答案 心理与教育测量pdf 心理测量教育