·考试研究·
现代医学考试计算机病例模拟应用研究
孙宝志,左天明,于晓松
(中国医科大学,沈阳 110001)
对医师的临床能力评价是随着医学科学和医学教育发展而不断完善的。以多项选择题为主的书面考试主要测量知识掌握和理解程度等认知领域方面的内容,不能充分满足对临床能力评价的需要,因此使用多种考试方法,对医师临床能力进行综合评价已经成为现代医学考试的主要形式。这些考试方法包括:口试、病人处理问题、病案分析、标准化病人考试、客观结构化临床考试以及较为新近开展的计算机病例模拟(computer-based case simulations, CCS)考试。
CCS 是通过计算机软件实现的,是动态的、人机交互式的对患者疾病状况的模拟。病例一开始就提供病情简介和来诊时的病例信息,然后考生以文本方式输入医嘱,决定进行何种诊断学检查、采用何种治疗措施以及如何监控患者的病情。模拟患者的病情随着模拟时间,根据本身的病情和考生的干预不断展开,直至病例结束。目前的考试系统可以识别约1 500 条诊断学检查和治疗方法的信息。模拟病例考试的评分使用考试系统中的评分程序完成,评分方案由编写病例的医疗专家组拟定,评分程序的算法是对评分方案的编码化,代表了这些专家们的评分策略。计算机病例模拟考试在医学考试中的研究和运用开始于20 世纪70 年代,美国国家医师资格考试委员会(NBME)着手进行了该领域的研究和工作,经过不断地发展和完善,于1999 年5 月应用于美国医师执照考试第3 部分中。NBME 经过研究认为,这种形式的考试比其他现有的考试形式能提供对临床诊疗决策能力更真实和更全面的评价。我校在2001年开始实施计算机病例模拟考试系统的建设与统计分析项目,由医学教育研究中心承担,借鉴美国经验,用大约1 年的时间初步建立了计算机病例模拟考试系统。本文主要介绍计算机病例模拟考试近些年来在中国医科大学的应用情况。
1 对象和方法
1.1 测试对象
本研究以中国医科大学2002 届?2006 届临床医学专业1616 名本科生为测试对象,其中2002 届考生258 名,2003 届考生270 名,2004 届考生313 名,2005 届考生352 名,2006 届考生423 名。
1.2 研究方法
中国医科大学从2002 年开始在毕业综合考试中增加了CCS 考试,作为客观结构化临床考试(OSCE)的考站。在2002 年?2006 年的毕业综合考试中,除了以往的毕业实习后综合理论考试和标准化病人(SP)考试之外,又增加了计算机病例模拟考试这项新的内容,作为对纸笔理论考试和标准化病人考试的补充,旨在考查考生在计算机模拟的临床环境中的临床诊疗思维和制订医疗决策的能力。数据分析使用统计学软件包SPSS 12.0 进行。
2 结果
2.1 CCS 与其他考试成绩的相关分析
我校的毕业综合考试成绩包括毕业综合理论考试成绩和OSCE 成绩两部分。其中OSCE 自2002年增加CCS 考站以来,由SP 考站、非SP 考站和CCS 考站三个部分的考试成绩组成。
使用Pearson 相关对2002 年?2006 年各年的CCS 成绩与相应各年份的标准化病人站考试、非标准化病人站考试和毕业综合理论考试成绩进行相关分析( 结果见表1)。
| 年份 |
CCS |
SP考站 |
非SP考站 |
毕业综合理论 |
| 2002年 |
CCS |
0.134* |
0.149* |
0.151** |
| 2003年 |
CCS |
0.268** |
0.215** |
0.135* |
| 2004年 |
CCS |
0.175** |
0.232** |
0.205** |
| 2005年 |
CCS |
0.238** |
— |
0.345** |
| 2006年 |
CCS |
0.229** |
0.233** |
0.158** |
注:标有“*”项表示具有统计学意义(P<0.05);标有“**”项表示具有高度统计学意义(P<0.01);标有“—”项表示2005年没有设置非SP考站 |
2.2 2002 年?2006 年CCS 考试内容和情况
CCS 在使用过程中,我们不断地增加CCS 的病例数目,因此从2002 年?2006 年的CCS 病例数目各不相同。2004 年, 中国医科大学组织临床医学专家编制了80 个计算机病例模拟,因此在2005 年我们暂时取消了非SP 考站,增加了CCS 成绩在OSCE中的比例(从过去的12.5% 提高到25.0%),共测试了36 个CCS 病例。2006 年考试中,我们继续使用2005 年测试过的病例,从中选择难度较低、区分度较高的4 个病例进行测试,恢复使用非标准化病人考站,但仍然保持CCS 成绩在OSCE 中的较高比例(15.0%)( 各年的CCS 考试情况见表2)。
表2 中国医科大学2002 年?2006 年CCS 考试内容和情况
| 年份 |
CCS考站数目 |
CCS占OSCE百分比
(每个CCS病例分数) |
CCS病例序号
和考试内容 |
x-
±s |
难度 |
区分度 |
| 2002 |
1 |
12.5 (12.5) |
1 前置胎盘 |
6.56±1.37 |
0.52 |
0.42 |
| 2003 |
1 |
12.5 (12.5) |
1 前置胎盘 |
6.30±1.75 |
0.50 |
0.49 |
| |
|
|
2 心肌梗死 |
6.10±1.38 |
0.59 |
0.55 |
| 2004 |
1 |
12.5 (12.5) |
1 心肌梗死 |
4.76±1.62 |
0.38 |
0.55 |
| |
|
|
2 哮喘 |
5.42±1.49 |
0.43 |
0.53 |
| |
|
|
3 肺结核 |
5.41±1.12 |
0.43 |
0.30 |
| 2005 |
4 |
25.0 (6.3) |
1 心肌梗死 |
3.72±0.88 |
0.59 |
0.41 |
| |
|
|
2 哮喘 |
3.24±0.72 |
0.52 |
0.38 |
| |
|
|
3 慢性阻塞性肺疾病 |
3.17±0.58 |
0.51 |
0.45 |
| |
|
|
4 恶性胸腔积液 |
2.74±0.82 |
0.44 |
0.62 |
| |
|
|
5 肺结核 |
2.20±0.33 |
0.35 |
-0.29 |
| |
|
|
6 心肌梗死 |
3.47±0.83 |
0.56 |
0.43 |
| |
|
|
7 心瓣膜病 |
2.62±0.62 |
0.42 |
0.23 |
| |
|
|
8 高血压病 |
2.88±1.02 |
0.46 |
0.65 |
| |
|
|
9 心绞痛 |
2.92±1.04 |
0.47 |
0.51 |
| |
|
|
10 卵巢癌 |
2.60±0.71 |
0.42 |
0.47 |
| |
|
|
11 卵巢肿瘤蒂扭转 |
3.81±0.64 |
0.61 |
0.66 |
| |
|
|
12 子宫肌瘤 |
3.05±0.63 |
0.49 |
0.40 |
| |
|
|
13 葡萄胎 |
2.61±0.84 |
0.42 |
0.49 |
| |
|
|
14 肾炎 |
2.22±0.70 |
0.35 |
0.19 |
| |
|
|
15 肾病综合征 |
2.02±0.68 |
0.32 |
0.51 |
| |
|
|
16 化脓性脑膜炎 |
3.20±0.67 |
0.51 |
0.24 |
| |
|
|
17 婴儿腹泻 |
2.47±0.77 |
0.40 |
0.52 |
| |
|
|
18 室上性心动过速 |
2.47±0.66 |
0.39 |
0.52 |
| |
|
|
19 高血压病 |
2.51±0.66 |
0.40 |
0.45 |
| |
|
|
20 病态窦房结综合征 |
2.19±0.69 |
0.30 |
0.01 |
| |
|
|
21 肝性脑病 |
1.90±0.59 |
0.30 |
0.01 |
| |
|
|
22 肝硬化 |
2.88±0.65 |
0.46 |
0.36 |
| |
|
|
23 胰腺炎 |
2.86±0.86 |
0.46 |
0.36 |
| |
|
|
24 上消化道出血 |
2.30±0.74 |
0.37 |
0.49 |
| |
|
|
25 糖尿病 |
2.80±0.65 |
0.55 |
0.29 |
| |
|
|
26 甲状腺功能亢进 |
2.44±0.86 |
0.39 |
0.54 |
| |
|
|
27 开放性颅外伤 |
3.57±1.16 |
0.57 |
0.39 |
| |
|
|
28 急性硬脑膜外伤 |
3.45±0.95 |
0.55 |
0.29 |
| |
|
|
29 新生儿呼吸窘迫综合征 |
2.02±0.57 |
0.32 |
0.22 |
| |
|
|
30 新生儿ABO溶血 |
2.67±0.82 |
0.43 |
0.31 |
| |
|
|
31 前列腺增生 |
2.43±0.98 |
0.39 |
0.35 |
| |
|
|
32 肾盂肿瘤 |
2.44±0.56 |
0.39 |
0.19 |
| |
|
|
33 妊娠高血压疾病 |
2.01±0.49 |
0.32 |
-0.03 |
| |
|
|
34 正常分娩 |
1.73±0.43 |
0.28 |
0.48 |
| |
|
|
35 法洛四联症 |
1.06±0.64 |
0.17 |
0.42 |
| |
|
|
36 甲状腺功能减低 |
3.16±0.70 |
0.51 |
0.51 |
| 2006 |
2 |
15.0 (7.5) |
1 心肌梗死 |
4.58±0.99 |
0.61 |
0.58 |
| |
|
|
2 高血压病 |
3.20±0.94 |
0.43 |
0.41 |
| |
|
|
3 卵巢肿瘤蒂扭转 |
4.36±0.84 |
0.67 |
0.28 |
|
|
|
4 开放性颅外伤 |
5.04±1.12 |
0.58 |
0.47 |
经过2005 年的实际测试后,我们从36 个CCS中选出质量较高的4 个病例组成2006 年的OSCE 的考试内容。2006 年,我们对各病例的得分项目进行了进一步的细致分析,首先对各病例的各部分成绩组成比例进行统一,使病史与体格检查部分占病例成绩的10.0%;辅助检查部分占35.0%;治疗监护部分占35.0%;诊断与鉴别诊断部分占20.0%。然后,对病例各部分得分和病例总分进行了方差分析( 结果见表3)。可以看出,4 个病例成绩的各组成成分,包括病史检体、辅助检查、治疗监护和诊断与鉴别诊断各项目均有统计学差异,总分也同样有统计学差异。在方差分析之后采用LSD-t 检验进行多重比较检验,结果发现,CCS 总分各病例两两之间均有统计学差异,病例的各部分得分也表现出各病例之间两两不全相同。
表3 中国医科大学2006 年CCS 各部分得分和病例总分方差分析
| |
开放性颅外伤 |
心肌梗死 |
卵巢肿瘤蒂扭转 |
高血压病 |
| 病史检体* |
0.70±0.18 |
0.71±0.16 |
0.74±0.10 |
0.74±0.09 |
| 辅助检查** |
1.90±0.51 |
1.86±0.58 |
1.15±0.53 |
0.98±0.42 |
| 治疗监护** |
1.55±0.78 |
1.36±0.58 |
1.48±0.51 |
0.79±0.79 |
| 诊断与鉴别诊断** |
0.89±0.24 |
0.65±0.45 |
0.99±0.34 |
0.70±0.32 |
| 总分** |
5.04±1.12 |
4.58±0.99 |
4.36±0.84 |
3.20±0.94 |
注:标有“*”项表示P<0.05;标有“**”项表示P<0.01 |
由于心肌梗死和高血压病例在同一台计算机上展示,两者随机抽取一个病例,为互斥关系,因此不能计算两者的相关;同样,开放性颅外伤和卵巢肿瘤蒂扭转病例也在同一台计算机上进行,也不能计算两者的相关。可以看出,高血压病例与其他病例相关程度非常低,而且没有统计学意义;心肌梗死病例与其他病例呈较低程度的相关,相关有显著统计学意义(2006 年CCS 成绩的相关分析结果见表4)。
表4 中国医科大学2006 年CCS 各病例成绩的相关分析
| |
开放性颅外伤 |
心肌梗死 |
卵巢肿瘤蒂扭转 |
高血压病 |
| 开放性颅外伤 |
— |
0.327** |
— |
0.184 |
| 心肌梗死 |
0.327** |
— |
0.279** |
— |
| 卵巢肿瘤蒂扭转 |
— |
0.279** |
— |
0.071 |
| 高血压病 |
0.184 |
— |
0.071 |
— |
注:标有“*”项表示P<0.05;标有“**”项表示P<0.01 |
3 讨论
考试是教学过程的重要环节,主要目的是在重 要的行为领域内获得信息,以便对受试者的素质和能 力作出判断。在医学教育领域,能力的测试显得更为 重要,特别是临床解决问题的能力更是如此。我校 毕业综合考试经过多年的不断改革和实践,使用多 种评价能力的方法:多选题测试具有客观性,适于大 范围应用,但对测量较高级的临床能力有一定限制; 标准化病人站和非标准化病人站考试两者结合,能够 较好地评价受试者问诊、体检技能和对常用实验室检 查的解释能力及一部分临床操作能力,但是这些考试 方法都没有从根本上解决对临床诊疗思维和制订医 疗决策能力的评价。使用计算机病例模拟考试可以客 观地、逼真地模拟临床环境,实现考生与模拟患者进 行交互地诊断、治疗和监护的过程,具有较高的表面 效度和内容效度,从而可以更好地对考生的临床诊疗 思维和制订医疗决策的能力进行评价。
CCS 成绩与其他几种形式的考试存在着较弱的、 但有统计学显著意义的相关,这与一些学者报道的计 算机病例考试和其他的传统方式的考试存在中等到 较弱程度的相关结论相一致。这说明几种不同形式的 考试能够测量考生临床能力的不同方面:毕业综合理 论考试侧重于在认知领域对考生的回忆、解释和问题 解决等能力的综合评价;其他的考试属于行为领域的 测验,从考试的内容和考试设计来看,其中SP 考站 主要考查考生搜集病史、体格检查、与患者交流和 处理医患关系等临床能力;非SP 考站主要考查学生 结合临床病例正确地选用实验室检查和解释检查结 果以及一些临床实际操作能力。CCS 具有很高的表 面效度,因为它提供了一个对诊疗环境比较真实的 模拟,要求学生能够针对模拟患者疾病的具体情况, 进行重点病史采集、体格检查和必要的实验室检查, 作出正确诊断;实施必要的措施、药物治疗及其他, 尤其侧重于评价考生解决临床问题(包括诊断、治疗 和监护)的能力。尽管CCS 和其他现有的考试形式 的相关性较弱,但是如果CCS 与其他某种现有形式 的考试存在高度的相关性,而且与这种考试测量同样 的临床能力,那么采用这种效率相对较低(与客观多 选题相比)的考试形式是不值得的。
CCS 是一种与其他现有的考试方法相比更真实、 更整合地评价患者管理能力的考试方法。CCS 允许 对管理患者的诊疗思维过程进行评价。这些过程是在 逼真的环境中记录下来的,没有人为的暗示或者把任 务肢解为各个部分来完成对患者的管理。在其他的临 床考试中,人们常常把患者管理过程分解为单个的任 务:例如,鉴别诊断,实验室检查,诊断或者治疗。 在真实生活中,患者管理的过程要远远超过各组成部 分的简单总和。患者的临床信息以及医生的行为错综 复杂交织在一起,把患者管理过程分割成许多独立 的部分不能进行综合的和精确的评价。更进一步说, 那些把患者管理简化为一系列问题的考试方法必然 会提供人为的暗示,考试中会出现不符合自然规律 的线索,这些线索会影响考生的答题。CCS 的设计 通过只提供那些在真实医疗工作中才会发生的线索, 避免了不自然的暗示。
计算机病例模拟考试难度较高,但是多数的模 拟病例的区分度较好,在0.4 以上。各个病例的难 度通常在0.5 以下,因此这些年来CCS 这部分的考 试成绩较低。可能的原因有:①得分较低的学生在 平时的临床课的学习中,尤其是在教学医院的实习 中没有充分重视对临床技能及临床思维能力的培养, 所以在进行这方面内容的考查时造成成绩的不理想。 ②这种考试形式比较新颖,许多考生第一次接触这种 形式的考试,虽然在考试之前都已经由监考教师对考 试的形式和考查目标进行了介绍,并示范操作,但 是考生仍然有可能对一些计算机模拟操作较为陌生, 从而影响了成绩。
各个病例的成绩两两之间均有统计学差异,经 过分析认为,这是由于病例内容不同,所测量的相应 临床知识和能力的内容也不尽相同所致,说明CCS 考试各病例的成绩依赖于所考查的病例内容;各个病 例内容的相关性不高也支持这一结论,这一发现与国 外其他研究报道的结果相一致。因此,使用CCS 测 量的学生的临床能力必须使用较多的病例考站,或者 作为一个考站与其他各站考试一起进行临床能力综 合考试,这样才能够综合、准确、有效地测试考生的 临床能力。
4 小结
第一,使用计算机病例模拟考试可以客观地、
逼真地模拟临床环境,实现对考生临床诊疗思维和制 订医疗决策能力的评价。
第二,CCS 成绩与其他几种形式的考试存在着 较弱且有统计学显著意义的相关,说明几种不同形式 的考试可以测量考生临床能力的不同方面。CCS 具 有很高的表面效度,侧重于评价考生解决临床问题的 能力。
第三,CCS 是比其他现有的考试方法更真实、 更整合地评价患者管理能力的一种考试方法,允许对 管理患者的诊疗思维过程进行评价。
第四,计算机病例模拟考试难度较高,但是设 计良好的计算机模拟病例区分度较好,如果考站配置 合理,就可以客观有效地对考生的临床能力进行综合评价。
第五,我们的计算机病例模拟考试系统还有许 多需要改进之处,考试的数据还有待于进一步分析研 究,特别是计算机病例模拟考试的信度和效度的分析 问题尚有待解决。对于计算机病例模拟更好地实现 网络化和评分的智能化,还有许多工作要做。总之, 在这个领域,我们还有许多知识需要学习,从而更好 地完成计算机病例模拟考试系统的建设,为评价合格 的医学毕业生服务。
参 考 文 献
1 孙宝志,金魁和.高等医学教育现代考试方法. 沈阳:辽 宁科学技术出版社,1996.
2 Dorothy A. A., Donna B. J., Heather L. H., et al. What Predicts USMLE Step 3 Preformance? Acad. Med. 2005, 80(10 suppl): S21-S24.
3 于晓松,孙宝志,王威,等. 临床综合能力评价的探索与 改革. 中国高等医学教育,2000,(5)∶39?40.
|