诊断性研究证据的分析与评价

诊断性研究证据的分析与评价 井冈山大学循证医学研究中心黄玉珊

按研究问题的不同将证据分类 • 病因性临床研究证据 • 诊断性临床研究证据 • 治疗性临床研究证据 • 预后性临床研究证据

基本概念 对疾病进行诊断的试验方法 • 诊断性试验：包括：①病史和体检所获得的临床资料；②各种实验室检查；③影像学检查等；④各种器械诊断等⑤各种诊断标准等。 • 循证诊断：指临床上选用何种诊断试验，采用何种诊断标准用于您所经治的患者，都必须建立在当前最佳研究结果所获得的证据和最佳临床专业知识基础上，使您经治的患者获得最大的利益。

诊断试验的研究与评价的方法学上多数还停留在旧的方法诊断试验的研究与评价的方法学上多数还停留在旧的方法一个新的诊断试验建立后，主要是“正常人”中建立该试验的正常参考值，然后在一定数量的典型病例中考核其临床诊断价值。常过高估计诊断试验的敏感度与特异度 • 癌胚抗原（CEA）用于结肠癌的诊断 • 中性粒细胞的四唑氮蓝试验（NBT）用于鉴别细菌性败血症和非感染性疾病、病毒性疾病

2、循证医学实践的五步曲 • 人群/病人 • 干预措施 1、确定拟弄清的问题 • 比较 • 结局指标 • 检索策略 • 电子检索 • 手工检索 2、全面查找证据 • 真实性 • 重要性 • 适应性 3、严格评价证据 • 诊断阈值以下：否定该病的诊断 • 治疗阈值以上：肯定该病的诊断 4、做出临床决策 • 诊断与治疗阈值之间：建议进一步检查 • Evidence is never enough 5、后效评价、与时俱进 • 不断更新 • 终身教育

P I C 一、提出问题例：一位十二指肠溃疡的病人，胃镜检查已证实溃疡并发现幽门螺杆菌（Hp）阳性，在给予一周三联的抗Hp治疗后，病人又来求诊，并问医师Hp是否已经根除。考虑到病人并不一定需要再做胃镜了解Hp根除情况，一位医师提出了做13C呼气试验，另一位医师了解到在粪便中检查Hp抗原更方便而且价格便宜。诊断Hp感染对十二指肠溃疡的患者，用13C呼气试验和粪便中Hp抗原的检测来诊断Hp感染哪一个更有效？

二、用适当的主题词进行计算机资料的检索 • “Hp感染”、“诊断试验”和“人类” • “13C呼气试验”或“粪便中Hp抗原的检测”

评价诊断性证据真实性的基本原则 1、是否将诊断试验与金标准进行独立、盲法比较 2、研究对象是否包括了各种类型病例 3、诊断试验的结果是否影响金标准的应用 4、诊断试验的真实性是否在另一组独立的研究对象中得到证实

“金标准” 定义: 是指当前为临床医学界公认的可以明确肯定或排除某种疾病最准确、最可靠的诊断方法。常用的金标准有：病理学诊断（活组织检查和尸体解剖）、外科手术发现、特殊影像诊断或公认的综合临床诊断标准 • 肿瘤诊断应选用病理诊断 • 冠心病应选用冠状动脉造影显示主干狭窄程度＞75％ • 胆石症应以手术发现为标准； • 铁缺乏症应以骨髓铁染色可染铁消失为标准等

金标准选择缺陷实例 例1 用PCR技术检测沙眼衣原体主要外膜蛋白基因序列 —摘自《上海医学检验杂志》，1995年第l0卷82页) 该文以免疫荧光技术为金标准，评价PCR技术检测患者宫颈管细胞碎片中沙眼衣原体的敏感性。试验对象为妇产科门诊就诊、患有不同程度的宫颈感染或不孕症患者共77例。结果：免疫荧光技术阳性7例，且这7例阳性标本的PCR检测结果亦为阳性，据此认为PCR方法敏感性为100％。背景诊断衣原体的“金标准” 是从细胞培养中分离衣原体。免疫荧光技术为新方法，特异性好，但敏感性较细胞培养技术差评析以不可靠的诊断方法作为金标准

金标准选择缺陷实例 例2 糖尿病患者尿液转铁蛋白检测的临床意义 —《中华内科杂志》，l997年第36卷第3期165页) 该研究对非胰岛素依赖型糖尿病患者进行了尿液转铁蛋白测定，并与其他诊断糖尿病肾病的其他早期诊断指标—尿微球蛋白、β2微球蛋白、N-乙酰-P-D-氨基葡糖苷酶等进行比较，以期探讨尿液微量尿液转铁蛋白测定在糖尿病肾病早期诊断中的临床意义。背景诊断糖尿病肾病的金标准为肾活检尿微球蛋白、β2微球蛋白、N-乙酰-P-D-氨基葡糖苷酶等早期诊断指标不能反映糖尿病肾病的肾脏损伤情况。评析缺乏金标准

“独立” 指所有研究对象都要同步进行诊断试验和标准诊断方法的测定，不能根据诊断试验的结果有选择地采用标准诊断方法测定。 “盲法” 指诊断试验与标准诊断方法结果的解释相互不受影响

研究对象是否包括了各种类型病例 诊断试验评价中，研究对象应能代表试验检查对象的总体。病例组: 应该包括所研究疾病的各种临床类型如轻、中、重型；早、中、晚期；典型与非典型；有和无并发症者；病程长与病程短，经治疗和未经治疗的患者；对照组: 应选择确实无该病的其他病例，且应包括相当比例的临床上容易与所研究的疾病相混淆而需要鉴别的其他疾病患者选择研究对象时应充分注意病例组内各临床类型间的构成比例

3、诊断试验的结果是否影响金标准的应用 *不论诊断试验的结果如何，是否每个被检测者都做了参照试验? 例如，评价心电图运动试验诊断冠心病的价值，采用冠状动脉造影主干狭窄≧75％作为诊断冠心病的“金”标准，考虑到冠状动脉造影检查的创伤性和患者的依从性，凡心电图运动试验阳性，都被送去做冠状动脉造影，而心电图运动试验阴性者只抽出l/10病例去做冠状动脉造影。结果夸大了心电固运动试验的敏感度，造成偏倚

敏感度（sensitivity） 指由金标准确诊为患某病的病例组中经待评价的诊断试验判为阳性人数的比例。敏感度=[a/(a+c)] 漏诊率（假阴性率）指用金标准确诊为患某病的病例组中，被待评价的诊断试验判为阴性人数的病例。敏感度=1-漏诊率

特异度(specificity) 指由金标准确诊为未患某病的对照组中，被待评价的诊断试验判断为阴性结果人数的比例特异度=[d/(b+d)] 误诊率（假阳性率）指用金标准确诊为未患某病的对照组中，被待评价的诊断试验判断为阳性结果人数的比例特异度=1- 误诊率

例如：对儿童语言发育延缓的筛选诊断项目评价 研究者从不同的人群中随机抽样选出550例儿童对其语言能力进行筛查评价。“金”标准是一个结果严谨的问卷调查，50例筛查结果阳性儿童使用了此问卷调查，另外从500例筛检阴性者中，抽出50例儿童使用此问卷调查，结果如下：敏感度=[a/(a+c)]=35÷39=90% 特异度=[d/(b+d)]=46÷61=75% 结论：该筛查方法敏感度高，值得推广。

研究者从不同的人群中随机抽样选出550例儿童对其语言能力进行筛查评价。“金”标准是一个结果严谨的问卷调查，50例筛查结果阳性儿童使用了此问卷调查，另外对500例筛检阴性者，亦使用此问卷调查，结果如下：敏感度=[a/(a+c)]=35÷75=46% 特异度=[d/(b+d)]=460÷475=96.8%

诊断试验精确性评价 诊断试验的真实性是否在另一组独立的研究对象中得到证实诊断试验的精确性，又称可重复性，是指诊断试验在完全相同的条件下，进行重复操作获得相同结果的稳定程度或一致性。测量变异 ①观察者间的变异 ②观察者的自身变异 ③测量仪器的变异 ④试剂的变异 ⑤研究对象的生物学变异

观察符合率（观察一致率） 指两名观察者对同一事物的观察结果一致的百分率，或指同一观察者对同一事物的两次观察结果一致的百分率，前者称观察者间观察符合率，后者称观察者内观察符合率 Kappa值 Kappa值是用来判断观察者间或观察者内的符合程度的指标，是实际符合率与最大可能符合率之比。实际符合率为观察符合率减机遇符合率之差机遇符合率是由机遇所致的符合率最大可能符合率=1-机遇符合率 0.75～1.00：符合很好 0.4～0.74为一般符合 0.01～0.39：缺乏符合

研究结果的重要性 研究证据的临床重要性是指研究结果本身是否具有临床价值。需要回答下述4个问题 ①该诊断试验是否能鉴别具有目标疾病的人群和正常人群? ②该诊断试验结果呈阳性，有目标疾病的概率有多少? ③在疑似具有目标疾病的病例中，该诊断试验能否鉴别有该病或无该病？ ④具有目标疾病的病例应用与不应用该诊断试验其结局有何不同?

该诊断试验是否能鉴别具有目标疾病的人群和正常人群?该诊断试验是否能鉴别具有目标疾病的人群和正常人群? 目标疾病的人群正常人群测定该诊断试验获得均值和范围均值比较有显著性，且两组测定范围没有或很少重叠该诊断试验具有鉴别有目标疾病人群和正常人群的能力

正常参考值的获得 基本要求 • 资料必须来源于健康人 • 注意不同人种、地区、性别、年龄、不同的检测方法和系统误差等对参考值的影响正态分布法（适应于资料呈正态分布) 用均数加减2倍标准差作为正常参考值百分位数法（适应于资料呈偏态分布) 根据需要选取正常参考值范围的上限或下限

该诊断试验结果呈阳性，有目标疾病的概率有多少? 不同血糖水平诊断糖尿病的敏感性和特异性变化

该诊断试验结果呈阳性，有目标疾病的概率有多少? 制定该诊断试验阳性或阴性的临界点以产生漏诊和误诊之和最小时的数据定为临界值受试者工作特征曲线(ROC曲线) 以该实验的真阳性率(敏感度)为纵坐标，以假阳性率(1－特异度)为横坐标，依据连续分组测定的数据，分别计算真阳性率和假阳性率，将给出的各点联成曲线，即为ROC曲线 ROC曲线常被用来决定最佳临界点最接近左上角那一点，可定为最佳临界点，其假阳性和假阴性之和最少

饭后2h血糖值诊断糖尿病的ROC曲线 例：某医院采用饭后2h血糖测定，对确诊糖尿病患者及一般患者进行检查，结果如表15-9，试问正常临界值哪一个最佳？饭后2h血糖测定及其Sen与Spe

比较IgG1指数和IgG指数诊断多发性硬化的结果

制定该诊断试验阳性或阴性的临界点 • 通常是以产生漏诊和误诊之和最小时的数据定为临界值 • 准确性最大， • 但有时缺乏临床实用性。高敏感度的诊断试验适用于： ①疾病严重但可治疗者，疾病的早期诊断将有益于患者，而疾病的漏诊可能造成严重后果； ②为了排除某病的诊断．有几个诊断假设： ③筛检患病率比较低的无症状患者．因此当试验结果呈阴性时高敏感度试验临床价值最大。

高特异度试验适用于 ①凡假阳性结果会导致患者精神和肉体上严重危害时，如诊断癌症，准备实施放化疗； ②要肯定某病的诊断，高特异度试验阳性结果的临床价值最大。

该诊断试验结果呈阳性，有目标疾病的概率有多少? 准确性指待评价的诊断试验检出的真阳性和真阴性例数之和占所检测病例总数(病例组与对照组病例之和)的比例。准确性=(真阳性+真阴性)／(病例组+对照组) =(a+d)／(a+b+c+d) 敏感性、特异性越高，准确性就越高

联合试验方法 平行(并联)试验指几个试验中只耍有一个试验阳性即诊断为阳性，即认为有患病的证据 • 提高了敏感度，减少了漏诊 • 降低了特异度，提高了误诊系列(串联)试验系依次相继的试验，要所有试验皆阳性才能做出诊断。 • 降低了敏感度，提高了漏诊 • 提高了特异度，减少了误诊建议先使用特异度高的试验后做敏感性高的试验

患病率×敏感率 阳性预测值= 患病率×敏感率+（1－患病率）×（1－特异率）该诊断试验结果呈阳性，有目标疾病的概率有多少? 预测值根据诊断试验的结果来估计患病可能性大小的指标。 • 阳性预测值指试验阳性结果中真正患病的比例 =[a／(a+b)]

（1-患病率)×特异率 阴性预测值= （1 －患病率）×特异率+（1－敏感率）×患病率） • 阴性预测值指试验阳性结果中真正未患病的比例 =[d／(c+d)] • 灵敏的试验，阴性预测值越高 • 特异度越高的试验，阳性预测值越高 • 患病率对预测值的影响要比敏感度和特异度更为重要

患病率×敏感率 阳性预测值= 患病率×敏感率+（1－患病率）×（1－特异率）（1-患病率)×特异率阴性预测值= （1 －患病率）×特异率+（1－敏感率）×患病率）例：己知TT3＜1.2nmol/L对甲状腺功能减退症(甲低)的敏感性为80％，特异性为74％。一名患者根据临床表现估计患甲低的可能性为90％，请计算其阳性预测值及其阴性预测值。 =90%×80%÷[90%×80%+（1－90%）×（1－74%）]×100% =97% =（1－90%）×74%÷[（1－90%）×74%+（1－80%）×90%]×100% =29%

患病率×敏感率 阳性预测值= 患病率×敏感率+（1－患病率）×（1－特异率）（1-患病率)×特异率阴性预测值= （1 －患病率）×特异率+（1－敏感率）×患病率）例：己知TT3＜1.2nmol/L对甲状腺功能减退症(甲低)的敏感性为80％，特异性为74％。一名患者根据临床表现估计患甲低的可能性为10％，请计算其阳性预测值及其阴性预测值。 =10%×80%÷[10%×80%+（1－10%）×（1－74%）]×100% =25% =（1－10%）×74%÷[（1－10%）×74%+（1－80%）×10%]×100% =97%

患病率对预测值的影响要比敏感度和特异度更为重要。患病率对预测值的影响要比敏感度和特异度更为重要。 • 阳性预测值随患病率上升而上升 • 阴性预测值随患病率的上升而下降 • 阳性预测值的上升速度快于阴性预测值的下降速度 • 患病率对阳性预测值的影响较明显预测值与患病率的关系实线为阳性预测曲线虚线为阴性预测值曲线

例：在前列腺患病率水平不同的人群中，应用前列腺特异性抗原(PSA)筛查前列腺癌例：在前列腺患病率水平不同的人群中，应用前列腺特异性抗原(PSA)筛查前列腺癌 • 患病率很低时，即使试验特异度很高，仍会出现大量假阳性病例 • 患病率很高时，即使试验敏感度很高，仍会出现大量假阴性病例。

在疑似具有目标疾病的病例中 该诊断试验能否鉴别有该病或无该病？似然比(1ikeclihood ratio, LR) 指试验结果使验前概率提高或降低了多少 • 阳性似然比指病例组阳性概率与对照组阳性概率的比值，即诊断试验正确判断阳性的可能性是错误判断阳性的多少倍。阳性似然比＝敏感性/（1—特异性）＝[(a/a+c)] ÷[(b/(b+d)] 此值越大，该诊断方法越好。

在疑似具有目标疾病的病例中 该诊断试验能否鉴别有该病或无该病？似然比(1ikeclihood ratio, LR) 指试验结果使验前概率提高或降低了多少 • 阴性似然比指病例组阴性概率与对照组阴性概率的比值，即错误判断阴性的可能性是正确判断阴性的可能性的多少倍。阴性似然比＝(1—敏感性)/特异性＝[(c/a+c)] ÷[(d/(b+d)] 此值越小，说明该诊断方法越好。

例：某地对一批运动员进行体检，有胸前区疼痛史者195例，分别作运动心电图者及冠状动脉造影，结果如表15-3。例：某地对一批运动员进行体检，有胸前区疼痛史者195例，分别作运动心电图者及冠状动脉造影，结果如表15-3。（冠状动脉狭窄≧75%者，列为冠心病患者）敏感性=a/(a+c)=55/104=53%；特异性= d/(b+d)=84/91=92%； +预测值=a/(a+b)=55/62=89%；－预测值= d/(c+d)= 84/133=63% +似然比=Sen/(1－Spe)=0.53/(1－0.92)=6.6 －似然比=(1－Sen)/ Spe=(1－0.53)/ 0.92=0.51

如果扩大检查范围，将该地全体运动员都作上述检查，结果如下如果扩大检查范围，将该地全体运动员都作上述检查，结果如下敏感性=a/(a+c)=55/104=53% 特异性= d/(b+d)=84/91=92%；（稳定）（稳定） +预测值=a/(a+b)=55/97=57%；－预测值= d/(c+d)= 478/527=91% ↓36% ↑38% +似然比=Sen/(1－Spe)=0.53/(1－0.92)=6.6 －似然比=(1－Sen)/ Spe=(1－0.53)/ 0.92=0.51 （稳定）（稳定）

稳定的指标：敏感度、特异度、阳性似然比、阴性似然比。稳定的指标：敏感度、特异度、阳性似然比、阴性似然比。不稳定的指标：阳性预测值、阴性预测值。 • 似然比为1，表示验前与验后概率相同，说明没有必要做此试验 • 似然比＞1，表示在做试验后，患该病的可能性增大。 • 似然比越大，患该病的可能性越大 • 似然比小于l，表示患该病的可能性小 • 似然比越小，患该病的可能性越小。

似然比应用图 将直尺的一端放在验前概率，让直尺通过该试验的似然比所在点，直尺另一端所指的就是验后概率，此方法方便易行，有利于临床应用。

①似然比＞10或＜0.1，使验前概率到验后概率发生决定性变化，基本上可确定或排除诊断；①似然比＞10或＜0.1，使验前概率到验后概率发生决定性变化，基本上可确定或排除诊断； ②似然比5～10或0.1-0.2,使验前概率向验后概率发生中等度变化； ③似然比2～5或0.2～0.5,使验前概率向验后概率发生较小程度的变化； ④似然比1～2或0.5～1．使验前概率与验后概率之间基本上不发生变化。

多项试验的综合评价 验后比＝验前比×LR1×LR2 例患者女，45岁，有间歇性胸痛，需要鉴别诊断的疾病有冠心病、食管或上消化道疾病及情绪紧张引起的胸痛等。（45岁女性冠心病的患病率为1％）验前比=验前概率／(1－验前概率)=0.01／(1－0.01)=0.01 如患者诉述的症状系典型心绞痛(其似然比≈100) 验后比=验前比×似然比=0.01×100=1 验后概率=验后比/（验后比+1）=1/(1+1)=50% 该患者又做了心电图运动试验，发现ST段压低2.2mm(似然比为11）验后比=验前比×似然比=1×11＝11 验后概率＝验后比／(验后比+1)＝11／(1+11)＝91％该患者又做了血CPK的测定，CPK=80单位(似然比为7.75) 验后比＝验前比×似然比＝11× 7.75＝85.2% 验后概率=验后比／(验后比+1)=85.25／(1+85.25)=98.8%

具有目标疾病的研究对象 采用该诊断试验不采用该诊断试验长期随访观察预后的改变诊断试验成本－效益的分析

适应性 是否可以将诊断试验的研究结果用于您自己的患者 1．您所在的医疗环境是否有条件开展该项诊断试验并应用于您所经治的患者? 2．对您所经治的患者验前概率要进行合理的估算。 3．得到的验后概率是否有助于您的患者的处理?

诊断性研究证据的分析与评价

诊断性研究证据的分析与评价

Presentation Transcript