居敏昊, 魏超刚, 陆志华, 赵文露, 沈钧康
欧洲泌尿放射学会(European Society of Urogenital Radiology,ESUR)在2012年推出了前列腺影像报告和数据系统(prostate imaging reporting and data system,PI-RADS)[1],并于2014年与美国放射学会(American College of Radiology,ACR)和AdMeTech基金会通过对PI-RADS的补充、完善和删减推出了第二版PI-RADS[2]。鉴于PI-RADS v1与PI-RADS v2的评分细节和流程存有异同,本文作者尝试在1.5T MR设备和非直肠内线圈条件下,探讨两位不同诊断经验医师分别应用不同版本PI-RADS (v1、v2)对前列腺癌进行诊断时的评分结果的一致性。
回顾性分析2009年12月-2015年12月358例行1.5T 前列腺mp-MRI扫描(包括轴面高分辨率T2WI、DWI和DCEI)且经病理证实患者的影像资料,患者在接受MR检查前均未作相关针对前列腺疾病的治疗(如冷冻、手术、放疗和内分泌等)。所有患者均在MR检查后6周内行经直肠超声(transrectal ultrasound,TRUS)引导下前列腺系统穿刺活检。将前列腺由上到下平均分为基底部、体部、尖部3个部分,各部分平均分为左右2区,基底部、体部左右2区再均分为内外2部分,每区各行1针穿刺,并在可疑区域加穿2~4针。由泌尿系统专业病理医师进行读片和病理诊断,记录Gleason评分结果。
采用1.5T Philips intera achieva磁共振成像仪配合心脏阵列线圈,扫描范围包括整个前列腺和精囊。轴面高分辨率T2WI:TR 400 ms,TE 12 ms,层厚3 mm,层间距0 mm,激励次数 6~8,视野200 mm,矩阵256×256。DWI:采用回波平面成像序列(EPI)序列;扫描定位线与轴面T2WI保持一致;b值:0,800 s/mm2;TR 2500 ms,TE 54 ms,层厚3 mm,层间距0 mm,激励次数8,视野200 mm,矩阵128×128;扫描完成后自动生成ADC图。DCEI:采用3D-T1FFE-WATS技术,定位线与轴面T2WI相一致;TR 9.9 ms,TE 5.0 ms,层厚4 mm,层间距0 mm,激励次数1,视野400 mm,矩阵224×256。在扫描开始的同时使用高压注射器经肘静脉团注对比剂Gd-DTPA(欧乃影,GE药业公司),剂量0.2 mmol/kg,流率2.5 mL/s,对比剂注入前、后分别注入21 mL生理盐水。
由两位经过PI-RADS应用培训的不同诊断经验医师(Reader 1:低年资医师,从事前列腺MRI诊断≤1年,前列腺mp-MRI阅片数<300例;Reader 2:高年资医师,从事前列腺MRI诊断10年以上,前列腺mp-MRI阅片数>3000例)按照PI-RADS v1和v2评分标准,独立观察、盲法分析入组病例的mp-MRI图像,分别对外周带病灶、移行带病灶进行评分。为避免干扰,同一医师采用两版PI-RADS 对同一病例进行诊断评分的时间间隔>6周,记录两位医师的PI-RADS v1和v2诊断评分结果。
PI-RADS v1评分标准采用各个序列相加后的方案[1,3,4],轴面高分辨率T2WI、DWI和DCEI 3个序列单独评分后相加得出总评分,范围为3~15分,然后再换算成5分制(3,4=1;5,6=2;7~9=3;10~12=4;13~15=5)。PI-RADS v2评分标准则采取1~5分制[2,4,5],对于前列腺外周带病灶以 DWI 结果为主,当DWI评分为1、2、4、5时,该分即为最终评分。当DWI评为3分时,再结合DCEI的表现,若DCEI为阳性,则最终PI-RADS评分为4分;若DCEI为阴性,则最终评分仍维持3分。移行带病灶以T2WI结果为主,当T2WI评分为1、2、4、5时,该分即为最终评分。当T2WI评为3分时,应结合DWI评分。只有DWI评分为5分时,总分才改为4分,否则总分仍为3分。
采用MedCalc 15.0统计学软件进行加权Kappa检验比较不同版本PI-RADS情况下两位评分者评分结果间的一致性,将二次加权k≤0.20定义为一致性较差,k值介于0.21~0.40为一致性一般水平,k值介于0.41~0.60为一致性中等水平,k值介于0.61~0.80则为一致性良好,k≥0.81定义为一致性很好[6],通过Bland-Altman法画散点图作进一步较为直观的比较[7]。
本研究共纳入符合入组标准的前列腺癌175例,其中外周带癌116例,移行带癌59例,年龄52~92岁,平均(73.45±6.59)岁。
两位不同诊断经验的阅片医师采用PI-RADS v1对前列腺移行带病灶的评分结果间的一致性仅为一般水平(二次加权k值0.337,95%可信区间0.105~0.568),两位医师采用PI-RADS v2对移行带病灶的评分结果间的一致性处于中等水平(二次加权k值0.498,95%可信区间0.273~0.723);两位医师采用PI-RADS v1对外周带病灶的评分结果间的一致性为中等水平(二次加权k值0.417,95%可信区间0.252~0.582),两位医师采用PI-RADS v2对外周带病灶的评分结果间的一致性为良好水平(二次加权k值0.658,95%可信区间0.521~0.795);在不区分外周带及移行带病灶的综合评价中,两位医师PI-RADS v1评分结果一致性为中等水平(二次加权k值0.398,95%的可信区间为0.261~0.535),而两位医师PI-RADS v2评分结果一致性达到良好水平(二次加权k值0.632,95%的可信区间为0.510~0.755)。两位医师采用PI-RADS v1和v2对外周带病灶的诊断评分结果间的一致性均高于移行带病灶(表1)。
将两位阅片医师分别采用PI-RADS v1和PI-RADS v2对外周带和移行带病灶评分诊断结果绘制Bland-Altman散点图(图1~3),结果表明在两位医师评分差值的平均值中,PI-RADS v2对外周带病灶、移行带病灶评分结果的一致性较 PI-RADS v1更接近于代表差值为零的线,提示v2评分结果的一致性高于v1。
不同于PI-RADS v1,PI-RADS v2采用了更为简化的评分方式,针对前列腺分带结构提出了相应的评分权重序列(外周带以DWI为主,移行带以高分辨率T2WI为主);弱化了DCEI在评分系统中的作用,DCE序列仅作为备选序列(阳性与阴性强化),外周带评分为3分时才发挥作用;在高分辨率T2WI和DWI癌灶评分的4分与5分的评价中引入了病灶大小标准;在mp-MRI的序列构成中剔除了磁共振波谱成像(magnetic resonance spectroscopic imaging,MRSI)。推出PI-RADS v2的目的在于建立前列腺Mp-MR最简化且可接受的技术和诊断标准,从而有利于前列腺MRI的临床应用与推广[2,4]。自PI-RADS v1和v2推出以后,诸多研究者进行了诊断一致性研究,其中Schimmöller等[6]和Kasel-Seibert等[8]发现不同医师利用PI-RADSv1对前列腺癌的评分结果一致性水平要高于对良性病灶的评分,后者还发现不同阅片医师间对外周带病灶评分结果的一致性要低于移行带病灶的评分;Rosenkrantz等[9]对PI-RADS v2在多中心阅片医师间的一致性进行了研究,结果表明采用PI-RADS v2在不同评分者间评分结果的一致性,外周带较高(k值最高为0.619),移行带较低(k值最高为0.529)。本研究不同阅片者采用PI-RADS v1和v2对外周带癌进行评分诊断时的一致性均高于移行带癌,与Rosenkrantz等的研究结果相符。笔者认为PI-RADS本质上是标准化了的主观分级评价方法,移行带良性增生结节的扩散受限和DCEI异常强化表现,与PCa的DWI和DCEI表现间存在一定程度的重叠,在此情况下,诊断经验的高低势必影响到评分结果,因此导致了无论是采用PI-RADS v1还是v2,在不同诊断经验的阅片者间评分结果的一致性移行带均低于外周带。
在诸多比较PI-RADS v1和v2两个版本诊断一致性的研究中,结果不尽一致,Polanec等[10]的研究结果表明无论PI-RADS v1还是PI-RADS v2在不同研究者间均具有较佳的一致性(k值:v1:0.81,v2:0.71)。Greer等[11]对5位不同专业领域影像诊断医师PI-RADS v2评分结果的一致性进行比较研究,结果表明在前列腺专科影像诊断医师与非前列腺专科影像诊断医师间具有较高的一致性。Vaché 等[12]对不同阅片医师在PI-RADS v1 、PI-RADS v2和Likert量表的评分结果间的一致性进行研究,结果表明Likert量表的一致性高于PI-RADS v1和v2。而本研究发现在1.5T MRI设备和非直肠内线圈条件下,两位诊断经验相差较大的阅片医师(分别为≤1年和>10年)对前列腺病灶应用PI-RADS v2评分结果间的一致性要优于PI-RADS v1,与Kasel-Seibert等[8]的研究结果一致,但即便是表现最好的PI-RADS v2,两位阅片医师的一致性水平也仅介于中等到良好程度之间,没有出现一致性很好的情况,与Muller等[13]的研究结果类似,提示PI-RADS v2的临床应用效能可能会受不同经验医师诊断水平的影响。但上述各研究文献的研究对象和MRI设备等的差异,也可能导致研究结果间存在偏差。
表1 两位阅片医师在不同病灶区域的PI-RADS一致性结果
图1两位阅片医师(R1、R2)分别采用PI-RADS v1和PI-RADS v2对PZ病灶的评分结果绘制Bland-Altman散点图,横坐标为R1、R2评分均值,纵坐标为R1、R2评分差值,横坐标为R1、R2评分差值的平均值,上下的水平虚线是差值的±1.96倍标准差,代表95%一致性界限的上下限,中间蓝色水平实线代表评分差值的平均值,红色水平虚线代表评分差值的平均值为0,均值线越接近0值,说明两位阅片医师的评分结果间的一致性越高。b所示蓝色水平实线较a更接近于代表差值为零的红色水平虚线,提示对PZ病灶评分中PI-RADS v2较 PI-RADS v1在两位诊断经验不同的阅片医师的评分结果间的一致性更高。(R1:Reader 1;R2:Reader 2;V1:PI-RADS v1;V2:PI-RADS v2) 图2两位阅片医师(R1、R2)分别采用PI-RADS v1和PI-RADS v2对TZ病灶的评分结果绘制Bland-Altman散点图,b所示蓝色水平实线较a更接近于代表差值为零的红色水平虚线,提示对TZ病灶评分中PI-RADS v2较 PI-RADS v1在两位诊断经验不同的阅片医师的评分结果间的一致性更高。 图3两位阅片医师(R1、R2)分别采用PI-RADS v1和PI-RADS v2对所有病灶(PZ+TZ)的评分结果绘制Bland-Altman散点图,b所示蓝色水平实线较a更接近于代表差值为零的红色水平虚线,提示对所有病灶(PZ+TZ)评分中PI-RADS v2较 PI-RADS v1在两位诊断经验不同的阅片医师的评分结果间的一致性更高。
总的来说,作为一种偏主观性的评分标准,在PI-RADS的临床实际运用中,不同经验阅片医师的诊断评分结果一致性会受到病灶部位和PI-RADS版本的影响。与PI-RADS v1相比,PI-RADS v2采用了更为简化的诊断流程,给出了针对前列腺不同区域的权重评分序列,容易被大多数阅片医师,尤其是低年资者所接受,但仍需多中心大样本研究的证实和不断的修正和完善。
本研究的局限性:①仅采用两名诊断经验相差较大的医师来进行一致性分析,缺乏对诊断经验类似水平的不同评分者一致性评估;②入组病例的构成不均衡,移行带癌病例数偏少;③病理结果均为穿刺活检证实。