李月云,聂刚,王海波,曲慧利,张东峰,王新刚
(青岛大学医学院,山东青岛 266003 1 附属医院乳腺科; 2 公共卫生系)
乳癌病人资料数据库构建与应用
李月云1,聂刚1,王海波1,曲慧利1,张东峰2,王新刚1
(青岛大学医学院,山东青岛 266003 1 附属医院乳腺科; 2 公共卫生系)
目的构建能组织、存储、管理乳癌病人资料的乳癌单病数据库,以实现信息的快速统计分析。方法整合肿瘤标本数据和病人病历资料,应用EpiData软件构建乳癌资料数据库,选取2011年8月1日—2012年8月1日住院617例乳癌病人信息录入数据库。结果EpiData乳癌数据库数据结构合理,实用性强,短期内实现了大规模乳癌资料的电子化和统计分析。结论EpiData乳癌数据库功能完善,对相关数据具备较强的的管理、统计分析能力,值得在临床科研中进一步推广。
乳房肿瘤;医学信息学;数据库
乳癌发病率居女性各类肿瘤首位,且发病呈上升趋势[1],了解其病因、发病机制对降低乳癌发生具有重要意义。对乳癌病人的临床病历资料实行系统、规范、准确、便捷的管理,可更好地开展临床、教学和科研工作。目前国外尚未见乳癌单病数据库的报道,国内虽已有单位利用数据库收集、储存、整理乳癌病人资料,但尚不成熟。本研究应用EpiData构建专业化乳癌单病数据库,对病人资料进行管理、分析,对病例进行随访追踪,以评估乳癌治疗效果,为临床科研工作提供专业资源。
1.1 资料来源
2011年8月1日—2012年8月1日,选取我科收治的617例初发乳癌病人的临床资料。纳入标准:①经组织病理学检查确诊为乳癌病人;②不影响病理科取材情况下能获得足够的标本;③取得病人及其家属的知情同意并签字;④符合医学伦理学规定,并通过医院医学伦理委员会审批。排除标准:①其他器官肿瘤转移到乳房的病人;②非初次诊断乳癌的病人。
1.2 乳癌数据库构建
通过系统分析将乳癌原始数据表划分为临床信息和病理标本库两大板块。其中病理标本由专业人员收集,数据库录入相应的病理编号。参考乳房疾病相关资料[2-4],将临床信息部分设计为8个板块,每个板块包含几十个小的部分:病案号,姓名,身份证号,性别,入院日期,初步诊断,影像学编号,最后诊断,手术方式,辅助治疗方法,病理诊断,TNM分期,雌、孕激素受体和HER-2表达状态,病理标本编号,随访结果,备注等(图1)。
运行EpiData软件,根据上述字段设计建立数据库结构文件(QES文件),在QES文件基础上创建数据库(REC文件);编写CHK文件对录入数据进行控制。
2.1 数据库的实际应用
2.1.1 数据查找 可应用任意字段如姓名、住院号等搜索病人的记录,进行内容的浏览和修改,方便、快捷,实现了临床资料的电子化管理(图2)。
2.1.2 可扩展性的统计分析 基于EpiData软件的乳癌数据库自身带有分析模块,包括一些常用的数据浏览、作图和描述性分析、相关回归分析、可靠性检验、一致性检验等,操作简单,实用性强。同时,还具有较强的数据转换功能,可输出和读取多种格式的数据文件,如Excel、SPSS、SAS、Stata、dBasa等,便于使用其他统计分析软件进一步分析研究。见图3。
2.2 数据录入及验证
对617例初发乳癌病人的病例资料及病理标本进行统计,结果见表1。
乳癌发病率呈上升趋势,全世界每年新发现乳癌病人约150万,每年死于乳癌者有57万人[5]。乳癌发病率已超过宫颈癌,跃居女姓恶性肿瘤的第一位[6]。我国缺乏统一的乳癌发病资料。目前乳癌的治疗指南大都是参考西方发达国家的数据制订的,但由于东西方国家在乳癌发病率、发病年龄、病理类型等方面不尽相同,欧美国家的治疗指南并不完全适合于我国。因此,十分有必要建立一个实用性强,能满足全国多中心和大样本录入需求,内容丰富、前沿的乳癌单病数据库。
虽然近几年国外有关临床单病数据库建立、应用的文献报道不少[7-13],但关于乳癌专题数据库的报道却鲜见。国内虽有应用数据库建立的综合性肿瘤随访系统,但对乳癌信息随访过于简单。尽管目前已有单位应用Excel软件或其他软件构建数据库,收集、储存、整理乳癌病人资料,但软件本身的局限性使其在录入质控、存储量、交互操作等方面存在缺陷。本研究利用EpiData软件建立了国内首个基于全面信息化理念管理的乳癌病人综合注册系统,该系统为乳癌标本库与病人随访数据库的有效结合提供了先进和高效的平台。本数据库的优点主要有以下几个方面。
3.1 可靠性
数据录入过程难免会出现错误,尤其是大批量数据录入过程,长时间录入可能导致错误率的上升。本数据库数据核查功能强大且实现简便,在编制数据文件时可以对数据取值范围、是否重复录入、是否必须录入、自动编码和跳转到指定字段等进行设定,保证了数据的高效录入。此外,本数据库的双录入核查功能支持同一录入文件的数据核对,并提供了对6个相同数据文件的检查功能。为保证数据录入的可靠性,将乳癌数据REC文件拷贝复制,由两组数据录入人员分别录入各自的REC文件,然后将两组录入数据进行比较、核对。两组数据双录入完成后,可以用“数据处理”下的“一致性检验”选项进行数据比较核对,在弹出的窗口中,选择两组双录入核对的数据文件,完成对双录入核对设置后,根据报告核对原始数据(图4),从而能够有效保证原始数据的准确性。
3.2 与调查表形式一致的可视数据录入界面
可将书面形式的调查表计算机化,建立与书面调查表形式一致的可视界面进行数据录入,在一定程度上使数据录入更为方便,也有助于减少数据录入错误(图5)。
3.3 内容完备性
数据库首次将病理标本库纳入乳癌医学数据库,使其内资料更加完整,科研价值更高:不但能够完成普通数据库所开展的短期生存分析和多因素分析等工作,还能够利用数据库中的病理、影像、专科查体资料等信息对乳癌的影像学表现、肉眼观察与病理学分型、基因表达之间的潜在关系等展开分析,以支持对乳癌的发病机制开展深入研究,寻求治疗乳癌的新方法。
该数据库不仅具备控制异常数据录入和可移植性、交互性与通用性、兼容性等优点,且内容更全面,涵盖了临床、影像、病理、信息4个方面的全面数字化管理,能更有效地管理乳癌病人资料,为循证医学提供客观的临床证据,为探明乳癌的病因和发病机制,寻求最佳的治疗方案,降低乳癌的发病率及死亡率提供可靠的资源。
[1]何健荣,高曦,任泽舫.全球女性乳癌和卵巢癌最新发病分布特征[J].中国肿瘤,2009,18(3):169-172.
[2]刘洪,张汉祥,李相林,等.影响乳癌根治术后病人预后的因素分析[J].青岛大学医学院学报,2000,3(2):125-127.
[3]方圣,曹明智,王群.STK15在乳癌组织中的表达[J].齐鲁医学杂志,2011,26(6):484-488.
[4]陈耀坤,马杰,方世宁,等.影响乳癌预后的因素分析[J].齐鲁医学杂志,2000,15(4):255-256.
[5]SIEGEL R,NAISHADHAM D,JEMAL A.Cancer statistics, 2012[J].CA:a Cancer Journal for Clinicians,2010,62(1):10-29.
[6]余江,卿三华,黄祥成,等.大肠癌Access数据库的建立及其应用[J].第一军医大学学报,2003,23(1):78-79.
[7]HAMBEK M,ADUNKA O,BAGHI M,et al.Ad Onco:a database for clinical and scientific documentation of head and neck oncology[J].Annals of Otology,Rhinology,&Laryngology,2006,115(2):144-149.
[8]TAKAI K,SAWAZAKI M,TOMARI S,et al.Development of a new data entry system suitable for the Japan Adult Cardiovascular Surgery Database[J].General Thoracic and Cardiovascular Surgery,2009,57(4):192-196.
[9]EL-HAYES K,HARRITY C,ABU ZEINEH T.A novel management database in obstetrics and gynaecology to introduce the electronic healthcare record and improve the clinical audit process[J].Studies in Health Technology and Informatics,2006,121:266-275.
[10]BOUSQUET P J,DEMOLY P,ROMANO A,et al.Pharmacovigilance of drug allergy and hypersensitivity using the ENDA-DAHD database and the GALEN platform.The Galenda project[J].Allergy,2009,64(2):194-203.
[11]YEUNG M J,SERPELL J W.Development of a parathyroid database in Melbourne and review of the last 50 cases[J].ANZ Journal of Surgery,2004,74(9):741-744.
[12]XU L Z,MARESH G A,GIARDINA J,et al.Comparison of different microarray data analysis programs and description of a database for microarray data management[J].DNA and Cell Biology,2004,23(10):643-651.
[13]BENJAMIN I,NOUMOFF J S,CARLSON J A J R,et al.Database management for a gynecologic oncology service[J].Gynecologic Oncology,1990,38(3):431-436.
(本文编辑 黄建乡)
CONSTRUCTION AND APPLICATION OF DATABASE OF THE BREAST CANCER
LI Yueyun,NIE Gang,WANG Haibo,QU Huili,ZHANG Dongfeng,WANG Xin′gang (Department of Breast Surgery,The Affiliated Hospital of Qingdao University Medical College,Qingdao 266003,China)
ObjectiveTo develop a clinical database system that can organize,store and supervise the data of patients with breast cancer and realize rapid statistical analysis of the information.MethodsData of tumor specimens and patients with breast cancer were coordinated,a database of breast cancer was then created by using EpiData software with the information of selected 617 breast cancer patients hospitalized from 2011.08.01 to 2012.08.01.ResultsThe created EpiData breast cancer database had a reasonable data construction and reliably practical,which accomplished large-scale electronic and statistical analysis for breast cancer information in a short time.ConclusionThe EpiData breast cancer database has a flawless function with a stronger capability of management and analysis for the related data,which is worth further extending use in clinical research.
breast neoplasms;medical informatics;databases
R737.9
A
1008-0341(2013)04-0296-03
10.11712/qlyx201304005
2013-03-19;
2013-06-13
山东省教育厅科研基金资助项目(JIILF05),青岛市市南区科技局发展计划(2011-5-004-YY)
李月云(1987-),女,硕士研究生。
王海波(1966-),男,博士,主任医师,硕士生导师。