大数据时代的世界研究_第1页
大数据时代的世界研究_第2页
大数据时代的世界研究_第3页
大数据时代的世界研究_第4页
大数据时代的世界研究_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据时代的真实世界研究程良斌湖北省中医院肝病科二、大数据时代的思维改变一、大数据时代三、真实世界研究目录二、大数据时代的思维改变一、大数据时代三、真实世界研究目录前言作者:[英]维克托·迈尔-舍恩伯格(ViktorMayer-Schönberger)著盛扬燕周涛译2013年4月14日CCTV《对话》栏目陈伟鸿Vs

维克托大数据时代来临大数据时代来临数据到底有多大?一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。大数据是什么?什么是大数据,其概念定义至今莫衷一是2012年8月份国际数据挖掘会议SIGKDD的大数据论坛,从数据存储角度认为大数据应该是10台服务器也无法存储的数据,这样的数据必须进行在线分析,否则计算机存储无法支持;有专家从数据分析角度认为,数据结构很复杂,现有方法无法处理,必须采用类似谷歌的Hadoop平台进行处理的就是大数据。到2013年,世界存储的数据预计达到1.2泽字节(ZB=270),其中98%为数字数据今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里?大数据的来源又有哪些?云计算“大数据”与“数据”的区别“结构化”、“半结构化”、“非结构化关于“结构化”“半结构化”“非结构化”可能从字面上比较难理解由于数据是结构化的,数据分析可以遵循一定现有规律的,如通过简单的线性相关,数据分析可以大致预测下个月的营业收入额。目前,只有5%的数据是结构化而大数据是半结构化和非结构化的,其在分析过程中遵循的规律则是未知的,它通过综合方方面面的信息进行模拟,它以分析形式评估证据,假设应答结果,并计算每种可能性的可信度,通过大数据分析我们可以准确找到下一个热点大数据潜质的信息资源本质上,世界由信息构成物联网,试图在一切生活的事物中都植入芯片、传感器和通信模块,这个词很像互联网的姐妹,其实不过是一种典型的数据化手段罢了2009年,苹果公司申请了一项专利,通过音频耳塞收集关于血液氧合度、心率和体温的数据今天,我们生活在一个计算型社会,因为我们相信世界可以通过数字和数学而获得解释——量化一切——把各种各样的显示转化为数据耳挂、头戴式16通道健康监护设备物联网“棱镜门”计划泄密者,美国前中央情报局特工

爱德华·斯诺登

量化一切是数据化的核心数据化:将现象转变为可制表分析的量化形式的过程数字化:把模拟数据转换成可用0和1表示的二进码,以便电脑处理世界的本质就是数据案例1:莫里绘制航海图远在1855年,时任美国海军的马修·方丹·莫里利用前人遗留的具有大数据潜质的航海日志,绘制出给航海业带来巨大变化的航海图。航海日志是船长个人的航海经历的记录,但这些经验信息并没有得到应用。而莫里在发现库房中存留的大量航海日志后,他与20位从事数据处理的人,一起把破损的航海日志记录的有用信息,通过数据提取,制成表格,整合数据之后,把整个大西洋按经纬度划分成了5块,并按月份标出了温度、风速和风向等。于是,这些来自破旧脏乱航海日志的信息,变成了有效的航海路线图。为了不断地提高航海线路的精度,莫里要求航海图的使用者都要将航行经历,使用事先特定的表格继续记录成航海日志,他们再根据航海日志产生的数据不断地修订和完善航海图。航海图使用后使原航行路程缩短了三分之一,并大大减少了航行的危险,此后不仅得到美国海军的使用,而且也被商船大量使用。案例2:谷歌预测甲型H1N1流感爆发2009年,在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师在《Nature》杂志发表一篇令人震惊的论文该文根据互联网上5000万条美国人最频繁检索的词条如“哪些是治疗咳嗽和发热的药物”等,与美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,发现了45条检索词条的组合,再将它们用于一个特定的数学模型所预测的流感发病趋势与CDC曾经预测的相关性高达97%该论文不仅预测了流感在美国全境的发生,还预测了在不同州或地方的传播趋势,而这样的预测不像疾控中心只能在流感爆发1~2周之后才可以做到案例3:美国总统奥巴马成功当选竟然靠的大数据案例4:挽救早产儿——生命本该不脆弱在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折而研究表明,早产儿的稳定有时不是病情好转的标志,而是风暴钱的宁静,就像身体的器官要做好抵抗困难的准备那些由于早产不幸夭折的孩子们在“特定时期”并不会有剧烈的生命体征变化,而通过大数据分析,只要及时进行医疗干预,这些灾难完全可以避免启示:大数据的魔力在于不仅仅是事后的分析评估,而是能够在某种程度上“预知未来”。如果被预测出来的“时间窗口”事关重大甚至像上面的案例讲的——“人命关天”,那大数据的价值将不可限量二、大数据时代的思维改变一、大数据时代三、真实世界研究目录大数据时代的思维改变IBM的资深“大数据”专家杰夫·乔纳斯(JeffJonas)提出:让数据“说话”大数据时代的三个思维改变:首先,要分析更多的数据,有时甚至要处理与某事物相关的所有数据,而不是依赖靠分析少量数据样随机抽样其次,研究数据如此之多,以至于不再热衷于追求精确性最后,不再探求难以捉摸的“因果关系”,转而关注事物的“相关关系”大数据时代处理数据上的三大转变:要全体不要抽样要效率不要绝对精确要相关不要因果核心观点:大数据时代“因果关系”变得

不那么重要了大数据时代最大的转变就是:放弃对“因果关系”的渴求,而取而代之关注“相关关系”。也就是说只要知道“是什么”,而不需要知道“为什么”这是对人们长时间积累起来的思维习惯的一次冲击和挑战,但当我们开始习惯用大数据的思维时,经过一段时间的积累,也许就会发现大数据的魅力了最重要的是:人们可以在很大的程度上从对于“因果关系”的追求中解脱出来,转而将注意力放在“相关关系”的发现和使用上案例——因果关系臆想导致错误的理解案例1:手机是否增加癌症发生率?丹麦癌症协会(2011年10月,《英国医学杂志》):研究分析了1990-2007年间358403手机用户,在此期间,共有10729名中枢神经系统肿瘤患者,最后发现,手机与癌症风险增加之间不存在任何关系案例2:美国折扣零售商塔基特(Target)与怀孕预测案例3:感冒与穿戴之间没有直接关系案例4:汽车发电机故障与冰激凌2024/2/1124生活中并不缺少美,缺少的是发现美的眼睛——罗丹生活中并不缺乏数据,只是缺乏善于从数据中发现规律的方法随访13年HCC累计发生率1(N=3,653)随访11年肝硬化累计发生率

2(N=3,582)基线

HBVDNA(copies/mL)1对1991-1992年台湾3653例HBsAg阳性的人群进行平均13年随访研究.Chen,etal.JAMA2006;295:65-73.2对1991-1992年台湾3582例没有治疗的HBV患者进行平均11年随访研究.Iloeje,etal.Gastroenterology2006;130:678-686.高病毒载量与肝硬化及HCC风险增加相关

LinSM,etal.JHepatol.2007:46:45-52.对233例干扰素治疗慢乙肝患者和233例无治疗对照组患者进行中位数随访6.8年年)研究肝硬化累计发生率(%)(月)无血清学转换血清学转换01020304050024487296120144168192216P=0.03143.5%13.5%HBeAg持续阳性与肝硬化及HCC发生相关7460493932221464134106816452391752YangHI,etal.NEnglJMed.2002;347:168–174.对1991-1992年台湾11893名男性进行长达10年的随访研究.累计发生率

(%)YearHBsAg+

HBeAg+HBsAg+

HBeAg–HBsAg–

HBeAg–RR=9.6RR=60.2台湾11,893名男性HCC累计发生率24681012012345678910HBeAg血清学转换与降低肝硬化的发生相关

HBeAg-阴性肝炎(23%)持续缓解

(0.5%)HBeAg逆转

(55%)

269名台湾自发HBeAg血清学转换HBV携带者长期随访研究(基线时没有肝硬化)Hsu,YSetal,Hepatology2002;35:1522-1527.40岁前实现HBeAg血清学转换的患者

肝硬化的发生率显著降低对240例基线ALT正常的HBeAg阳性的患者HBeAg血清学转换的自然过程的长期研究.ChuCM,etal.JViralHepat2007;14:147-152.所以我们可以看到,大数据是继承创新的源泉,也是继承创新的有力工具利用大数据的继承创新过程,不同于靠抽取小样本产生的精确数据,通过因果关系的分析来回答“为什么”,但可以靠多源混杂全样本,通过相关关系来较好地回答“是什么”,通过数据发声,来帮助人们做出更加准确的决策和对未来的预测在大数据背景下的继承创新之路,将会使人们从因果思维的束缚中得以解放,通过相关思维的世界观,把更多的精力放在提高服务质量和能力上,放在解决发展中的具体问题上,他必将大大推进社会发展的进程和速度大数据背景下的继承创新之路让数据说话利用大数据的继承创新过程,不同于靠抽取小样本产生的精确数据,通过因果关系的分析来回答“为什么”,但可以靠多源混杂全样本,通过相关关系来较好地回答“是什么”通过数据发声,来帮助人们做出更加准确的决策和对未来的预测。在大数据背景下的继承创新之路,将会使人们从因果思维的束缚中得以解放,通过相关思维的世界观,把更多的精力放在提高服务质量和能力上,放在解决发展中的具体问题上。大数据时代,知道“是什么”就够了,不必非得知道“为什么”,而是让数据自己“发声”绘制当代中医航海图的当务之急要转变观念,尽快从“因果关系”的渴求中解脱出来,高度关注“相关关系”,找到不断提高中医疗效、提升服务质量和能力的根本途径观念的转变是根本的转变。“大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对“因果关系”的渴求,而仅需关注“相关关系”……这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。”中医学告诉你“是什么”而非“为什么”中医学理论体系是一种“关系本体”,强调了主客体的一致、互动和相互影响。它以“效”—“阴平阳秘”为尺度,建立了医者主体以及干预措施与患者客体功能状态间直接的、复杂的相关关系,成为一个独特的、系统的、可以有效指导临床实践的理论体系。这一理论体系是一个复杂的巨系统,她尽管还不能很好地从生物学的角度解释“为什么”,但却可以很好地告诉你“是什么”,而正是这些“是什么”已经给人类健康保障做出了巨大贡献,同时也使其流传数千年而不衰而大数据时代关注相关关系的强劲东风,无疑可以吹散当代科学长期以来追求“因果关系”而笼罩在中医头上的阴影,使中医可以理直气壮地沿着自身规律发展,更加道路自信、理论自信、方法自信。大张旗鼓地全力以赴通过相关关系,去寻找更加有效的方法、方药,提高解决临床难题的能力和水平,而不急于投入巨大的精力和资源,利用精确的“小数据”去回答“为什么”。二、大数据时代的思维改变一、大数据时代三、真实世界研究目录临床研究方法真实世界研究(RWS)队列和病例对照研究(RCT)病例报告和病例系列真实世界研究:干预措施效果评价的新理念随机对照试验(RCT)与真实世界研究(RWS)RCT在很长一段时间内被作为治疗性研究的“金标准”,在诊断疾病、评估药物疗效及预后、甄选治疗方案等方面发挥着重要作用。但RCT通常在严格纳入标准下入选研究对象,强调标准化及理想化样本人群,不能代表临床患者接受治疗后的真实情况,这导致RCT结果存在一定局限性由于随机对照试验(RCT)在实际临床研究中存在一定的困难性,近年来真实世界研究(realworldresearch,RWR)引起了医务工作者的关注CER数据来源主要基于临床登记,为真实世界研究(RWS)RCT与RWR的比较

1、临床研究时期与研究目标:RCT关注的是效力研究(efficacytrials),RWR关注效果研究(effectivenesstrials)2、研究时间及设计方案以:RCT研究时间通常较短,以试验性方法为主,类试验为辅;RWR一般进行较长观察的临床观察和随访,对健康结局有较好的评价,并根据不同的研究目标和内容选择设计方案

RCT与RWR的比较

3、研究质量控制手段:高质量的RCT要求在厂家过程中采用随机分配、盲法、标准化治疗,有时甚至需要使用安慰剂,通过上述措施,可以对已知、未知的或未观察到的混杂因素进行调整,这是突出优势。但也可能产生三方面的弊端:一是限制结果的外推应用,在RCT中,如果多数患者因无法随机接受干预治疗而排除,那得到的结果也仅适用于与类似RCT中符合入选标准的病患;二是影响结果的可行性;三是不符合临床实际。而RWR的设计思路与之相反,患者对诊疗的选择完全取决于病情和自己意愿,是一个非随机、开放性、不使用安慰剂的非盲试验,与现实医疗环境更接近,不存在外推困难的问题,结果也相对真实可靠,但也由于“开放”产生了明显的观察者偏倚。

RCT与RWR的比较

4、研究纳入和排除标准:RCT通常是在严格的纳入和排除标准下入选研究对象,年龄宽泛。一般排除特殊人群及病情严重、合并症较多的复杂病例,强调的是标准化样本人群,即纳入同质患病人群。这种高度选择限制了许多RCT结果的应用。这些研究中所包含的病患往往与全体患病人群不同,不能代表日常医疗中遇到患者的真实情况,导致RCT所获得的疗效不能代表疾病的全貌,其代表性及外部真实性有一定局限性。Meta分析虽可累计病患的数量,但它基于RCT研究,无法解决研究人群与目标人群存在差异的问题。相比之下,RWR采用较宽泛纳入标准和较少的排除标准,获得一组与试验结果外推人群保持一致的受试者,大大减少了选择性偏倚。RCT与RWR的比较

5、样本量和代表性:即使最完美设计和实施的研究也可能由于样本量过小而不能准确回答研究的问题。同理,如果一个研究效力低的试验未发现其差异有统计学意义,则无法确定是否两种治疗确无差异,还是由于样本量小使结果产生偏差。所以,对于RCT和RWR来说,样本量都是考察结果真实性的重要指标6、干预情况:RWR强调真实的治疗,RCT强调标准化的治疗

RCT与RWR的比较

7、结局测量指标与数据采集、管理及统计分析方法:RCT的结局测量多以一个或者一些特定病症或体征为评价目标,而RWR结局测量多采用有广泛临床意义的指标,如病死率、复发率、伤残程度、生活质量等,因此更具临床实用价值;二者都强调应严格控制数据采集、管理和分析过程,所采用的统计学方法学方法基本相同,如卡方检验、Fisher检验、log-rank检验、ROC曲线、Kaplan-Meier生存曲线8、局限性:结论外推性较差是制约RCT的重要原因RWR虽很大程度上克服了该问题,但由于巨大的样本量,使开展RWR的成本相对昂贵,庞大数据的收集整理增大了工作难度。使用注册表分析时也可能存在潜在编码错误和数据丢失的问题

RCT与RWR的比较随机化纳入/排除标准患病人群治疗对照研究方案的治疗和随访结果?---RCT设计---患病人群治疗的适应症进行治疗暴露对照专门的治疗和随访结果?---RWS设计--RCT与RWR的比较RCT应该用于评价有效性(efficacy),而RWS用于决定效应性(effectiveness)RWS提供RCT没有的补充资料RWS能够作为属于药物流行病学重要的工具用于决定临床实践中真实的效益、风险和治疗价值RCTRWS真实世界研究——中医临床科研信息共享系统中医临床信息数据库的建立——电子化系统在目前的中医临床研究中,临床诊疗数据只是其中重要的一部分。为了更全面地从基础医学、临床医学和预防医学角度进行研究,要整合临床病历和相关医学研究数据,为中医辨证论治个体化诊疗体系提供基础原理支持和更深入的科学认识要建立医学健康信息数据库,整合并融合古代文献数据、现代科技文献数据以及HIS、RIS、PACS、病理、用药等临床理化检测数据和基因表达、SNP、蛋白质组学、代谢组学以及新药临床试验等医学生物学研究数据,这样利用大数据所开展的研究,不但能回答“是什么”,同时也可以回答“为什么”了公用模板科室模板个人模板结构化电子病历模板体系数据库体系——临床科研共享平台必填项设置与质控数据库体系——临床科研共享平台病证结合模板集(科室模板集)模板标准化

前瞻性数据采集住院采集系统情况目前采集的病例数:1234例研究型门诊采集系统情况重点病种采集病例数:170例

回顾性数据采集已采集2002年至今10年的重点病种住院资料1000多份;正在采集2002年以前的10年的重点病种住院资料1000份;下一步将对积聚、鼓胀、肝癌、黄疸等疾病作回顾性分析。

建院以来2万病案的数据采集数据库体系——临床科研共享平台分析处方使用情况,提取核心处方分析中药频次及各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论