已阅读5页,还剩14页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代和大数据背景下的科研转变 大数据的概念 数据海量化和数字化数据量的爆发式 几何式增长 从人类文明出现到2003年 人类总共才产生了5EB ExaBytes 1EB 10亿GB 的数据 但是当前的人类两天内就创造出了相同的数据量 全球90 的数据都是在过去两年中生成的 到2020年全球数据使用量将大概需要376亿个1TB的硬盘进行存储 越来越多的数据存储为数字数据 在2000年 数字存储信息仍只占全球数据量的四分之一 而在2007年 所有数据中只有7 是存储在报纸 书籍 图片等媒介上的模拟数据 其余全部是数字数据 到2013年 世界上存储的数据预计能达到约1 2ZB 1ZB 1000EB 其中非数字数据只占不到2 数据分析和管理效率的大大提高模拟时代的数据收集和分析极其耗时耗力 新问题的出现通常要求我们重新收集和分析数据 数据数字化和云计算技术的发展使得数据管理效率又向前迈出了重要的一步 数字化将模拟数据转换成计算机可以读取的数字数据 使得存储和处理这些数据变得既便宜又容易 从而大大提高了数据管理效率 大数据的4V特征 高容量 Volume 多样化 Variety 快速化 Velocity 价值密度低 Value 就是 大数据 的显著特征 或者说 只有具备这些特点的数据 才是大数据 量Volume 多样性Variety 价值Value 速度Velocity 数据体量巨大大数据的起始计量单位至少是P 1000个T E 100万个T 或Z 10亿个T 数据的多样性数据类型繁多 文本 图像 视频 机器数据 地理位置信息等等 大量的不相关信息价值密度低需要强大的计算技术进行 提纯 数据产生和更新的频率快 处理速度快 大数据时代的来临使人类第一次有机会和条件 在非常多的领域和非常深入的层次获得和使用全面数据 完整数据和系统数据 深入探索现实世界的规律 获取过去不可能获取的知识 得到过去无法企及的商机 数据 已经渗透到当今每一个行业和业务职能领域 成为重要的生产因素 人们对于海量数据的挖掘和运用 预示着新一波生产率增长和消费者盈余浪潮的到来 全球知名咨询公司麦肯锡 大数据时代数据处理思维的三个转变 全数据模式 而不再依赖于随机抽样很长一段时间以来 准确统计和分析大量数据对我们而言都是一种挑战 比如人口普查 通常我们只能收集少量数据进行分析 称之为抽样分析 大数据是建立在掌握所有数据 至少是尽可能多的数据的基础上的 使我们能够更清楚地看到了样本无法揭示的细节信息并进行新的分析 为了赢得与癌症的斗争 史蒂夫 乔布斯曾花费数十万美元为自己DNA测序 得到了包括整个基因密码的数据文档 这样 史蒂夫 乔布斯的医生们能够基于乔布斯的特定基因组成 按所需效果用药 如果癌症病变导致药物失效 医生可以及时更换另一种药 最终这种方式帮助乔布斯延长了好几年的生命 乔布斯开玩笑说 我要么是第一个通过这种方式战胜癌症的人 要么就是最后一个因为这种方式死于癌症的人 不再热衷于追求精确度追求精确度的思维方式适用于掌握 小数据量 的情况 此时必须确保记录下来的数据尽量精确 因为收集信息的有限意味着细微的错误会被放大 甚至有可能影响整个结果的准确性 拥有了大数据 我们不再需要过于追究细节 只要掌握大体的发展方向即可 比如计算小商品的营业额和计算国民生产总值 不再执著于寻找因果关系长久以来 我们的研究总是热衷于追寻现象之间的因果关系 而在大数据时代 我们无须再紧盯事物之间的因果关系 应该寻找事物之间的相关关系 如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症 那么找出具体的药理机制就没有这种治疗方法本身来得重要 2011年 美国个人消费信用评估公司FICO提出了 遵从医嘱评分 它分析一系列的变量来确定这个人是否会按时吃药 包括一些看起来有点怪异的变量 比方说 一个人在某地居住了多久 这个人结婚了没有 他多久换一个工作以及他是否有私家车 这个评分会帮助医疗机构节省开支 因为它们会知道哪些人需要得到它们的用药提醒 有私家车和使用抗生素并没有因果关系 这只是一种相关关系 大数据的应用 谷歌流感预测 谷歌流感预测 www google org flutrends 早在2008年即已推出 原理是采用流感趋势系统监测全美的网络搜索 寻找与流感相关的词语 比如 咳嗽 和 发烧 等 并利用这些搜索结果来提前9个星期预测可能与流感相关的就医量 不像疾控中心一样要在流感爆发一两周之后才可以做到 2009年在H1N1爆发几周前 谷歌公司的工程师们在 Nature 上发表了一篇论文 介绍了GFT 成功预测了H1N1在全美范围的传播 甚至具体到特定的地区和州 而且判断非常及时 令公共卫生官员们和计算机科学家们倍感震惊 大数据的应用 PCORnet PCORnet由美国政府资助的患者中心成果研究所 PCORI 建立 据估计该数据库将收录高达3000万患者的详细医疗数据 通过大数据的分析 为临床疾病的治疗提供更真实的数据图景 将极大丰富美国真实世界的临床研究数据 大数据的应用 百度疾病预测 百度的疾病预测 大数据时代下的医学科研 临床医学资源发掘 收集 整理和利用 标准化 科学化 大样本 多中心的临床研究 病因 诊断 治疗及药物开发 依托临床信息的生物医学资源的整理 利用及研究 基因 蛋白及代谢 大数据研究成果 阿奇霉素与心血管死亡风险 分析了田纳西州医院所有患者的数据发现 在疗程5天的阿奇霉素治疗中 心血管 CV 死亡风险小幅增加 研究者分析了1992 阿奇霉素首次引入美国的时间 2006年间田纳西州医疗补助计划中30 74岁患者的数据 将347 795个阿奇霉素5日疗程中的CV死亡和全因死亡事件数与未接受抗生素治疗的1 391 180个匹配对照时期进行了比较 结果显示 与未接受抗生素治疗相比 使用阿奇霉素与CV死亡率增高相关 每100万阿奇霉素疗程中发生85 2例CV死亡 每100万无治疗时期中发生29 8例CV死亡 大数据研究成果 DDI CPI 上海交通大学Bio X研究院联合美国IBM沃森研究院 哈佛大学 加州大学伯克利分校等医药大数据前沿机构的研究人员 共同构建了基于医药大数据的药物互相作用搜索引擎 利用化合物 蛋白互作组 Chemical ProteinInteractome CPI 的海量数据在超级计算机上模拟药物相互作用 通过改进了的大数据挖掘算法 比较用户提交分子的指纹图谱来预测潜在药物相互作用 从而及时预测用药风险 部分研究成果已发表在近期的 核酸研究 影响因子8 3 上 大数据发展中的问题 数据的开放和流通 大数据 发展的障碍 在于数据的 流动性 和 可获取性 美国政府创建了Data gov网站 为大数据敞开了大门 英国 印度也有 数据公开 运动 大数据发展中的问题 技
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 政府部门公共卫生事件应急响应制度
- 孕产妇社区健康管理预案
- 医疗器械消毒系统维护方案
- 园艺机械租赁合同的温馨提示
- 2024-2030年中国薄膜电容器行业发展现状分析及未来投资策略建议报告
- 2024-2030年中国蒸汽压缩机产业未来发展趋势及投资策略分析报告
- 2024-2030年中国药事服务行业发展模式及投资价值研究报告版
- 2024-2030年中国航空食品行业面临的机遇分析及投资策略研究报告
- 2024-2030年中国自行车行业前景分析及投资竞争力研究报告
- 塑料制品加工合同范本
- 黄河商品交易市场介绍稿
- Unit 3 My friends Part C Story time(教学设计)-2024-2025学年人教PEP版英语四年级上册
- 2024中国海油校园招聘2024人(高频重点提升专题训练)共500题附带答案详解
- 孙中山诞辰纪念日主题班会主题班会
- 2024-2025学年新教材高中生物 第五章 细胞的能量供应和利用 第2节 1 细胞的能量“货币”ATP教案 新人教版必修1
- 2024年安徽省合肥市中考语文题卷(含答案)
- G -B- 43630-2023 塔式和机架式服务器能效限定值及能效等级(正式版)
- 24春国开电大《工具书与文献检索》平时作业1-4答案
- 文艺复兴经典名著选读 知到智慧树网课答案
- 2024年北京出版集团有限责任公司招聘笔试冲刺题(带答案解析)
- 2022-2023学年福建省厦门一中九年级(上)期中物理试卷
评论
0/150
提交评论