生物医学大数据与精准风险评估_第1页
生物医学大数据与精准风险评估_第2页
生物医学大数据与精准风险评估_第3页
生物医学大数据与精准风险评估_第4页
生物医学大数据与精准风险评估_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、生物医学大数据与精准风险评估2015年奥巴马在国情咨文宣布将精准医疗列入重点 工程。2016年2月25日,美国启动精准医疗计划。2015年3月,中国首次精准医学战略专家会议, 规划在2030年前精准医疗投入600亿。健康大数据与数据科学个人健康大数据生物大分子数据临床健康数据数 据 科 学分析 建 模信息检索机器学习数据挖掘精准医疗的三大应用领域精准治疗及用药(肿瘤靶向药)精准预防(个性化疾病风险评估与管理)精准诊断(ctDNA, cfDNA)上医治未病,中医治欲病,下医治已病。- 黄帝内经重大疾病预防的现状健康管理需求疾病预防需求目前的健康管理手段:常规体检分子生物学检测在精准医疗中的应用斯

2、坦福大学分子生物学教授 Michael Snyder 最初通过基因组测序,得知他患糖尿病 的风险很高。而呼吸道合胞病毒的感染,触发他患上了2型糖尿病。之后他检测了自 己20个不同时间所采栠的血样,得到基因组学、代谢组学以及蛋白质组学的生化数 据,描绘出自身免疫系统、代谢和基因活动的状态。经过6个月的饮食调整和积极锻 炼,使得血糖恢复到正常水平。好莱坞红星安吉丽娜朱莉(Angelina Jolie)通过基因检测发现自身带有家族性的BRCA1基因突变,这也意昧着她拥有87%和50%的几率罹患乳腺癌和卵巢癌。朱莉拥有癌症家族史,家族中一共有三位女性亲人都死千女性相关癌症。朱莉对乳腺、 卵巢和输卵管进

3、行了预防性切除,使其患乳腺癌的几率从87%下降到5%以下。生物医学大数据大数据时代的机遇与挑战机器 视觉机器 学习图像 处理信息 检索数据 挖掘模式 识别SubjecveImplicitIndirectInconsistentLaboriousTedious生物信息分析及大数据挖掘技术力有预测利用生物信息学的方法,通过计算机模拟和计算来 预测DNA、RNA以及蛋白质序列的结构和力有信息, 了解各个基因所要表达的生物学意义,真的的揭开 遗传的奥秘。全基因组关联分析应用全基因组中数以百万计的SNP位点为分子遗传 标记,进行全基因组水平上的对照分析及关联分析, 发现并鉴定与复杂性状相关联的遗传变异。

4、易感基因疾病遗传风险评估DNA检测:基因芯片 + 二代高通量测序根据评价发病率(IR,incident rate) 和人均寿命(T)估算评价终身患病风 险(LR,lifetime risk)根据疾病相关位点比值比( OR,odd ratio)计算个人终身患病风险使用个人终身患病风险与平均终身患 病风险计算相对患病风险多种生物分子数据整合、大尺度建模分析蛋白质组、结构、网络通路数据糖组测序、结构数据肿瘤、微生物基因检测P. Aloy, and R. Russell, Nat Rev Mol Cell Biol. 7(3) 2006临床健康数据疾病风险评估Framingham risk score

5、: 对冠心病、高血压、心力衰竭、陂行、 中风、心房颤动、糖尿病、心血管疾病8类项目进行风险预测ClinRisk提供癌症、糖尿病、骨折、肾病、心血管疾病未 来1-10内的风险预测。复杂临床影像数据CBIR:基于内容的医学影像检索病理切片显微图像r1r2r3r4r5q1q2 q3q4复杂医学影像数据存储与处理单张组织切片图像 超过10-20G分割识别需要矩阵 运算和复杂处理海量病理图像内容 检索MasterSlaveSlaveSlaveSlaveTaskResultLocal ProcessesCached in RAM/DiskLocal/Shared File SystemHDFSDriver

6、ExecutorExecutorExecutorExecutor在生物数据科学领域核心方法研究1)多组学数据整合 Integrative omics data analysis3)物数据挖掘 Big bio-data mining智能语义识别挖掘系统蛋组代谢组互作组综合分析平台人工智能生物信息学 分析建模技术a. 关联规则挖掘(association rule mining)b. 数据分析平台(Hadoop,spark)深度机器学习开发系统(semi-supervised, unsupervised feature-, sparse-, multi-task learning)a. 信息检索索

7、引技术平台b. 数据分析平台(Hadoop,spark)a. 云计算批量数据计算系统b. 云计算数据集成系统转录组基因组 4)深度机器学习deep machine learning5)基于内容信息检Content-based Information Retrieval6)并云计算Parallel cloud computing2)本语义挖 Semantic text mining一组在校大学生人群的基因检测分布- 上万例样本,11项目17个位点SNP分型- 分析数据栠包括学生检测者来自10种类型高校SNP rs4680 A/G分型检测师范类、医药类、财经类学校记忆力非常好的学生占比较大COMT

8、和CLOCK基因SNP分型检测注意力栠中学生占比最高的是医药类大学,其次师范类大学上万例样本精准疾病风险评估模型11.08%11.01%10.37%10.23%9.63%9.54%8.72%胃癌 睾丸癌 鼻咽癌 肺癌 结直肠 甲状腺 肝癌癌癌癌症类疾病11.26%9.60%7.66%6.53%6.09%5.70%5.45%心脑血管及内分泌系统疾病高危人群占比大的4类疾病具有调查问卷的基本信息11.60%10.01%9.29%8.52%8.46%7.68%7.39%呼吸及免疫系统疾病17.14%10.92%10.87%10.61%强直性脊柱炎子宫内膜异位 男性不育症偏头痛骨科女性疾病男性疾病神经

9、系统其他4种疾病80% 100%高血压_fam肿瘤_fam糖尿病_fam呼吸系统疾病_fam遗传病_fam其他_fam家族患病史人数统计0%20% 40% 60%患病未患病80%100%高血压呼吸系统疾病糖尿病肿瘤遗传病其他个人患病史人数统计0%20%40%60%患病 未患病基因+临床数据整合分析建模:患病风险评估1546基因位点SNP+ 30项临床特征向量7项疾病患病历史 特征向量XYm样本n 基因编码+临床数据!x11 !x1 j !x1n#xi1 !xij !xin#xmj !xmn xm1yy ym1m 样本l 项疾病患病史y11 !y1k !y1l#i1 !ik !yil#!ymk

10、!yml !group 1Group 3RelaQonship?0TE Y X x x 1 min2N0T22j1p F / 2 yi xi 1Fj 2 i1NMul-task sparse learning (LASSO & Ridge)X YFit the model by solving:特征提取连续性变量的离散化、定 性变量的重新编码SNP位点数据则根据该位点 等位基因频率进行编码y共包括7个变量:高血压 病史、糖尿病史、呼吸系 统疾病史、肿瘤病史、遗 传病史、其他以及无疾病。模型评估结论 LASSO模型,优化Lambda得 到 最 小 cross validaQon standard

11、 error 0.043生物大数据整合分析技术在转化医学中的应用自闭症转录组疾病机制研究与风险因素评估Protein isoform structural analysis aids AS eects onAuQsm transcriptome data晶体结构数据整合辅助自闭症转录组大数据建模精准健康管理系统四大核心功能恤.们. _ 谷匾- ,.Ill!. _. 111!11 一!11 墨 ,* 跁合荎因数据、基础信息往 期评估等 系统 启动进行 准评估哩可定期评估丘动态监测明确 纽画风险疾病._.,_咖 讨渚5报告通俗易.全面的基因体检报告_,盲 ,血i一”卓兰括1iQQ余种疾病虐 全面了解自身疾病的发生风险

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论