版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、生物医学数据挖掘 上海交通大学医学院计算机教研室龚著琳共三十七页第一章 概论四. 性能评价(pngji)1.样本的组织2.预测型模型的性能评价第二章 数据采集与准备一数据的采集和组织1. 数据采集和管理 2. 数据的组织 3. 数据的类型回顾(hug)2共三十七页第二章 数据采集(cij)与准备 一数据的采集和组织二数据预处理1. 目的2. 数据的分布状态 3. 数据清洗 4. 数据整合(zhn h)5. 数据变换6. 数据精简3共三十七页数据(shj)预处理1.目的(md) 提高数据的质量处理不好的数据降低维数 数据质量的表现数据的完整性数据的合理性数据的一致性4共三十七页 数据质量问题(脏
2、数据)数据缺失: 噪声(zoshng)或溢出:包含错误或孤立点 如:年龄-10不一致: 在代码或名称上存在差异 如:年龄=42 与 生日=“1997/03/07 ” No quality data, no quality mining results!5共三十七页 为什么有脏数据缺失(qu sh) 噪声:随机错误和偏差 不一致 6共三十七页第二章 数据采集(cij)与准备 一数据的采集和组织二数据预处理1. 目的(md)2. 数据的分布状态 3. 数据清洗 4. 数据整合5. 数据变换 6. 数据精简7共三十七页数据(shj)预处理2.数据的分布状态 用统计学工具(gngj)可解决,P18 均
3、值 中值 众数 半程位 全程范围 四分位数 四分位范围 标准差8共三十七页均值(jn zh)和中值 mean & median均值mean:对一组数据最常用的度量指标(zhbio)但均值对溢出敏感,因此,中值median或截除均值trimmed mean也是常用指标9共三十七页全程(qunchng)范围和标准差 Range & Variance全程范围Range:最大值和最小值之差变异variance或标准差standard deviation:各数值对均值的离散程度 但对溢出敏感(mngn), 因此,也考虑其他的指标10共三十七页例 P19 收缩压,排序(pi x)11共三十七页数据(shj
4、)预处理的形式12共三十七页第二章 数据采集(cij)与准备 一数据的采集和组织二数据预处理1. 目的2. 数据的分布状态 3. 数据清洗 4. 数据整合(zhn h)5. 数据变换 5. 数据精简13共三十七页数据(shj)预处理3.数据清洗任务:填写缺失值,平滑噪声数据数据缺失直接删除记录丢弃属性(shxng)如何弥补?14共三十七页数据(shj)清洗缺失数据如何(rh)弥补? 人工填写缺失值用常量填写缺失值取属性均值取同类均值用最可能的值来填充缺失值 15共三十七页数据(shj)预处理3.数据清洗 数据噪声随机性干扰 & 波动分组平滑均值平滑中值平滑边界(binji)平滑回归平滑聚类平滑
5、16共三十七页分组平滑(pnghu)例如:一位受试者检测(jin c)得的收缩压原始数据序列是:129,131,124,136,131,132,138,134,139,。(P21)效果较差好17共三十七页分组平滑(pnghu)例如(lr):排序后的数据是:4,8,9,15,21,21,24,25,26,28,29,34。18共三十七页回归(hugu)平滑19共三十七页聚类平滑(pnghu)20共三十七页第二章 数据采集(cij)与准备 一数据的采集和组织二数据预处理1. 目的2. 数据的分布状态 3. 数据清洗 4. 数据整合(zhn h)5. 数据变换 6. 数据精简21共三十七页4.数据整
6、合(zhn h)目的:纠正不一致数据基本任务:将多个数据源中的数据整合功能:数据冲突处理数据不一致处理数据类型的选择22共三十七页4.数据(shj)整合方法:实体识别:识别同名异义、异名同义消除冗余:分析属性间的相关度消除重复记录数据值不一致:单位、命名、结构转换23共三十七页第二章 数据(shj)采集与准备 一数据的采集和组织二数据预处理1. 目的2. 数据的分布状态(zhungti) 3. 数据清洗 4. 数据整合5. 数据变换 6. 数据精简24共三十七页数据(shj)预处理5.数据(shj)变换目的:原始数据变换到合适的形式类型变换分类型数值型(神经网络)数值型分类型(决策树)25共三
7、十七页数据(shj)预处理5.数据变换(binhun)数值归一化十进计数法 最小-最大归一法 Z-Score对数归一法26共三十七页讨论(toln)例:若舒张压原始数据为:90,110,105,140,220,138,182,205,105,110 则,进行下列(xili)数据变换后的新数据是?(1)十进计数法(2)最小-最大归一法(3)Z-Score(4)对数归一化 27共三十七页第二章 数据(shj)采集与准备 一数据的采集和组织二数据预处理1. 目的2. 数据的分布状态 3. 数据清洗 4. 数据整合 5. 数据变换(binhun) 6. 数据精简28共三十七页6. 数据精简 (1)目的
8、(md):减少冗余,提高模型性能(2)样本记录数的选择精简冗余、保留典型随机选取 P24典型性分数弥补不平衡数据29共三十七页讨论(toln)学习样本数 N 100000例,其中(qzhng):N1:15% 15000 5年内死亡N2:85% 85000 生存则,如何选择样本?从模型训练的结果看,学习样本中5年内死亡与生存接近1:1最好。欠抽样undersampling从N2中随机选部分样本,适用总体样本较多时过抽样oversampling从N1中随机选部分样本,补充到N1中,适用总体样本较少时30共三十七页讨论(toln)欠抽样(chu yn) undersampling 过抽样 overs
9、ampling31共三十七页数据(shj)预处理6. 数据精简 (3)样本特征属性的选择 逐一尝试 适用(shyng)特征数较少的场合 舍弃相关性高的特征 根据学科知识数值型特征舍弃fisher系数低的分类型特征 舍弃预测性分数高的32共三十七页fisher系数(xsh) 33共三十七页样本特征属性(shxng)的选择 例.问题:是否患糖尿病对肺癌五年生存的影响(yngxing)数值特征:舒张压5年内死于肺癌:1.7万,计算舒张压的均值、方差五年后生存: 3.3万,计算舒张压的均值、方差若均值相差大,方差均较小,则该特征有意义。34共三十七页讨论(toln)例:构建模型,乳腺癌患者预后受哪些因
10、素影响?如何影响? 数据来源:NCI提供的SEER报告,长期收集美国的癌症患者数据,有三个数据库。原始记录779999条,特征属性115项,数据收集于1973-2004年间(ninjin)。对于这样一批数据,如何进行预处理? (1)来自于不同数据库,如何保证数据的一致性?(2)数据不完整,属性缺失,如何处理?(3)数据噪声如何识别?如何判别? (4)115项特征属性如何取舍?取舍依据?(5)样本数据如何组织?35共三十七页数据(shj)预处理小结 36共三十七页内容摘要生物医学数据挖掘。 数据质量问题(脏数据)。噪声或溢出:包含错误或孤立点。如:年龄=42 与 生日=“1997/03/07 ”。No quality data, no quality mining results。均值和中值 mean & median。但均值对溢出敏感,因此,中值median或截
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 绿化施工劳务合同范例
- 番薯收购合同范例
- 《我国企业资产收购的所得税制度研究》
- 临沂购房合同范例
- 1994版劳动合同范例
- 地磅维保合同范例
- 全新养生会馆合作协议3篇
- 债权债务抵消协议书3篇
- 化肥买卖合同样本3篇
- 办公用品交易协议3篇
- 2024年秋季学期无机化学(药)期末综合试卷-国开(XJ)-参考资料
- 2025年1月浙江省高中学业水平考试政治试卷试题(含答案解析)
- 学校网络合同范例
- 2022-2023学年上海市浦东区高二(上)期末语文试卷
- 【MOOC】英文技术写作-东南大学 中国大学慕课MOOC答案
- 电气工程及其自动化职业规划课件
- 辐射与防护学习通超星期末考试答案章节答案2024年
- 2023年新高考(新课标)全国2卷数学试题真题(含答案解析)
- 建筑施工安全生产治本攻坚三年行动方案(2024-2026年)
- 大学生助农直播创业计划书
- 2-05SFG04 防空地下室室外出入口部钢结构装配式防倒塌棚架结构设计
评论
0/150
提交评论