版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
#目录TOC\o"1-5"\h\z第一章:数据挖掘基础知识3第二章:系统分析.32.1系统背景32健康管理中数据挖掘技术的应用32・3基于决策树的数据挖掘4第三章:数据收集.5第四章:数据预处理5第五章:数据挖掘6第六章:数据挖掘结论的体现7第七章:个人体会7第一章:数据挖掘基础知识近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。可以分为两类:直接数据挖掘;间接数据挖掘1.直接数据挖掘目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。2•间接数据挖掘目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。分类、估值、预言属于直接数据挖掘;相关性分组和关联规则、聚集、描述和可视化、复杂数据类型挖掘属于间接数据挖掘。第二章:系统分析2・1系统背景随着社会进步和科学发展,人口老龄化及生活水平的提高,人们越来越关注自身的健康状况。健康管理的概念最早起源于美国。1929年美国洛杉矶水利局成立了世界上第一个健康管理组织(HealthManagementOrganization,HMO),该组织通过注重预防的全面健康管理的方式,有效降低会员疾病发病率,提高人们的健康水平。健康管理系统中积累大量的数据资料,如何从海量的数据中提取隐含在其中的事先未知的、潜在的、深层次、有价值的信息,辅助专家或群众个体进行诊断决策,是健康管理系统必须考虑的问题,而这正是数据挖掘的长处。本文主要针对中老年慢性病的管理的需求,以糖尿病为例,采集居民的健康档案信息指标,利用决策树方法生成对当前数据有效的模型,并对模型进行分析,筛选高危人群,提高糖尿病的早期发现率,使人们不断提高对健康的认识程度,疾病要以预防为主,减少身体及经济上的负担。2.2健康管理中数据挖掘技术的应用健康管理系统是对个人或人群的健康危险因素进行全面检测、分析、评估以及预
测和预防的全过程的系统。它一般由以下几部分组成:基本信息管理(含基本项管理)、体检项目管理(含健康评估、健康报告、健康指导)、个人(企业)健康档案数据采测和预防的全过程的系统。它一般由以下几部分组成:基本信息管理(含基本项管理)、体检项目管理(含健康评估、健康报告、健康指导)、个人(企业)健康档案数据采图2.2.1在这个系统中,输入用户(病人)的各项生理参数,诸如身高,体重,心电,血压,血氧,体温等,这些参数将与用户的个人信息,社区信息一起被存档,作为个人的病史记录。针对以上的记录,数据挖掘可以应用在以下两个方面:一是用户根据个人的生理参数,寻求合适的保健方法或治疗方法。另外一方面是相关科技工作者,社区医疗组织,计生人员主动到系统上去搜寻必要的信息,然后根据用户的病症,治疗过程以及治疗结果挖掘出更有效的治疗方法等。比如社区医务人员可以通过系统查看本辖区的慢性病表征情况,筛选出慢性病的高危人群,挖掘出引起慢性病的主要因素,提醒居民对健康情况引起注意。2・3基于决策树的数据挖掘2.3.1决策树ID3算法ID3算法[1]是由Quinlan提出的一种基于信息增益的典型的自上而下决策树归纳算法,主要特征是在一个结点上使用最大的信息增益量,作为启发式来决定应用选择哪一个属性来进行树的展开。ID3算法的基本原理如下:已知训练例子集E,设训练例子集E中含有p个正例和n个反例,则一个例子属于正例集PE的概率为P/P+n,属性于反例集NE的概率为n/P+n,一棵决策树可以看作正、反例集的消息源,所需要的信息熵为:设属性A信息熵为:设属性A取V个不同的值{A1,A2,・・Av},它们将E划分为V个子集{P、i-PN^…,假设E中含有Pi个正例和n个反例,那么子集iE所需要的期望信息是I(Pi,ni),并且以A为根的树所需要的期望信息为各子集所需要的期望信息的加权平均值,即<?--■,以A为根的信息增益是:Gain(A)=I(p,n)-E(A)ID3算法选择Gain(A)最大的属性A'作为根结点,对A'的不同取值对应的E的V个子集iE递归调用上述过程生成的A'子结点B1,B2,…Bv。健康管理系统的档案数据记录庞大,对应的属性值较多,ID3算法是基于所有属性值都确定的情况下分类的,而实际应用中经常出现有些记录的属性值缺失或空白的情况,ID3算法就直接放弃数据库中所有丢失数据的样本,在建模数据挖掘时就不能对健康档案数据进行正确的分类或预测。同时ID3算法对健康管理进行数据挖掘时确定树根节点时选择居民的年龄(有7种值)作为首选判断的属性根节点,但实际中医学专家却认为这个属性在判断糖尿病诱因时不是最重要的,ID3算法往往选择取值较多的属性作为测试属性。健康管理系统进行数据挖掘时ID3算法每选择一个分裂节点,算法都要经过多次的对数运算,影响了决策树的生成效率。2・3・2决策树ID3的算法改进针对以上ID3算法在健康管理系统应用中存在的问题,提出以下几方面的改进方案:1)对属性值缺失或空白情况的处理,通过对训练集中其他完整的实例,进行比较来选择一个较优的填充值,在构造决策树之前,对训练集中缺失或空白的属性进行填充。2)对算法要经过多次对数运算,影响决策树生成效率的处理,对信息增益公式的对数运算进行转换,找到一种属性选择的新方法,使算法生成决策树的时间大大减少,提高决策树分类的效率,提出了简化熵的计算方法。3)ID3算法根据每个属性信息熵的值来判断数据集中的分裂属性,信息熵反映每个属性对整个数据集的不确定程度,ID3往往选择取值较多的属性,为克服这一缺点,我们为每个属性的信息熵引入一个权值,来平衡每个属性的不确定程度,更符合实际的数据分布。但要保证决策树生成效率,这里选择对每个属性的简化熵引入一个权值,权值为每个属性在数据集中的取值个数,再用该权值乘以简化熵,使信息熵的结果还依赖于属性的取值个数,乘积结果称为加权简化熵,再通过比较加权简化熵的大小来选择最优的属性作为决策树的分裂节点构造决策树,这样既克服了倾向属性选择较多值的问题,又可以提高决策树的构建速度。第三章:数据收集本系统采集了某地区多个社区2005年1月1日到2006年12月31两年居民健康档案数据,包括居民基本信息、病史、家族史、生活方式(每日膳食、运动锻炼、吸烟、饮酒等)、体检信息等,共5531人。为了确保实验结果,保留2005年1月1日到2006年12月31两年的档案数据为筛选因素属性数据,从2007年1月1日到2008年12月31日期间,更新的居民健康档数据中糖尿病诊断或检查结果作为结局数据,两年内糖尿病患者总共有53人,根据个人ID号,将筛选因素数据表和结局数据表连接成一张大表,将所有记录随机分为训练集和测试集两组。第四章:数据预处理数据预处理,需要对连续的属性进行离散化处理,并要去掉一些对挖掘来说没有意义的属性,在进行挖掘时,应该根据不同的数据有选择的选取挖掘属性,比如说去掉一些居民的基本家庭信息、联系方式等等。本系统根据数据库中数据选用了其中12个属性、属性的取值(即离散值)和人数进行数据挖掘,如表4.1所示:
属性取值(离散)人数年龄大于403253小于等于402278体育锻炼缺失3缺少5001偶尔57经常470性别男2714女2817舒张压高181低2正常范围5374缺失1心率心率过快68心率正常5463高血压史有645无4886体重正常3620超标20%1911食脂肪多的食物(天)<126841-219043-43885-779不详476食甜食(天)<125801-218093-45385-7131不详473感到压力轻松1851尚可2790有压力410精神紧张有102无5429表4.1随机抽取原始数据中的3500条记录作为训练数据集,剩余数据作为测试数据集。应用改进算法克服属性选择多值化的办法构建决策树,计算化简信息熵值及加权简化熵值,选取加权简化熵值最小的属性作为决策树的根结点,递归调用这种方法建立各棵子树。第五章:数据挖掘为验证改进算法的有效性,对测试数据进行分析,见表2所示:表2两种算法结果对比预测方法检测率(%)误检率(%)准确率(紛符合规则的平均覆盖率厲)信息增益率(90计算时间/ms原算法63.3512.35283.354S.4342.54.58改进法70.658.54387.3757.4863.13.65由以上分析结果可以看出,改进的算法优于原算法,充分说明改进算法,能够以更快的速度及准确率构造决策树,基本达到实验要求,更适合健康管理系统的挖掘工作。根据决策树对居民健康档案数据进行挖掘得出结论:具有高血压病史的人、脂肪饮食不详的人或者体重超标20%、体育锻炼缺失的人、年龄大于40岁的人可能患有糖尿病的咼风险。第六章:挖掘结论的呈现本文通过对决策树ID3算法进行研究,针对ID3算法在健康管理系统中,应用存在的一些问题提出了改进算法,克服属性选择多值性、处理属性值空白或缺失的情况及提高决策树构建速度等方法。本文使用决策树对居民健康档案数据进行糖尿病诱因的数据挖掘,得出了可能患上糖尿病的相关属性,结果和实际数据及患病背景知识相一致,证明使用其进行数据挖掘得出的结论是有效的。在其他慢性病的预防及治疗中也起到了重要作用。第七章:个人体会1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类:商业数据挖掘产品具有代表性的SPSSClementine,SASEnterpriseMiner,IBMIntelligentMiner;SQLServer2005属于集成了挖掘模型类的,挖掘算法与SQL数据库产品密不可分2、数据挖掘过程的重点绝对是数据预处理,一般认为预处理工作会占60%-80%时间不等,这在整个BI领域都是成立的。商业智能-既然提到智能层面,那就不只是展现,还要做分析和预测(不过现阶段很多BI项目确实只是在做展现,最多加点多维分析)。BI概念提出之初就是辅助战略决策的产物,当然向操作型BI发展的趋势这里不做过多介绍,经验告诉我们战略决策是基于历史和别人现成经验的,怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。如果是基于数据仓库或者数据集市的挖掘,那么可直接在仓库或者数据集市中建立挖掘模型源输入(也可叫临时宽表,这个表是根据挖掘业务需求对其他维度表属性的一个综合提取,合适的时间窗口在这里是个要考虑的关键因素);如果是没有仓库或集市这一数据基础,那么就需要一个针对挖掘业务需求字段属性的简单ETL过程了。上面只是挖掘源数据的建立,接下来才进入数据预处理的核心阶段,由于源数据(临时宽表)里面很多数据是有偏差的,比如空值,错误值,异常值等•••这就需要根据每个业务字段属性的规范标准来进行处理,这步是一个繁杂的工程,数据预处理技术各式各样,比较有代表性的有数据清理、数据集成、数据变换、数据归约、离散化和概念分层等等;而且针对不同字段数据特征,不同的数据处理技术往往会导致挖掘的结果差异。虽然商业数据挖掘产品都提供了常用的数据预处理技术,但要用好,除了需要一些统计学,数据分布等知识外,对该字段对应的业务理解和挖掘过程的数据预处理方法差异的经验积累才是关键因素。就拿属性归约来将,很多挖掘产品有因子分析工具,貌似可以自动对所有属性字段做一个挖掘相关重要性因素从大大小的排序,但这也不能全信,毕竟工具是死的,它只能从数据本身的数理特征去理解和自动分析,例如有些业务字段可能数据分布的特征不符合因子分析的重要性条件,但对该数据挖掘模型贡献确是很大的。这样的情况虽说不多,却是值得注意的地方。3、经过上面两步,挖掘模型数据输入算是初步建立起来了。接下来需要对所应用的挖掘模型有个初步理解,有朋友赞成挖掘模型是“黑匣子”的观点,有朋友赞成需要对挖掘模型的专业理解。我保持中庸的观点:如果不是做算法研究的朋友,只是做挖掘模型应用,却需要对挖掘模型算法有专业理解是不现实的,毕竟公司讲的效益和效率,不像是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年协议执行保证金协议格式指南
- 保姆服务协议:老年照护专项
- 2024年专业接驳车配件订购协议格式
- DB11∕T 1650-2019 工业开发区循环化技术规范
- 2024年工程现场工长职务聘用协议
- 2024年财务总监职业协议范本
- 2024年度学生入学详细协议模板
- 2024年定制消防工程合作三方协议
- 2024年矿山建设施工协议模板
- 2024年协议担保条款详细协议
- 临床医学职业生涯规划
- 《煤矿安全生产方面的新政策、规定和要求》培训课件2024
- (2024年)《工伤保险培训》ppt课件完整版
- GB/T 43824-2024村镇供水工程技术规范
- 企业人才测评在线测评题库及答案
- 《苹果公司发展史》课件
- 四川省成都市第十八中学2022-2023学年八年级下学期期中英语试题
- 冬季树木防寒技术
- 大数据营销-分章练习题(含答案)
- 设备管理思路及方案
- 第2章大数据采集及预处理
评论
0/150
提交评论