版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 第一节第一节 卫生信息分析概述卫生信息分析概述 第二节第二节 卫生信息分析方法卫生信息分析方法 第三节第三节 卫生信息分析应用:症状监测卫生信息分析应用:症状监测 信息分析的概念 信息分析(information analysis)的定义:信息分析是一种 以信息为研究对象,根据拟解决的特定问题的需要,收集与 之有关的信息进行分析研究,旨在得出有助于解决问题的新 信息的科学劳动过程。 信息分析的步骤 课题选择 制订课题研究计划 信息收集 信息整理、鉴别与分析 报告编写 一、时间序列分析 二、关联规则挖掘 三、聚类分析 (一)时间序列分析概述 1. 时间序列数据 时间序列(time series
2、)又称动态数列或时间数列, 就是把所研究的事物在各个不同时间的统计指标的数值, 按其发生时间先后顺序排列起来所形成的数列。 全球霍乱发病例数报告 摘自Global Health Observatory Data Repository, /ghodata/?vid=2250 2. 时间序列数据的种类 倾向变动/趋势变动,用 T T (TrendTrend)表示,统计数据在长时间长时间内表现出 的变化倾向,它按照某种规律持续上升或持续下降,或保持在某一水平上; 周期变动,用 C C (CyclicalCyclical)表示,指若干年若干年为周期的变化,周期长短
3、不等,上下波动大小也不一致,但明显地呈现起伏变化; 季节变动,用 S S (SeasonalSeasonal)表示,指每年每年重复出现的周期变化,一般 以月或季度为一个周期; 不规则变动/随机变动,用I I(IrregularIrregular)表示,指由各种偶然偶然事件或影 响因素引起的上述三类变化以外的任何变化。 3. 时间序列分析的概念与原理 时间序列分析(time series analysis)就是根据系统观 测得到的时间序列数据,应用数理统计方法(曲线拟合和参 数估计)来建立数学模型,对时间序列数据加以分析处理, 以预测未来事物的发展。 时间序列分析的基本依据是: (1)承认事物发
4、展的延续性。 (2)考虑到事物发展的随机性。 4. 时间序列分析主要用途 系统描述。 系统分析。 预测未来。 决策和控制。 (二)时间序列分析方法的种类 (三)时间序列分析的基本步骤 收集数据:用观测、调查、统计、抽样等方法取得被观测 系统时间序列动态数据。 整理数据:根据动态数据作相关图。 分析数据:对动态数据进行拟合或者修正。 (四)时间序列数据的修正 算术平均法 分段平均法 移动平均法 指数平滑法 (五)时间序列数据的拟合 多项式曲线法 指数曲线法 生长曲线法 (一)关联规则挖掘概述 1. 关联规则及关联规则挖掘的定义 关联规则(association rule)是指在同一个事件中出现的
5、不 同项的相关性,如顾客在商场购物可以看作是一个事件,所 购买各种的商品就是其中的项,在这里的关联规则就是指在 一次购物中所购商品的相关性。 关联规则反映了一个事件和其他事件之间依赖或依存的关 系,如果我们确定两项或多项属性之间存在着关联,那么我 们就可以根据其中一项的属性值来预测其他属性的值。 关联规则挖掘就是从大量的数据中挖掘出描述数据项之间 相互联系有价值的知识。 2. 关联规则挖掘的意义 购物篮分析 3. 关联规则的表现类型 关联规则是一种形如X Y的规则,其中X 和Y 是项目 的集合。它说明如果X 在数据库中发生,那么Y 也会以一 定的概率发生。 根据规则中所处理的值类型: 布尔关联
6、规则(Boolean association rule):性别=“女” 职业=“秘 书” 量化关联规则(quantitative association rule):性别=“女” avg( 收入)=2300 根据规则中涉及的数据维: 单维关联规则(single dimensional association rule):啤酒 尿布 多维关联规则(multi dimensional association rule):性别=“女” 职业=“秘书” 根据规则集所涉及的抽象层: 多层关联规则(multilevel association rule): 台式机 Sony打印 机 单层次关联规则(sin
7、gle-level association rule): IBM台式机 Sony打印机 (二)关联规则挖掘的基本过程 1. 找出所有频繁项集 根据定义,这些项集出现的频繁 性至少和预定义的最小支持计数一样。 2. 由频繁项集产生强关联规则 根据定义,这些规则必 须满足最小支持度和最小置信度。 支持度: P(AB),即A和B这两个项集在事务集D中同时出 现的概率。 置信度: P(BA),即在出现项集A的事务集D中,项集B也 同时出现的概率。 支持度描述一个规则的重要性,而可信度描述规则发生的 可能性。一般,我们用0和100之间的值表示支持度 和置信度。 (三)关联规则挖掘的Apriori 算法
8、Apriori算法由Agrawal等人于1993年提出,它是挖掘频 繁项集的基本算法。其核心方法是基于频集理论的递归方 法,针对的是在单维单层次布尔关联规则的挖掘,这是关 联分析中最简单形式的关联规则挖掘。 具体做法就是:首先找出频繁1-项集,记为L1;然后利 用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到 无法发现更多的频繁K-项集为止。每挖掘一层LK就需要 扫描整个数据库一遍。 (三)关联规则挖掘的Apriori 算法 下面以超市商品的数据库为例来说明Apriori 算法的基本操作。假设 有5位顾客购买商品的清单如下表。 某超市5位顾客购买商品清单 (三)关联规则挖掘的Aprior
9、i 算法 候选1-项集 面包 4 牛奶 4 尿布 4 啤酒 3 鸡蛋1 可乐 1 频繁1-项集 面包 4 牛奶 4 尿布 4 啤酒 3 候选2-项集 面包 牛奶3 面包 尿布3 面包 啤酒2 牛奶 尿布3 牛奶 啤酒2 尿布 啤酒3 候选1-项集 面包 尿布 牛奶2 面包 尿布 啤酒 2 牛奶 尿布 啤酒 2 频繁2-项集 面包 牛奶3 面包 尿布3 牛奶 尿布3 尿布 啤酒3 Apriori 算法的基本操作步骤举例 (四)关联规则的生成 同时满足最小支持度阈值和最小置信度阈值的规则 称为强规则。对于给定的一个事务集D,挖掘关联 规则就是支持度和可信度分别大于用户给定的最小 支持度和最小可信度
10、的强关联规则。 (五)关联规则挖掘在卫生信息分析中的实例 (一)聚类分析的定义 聚类分析(cluster analysis)是将一组物理的或抽象的 对象,根据它们之间的相似程度,分为若干组,使得同一 个组内的数据对象具有较高的相似度,而不同组中的数据 对象是不相似的。 聚类分析与分类不同: 对于分类问题,事先了解训练样本的分类属性,将数据对象分到不 同的已知类中,如在人口统计中将每个调查对象分类到老年组、中 年组等;而聚类分析,则是在划分的分类体系未知的情况下,将数 据对象分组成不同类,需在训练样本中找到这个分类属性。 (二)聚类分析的基本步骤 1.计算对象间的相似性 2.将聚类对象分到各个类
11、别 1.计算对象间的相似性 通常就是利用(各对象间)距离来表示相似性。 常用距离度量公式有欧几里得(Euclidean)距离公式。 1. 计算对象间的相似性 上述的数据矩阵经过计算对象间的欧几里得距离之后,得 到的是对象间的相似矩阵。 0.)2 ,() 1 ,( : )2 , 3() .ndnd 0dd(3,1 0d(2,1) 0 相似矩阵 2. 将聚类对象分到各个类别 层次方法(hierarchical method)就是通过分解所给定的 数据对象集来创建一个层次,直到满足某种条件为止。 自底向上(凝聚):从每个对象均作为一个单独的组开始 ,逐步将这些(对象)组进行合并,直到组合并在层次顶
12、端或满足终止条件为止; 自顶向下(分裂):从所有对象均属于一个组开始,每一 次循环将其组分解为更小的组,直到每个对象构成一组或 满足终止条件为止。 2. 将聚类对象分到各个类别 四个广泛使用的计算聚类间距离的度量方法如下: 其中|P-P|为两个数据对象或点P和P之间的距离, mi是聚类Ci的平均值, ni 是聚类Ci中的对象个数。 3. 聚类分析在卫生信息分析中的实例 某市各县区8 类疾病的发病率指标 输入到SPSS中的数据矩阵 3. 聚类分析在卫生信息分析中的实例 一、 症状监测及相关概念 二、 症状监测的基本步骤与方法 三、 重要疾病爆发与流行监测系统 症状监测的概念 目前,症状监测(syndromic surveillance)被广为接受的 定义是美国CDC给出的定义,即“症状监测是对临床确诊前 的健康相关数据和疾病可能暴发的信号进行监测,以利于作 出进一步公共卫生反应”。 该定义体现了症状监测与疾病监测的区别,它是以监测诊断 前的非特异性的症状和现象为基础的。 症状监测的基本步骤与方法 症状群定义和数据来源; 症状监测数据的采集; 症状监测数据的分析; 对异常信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西铁路工程职业技术学院《聚合物物理化学原理》2023-2024学年第一学期期末试卷
- 关于房子赠与合同范例
- 范例工程工人合同范例
- 门头玻璃清洗合同范例
- 2024年搪瓷测厚仪项目可行性研究报告
- 地皮卖买合同范例
- 2024至2030年石墨颗粒项目投资价值分析报告
- 2024至2030年浮动总成项目投资价值分析报告
- 食堂师傅劳务合同范例
- 承包植树合同范例
- 医院环境卫生整治排查表
- 刑法总论分析研究案例教学
- 济南泉水的故事课件
- 节水型社会建设规划编制导则
- 切割钢丝,帘线湿拉
- 宜都市产业集群基本情况及产业链
- SF_T 0119-2021 声像资料鉴定通用规范_(高清版)
- 汽车机械识图图期末考试卷
- 幂的运算综合专项练习50题(共7页)
- 内脏疾病康复 向云
- 农村留守妇女创业就业情况调研报告
评论
0/150
提交评论