数据分析与软件应用)_第1页
数据分析与软件应用)_第2页
数据分析与软件应用)_第3页
数据分析与软件应用)_第4页
数据分析与软件应用)_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析与数据分析与软件应用软件应用22022-3-262一、为什么要学习这门课?一、为什么要学习这门课?(1)l个人: 这一个月的钱都花到哪里去了? (谁动了我的钱?)l集体: 一个公司的利润是从哪里得来的? 某支股票的波动受到了哪些影响?l国家: 2010年世博会能带给我们什么? 京沪高铁;7.23事件 3一、为什么要学习这门课?一、为什么要学习这门课?(2)l大学生数学建模的例子:艾滋病疗法的评价及疗效的预测 同时服用3种药物的300多名病人每隔几周测试的CD4和HIV的浓度。42022-3-264一、为什么要学习这门课?一、为什么要学习这门课?(3)l艾滋病疗法的评价及疗效的预测艾滋病

2、疗法的评价及疗效的预测 第1列是病人编号,第2列是测试CD4的时刻(周),第3列是测得的CD4(乘以0.2个/ml),第4列是测试HIV的时刻(周),第5列是测得的HIV(单位不详)。 病人编号 CD4时期 CD4数值 RNADate VLoad 23424 0 178 0 5.5 23424 4 228 4 3.9 23424 8 126 8 4.7 23424 25 171 25 4 23424 40 99 40 5 23425 0 14 0 5.3 23425 4 62 4 2.4 23425 9 110 9 3.7 23425 23 122 23 2.652022-3-265二、课程概

3、述二、课程概述(1)数据分析与软件应用数据分析与软件应用62022-3-266二、课程主要内容二、课程主要内容(2)l第一讲 概论 l第二讲 spss数据文件的建立、管理及预处理l第三讲 spss数据的基本统计分析l第四讲 假设检验l第五讲 多元统计概述l第六讲 聚类分析 l第七讲 判别分析l第八讲 主成分分析l第九讲 因子分析l第十讲 典型相关分析7二、课程概述二、课程概述(3)l书籍:书籍:l实用多元统计方法l应用多元统计分析 朱建平 科学出版社 l应用统计 葛新泉 社会科学出版社l基于spss的数据分析 薛薇 中国人大l若干论文若干论文l相关软件lExcellSpss82022-3-26

4、8二、课程概述二、课程概述(4)l教学目的:通过本课程的学习,学会应用数据分析和多元统计中的诸多方法对数据进行分析,通过和不同的学科知识相结合,对所考虑具体问题给出合理的推断。l考核l平时实验,作业,一次报告,期末考试。l根据具体工作安排,按时完成布置的案例作业,如果可能的话在课堂上讲述出来和大家一起讨论。l报告:l针对数据分析的方法和应用写一篇报告,必须有自己的体会和看法,用打印稿的形式上交。9二、课程概述二、课程概述(5)l本课程将尽量围绕一个案例贯穿始终,所有分析方法都利用这个案例的数据进行分析,从而给出一个相对比较完整的数据分析的案例。l当然这个工作是由学生自己做出来的!l经过每一步的

5、分析和讨论,应该能更好的掌握这门课的精髓。2022-3-26910三、本学期的案例三、本学期的案例l学生网络购买能力的分析学生网络购买能力的分析l目标:通过对学生网上购物数据的调研和分析,达到了解学生购买习惯、偏好等规律。2022-3-261011四四 获取数据的初步知识获取数据的初步知识(1)数据丰富与知识匮乏:数据挖掘数据丰富与知识匮乏:数据挖掘12第一 数据、信息和知识的差别12获取数据的初步知识获取数据的初步知识(2)数据挖掘系统总体结构13第二 数据从哪里来l手段:网络、统计年鉴、实验、问卷调查l获取数据的原则: 及时、准确、全面、适用、经济l获取数据的步骤: 1. 分析问题 2.

6、确定属性变量 3. 数据的缺失处理 4. 数据属性变量的初步筛选案例步骤:2022-3-261314第三 数据清理(data cleaning)噪声数据噪声数据:数据中存在着错误、或异常(偏离期望值)的数据不完整数据不完整数据:感兴趣的属性没有值不一致数据不一致数据:数据内涵出现不一致情况(如:作为关键字的同一部门编码出现不同值)。l清洗、集成、转换、消减2022-3-261415数据清洗:数据清洗:消除数据中所存在的噪消除数据中所存在的噪声以及纠正其不一致的错误声以及纠正其不一致的错误152022-3-26l遗漏数据处理:l忽略该条记录l手工填补遗漏值l利用缺省值填补遗漏值l利用均值填补遗漏

7、值l利用同类别均值填补遗漏值l利用最可能的值填补遗漏值l噪声数据处理(平滑或发现异常数据)lBin方法l聚类方法l人机结合检查方法l回归方法l不一致数据:利用与外部的关联手工加以处理16数据集成数据集成(data integration)将来自多个数据源的数据合并到一起构成一个完整的数据集l模式集成(匹配性)l冗余问题(相关性分析)l数据值冲突检测与消除17数据转换(data transformation)将一种格式的数据转换为另一种格式的数据将一种格式的数据转换为另一种格式的数据l平滑处理,消除噪声l合计处理l数据泛化处理:利用更高层次的概念取代低层次:如街道 城市或国家l规格化:将有关属性数据按比例投射到特定范围中l最大最小规格化方法l零均值规格化方法l十基数变换规格化方法l属性构造:根据已有属性构建新属性18数据消减(data reduction)通过删除冗余特征或聚类消除多余数据l数据立方合计l维数消减l数据压缩l离散化与概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论