




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘前的数据准备 数据准备的重要性数据准备技术数据导入数据的过滤和采样清洗数据派生数据将数据准备应用到产品中 数据准备的重要性 数据挖掘和预测分析在已有的数据中找到数据间的模式和关系利用找到的模式和关系进行预测垃圾进 垃圾出分析的结果是基于数据质量的不可能发现数据中没有的内容我们需要的是高质量的正确的数据 高质量的正确的数据 完整性实时性准确性 对与错 demonstration 数据准备技术 Transact SQL T SQL 利用高性能的T SQL语句在数据源处进行数据准备工作SQLServer2005IntegrationServices SSIS 连接多种不同的数据源获取数据Microsoft OfficeExcel 2007友好 通俗易懂 尤其适合非专业人员第三方工具 数据导入 数据挖掘引擎中使用OLEDB和ADO NET根据具体情况配置数据导入环境使用BusinessIntelligenceDevelopmentStudio BIDS 使用DataMiningClientforExceladd inforExcel2007插件 BIDS中的数据导入 数据源OLEDB或ADO NET数据源视图源数据的元数据视图计算列命名查询虚拟关系 Excel中的数据导入 Excel表使用Exceladd in插件中的分析工具Excelranges导入数据MicrosoftQueryAdd ins不适用于数据透视表动态的视图外部数据源创建新数据源使用来自SQLServer2005AnalysisServices中一个实例的数据源 数据导入的例子 demonstration 过滤和采样 1 过滤或移除没有用的数据例如 只有男性或女性两种性别的顾客对案例采样以减少案例数据的数量减少训练时间注意使用正确的键进行采样例如 customers transactions orlineitems过采样保证采样数据的平衡例如 使用更大的采样范围来平衡采样中的男女比例当一些案例的数据很少的时候时用此方法 过滤和采样 2 在SQLServer2005数据挖掘中在数据源视图中进行过滤工作在数据源视图中进行采样工作在SQLServer2008数据挖掘中在挖掘结构中进行过滤工作在ExcelAdd in插件中准备样本Preparingsamples过采样Oversampling过滤表 在SSIS中进行过滤和采样工作 在数据源出进行过滤使用 条件分支 控件进行过滤采样技术随机采样行计数采样过采样 过滤和采样操作 demonstration 清洗数据 检测和修改错误了解错误的情况在数据源处修改错误使用SQLServerIntegrationServices修改错误检测和修改异常了解异常情况使用SQLServerDataMiningAdd inforthe2007Officesystem插件解决使用SQLServerIntegrationServices解决处理空值处理重复的记录和模糊匹配 清洗数据 demonstration 派生数据 离散的列例如 性别离散化列例如 将年龄分组 年轻 年老 优于连续的年龄值 16 18 72 75 计算出新的列从其他列中的值派生 离散化列 说明将一个连续列中的值分成多个组或桶 并生成新的列 这些桶中的值是有序的 离散的 例如 年龄组比连续的年龄更好自动创建确定桶的数量确定方法自动 群组 等面积 创建自己的桶 使用T SQLCase语句使用SSIS派生列使用SQLServerDataMiningAdd inforthe2007OfficesystemExploringandpreparingdata 派生列 一些例子两个日期间的时间间隔货到时间 下单时间距离某件事情的时间感恩节前的几天 距离退休的年份比率体质指数总计每年支持电话的数量 创建新的派生列 使用T SQL在数据源视图中命名计算命名查询在SSIS中派生列在Excel中使用公式 数据离散化 demonstration 将数据准备应用到项目中 数据挖掘是一个迭代过程不要期望首次就能够成功尝试各种不同的假设和技术测试并且确认这些尝试决定何时在那里准备数据在源头自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保安服务合同
- 粤教版高中信息技术选修2教学设计-4.3.3 图像的调整-
- 第二章 有理数的运算-有理数的加减混合运算 教学设计 2024-2025学年人教版七年级上册
- 跨学科实践活动5探究土壤酸碱性对植物生长的影响教学设计-2024-2025学年九年级化学鲁教版下册
- 粤教版高一信息技术必修一 教学设计:1.2.1 信息技术及其发展
- 跳高 教学设计2 -九年级体育与健康
- 室外灯具购销合同(30篇)
- 2025年全程包车合同规范样本大全
- 2025年信用卡持卡人还款合同样本
- 2025年医疗器械研发合同模板
- 建设工程施工合同培训PPT(49页)
- 2010哈弗H5维修手册
- (完整版)NRS数字分级法评分表
- LY∕T 2780-2016 松疱锈病菌检疫技术规程
- 航空服务形体训练课程标准
- 项目部安全管理组织机构网络图GDAQ20102
- 一文看懂全部变电站电气主接线方式
- 苏科版四年级劳动技术下册教学计划
- 应答器报文定义《运基信号[2005]224号》
- 电网公司客户资产接收管理细则
- SH3503-2007石油化工建设工程项目交工技术文
评论
0/150
提交评论