




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘前的数据准备,数据准备的重要性 数据准备技术 数据导入 数据的过滤和采样 清洗数据 派生数据 将数据准备应用到产品中,数据准备的重要性,数据挖掘和预测分析 在已有的数据中找到数据间的模式和关系 利用找到的模式和关系进行预测 垃圾进 / 垃圾出 分析的结果是基于数据质量的 不可能发现数据中没有的内容 我们需要的是高质量的正确的数据,高质量的正确的数据,完整性 实时性 准确性,对与错,demonstration,数据准备技术,Transact-SQL (T-SQL) 利用高性能的T-SQL语句在数据源处进行数据准备工作 SQL Server 2005 Integration Services (SSIS) 连接多种不同的数据源获取数据 Microsoft Office Excel 2007 友好、通俗易懂,尤其适合非专业人员 第三方工具,数据导入,数据挖掘引擎中使用 OLE DB 和 ADO.NET 根据具体情况配置数据导入环境 使用 Business Intelligence Development Studio (BIDS) 使用Data Mining Client for Excel add-in for Excel 2007插件,BIDS中的数据导入,数据源 OLE DB 或 ADO.NET 数据源视图 源数据的元数据视图 计算列 命名查询 虚拟关系,Excel中的数据导入,Excel 表 使用Excel add-in插件中的分析工具 Excel ranges 导入数据 Microsoft Query Add-ins 不适用于数据透视表动态的视图 外部数据源 创建新数据源 使用来自SQL Server 2005 Analysis Services中一个实例的数据源,数据导入的例子,demonstration,过滤和采样 (1),过滤或移除没有用的数据 例如,只有男性或女性两种性别的顾客 对案例采样以减少案例数据的数量 减少训练时间 注意使用正确的键进行采样 例如: customers, transactions, or line items 过采样保证采样数据的平衡 例如:使用更大的采样范围来平衡采样中的男女比例 当一些案例的数据很少的时候时用此方法,过滤和采样(2),在 SQL Server 2005 数据挖掘中 在数据源视图中进行过滤工作 在数据源视图中进行采样工作 在 SQL Server 2008 数据挖掘中 在挖掘结构中进行过滤工作 在Excel Add-in插件中 准备样本Preparing samples 过采样Oversampling 过滤表,在SSIS中进行过滤和采样工作,在数据源出进行过滤 使用“条件分支”控件进行过滤 采样技术 随机采样 行计数采样 过采样,过滤和采样操作,demonstration,清洗数据,检测和修改错误 了解错误的情况 在数据源处修改错误 使用 SQL Server Integration Services 修改错误 检测和修改异常 了解异常情况 使用 SQL Server Data Mining Add-in for the 2007 Office system 插件解决 使用 SQL Server Integration Services 解决 处理空值 处理重复的记录和模糊匹配,清洗数据,demonstration,派生数据,离散的列 例如:性别 离散化列 例如:将年龄分组(年轻,年老)优于连续的年龄值(16,18,72,75) 计算出新的列 从其他列中的值派生,离散化列,说明 将一个连续列中的值分成多个组或桶,并生成新的列。这些桶中的值是有序的、离散的。 例如:年龄组比连续的年龄更好 自动创建 确定桶的数量 确定方法 自动, 群组, 等面积,创建自己的桶,使用 T-SQL Case语句 使用 SSIS 派生列 使用 SQL Server Data Mining Add-in for the 2007 Office system Exploring and preparing data,派生列,一些例子 两个日期间的时间间隔 货到时间 下单时间 距离某件事情的时间 感恩节前的几天, 距离退休的年份 比率 体质指数 总计 每年支持电话的数量,创建新的派生列,使用 T-SQL 在数据源视图中 命名计算 命名查询 在 SSIS 中 派生列 在 Excel 中 使用公式,数据离散化,demonstration,将数据准备应用到项目中,数据挖掘是一个迭代过程 不要期望首次就能够成功 尝试各种不同的假设和技术 测试并且确认这些尝试 决定何时在那里准备数据 在源头自动地准备 在规定的时间执行SSIS包 在Excel中根据需要随时准备,下一步,1) 访问Microsoft Data Mining Web site at: /bi/bicapabilities/data-mining.aspx 2) 下载SQL Server Data Mining Add-ins for the 2007 Microsoft Office system at: /fwlink/?LinkId=82754 3) 数据挖掘相关的社区Get involved in the data mining community at: www.sqlserverdata
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 住人活动房租赁合同
- 广告服务代理合同协议书
- 土石方开挖工程合同
- 建筑施工单项承包合同
- 施工合同土方工程施工合同
- 销售秧苗合同
- 变电站工程施工合同
- 担保补充合同协议书
- 书法培训合同协议
- 工地劳务合同协议
- 《电子束辐照》课件
- 部编版《道德与法治》四年级下册全册教案
- 《慢性支气管炎》课件
- 《上市公司财务分析》课件
- 《中国古代科技发展》课件
- 2024年浙江省《辅警招聘考试必刷500题》考试题库及答案【考点梳理】
- 2024年05月江苏省昆山鹿城村镇银行2024年社会招考笔试历年参考题库附带答案详解
- 《食管基本解剖》课件
- 感染性休克指南解读
- 《小王子》数字故事
- DB36T 1179-2019 政务数据共享技术规范
评论
0/150
提交评论