下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实验目的:实验原理:- -WORD 格式-可编辑-专业资料- 实验目的:实验原理:- 实验一、 数据预处理学院 计算机科学与软件学院?(1)熟悉 VC+编程工具和完全数据立方体构建、联机分析处理算法。(2)浏览拟被处理的的数据,发现各维属性可能的噪声、缺失值、不一致性等,针对存在的问题拟出采用的数据清理、数据变换、数据集成的具体算法。(3)用 VC+编程工具编写程序,实现数据清理、数据变换、数据集成等功能。(4)调试整个程序获得清洁的、一致的、集成的数据,选择适于全局优化的参数。?1 、数据预处理现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,为提高数据质量进而提高挖掘结果的质
2、量,产生了大量数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。2 、数据清理数据清理例程通过填写遗漏的值,平滑噪音数据,识别、删除离群点,并解决不一致来“清理”数据。3 、数据集成 数据集成数据集成将数据由多个源合并成一致的数据存储,如数据仓库或数据立方体。4 、数据变换通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。5 、数据归约使用数据归约可以得到数据集的压缩表示,它小得多,但能产生同样(或几乎同样的)分析结果。常用的数据归约策略有数据聚集、维归
3、约、数据压缩和数字归约等。三、 实验内容:1 、主要代码及注释头文件#include #include #include #include using namespace std; 1、建立存储结构class Sales -完整版学习资料分享- -WORD 格式-可编辑-专业资料- - public: string serial; int market; int posno; string date; int sn; int id; float num; float price; float total; void print() cout serial market posno date s
4、n id num price totalendl; ; 2、打开源 txt 文件,并创建保存的 txt 文件ifstream infile(1020.txt,ios:in); /*string contents;*/ if(infile.fail() 7 cout error open! endl; ofstream outfile(fl.txt,ios:out); if(!outfile) coutopen eror! salsal_size.serial salsal_size.market salsal_size.posno salsal_size.date salsal_size.sn
5、 salsal_size.id salsal_size.num salsal_size.price salsal_size.total; sal_size+; 4、处理数据(1)判断购买数量是否为负if (sali.num0) sali.num=-sali.num; (2)统一日期为流水号前 8 位(既可以填补缺失值,又统一格式,同学们也可以分步做,先填补缺失值再改成统一格式)-完整版学习资料分享实验结果:- -WORD 格式-可编辑-专业资料- 实验结果:- sali.date.assign(sali.serial ,0,8); (3)保存处理过的数据同时删除冗余数据(总额, POS 机号)outfilesali.serial tsali.markettsali.datet sali.sntsali.idtsali.numtsali.priceendl; (4)关闭 txt 文件infile.close(); outfile.close(); 2 、实验数据实验数据保存在 1019、1020、1021三个 txt文件中?处理前的数据( 1019.txt,只列出了一部分):处理过程:处理后的部分数据:-完整版学习资料分享- -WORD 格式-可编辑-专业资料- - 处理前的数据( 1020.txt,只列出了一部分):处理过程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度大师傅餐饮行业人才输送合同2篇
- 2024年度新能源项目债务转移与政府补贴申请合同3篇
- 2024年度时尚配饰销售代理及品牌合作合同3篇
- 2024年度大学生实习单位实习指导服务合同3篇
- 2024年担保公司专用知识产权担保合作协议3篇
- 2024年度打印机设备销售及培训服务协议5篇
- 2024年度股权代持协议-合资经营与风险共担3篇
- 2024年新能源投资质押担保及反担保合同范例3篇
- 2024年度重点定制化门窗制作与安装服务承包协议6篇
- 2024医疗器械公司产品经理劳动合同标准模板3篇
- 房地产开发基本流程(图解)
- 2022年国家电力公司火力发电厂劳动定员标准
- 校园生活搞笑小品剧本
- 大型能源集团公司信息化规划(二)数据架构规划课件
- 中国医院质量安全管理 第4-6部分:医疗管理 医疗安全(不良)事件管理 T∕CHAS 10-4-6-2018
- 2.秸秆和落叶的有效处理课件
- 教育中的心理效应
- 提高玻璃幕墙擦窗机轨道安装质量
- T∕CEMIA 020-2019 显示面板用N-甲基-2-吡咯烷酮
- 考古绘图(课堂PPT)
- 注塑机冷却水系统工程
评论
0/150
提交评论