数据挖掘实验一数据预处理_第1页
数据挖掘实验一数据预处理_第2页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验目的:实验原理:- -WORD 格式-可编辑-专业资料- 实验目的:实验原理:- 实验一、 数据预处理学院 计算机科学与软件学院?(1)熟悉 VC+编程工具和完全数据立方体构建、联机分析处理算法。(2)浏览拟被处理的的数据,发现各维属性可能的噪声、缺失值、不一致性等,针对存在的问题拟出采用的数据清理、数据变换、数据集成的具体算法。(3)用 VC+编程工具编写程序,实现数据清理、数据变换、数据集成等功能。(4)调试整个程序获得清洁的、一致的、集成的数据,选择适于全局优化的参数。?1 、数据预处理现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,为提高数据质量进而提高挖掘结果的质

2、量,产生了大量数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。2 、数据清理数据清理例程通过填写遗漏的值,平滑噪音数据,识别、删除离群点,并解决不一致来“清理”数据。3 、数据集成 数据集成数据集成将数据由多个源合并成一致的数据存储,如数据仓库或数据立方体。4 、数据变换通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。5 、数据归约使用数据归约可以得到数据集的压缩表示,它小得多,但能产生同样(或几乎同样的)分析结果。常用的数据归约策略有数据聚集、维归

3、约、数据压缩和数字归约等。三、 实验内容:1 、主要代码及注释头文件#include #include #include #include using namespace std; 1、建立存储结构class Sales -完整版学习资料分享- -WORD 格式-可编辑-专业资料- - public: string serial; int market; int posno; string date; int sn; int id; float num; float price; float total; void print() cout serial market posno date s

4、n id num price totalendl; ; 2、打开源 txt 文件,并创建保存的 txt 文件ifstream infile(1020.txt,ios:in); /*string contents;*/ if(infile.fail() 7 cout error open! endl; ofstream outfile(fl.txt,ios:out); if(!outfile) coutopen eror! salsal_size.serial salsal_size.market salsal_size.posno salsal_size.date salsal_size.sn

5、 salsal_size.id salsal_size.num salsal_size.price salsal_size.total; sal_size+; 4、处理数据(1)判断购买数量是否为负if (sali.num0) sali.num=-sali.num; (2)统一日期为流水号前 8 位(既可以填补缺失值,又统一格式,同学们也可以分步做,先填补缺失值再改成统一格式)-完整版学习资料分享实验结果:- -WORD 格式-可编辑-专业资料- 实验结果:- sali.date.assign(sali.serial ,0,8); (3)保存处理过的数据同时删除冗余数据(总额, POS 机号)outfilesali.serial tsali.markettsali.datet sali.sntsali.idtsali.numtsali.priceendl; (4)关闭 txt 文件infile.close(); outfile.close(); 2 、实验数据实验数据保存在 1019、1020、1021三个 txt文件中?处理前的数据( 1019.txt,只列出了一部分):处理过程:处理后的部分数据:-完整版学习资料分享- -WORD 格式-可编辑-专业资料- - 处理前的数据( 1020.txt,只列出了一部分):处理过程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论