版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务智能与数据挖掘实验报告课程:商务智能与数据挖掘地点:L2607时间:2012年5月13日学生姓名不冶”叱* 班级 电商 学号实验项目数据挖掘应用实验指导教师 *辛叱**本实验目的L掌握MicrosoftSQLserver的数据库恢复:,掌握MicrosoftSQLServerAnlysisService的多维数据分析功能;.至少掌握一种数据挖掘工具,并能正确地使用;.利用所掌握的数据挖掘工具进行分类分析、关联分析、聚类分析等.实验要求1.根据提供的“SQL2008SBSDW.bak”文件恢复SQL2008SBSDW数据库;.在SQL2008SBSDW数据库上搭建多维数据集口.根据提供的“data02”进行分类分析;.根据提供的“data02”进行关联分析;.根据提供的“data。产进行聚类分析;(数据可利用系统自带的进行分析,也可利用提供的数据进行分析)实验内容及实验结果一、对“曲g02”进行分类分析L数据格式的转换(1)打开“data02.xl瞟另存为CSV类型,得至1」“dataO2.cw- 丑?£吃.(2)在WEKA中提供了一个“ArffView"”模块,打开一个“data02uv”进行浏览,然后另存为ARFF文件,得到“dataO2.arff二9『a吧丹而2.分类过程(D决策树分类用“Explorer”打开数据"data02.arff",然后切换到“Classify”口点击“Choose",选择算法“trees-」48",再在"Testoptions"选择"Cross-validaticm(Flods=10)",点击"Start",开始运行。训练结果;
系统默认treevJ48决策树算法中mii^um0bj=2,得到如下结果===Summary二二二CorrectlyClassifiedInslances2388.4615%IncorrectlyClassifiedInstances311.5385%Kappastatistic0.7636Meanabsoluteerror0.141Rootmeansquarederror0.3255RelativeabsoluteerroT30.7368%Rootrelativesquarederror68.0307%TotalNumberofInstances26 DetailedAccuracyByClass TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824 010.824 0.903 0.892N1 0.1760.751 0.857 0.892YWeightedAvg.0.885 01)61().9130.885 0.887 0.892二二二ConfusionMatrix二二二ab<-classifiedas1431a=N091b=Y使用不同的参数准确率比较:minNnmObj2345CorrectlyClcissifiedInstcinces23(88.4615%)22(84.6154%)23(88.4615%)23(88.4615%)由上表,可知minXumObj为2时,准确率最高.根据测试数集,利用准确率最高的模型得到的结果:[=।WekaClassierTreeVisualizer:11:22:13-treesJ48(data02)I^ARFF-Viewer-C:\User^US\Peslctop\lli.arff [=FileEditView疸.Lx'」』jlliarffRelation:dataEQjredictedHq.sampleNiacric疝d-yqar「二空:二VEGF%=2ri匚MV€:;3ST9二cancer-gradecanc-%r^stage::=行二predictedearicermetasasis用s.in1a.lcancer■vt&Sls.sis手工工ml19.05G.01.07401.01.0nin1024.031.02.G124.8203.0IT1113.0盟Q1.056.0io1.0nW1217.014.03.0138.63.03.0TI133.06L02.019002.0l.oIT148.042.0l.Q24Q.03.02.0T151612.02.025.036.02.01.094657.2Rightdick(orforcontextmenuIwl.Ul.U1714.03101.04782.01.0n185.05S.03.Q80.03.00II157.038.01.076.01.01.0Vn2也045.02.Q124.02.04.0A2018.0耀总LQ11402.03.0V.2119.03S.0l.ij40.22.01.0l!H22二二Q63Q3,:•12723.030YI236.06:Q1.c9:42.0l.Un2-;2520.01.0"•uS9.03:2.Q17J243.44.02.a3.01.0Y口TU26315.Q~6.0的汽A?.031:■3.031.61419.83,04.01.03.0l I45躇。H.Or二Qu1.03.G662132.S2.04.01.02.0IT不us6721.010.065R弭02-:■3.u51e情6CO2.G;.o2.0I立I s325u5三u1.0123.0403uTq94058j:i3.0128.04.03.0Il分析说明:在用148对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,1一部分结果如下:884615%11.5385884615%11.5385%IncorrectlyClassifiedInstances 3二二二ConfusionMatrix=二ab<-classifiedas1431a=N091b=Y这个矩阵是说,原来是,”的实例,有14个被正确的预测为有3个错误的预测成了“N:原本是的实例有0个被正确的预测成为“?二有9个正确的预测成了“N”。*14+3+0+9=26”是实例的总数,而(14+9)/26=0.884615正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好“(2)K最近邻分类算法用/即工0廷工'”打开数据,就总02.arff”,然后切换到“Classify"-点击"Choose",选择算法“lazy-IBk”,再在4<Testoptions”选择^Cross-validation(Elods=10)",点击"Start”,开始运行。训练结果:
系统默认lazy-1曲K最近邻分类算法中QN=L得到如下结果Summary===CorrectlyClassifiedInstances2076.9231%IncorrectlyClassifiedInstances623.0769%Kappastatistic0.4902Meanabsoluteerror0.252Rootmeansquarederror0.4626Relativeabsoluteerror54.91361Rootrelativesquarederror96.694%TotalNumberofInstances26===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.824 0.3330.824 0.8240.824 0.768N0.667 0.1760.667 0.6670.667 0.768YWeightedAvg, 0.769 0.2790.769 0.7690.769 0.768===ConfusionMatrix=-=ab <一一classifiedas143|a=N36|b-Y使用不同的参数准确率比较:KNN1234CorrectlyClcissifiedInstcinces20(76.9231%)19(73.0769%)23(88.4615%)20(76.9231%)由上表,可知解为3时,准确率最高。根据测试数集,利用准确率最高的模型得到的结果:
分析说明,在用lazy-Ibk(汕N=3)对数据集进行分类时采用了10折交叉验证(Folds=10)来选择和评估模型,其中属性值有两个Y,N,一部分结果如下:===Summary===CorrectlyClassifiedInstances 23 88.4615%IncorrectlyClassifiedInstances 3 11.5385%===ConfusionMatrix===ab <-classifiedas161a=N
16127|b=Y这个矩阵是说,原来是“Y”的实例,有16个被正确的预测为有1个错误的预测成了,原木是“NO”的实例有2个被正确的预测成为有9个正确的预测成了“71“16+1+2+7=26”是实例的总数,而(16+7)726=0.884615正好是正确分类的实例所占比例.二、对“dataUl”进行聚类分析.数据格式的转换⑴打开“dataOLxls”另存为CSV类型,得到“data。1心v:怜史:。匕二_⑵在WEKA中提供了一个“ArffViewed模块,打开一个“dataOLcsv”进行浏览,然后另存为ARFF文件,得到“da3)Larff文件,得到“da3)Larff。dataOl.arff.聚类过程用Explorer^打开数据“dataOLarff%然后切换到“Cluster,点击“Choose",选择算法KSimploKMocUis(nusnClusters=63seed=200),再在"Testoptions"选择wlsetrainingset点击“Start”,开始运行.训练结果,采用simpleKMHans算法,其中nuniClusterf=6,seed=100f得到如卜结果:Mumberofiterations:3Withinclustersumofsquarederrors:6.065322314450069(平方误差之和)ClusteredInstancesClusteredInstances0 4 ( 15%)1 3 ( 12%)2 4 ( 15%)
3 3(12%)4 2(8%)5 10(38%)(各类的包含的实例个数以及占总实例的百分比)商WekaClustererVisuafize:13:22:44-SimpieKMeansidataO2)[口j回Plotdata'?2clusteredClasscolourclusterOclusuerl一三;〔 clusuero*ARFF-Viewer-C:\User5\ASUS\Desktop\555.arffFileEditView!5S5.ar££jRelation-dataO2MclustedHo.Xnstance_n.ujnberNumericsampleold-yearur-sti二VEGFHVC:&WHE二cancer^gjadecaoicer^stageNun£=i*i亡cancermetastasisCluster10.0l.Q59.02.043.42.0l.UITcIueterl109.010.05S.03.068,6202.0Hcluster1ll10.0ii.a6E.03.0i32S102uITclusterS1211.012G25.02.0946403.0IclustsrS1312.013.052.01.0560LQ10ITeluster51413.014.031.01.047.82.01.0ITcluslerS1514.015.036.03.031.63.01.0Tcluster31615.016.042.01.066.22.01..0打cluster5I-16.017.0HO3.0138.63.03,0TclustersIS17.018032.01.0iUu203uITclusterS1918.019.035.01040.22.0LOITclusters21.02.03601.057.21.01.0Hclustsr52019.02cLa70.03.0177.24.03.0Tcliister02120.02L065.02.0SI.64.04.0TclusterO2221.022.045.02.012-zQ20:0Hcluster22322.023?66.03.Q12723Q30IelmsterCi2423.024031.0ITelueter22524.025.058.0Vcluster21.VJi,0一2625.026.Q60.03.0149.8103.0TclusterO32.03.061.02.0190.02.01.0clusterl43.04.05803.0128.04.03.0Ycluster454.0505503.080.03.0:uYcluster465.06Q61.01.042.010ITclusters6.038.01.076.0LO1/0口clustsr5B7.08.04201.0240.03.0'2.011cluster5gS.O9.050.01.074.01.01.0ITclusters
说明:其中当seed的取值越大,平方误差之和越小口在这次实验geed=?OO,得到:Withinclustersumofsquarederrors:6.065322314450069.这是讲价聚类好坏的标准,数值越小说明同一簇实例之间的距离就越小.接下来“CluEtetcentroids”:列出了各个兢中心的位置:AttributeFullData012345(26)⑷⑶⑷⑶⑵(10)sample13.522.54.666720.514.66674.511.2old-year48.076965.7559.333350.52556.541.9VEGF1.92312.7
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工厂提货合同范本
- 无人机护林防火合同范本
- 2024年商用建筑施工双包协议样本
- 2024年专用管材买卖协议样本
- 2024教师招聘教师资格考试面试试讲稿小学数学原理12 加法运算定律
- 2024等额本息个人借款协议模板
- 房产卖家特定授权销售协议2024示例
- 2024年度建筑维修及改造施工协议
- 关爱老人志愿服务活动简报
- 关于设备维护说明
- 2024年基因编辑技术的伦理问题
- “订餐协议书:团体订餐服务合作协议”
- 材料力学课程导学与考研指导
- 小学各年级小学一年级提高思维能力的方法主题班会
- 宣传栏安装施工方案
- 张晓风散文自选集
- 胆囊息肉的护理查房
- 新课标下小学生运算能力的培养研究的开题报告
- 餐饮行业初期投资预算分析
- 辽宁省重点高中沈阳市郊联体2023-2024学年高三上学期期中生物试题(解析版)
- 退费申请表模板(直接打印)
评论
0/150
提交评论