【原创】r语言uci乳房肿块数据分析挖掘报告_第1页
【原创】r语言uci乳房肿块数据分析挖掘报告_第2页
【原创】r语言uci乳房肿块数据分析挖掘报告_第3页
【原创】r语言uci乳房肿块数据分析挖掘报告_第4页
【原创】r语言uci乳房肿块数据分析挖掘报告_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一 收集数据数据由 UCI 机器学习数据仓库的一个数据集得到,数据集名称为“BreastCancer Wisconsin (Diagnostic) Data Set ”,包括乳房肿块镇抽吸活检图像的数字化的多项测度值,这些值代表出现在数字化图像中的细胞核的特征。乳腺癌数据包括 569 例细胞活检案例,每个案例有 32 个特征。一个特征是识别号码,一个特征是癌症诊断结果,其他 30 个特征是数值型的实验室测量结果。癌症诊断结果用编码“M”表示恶性,用编码“B”表示良性。30 个数值型测量结果由数字化细胞核的 10 个不同特征的均值、标准差、最大值构成,这 10 个特征包括:radius (mea

2、n of distances from center to points on the perimeter)texture (standard deviation of gray-scale values)perimeterareasmoothness (local variation in radius lengths)compactness (perimeter2 / area - 1.0)concavity (severity of concave portions of the contour)concave points (number of concave portions of

3、the contour)symmetryfractal dimension二 探索和准备数据使用命令 str(iris)可以确认数据是由 569 个案例和 32 个特征构成的,输出结果如下所示:我们看到了预期的 569 个观察值和 32 个特征(变量),第一个变量 v1 是每个病人在数据中唯一的标识符(ID),并不能提供有用的信息,所以我们需要把它从模型中排除。我们将数据分成两部分:用来建立决策树的训练数据集和用来评估模型性能的测试数据集。将使用 70%的数据作为训练数据,30%的数据作为测试数据。三 基于数据训练模型在训练数据集 rxa_train 中,第 1 列是类变量 v2,我们将它作为

4、一个自变量从训练数据框中排出,但把它作为用于分类的目标因子向量。现在,对象 rxa_model 包含一个 C5.0 决策树对象,我们通过输入其名称来查看关于该决策树的一些基本数据。下图显示了决策树的分支:下图为输出的混淆矩阵,这是一个交叉列表,表示模型对训练数据错误分类的记录数四 评估模型性能表格中单元格的百分比表示落在 4 个分类里的值所占的比例,在左上角的单元格中,是真阴性的结果,121 个值中有 67 个值表示肿块是良性的,预测结果与实际一致。在右下角的单元格中,显示的是真阳性的结果,这里表示的是预测结果与实际一致认为肿块是恶性的情况。左下角单元格的 7 个案例是假阴性的结果,预测值为良

5、性“B”,实际情况是肿块为恶性“M”,可能会发生病人认为自己没有癌症,而实际上这种疾病可能会继续蔓延。右下角单元格包含的是假阳性的结果,模型把肿块标识为恶性“M”,实际结果是良性“B”。这类错误可能会导致医疗系统的额外财政负担和病人的额外压力。模型的准确率约为 90.09%,错误率约为 9.91%。五提高模型性能1.Boosting添加一个额外的参数 trials,表示在模型增强团队中使用的独立决策树的数量。设置上限为 10,如果该算法识别出额外的实验似乎并没有提高模型的准确性,那么它将停止添加决策树。在增强模型性能后,总的错误率由之前的 9.91%下降到现在的 6.61%2.随机森林使用大数

6、量树的目的是是的每一个特征都有机会在多个模型中被充分训练。从结果可看出,总的错误率由之前的 9.91%下降到现在的 3.69%3.两种方法的差异随机森林模型的结果:Boosting C5.0 模型的结果如下:Kappa 值为 0.9257464,trials=40 时的随机森林模型是最好的,比 C5.0 决策树模型 kappa 值为 0.9219790 要好一些。代码:library(C50)library(gmodels)library(randomForest) rxa-read.table(E:data乳腺癌.txt,sep = ,) str(rxa)rxa-rxa-1 table(rx

7、a$V2)set.seed(12345)#设置随机数种子 ind - sample(2, nrow(rxa), replace=TRUE, prob=c(0.8, 0.2) rxa_train - rxaind=1,#训练集rxa_test- rxaind=2,#测试集 rxa_model-C5.0(rxa_train-1,rxa_train$V2) rxa_modelsummary(rxa_model) rxa_pred-predict(rxa_model,rxa_test)CrossTable(rxa_test$V2,rxa_pred,prop.chisq = FALSE,prop.c=F

8、ALSE,prop.r = FALSE,dnn = c(actualV2,predicted V2)#boosting#rxa_boost10-C5.0(rxa_train-1,rxa_train$V2,trials=10) rxa_boost10summary(rxa_boost10) rxa_boost_pred10-predict(rxa_boost10,rxa_test)CrossTable(rxa_test$V2,rxa_boost_pred10,prop.chisq = FALSE,prop.c = FALSE,prop.r = FALSE,dnn = c(actual V2,predicted V2)#随机森林#rf-randomForest(V2.,data=rxa)rf#比较差异#ctrl-trainControl(method=repeatedcv,number=10,repeats=10)grid_rf-expand.grid(.mtry=c(2,4,8,16)m_rf-train(V2.,data=rxa,method=rf,metric=Kappa,trControl=ctrl,tuneGrid=grid_rf)m_rfgrid_C50-expand.gri

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论