数据分析学习笔记_第1页
数据分析学习笔记_第2页
数据分析学习笔记_第3页
数据分析学习笔记_第4页
数据分析学习笔记_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据挖掘:系统方法与实例分析steven.zhuo-健豪学习笔记(一) 数据挖掘基础1. MATLAB数据挖掘的过程(1) 定义目标(2) 准备数据(3) 探索数据. 趋势分析. 相互影响分析. 变量选择(重要性排序). 特征进行变形. Detect patterns(4) 建立模型模型种类:关联、回归、分类、聚类、预测、异常检测(5) 评估模型(6) 部署模型2. 数据的可视化(hist、pie、box 相互混合)3. 数据的预处理(1) 数据清洗. 缺失值处理i. 删除法ii. 插补法(平均值插补、中值插补、回归插补(线性)、线性插值、回归插值(非线性). 噪声过滤i. 回归法:用一个函

2、数拟合数据来光滑数据ii. 均值平滑法:对于具有序列特征的变量用临近的若干数据的均值来替代原始数据的方法iii. 离群点分析:通过聚类等方法来检测离群点,并将其删除,从而实现去噪的方法iv. 小波去噪(2) 数据集成(3) 数据规约(浓缩)i. 属性选择ii. 样本选择(4) 数据变换(归一化、标准化)4. 数据的探索(有效方法:数据可视化)(1) 分布情况探索(hist、pie、box)(2) 分布中心分析(median(中心值)、mode(频率最高)、max、mean(均值)(3) 数据的伸展性分析(极差:判断用不用归一化)(方差小:说明波动小)(4) 数据的形状分析(偏度)(5) 关联分

3、析(plotmatrix)(6) 数据的分组分析(均值、最大值、最小值、异常值)5. 假设检验(卡方检验、T检验)6. 数据回归(二) 数据挖掘算法:回归算法、关联算法、聚类算法、分类、预测、异常诊断1. 回归算法:一元回归、多元回归、逐步回归、Logistic回归(1) 一元线性:LinearModel(2) 一元非线性回归:fitnlm(3) 一元多项式回归:polyfit(4) 多元线性回归:regress(要先判断因素是否和因变量线性相关)(5) 逐步回归:stepwise(6) Logistic模型(结果只有0-1,可以用于银行信用评估)fitglm2. 关联算法:Apriori算法

4、(购物篮分析、商品关联、啤酒尿布)、FP-Growth算法、相关系数法3. 聚类(1) K-meams算法(kmeans)(万能聚类)(2) 层次聚类(Clusterdata)(层次结构图)(例子:股票分池)(3) 神经网络(train)(4) 模糊C均值聚类算法(计算隶属度、类似模糊数学)(fcm)(5) 高斯混合聚类(gmdistribution.fit)(6) 聚类过程中类别个数的确定方法. 阈值法. 轮廓图法4. 分类:最近邻(KNN)、贝叶斯、神经网络、逻辑斯蒂(Logistic)、判断分析、支持向量机(SVM)、决策树(1) K-近邻(ClassificationKNN,fit)(2) 贝叶斯分类、朴素贝叶斯分类(求分类概率)(NaiveBayes.fit)(3) 神经网络(4) Logistic分类(glm.)(5) 判别分析(Discriminant Analysis 简称DA)(ClassificationDiscriminant.fit)(6) 支持向量机(SVM) (超平面,解决多维问题) (svmtrain)(7) 决策树(ClassificationTree.fit) (8) 分类的评价:正确率、ROC曲线(越快收敛到1越好)5. 预测算法(1) 灰色预

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论