数据分析For数学建模培训_第1页
数据分析For数学建模培训_第2页
数据分析For数学建模培训_第3页
数据分析For数学建模培训_第4页
数据分析For数学建模培训_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析乔立山qiaolishan@数学建模培训系列之内容提要简介:什么是数据分析?方法?工具?…数据分析方法入门(以成绩数据为例,以实际问题驱动)描述性统计分析层次教学分组缺失成绩补全触类旁通图像碎片拼接(2013年数学建模题)人脸识别/智能视频监控(本人研究领域)总结简介:什么是数据分析?信息时代,大数据时代……密切关系?!“数据是信息的载体”。数据无处不在!销售情况国民经济天气情况银行交易课程成绩化验报告图像声音……看得见的摸得着的耳闻目睹任何感觉人工采集机器获取……简介:什么是数据分析?然而,数据不等于信息。实际情况:数据泛滥,信息贫乏。肿么办?数据分析:从数据中获取信息。怎么分析?数据分析的方法?从加减乘除到统计(特别是多元统计)、数据挖掘、机器学习…只要面向的是数据,并期望从数据中获取信息的方法数据分析的工具?统计数据分析的工具软件:SAS、SPSS、EXCEL、MATLAB数据分析方法入门以成绩数据为例,以实际问题驱动数据分析方法入门以成绩数据为例,以实际问题驱动1.给我尽可能多的信息?(描述性统计分析)2.分层次教学分组3*.缺失数据补全4*.图像碎片拼接(2013年建模题)5*.人脸识别/智能监控(本人研究领域)数据分析方法入门数据读入MATLAB数据格式?矩阵,.mat文件(1)直接输入(2)Load.mat文件(3)复制粘贴,例,A=[‘Ctrl+V’];(4)菜单操作(5)高级命令,如xlsread(),…(6)某些特殊矩阵的输入数据存储(1)save()(2)菜单操作问题1:提供尽可能多信息描述性数据分析描述性:集中程度分散程度偏斜程度相关程度…怎么描述?数字图形成绩数据分析报告姓名:xxx每个人平均分-》排序:xx成绩好,xx成绩差每门课平均分-》排序:xx课难度大,xx课容易些每门课成绩方差:区分度好不好每个人成绩方差:偏科程度!!!???直方图:问题1:提供尽可能多信息集中程度:均值:mean()中值:median()分位数:prctile(x,25);prctile(x,75);众数:mode()其它:geomean():几何平均harmean():调和平均…问题1:提供尽可能多信息分散程度:方差:var()标准差:std()变异系数std()./mean()极差:max()-min()或range()……数据的归一化(X-repmat(min(X),n,1))./(repmat(max(X),n,1)-repmat(min(X),n,1))01%思考:可否用于衡量偏科情况?问题1:提供尽可能多信息偏斜程度:偏度:skewness()问题1:提供尽可能多信息相关性分析:相关系数:corrcoef()loadscore2011;cor=corrcoef(score);fori=1:35

cor(i,i)=1;endfori=1:35[junk,idx]=min(cor(i,:));fprintf('%s%s%f\n',className{i},className{idx},cor(i,idx));end问题1:提供尽可能多信息图形的作用:百闻不如一见,一目了然…常用matlab命令:plot(),subplot(),stem(),hist(),bar(),boxplot(),…问题1:提供尽可能多信息图形的作用fori=1:15[a,b]=ecdf(score(:,i))subplot(3,5,i);ecdfhist(a,b);axis([0,10000.1]);title(className{i});end问题1:提供尽可能多信息成绩数据分析报告姓名:xxx每个人平均分-》排序:xx成绩好,xx成绩差每门课平均分-》排序:xx课难度大,xx课容易些每门课成绩方差:区分度好不好每个人成绩方差:偏科程度!!!???直方图-》密度估计:用心良苦相关系数:课程之间的关联性/从统计上来说,头脑简单则四肢发达,反之亦然。各种图形。。。问题2:分层次教学分组若只有一门成绩的话(如英语),简单,每个人都会做!比如,按成绩排序,分A,B,C…事实上,隐含着一个原则:成绩相近的尽可能分到一个班如何根据2门以上(如29门、35门)成绩分组?原则没变:成绩相近的尽可能分到一个班首要问题是,在多门成绩下如何度量学生之间的相似性?距离度量!问题2:分层次教学分组符号:xi(第i行);xj(第j行)X问题2:分层次教学分组常用距离度量:欧氏距离:绝对距离:(cityblockmetric)明氏距离:马氏距离:海明距离、切比雪夫距离、余弦距离...问题2:分层次教学分组解决思路1:数据降维+简单排序数据降维方法很多,最经典的当属主成份分析1933年,可能是最古老的降维方法但是,仍然是目前应用最广泛的降维方法什么是降维?数学O语文张三李四王五赵六主成份分析降维的动机:以两门课为例问题2:分层次教学分组主成份分析的动机散度最大原则:数据降维后尽可能散开(方差尽可能大)距离保持原则:原始空间距离近的点,降维后距离近;相反,原始空间距离远的点,降维后距离仍然远。重建误差最小原则:(可通过最小二乘原则实现)……问题2成绩数据分析:“分组”解决思路2:聚类分析层次聚类(hierarchicalclustering)k-均值聚类(k-meansclustering)……问题2:分层次教学分组层次聚类(hierarchicalclustering)问题2:分层次教学分组逐对距离计算:pdist(X,’distance’)MetricDescription'euclidean'Euclideandistance(default).'seuclidean'StandardizedEuclideandistance.'cityblock'Cityblockmetric.'minkowski'Minkowskidistance.'chebychev'Chebychevdistance(maximumcoordinatedifference).'mahalanobis'Mahalanobisdistance.'cosine'Cosinedistance.'correlation'Oneminusthesamplecorrelationbetweenpoints.'spearman'OneminusthesampleSpearman‘srankcorrelationbetweenobservations.'hamming'Hammingdistance.'jaccard'OneminustheJaccardcoefficient,whichisthepercentageofnonzerocoordinatesthatdiffer.customdistancefunctionAdistancefunctionspecifiedusing@:D=pdist(X,@distfun).问题2:分层次教学分组例.样本点包括:1,2,6,8,11G1G2G3G4G5G1015710G210469G354025G476203G5109530G6G3G4G5G60469G34025G46203G59530G6G7G5G6049G7403G5930G6G8G604G840问题2:分层次教学分组点集之间的距离:最小距离:最大距离:中间距离:类平均距离:……问题2:分层次教学分组树状图/冰状图/dendrogram问题2:分层次教学分组算法:Step1.将每个样本各自作为一类,计算样本之间的逐对距离,得到逐对距离矩阵A0;Step2.寻找A0中最小元素,记为DKL,将GK和GL聚成一个新类,记为GM={GK,GL};Step3.计算新类GM与其它类之间的距离(注:此处为集合之间的距离),生产新的逐对距离矩阵A1;Step4.对A1重复step2,如此迭代…问题2:分层次教学分组MatlabCodesX=score;y=pdist(X,’distance’);%ys=squareform(y);Z=linkage(y,’method’);%注意Z的含义dendrogram(Z);%画柱状图index=cluster(Z,c);%%%%%%%%%%[WD]=eig(X'*(eye(75)-ones(75)/75)*X);Y=X*W(:,1:2);plot(Y(find(index==1),1),Y(find(index==1),2),’b*’);holdon……问题2:分层次教学分组问题2:分层次教学分组k均值聚类(k-meansclustering)问题2:分层次教学分组k均值聚类算法Step1.随机选取c个样本作为聚类中心;Step2.按照样本的到中心的距离将其分到不同的类,并将每类样本的中心作为新的聚类中心;Step3.重复step2,直至收敛(注:收敛性可证明)MatlabCodesindex=kmeans(X,k);问题3:缺失成绩补全问题4:图像碎片拼接(2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论