大数据创新课程总结报告_第1页
大数据创新课程总结报告_第2页
大数据创新课程总结报告_第3页
大数据创新课程总结报告_第4页
大数据创新课程总结报告_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

千里之行,始于足下让知识带有温度。第第2页/共2页精品文档推荐大数据创新课程总结报告*******************

创新课程

*******************

兰州理工高校

计算机与通信学院

2022年秋季学期

学习总结报告

专业班级:计算机科学与技术13级4班

姓名:尚锞

学号:13240407

指导老师:王艳

成果:

一、数据分析与处理概述

越来越多的应用涉及到大数据,这些数据的属性,包括数量,速度,多样性等等都是展现了数据不断增长的复杂性,所以,数据的分析办法在数据领域就显得尤为重要,可以说是打算终于信息是否有价值的打算性因素。基于此,数据分析的办法理论有哪些呢?

1.1数据分析

PredictiveAnalyticCapabilities(预测性分析能力)

数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员按照可视化分析和数据挖掘的结果做出一些预测性的推断。

DataQualityandMasterDataManagement(数据质量和数据管理)

数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据举行处理可以保证一个预先定义好的高质量的分析结果。

AnalyticVisualizations(可视化分析)

不管是对数据分析专家还是一般用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。

SemanticEngines(语义引擎)

我们知道因为非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。

DataMiningAlgorithms(数据挖掘算法)

可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深化数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。

如果大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的益处,而不仅仅是挑战。

1.2数据处理

数据处理时代理念的三大改变:要全体不要抽样,要效率不要肯定精确,要相关不要因果。详细的大数据处理办法其实有无数,但是按照长时光的实践,笔者总结了一个基本的大数据处理流程,囫囵处理流程可以概括为四步,分离是采集、导入和预处理、统计和分析,以及挖掘。

采集

数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来举行容易的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在数据的采集过程中,其主要特点和挑战是并发数高,由于同时有可能会有成千上万的用户来举行拜访和操作,比如火车票售票网站和淘宝,它们并发的拜访量在峰值时达到上百万,所以需要在采集端部署大量数据库才干支撑。并且如何在这些数据库之间举行负载均衡和分片确实是需要深化的思量和设计。

统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据举行一般的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特殊是I/O会有极大的占用。

导入/预处理

虽然采集端本身会有无数数据库,但是假如要对这些海量数据举行有效的分析,还是应当将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些容易的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据举行流式计算,来满足

部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量常常会达到百兆,甚至千兆级别。

挖掘

与前面统计和分析过程不同的是,数据挖掘普通没有什么预先设定好的主题,主要是在现有数据上面举行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法实用于聚类的K-Means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主

二、算法理论

2.1随机森林算法

在机器学习中,随机森林(RandomForests)是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。由LeoBreiman和AdeleCutler进展、推论出的算法。这个术语是1995年由贝尔试验室的TinKamHo所提出的随机决策森林(randomdecisionforests)而来的。这个办法则是结合Breimans的"Bootstrapaggregating"主意和Ho的"randomsubspacemethod""以建筑决策树的集合。

随机森林算法过程:

按照下列算法而建筑每棵树:

1.用N来表示训练例子的个数,M表示变量的数目。

2.我们会被告诉一个数m,被用来打算当在一个节点上做打算时,会使用到多少个变量。m应小于M

3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其误差。

4.对于每一个节点,随机挑选m个基于此点上的变量。按照这m个变量,计算其最佳的分割方式。

5.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采纳)。

2.2高斯混合模型

高斯混合模型和k-means其实是非常相像的,区分仅仅在于GMM引入了概率。高斯混合模型属于统计学习的模型中的概率模型。所谓概率模型,就是指我们要学习的模型的形式是P(Y|X),这样在分类的过程中,我们通过未知数据X可以获得Y取值的一个概率分布,也就是训练后模型得到的输出不是一个详细的值,而是一系列值的概率(对应于分类问题来说,就是对应于各个不同的类的概率),然后我们可以选取概率最大的那个类作为判决对象(算法分类softassignment)高斯混合模型的学习过程就是训练出几个概率分布,对样本中的数据分离在几个高斯模型上投影,就会分离得到在各个类上的概率,然后我们可以选取概率最大的类所为判决结果。

三、算法实现

3.1随机森林算法

Trainingtree1/100...

Trainingtree10/100...

Trainingtree20/100...

Trainingtree30/100...

Trainingtree40/100...

Trainingtree50/100...

Trainingtree60/100...

Trainingtree70/100...

Trainingtree80/100...

Trainingtree90/100...

Trainingtree100/100...

Classifierdistributions:

18815nodeswereemptyandhadnoclassifier.

Classifierwithid=1wasusedat0nodes.

Classifierwithid=2wasusedat6685nodes.

Classifierwithid=3wasusedat0nodes.

Classifierwithid=4wasusedat0nodes.

3.2高斯混合模型

for(i=0;imean[j];

//calculatethesquareddistance,d=|v|^2

model->dist2=v[0]*v[0]+v[1]*v[1]+v[2]*v[2];

//zot:thisisonlyequaltomahalanobisdistance

//whencovariancematrix=vI

//(v=scalarvarianceforallchannels)

model->mah2=model->dist2/model->var;

//即为马兹距离

//seeifXiscloseenoughtothismodel

if(model->mah2<SFSquared)

break;

//thecurrentpixelmatchesoneoftheKmodels

//SFSquared是预定义的值

}

四、仿真实验结果及分析

4.1随机森林算法

它是利用bootstrap重抽样办法从原始样本中抽取多个样本,对每bootstrap样本举行决策树建模,然后组合多棵决策树的预测,通过投票得出终于预测结果。它具有很高的预测精确     率,对异样值和噪声具有很好的容忍度,且不简单浮现过拟合,在医学、生物信息、管理学等领域有着广泛的应用。

4.2高斯混合模型

所谓高斯混合模型(GMM)就是指对样本的概率密度分布举行估量,而估量的模型是几个高斯模型加权之和(详细是几个要在模型训练前建立好)。其中,每个高斯模型就代表了一个类(一个Cluster)。

五、结束语

本次课题讨论的是数据的分析与处理,在统计学领域,有些人将数据分析划分为描述性统计分析、探究性数据分析以及验证性数据分析;其中,探究性数据分析侧重于在数据之中发觉新的特征,而验证性数据分析则侧重于已有假设的证明或证伪。数据处理是系统工程和自动控制的基本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论