大数据基础 课件 单元6 数据分析与挖掘_第1页
大数据基础 课件 单元6 数据分析与挖掘_第2页
大数据基础 课件 单元6 数据分析与挖掘_第3页
大数据基础 课件 单元6 数据分析与挖掘_第4页
大数据基础 课件 单元6 数据分析与挖掘_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

与挖掘数据分析大数据基础Unit6《大数据基础》.移动商务营销课程群6.1.1数据分析简介6.1.2数据挖掘简介6.1.3pandas数据分析6.1数据分析与挖掘简介6.1.1数据分析简介1数据分析的定义数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。6.1.1数据分析简介2数据分析的分类

按统计学领域划分

描述性数据分析、探索性数据分析以及验证性数据分析。

描述性数据分析属于初级数据分析,常见的分析方法有对比分析法、平均分析法、交叉分析法。在日常学习和工作中涉及的数据分析主要是描述性数据分析。

探索性分析和验证性分析属于高级数据分析,常见的分析方法有相关分析、因子分析、回归分析等。探索性分析侧重于在数据中发现新的特征,验证性数据分析侧重于验证已有假设的真伪证明。6.1.1数据分析简介3数据分析的作用(1)现状分析(2)原因分析(3)预测分析就是告诉你过去发生了什么,一般通过日常通报完成,如日报、周报、月报等,开展频率频繁。就是在现状分析的基础上,就某一个特定现状为什么发生而发起的分析。比如:某年的2月份运营收入环比下降5%,是什么原因导致的?就是告诉你将来会发生什么。通常用于制定企业季度、年度计划等。开展频率低。6.1.1数据分析简介4数据分析流程(1)明确目的和思路数据分析必须有一个明确目的,再根据分析目的梳理分析思路,搭建分析框架,规划后续步骤所选择的分析方法等。(2)数据收集在明确目的和思路的基础上,有目的的收集必要的、可能来自多途径的数据。数据来源可能是数据库、公开出版物、互联网、市场调查等。但收集到的数据往往杂乱无章、难以理解、数量庞大。6.1.1数据分析简介4数据分析流程(3)数据处理对搜集的数据进行加工整理,形成对解决问题、数据分析有价值的数据。数据处理的方法包括数据清洗、数据转化、数据提取、数据计算等。(4)数据分析数据处理过后,就会依据分析目的和思路,选用合适的数据分析方法对数据开展分析。一般的数据分析可以通过excel完成,高级数据分析就要采用如专业分析软件spss、或python数据分析库等进行。6.1.1数据分析简介4数据分析流程(5)数据展现数据分析结果通过图、表进行可视化展现。一般情况下,能用图说明问题的就不要用表格,能用表格说明问题的不要用文字。(6)报告撰写数据分析报告把起因、过程、结果及建议完整的呈现出来,供决策者参考。报告通过对数据全方位的科学分析来评估运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。《大数据基础》在线开放课程组《大数据基础》.移动商务营销课程群与挖掘数据分析大数据基础Unit6《大数据基础》.移动商务营销课程群6.1.1数据分析简介6.1.2数据挖掘简介6.1.3pandas数据分析6.1数据分析与挖掘简介6.1.2数据挖掘简介1数据挖掘的定义数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。数据分析可以分为广义的数据分析和狭义的数据分析。上一节所讲的数据分析就是狭义的数据分析,而广义的数据分析还包括数据挖掘。6.1.2数据挖掘简介2数据分析与数据挖掘的比较

相同点数据分析与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识、有价值的信息,从而帮助业务运营、改进产品以及帮助企业做更好的决策,所以数据分析与数据挖掘一起构成了广义的数据分析。6.1.2数据挖掘简介2数据分析与数据挖掘的比较

目的的不同数据分析有明确的目标,先假设数据存在某种模型,然后通过统计分析方法来验证假设是否正确,或者有明确的统计指标,使用统计分析方法来得到这些指标值,从而结合业务得出结论。数据挖掘是事先对于数据中的模型难以假设,通过数据挖掘算法寻找未知的模型。6.1.2数据挖掘简介2数据分析与数据挖掘的比较

方法的不同数据分析会采用对比分析、分组分析、交叉分析、回归分析等常用统计分析方法。数据挖掘会采用决策树、关联规则、聚类、分类、神经网络等统计学、人工智能算法、机器学习算法等方法。6.1.2数据挖掘简介2数据分析与数据挖掘的比较

结果的不同数据分析一般都得到一些统计量结果,如总和、平均值等,这些数据都需要与业务结合进行解读,才能发挥出数据的价值。数据挖掘会输出挖掘到的模型,这个模型会被应用到对新的数据的预测上。6.1.2数据挖掘简介3数据挖掘的流程明确目的和思路数据收集数据处理构建模型模型评价模型发布数据分析流程:明确目的和思路->数据收集->数据处理->数据分析->数据展现->报告撰写6.1.2数据挖掘简介模型训练数据挖掘算法选择训练数据集模型评价测试数据集输入算法输入评估模型好不好?不好模型发布好新的数据输入预测结果输出4数据挖掘的模型创建过程《大数据基础》在线开放课程组《大数据基础》.移动商务营销课程群与挖掘数据分析大数据基础Unit6《大数据基础》.移动商务营销课程群6.1.1数据分析简介6.1.2数据挖掘简介6.1.3pandas数据分析6.1数据分析与挖掘简介6.1.3pandas数据分析1统计方法

Pandas库是进行数据预处理的强有力工具,也是开展数据分析的强有力工具。Pandas的DataFrame或Series对象都提供了大量的统计方法,用于实现数值型数据的各类型统计运算,注意这些方法都自动忽略缺失值。

常见的统计方法有统计个数count、最大值max、最小值min,总和sum、平均值mean,方差var和标准差std等。例如:data=pd.Series([2,3,5,7,11,13,17,19])

data.mean()6.1.3pandas数据分析2分组统计

前面的统计方法能够让我们对Series类型的一列数值型数据有个比较笼统的认识,但要呈现丰富的描述性数据分析,就需要开展分组统计。

分组统计需要有一个被分组的数据集,主要是数值类型的Series对象,分组统计还需要选择合适的标签作为分组键,作为分组键的数据会选用能够呈现类别的Series对象。6.1.3pandas数据分析2分组统计

如图所示,图中最左侧两列数据分别是分组键和待分组数据,分组统计需要经过拆分、应用、合并3个步骤:

第一步,根据分组键进行拆分,将同一个键的数据合并成小的数据集。

第二步,根据分析需要,对每个小的数据集选用一个统计分析方法,这就是应用,最终,每个小的数据集各会得到一个统计值。

第三步,最后是合并,将各组的统计值合并在一起。6.1.3pandas数据分析2分组统计pandas的DataFrame或Series对象都提供了方法groupby用于处理分组,返回一个DataFrameGroupBy或SeriesGroupBy对象,它的基本格式为:

DataFrame.groupby(by,….)或Series.groupby(by,…)其中DataFrame或Series对象是待分组的数据集,都能调用方法groupby,方法内的参数by是分组键。例如:data=pd.Series([0,5,10,5,10,15,10,15,20])key=pd.Series([‘A’,‘B’,‘C’,‘A’,‘B’,‘C’,‘A’,‘B’,‘C’])data.groupby(key).sum()《大数据基础》在线开放课程组《大数据基础》.移动商务营销课程群与挖掘数据分析大数据基础Unit6《大数据基础》.移动商务营销课程群6.2.1数据挖掘算法分类6.2.2数据挖掘算法典型应用6.2数据挖掘常用算法6.2.1数据挖掘算法分类1数据挖掘算法概述在数据挖掘的模型创建过程中,数据挖掘算法在模型训练中起到了非常重要的作用。国际权威的学术组织theIEEEInternationalConferenceonDataMining(ICDM)在2006年12月评选出了数据挖掘领域的十大经典算法:C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,NaiveBayes,和CART。其实参加评选的18种算法,随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。

还有很多数据挖掘算法在特定场合下发挥着作用。6.2.1数据挖掘算法分类是指对数据的若干特征与若干标签之间的关联性进行建模的过程。包括分类、回归两大类算法。例如:描述一个人的身高、体重是特征、是否肥胖是标签。有监督学习是指对只带若干特征而不带任何标签的数据进行建模,去分析数据本身的内在特点和结构。包括聚类、降维两大类算法。例如:只描述一个人的身高和体重。无监督学习介于有监督学习和无监督学习之间,通常用在数据标签不完整的情况。包括了半监督分类、半监督回归、半监督聚类、半监督降维算法。

半监督学习2数据挖掘常用算法的分类6.2.1数据挖掘算法分类3有监督学习算法划分分类回归12有监督学习算法划分分类任务中,标签都是离散值。比如决策树算法、朴素贝叶斯算法等。回归任务中,标签都是连续值。比如线性回归算法等。6.2.1数据挖掘算法分类4无监督学习算法划分聚类降维12无监督学习算法划分聚类任务中,没有标签,主要是将数据分成不同的组别。如kmeans聚类算法等。降维任务,主要是为了用更简洁的方式表示数据。如主成分分析等。《大数据基础》在线开放课程组《大数据基础》.移动商务营销课程群与挖掘数据分析大数据基础Unit6《大数据基础》.移动商务营销课程群6.2.1数据挖掘算法分类6.2.2数据挖掘算法典型应用6.2数据挖掘常用算法6.2.2数据挖掘算法典型应用问题描述:已知某银行的一批用户数据,涉及贷款申请情况,包含年龄、是否有工作、是否有房子、信用等级等4个特征,而是否允许贷款申请(只有两个离散值,Yes或No)构成了1个标签。当有一个新的贷款申请者提供了4个特征的值,请构建模型预测是否会允许贷款?1有监督学习之分类算法案例6.2.2数据挖掘算法典型应用问题描述:已知坐标系的点的坐标(x,y)表示的分别是面积为x的房屋的销售价格是y。现有一批点表示不同面积的房屋的销售价格。当有一个新的房屋面积为X,请构建模型预测销售价格Y?(注:房屋面积是特征、价格是标签,且价格是连续值。)2有监督学习之回归算法案例6.2.2数据挖掘算法典型应用问题描述:如果坐标系的点的坐标(x,y)仍旧表示的分别是面积为x的房屋的销售价格是y。x,y都看成特征。现有一批点表示不同面积的房屋销售价格时,那么,可以通过什么方式将这批房屋分成3组呢?(注:x,y都是特征,没有标签)3无监督学习之聚类算法案例6.2.2数据挖掘算法典型应用4无监督学习之降维算法案例问题描述:已知某银行的一批用户数据,包含年龄、是否有工作、是否有房子、信用等级等4个特征,没有标签。假设为了减少分析的复杂度和减少存储容量,试分析能否在保留较大的有效信息的情况下,删除一个字段?6.2.2数据挖掘算法典型应用5用scikit-Learn实现KNN分类应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论