




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务大数据分析
导论目录项目一
数据分析基础项目二
大数据分析算法项目三
创业实践:数据采集与整理
项目四
创业实践:构建数据模型项目五
创业实践:认识客户价值项目六
创业实践:数据可视化项目七
数字化创新创业实践项目一数据分析基础项目一数据分析基础任务一大数据分析基础知识
1.大数据分析的几对概念
1.1机器学习与深度学习
1.2监督学习与无监督学习
1.3训练集、验证集和测试集
2.大数据分析流程
2.1.数据分析标准流程
2.2.数据分析标准流程的案例解析3.大数据分析方法概览
4.本书主要使用的大数据分析工具
4.1.PowerBI简介
4.2.Python简介
4.3.Orange3.0主要功能1.大数据分析的几对概念1.1机器学习与深度学习1.机器学习机器学习是人工智能在近期最重要的发展之一。机器学习的理念是,不将智能看作是给机器传授东西,而是机器会自己学习东西。2.深度学习深度学习是目前关注度很高的一类算法,深度学习(DeepLearning,DL)属于机器学习的子类。它的灵感来源于人类大脑的工作方式,是利用深度神经网络来解决特征表达的一种学习过程。人工智能、机器学习、深度学习关系如图所示。1.大数据分析的几对概念1.2监督学习与无监督学习通过建立模型进行自我学习,那么学习方法有哪些呢?(1)监督学习监督学习就是训练机器学习的模型的训练样本数据有对应的目标值,监督学习就是通过对数据样本因子和已知的结果建立联系,提取特征值和映射关系,通过已知的结果,已知数据样本不断的学习和训练,对新的数据进行结果的预测。(2)无监督学习无监督学习跟监督学习的区别就是选取的样本数据无需有目标值,我们无需分析这些数据对某些结果的影响,只是分析这些数据内在的规律。(3)半监督学习半监督学习是监督学习和无监督学习相互结合的一种学习方法,通过半监督学习的方法可以实现分类、回归、聚类的结合使用。(4)强化学习强化学习是一种比较复杂的机器学习方法,强调系统与外界不断的交互反馈,它主要是针对流程中不断需要推理的场景,比如无人汽车驾驶,它更多关注性能。它是机器学习中的热点学习方法。1.大数据分析的几对概念1.3训练集、验证集和测试集1.训练集(trainset)用于训练有监督模型,拟合模型,调整参数,选择入模变量,以及对算法做出其他抉择;2.测试集(testset)用于评估训练出的模型效果,但不会改变模型的参数及效果,一般验证模型是否过拟合或者欠拟合,决定是否重新训练模型或者选择其他的算法;3.验证集(validationset)因为训练集和测试集均源自同一分布中,随着时间的流逝,近期样本的分布与训练模型的样本分布会有变化,需要校验训练好的模型在近期样本(验证集)是否有同样的效果,即模型的稳定性、鲁棒性、泛化误差。2.大数据分析流程大数据特点5个V:数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。数据分析工具各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷地实现数学建模,快速响应分析需求。传统分析在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛。常规分析揭示数据之间的静态关系;分析过程滞后;对数据质量要求高。随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据分析的手段和方法更加丰富。数据挖掘就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。同时将统计学和计算机技术等多学科进行结合,揭示数据之间隐藏的关系将数据分析的范围从“已知”扩展到“未知”,从“过去”推向“将来”。商务智能一系列以事实为支持,辅助商业决策的技术和方法,曾用名包括专家系统、智能决策等,一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成对数据分析的体系化管理,数据分析的主体依然是数据挖掘。大数据技术从多种类型的数据中,快速获取知识的能力及数据挖掘技术的衍生。数据可视化大数据时代,展示数据可以更好辅助理解数据、演绎数据。2.1数据分析标准流程(图)2.大数据分析流程(1)业务理解(2)数据理解(3)数据准备(4)建立模型(5)评估模型(6)部署2.1数据分析标准流程(图)2.大数据分析流程(1)业务理解(2)数据理解(3)数据准备(4)建立模型(5)评估模型(6)部署2.2数据分析标准流程的案例解析案例:农夫山泉用大数据卖矿泉水2.大数据分析流程在大数据时代,数据挖掘算法是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。一般来说,大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、人工神经网络等,如图所示。这些方法从不同的角度对数据进行挖掘,从而生产数据产品,产生数据价值。3.大数据分析方法概览(2)回归分析。(3)聚类。3.大数据分析方法概览分类算法示意图
回归算法示意图
聚类算法示意图回归分析反映了数据库数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。回归分析聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。聚类分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。分类3.大数据分析方法概览关联规则算法示意图
神经网络算法示意图关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性,非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。神经网络方法(1)Python概要Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性。1)Python是一种解释型语言:这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。2)Python是交互式语言:这意味着,您可以在一个Python提示符,直接互动执行写你的程序。3)Python是面向对象语言:这意味着Python支持面向对象的风格或代码封装在对象的编程技术。4)Python是初学者的语言:Python对初级程序员而言,是一种伟大的语言,它支持广泛的应用程序开发,从简单的文字处理到WWW浏览器再到游戏。(2)Python发展历史(3)Python特点1)易于学习。Python有相对较少的关键字,结构简单,和一个明确定义的语法,学习起来更加简单。2)易于阅读。Python代码定义的更清晰。3)易于维护。Python的成功在于它的源代码是相当容易维护的。4)一个广泛的标准库。Python的最大的优势之一是丰富的库,跨平台的,在UNIX,Windows和Macintosh兼容很好。5)互动模式。互动模式的支持,您可以从终端输入执行代码并获得结果的语言,互动的测试和调试代码片断。6)可移植。基于其开放源代码的特性,Python已经被移植(也就是使其工作)到许多平台。7)可扩展。如果你需要一段运行很快的关键代码,或者是想要编写一些不愿开放的算法,你可以使用C或C++完成那部分程序,然后从你的Python程序中调用。8)数据库。Python提供所有主要的商业数据库的接口。9)GUI编程。Python支持GUI可以创建和移植到许多系统调用。10)可嵌入。你可以将Python嵌入到C/C++程序,让你的程序的用户获得“脚本化”的能力。4.本书主要使用的大数据分析工具PowerBI是一种商业分析解决方案,可帮助对数据进行可视化、在组织中共享见解、或将见解嵌入应用或网站中。连接到数百个数据源,并使用实时仪表板和报表对让数据变得生动。PowerBI简介01Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。由荷兰人GuidovanRossum于1989年底发明,第一个公开发行版发行于1991年。像Perl语言一样,Python源代码同样遵循GPL(GNUGeneralPublicLicense)协议。Python核心团队计划在2020年停止支持Python2;从2019年1月1日开始,任何新的功能版本都只支持Python3。Python简介02Orange的组件包括:数据(Data):包含数据输入、数据保存、数据过滤、抽样、插补、特征操作以及特征选择等组件,同时还支持嵌入Python脚本。可视化(Visualize):包含通用可视化(箱形图、直方图、散点图)和多变量可视化(马赛克图、筛分曲线图)组件。模型(Model):包含一组用于分类和回归的有监督机器学习算法组件。评估(Evaluate):交叉验证、抽样程序、可靠性评估以及预测方法评估。无监督算法(Unsupervised):用于聚类(k-means、层次聚类)和数据降维(多维尺度变换、主成分分析、相关分析)的无监督学习算法。另外,还可以通过插件(add-ons)的方式为Orange增加其他的功能(生物信息学、数据融合与文本挖掘。添加的方法是点击“Options”菜单下的“Add-ons”按钮,打开插件管理器。4.本书主要使用的大数据分析工具Orange是一个开源的数据挖掘和机器学习软件。Orange基于Python和C/C++开发,提供了一系列的数据探索、可视化、预处理以及建模组件。Orange3.0主要功能03项目一数据分析基础任务二准备你的数据分析能力
1.基本概念辨析
2.常见的离散型随机变量的分布
2.1 等概率分布
2.2 伯努利分布
2.3 二项分布
2.4 几何分布
2.5 超几何分布
2.6 泊松分布
3.常见的连续型随机变量的分布
3.1 正态分布
3.2 指数分布
1.1离散型随机变量可以逐个列举出来的变量。如能够用我们日常使用的量词可以度量的取值,比如次数,个数,块数等都是离散型随机变量。比如抛硬币、掷骰子、买彩票等。1.2连续型随机变量无法逐个列举的变量。无法用量词度量,且取值可以取到小数2位,3位甚至无限多位的时候,那么这个变量就是连续型随机变量。比如正态分布(也称为高斯分布)、指数分布等。1.3概率函数其实,无论是离散型还是连续型随机变量,基础性的概率函数概念只有两个,根据国内教材的普遍性称谓,在此我们可以统一称为概率分布函数和概率密度函数。1.基本概念辨析2.1等概率分布顾名思义,等概率分布是指每一个可能出现情况的概率取值都是相等的。比如抛硬币、抛骰子等,一般将等概率分布称为“古典概型”。2.常见的离散型随机变量的分布2.2伯努利分布伯努利分布,也叫0-1分布或两点分布。凡是随机试验只有两个可能的结果,常用伯努利分布描述,如产品是否格、人口性别统计、系统是否正常、电力消耗是否超负荷等等。2.3二项分布二项分布,也叫n重伯努利分布,是指反复多次重复伯努利实验,比如重复抛骰子计算某个点出现几次的概率问题,射击的命中次数和命中率问题,一批种子的发芽率问题,药物治疗病人是否有效的问题,产品的不合格率问题等都要用到二项分布。2.常见的离散型随机变量的分布四个二项分布图2.常见的离散型随机变量的分布2.4几何分布几何分布也是以伯努利分布为基础
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑物产权抵押合同
- 人教版历史与社会九年级上册第二单元第一课《第一个社会主义国家的建立和发展 》教学设计
- 公证合同范本
- TCATIS 028-2024 零信任能力成熟度模型
- 初中生物课堂合作学习模式的实践与革新:基于实证的深度剖析
- 第10课 美图浏览-滚动条和列表框 教学设计-2023--2024学年清华大学版(2012)初中信息技术九年级上册
- 七年级生物上册第二单元生物体的结构层次第二章细胞怎样构成生物体第四节单细胞生物习题4新版新人教版
- 七年级生物上册第一单元生物和生物圈第一章认识生物第二节调查周边环境中的生物习题3新版新人教版
- Unit 5 Topic 2 Section B 教学设计 -2024-2025学年仁爱科普版英语八年级下册001
- Unit6 There are four seasons in a year(教学设计)-2024-2025学年人教精通版英语六年级上册
- 钻机的基础知识介绍
- ICU重症患者康复护理
- 简单词考研英语5500单词表
- 金茂入职前的在线测评题
- 广东省佛山市2024年中考英语模拟试卷(含答案)
- ISO14644国际标准(中文版)
- DB22T 1189.2-2011 无公害农产品 天麻 第2部分:种子与种麻生产技术规程
- DL-T5024-2020电力工程地基处理技术规程
- 2024社工(初)《社会工作实务》考试题库附答案
- 2024年兰州市高三诊断考试(一诊)数学试卷(含答案)
- 办公耗材采购服务方案(技术方案)
评论
0/150
提交评论