版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Excel可视化及R语言上海市优质在线课程配套教材会计信息系统——基于数据科学设计第二章01大数据“大数据(bigdata)”是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的定义凡是可以通过电子技术手段记录的东西都可以作为数据,这就充分扩大了数据的范围。多样化大数据,顾名思义,首先就是要“大”。海量化海量数据的产生,提出了及时处理的需求。高速化和价值化大数据的定义数据体量的局限性:大数据的特点之一即海量数据,数据量越大,能够涵盖的不同可能性就越多,因此最终的分析结论误差越小。数据的结构化限制:大数据能够添加更多非结构化数据,如图片、文本、音频、视频等,通过多种渠道收集更多的信息,能够覆盖的范围更广。数据计算的方式和计算速度限制:因为数据量的限制,传统的数据计算方法相对单一,且速度较慢。而大数据的出现,使得数据不再是静止状态,任何在服务器上的数据都能尽可能多地发挥它的价值。传统意义的数据分析vs大数据分析02数据准备数据准备《数据挖掘:R语言实战》(黄文,王正林,2014)帮我们归纳总结常见的数据挖掘过程(如图2-2-1所示)。了解企业所对应的市场,确定研究目标,对不同源头的数据进行整合和清理,提高数据的可分析性。也就是我们常说的数据清理(DataCleaning)。数据集成在对原数据完成数据集成后,要为研究目标选定相关数据。数据选择在选定相关数据字段后,对选定字段进行二次清理,检查字段的完整性和一致性,并对需要进行格式转换的数据进行补充和调整。数据预处理数据准备03数据分析数据分析主要由统计学、机器学习和数据可视化三部分组成。所有的数据分析最终都需要通过数据可视化的方式展现出来,它能够将相对复杂的数据转化成容易理解的方式展现给所有人,可以说,数据可视化是一种数据视觉的表达方式,它利用图形、表格、图像等手段将数据的特征和规律表现出来,辅助我们对数据进行更好的了解,并从杂乱无章的数据里获取重要的信息和知识。数据分析数据分析《大数据可视化》(何光威,刘鹏,张燕,2018)为我们展现了数据可视化的领域模型,如图2-2-14所示。数据:聚焦于数据的采集、清理、预处理、分析、挖掘;图形:聚焦于光学图像的接受、信息提取、加工变换、模式识别及存储显示;可视化:聚焦于将数据转换成图形,并进行交互处理。数据分析Excel作为传统的数据分析工具,在日常工作中,能够将适量处理后的原数据用快速简洁的方式展现出来一定规律并得出分析结论。本小节将会对Excel数据透视表以及用公式作图分析进行简单讲解,使用的数据来源为:EPR沙盘模拟数据SalesDataSAP。Excel的数据分析以及可视化Excel公式作图案例数据透视表虽然可以根据需求制作需要的图表,但却存在一定的局限性,并且缺乏一定的稳定性,当后台增加或减少字段和数据时,透视表需要重新更新后才可继续运行。Excel的数据分析以及可视化IF:条件判断,IF(logicaltest,[valueif_trueJ,[valueiffalse])。SUMIF:条件求和,SUMIF(range,eriteria,sum
range)。SUMIFS:多条件求和,SUMIFS(sumrange,criteriarangel,criterial,[criteria_range2,criteria2],…)。COUNTIF:条件求个数,COUNTIF(range,criteria)。IFERROR:使用IFERROR函数可捕获和处理公式中的错误,IFERROR(value,value_if_error)。Excel的数据分析以及可视化数据可视化主要是借助图形化手段,清晰有效地传达与沟通信息。数据分析师是数据师的一种,指的是不同行业中专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。可视化软件是一整套商业智能(BusinessIntelligence)解决方案。可视化软件工具利用条形的长度反映数据的变化,适用于多个项目或多个指标的对比分析。条形图利用柱子的高度反映数据的变化,可以同时展现多个维度的数据变化,纵向展示维度数据差异,横向展示对比分析。柱状图可视化软件反映部分和整体数据变化,适用于展示每一部分数据的占比,但是数据种类不宜过多,数据占比差距太小也不适合。饼图和圆环图可展示数据之间的相关性,横轴和纵轴设置不同维度的数据。散点图和气泡图可直观地对目标/KPI的进度进行衡量,在圆弧内显示当前的进度值。仪表图可视化软件表格以逻辑序列的行和列展示所包含相关数据的网格,包括表头和明细数据行。可以通过条件格式,设置列/行数据的字体、图标、数据条等外观。可视化软件可视化软件相较于QlikSense,更被熟识的是QlikView,它在BI的开发软件排名中,和Tableau一起名列前茅,由此可见Qlik的产品质量在BI软件中是屈指可数的。作为敏捷型桌面软件,QlikSense以免费的形式(Desktop版)发布于2014年,它简洁明了的图形风格很好地突出了数据的主要内容,能够导入的文件格式也相对比较丰富。QlikSenseR语言是一种计算机编程语言,就像大家耳熟能详的C语言、CI+语言一样,需要通过写代码来操作,由RossIhaka和RobertGentleman创建。但是它不仅仅是一种计算机语言,它是为统计而生的,它更注重数据挖掘与分析、统计建模、数据可视化等。也就是说,它是一套由数据、计算和图表展示整合起来的软件,其中包括有效的数据存储、处理能力,完整的数组计算操作符,成体系的统计数据模型分析,以及对应分析出来的图形。R语言是一种相对简单,且完善、有效的统计编程语言。R语言在目前的市场上,可以把数据挖掘工具分成企业应用版和开源版,其中常用的SPSS、SAS等均为企业应用版。R语言,作为一款开源的数据工具,对于数据工程师们来说,需要大量算法和拓展包,以及对不同领域进行数据分析建模。它作为编程语言,拥有近12000个可用扩展包,均来自不同领域,涵盖了从统计计算到机器学习、从金融数据分析到生物化学信息等方面的内容,可以说是一个海纳百川的统计软件。R语言的开源性、广泛的拓展包,使它具备了足够的灵活性和时效性。R语言R语言的下载与安装R语言的安装方式也非常简单,仅有70MB的安装包,对操作环境也没有特定要求。R语言的案例分析1.数据源导入;2.数据的维度和量度;3.数据建模分析一回归分析。R语言R语言打开链接后,单击“CRAN",如图2-3-41所示。R语言选择对应国家的链接,如图2-3-42所示。R语言根据不同的计算机系统选择对应的版本,如图2-3-43所示。R语言单击“installRforthefirsttime”,如图2-3-44所示,页
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育心理学能力检测试卷A卷附答案
- 2024年度山西省高校教师资格证之高等教育法规模考模拟试题(全优)
- 2024年柔性树脂版项目资金筹措计划书代可行性研究报告
- 2024年全国注册安全工程师安全生产法律知识考试题库(含答案)
- 三年级数学计算题专项练习及答案集锦
- 2024年车辆购买协议模板
- 2024限量啤酒销售协议模板
- 2024年度日本商业协议模板集锦
- 2024企业间紧急无偿借款协议样本
- 2024年度毕业生见习就业协议范本
- 2024至2030年海上风电智能运维行业市场需求与竞争战略分析报告
- 中学生法律知识竞赛考试题库200题(含各题型)
- 公园保洁服务投标方案
- 食品保质期延长技术研究
- 初中数学试题大全(六十九)尺规作图难题
- 2024-2030年中国索道缆车市场运行状况与未来经营模式分析报告
- 高一思想政治上册2024-2025学年达标测试试卷及答案部编版
- SHT+3413-2019+石油化工石油气管道阻火器选用检验及验收标准
- 09BJ13-4 钢制防火门窗、防火卷帘
- 初二广东省深圳市道德与法治上册期中测试试题及答案
- 古诗词诵读《江城子-乙卯正月二十日夜记梦》公开课一等奖创新教学设计统编版高中语文选择性必修上册
评论
0/150
提交评论