第4章 信息分析工具_第1页
第4章 信息分析工具_第2页
第4章 信息分析工具_第3页
第4章 信息分析工具_第4页
第4章 信息分析工具_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息分析概论

(第二版)第4章信息分析工具信息分析概论(第二版)第4章信息分析工具信息分析工具的作用4.1信息分析工具的发展4.2信息分析工具的类型4.3信息分析工具的应用4.4信息分析工具的作用第一部分信息分析概论(第二版)信息分析概论(第二版)信息分析工具的重要地位提高效率增强效度提升信度加大深度多维可视化扩大广度信息分析工具的发展第二部分信息分析概论(第二版)信息分析概论(第二版)信息分析工具的发展阶段著名管理学家托马斯·达文波特于2013年在《哈佛商业评论》上发表了一篇题为《第三代分析工具》(Analytics3.0)的论文。该论文将信息分析的方法、技术和工具—分析工具的应用时代分为三个,即商务智能时代、大数据时代和数据富足供给时代。信息分析工具的发展阶段信息分析概论(第二版)信息分析工具的发展阶段——Analytics1.0Analytics1.0是商务智能时代(1950~2000)的主要信息分析技术、方法和工具。Analytics1.0中常用的工具软件为数据仓库及商务智能类软件,一般由信息分析师或商务智能分析师使用。其主要特点是:(1)分析活动滞后于数据的生成(2)重视结构化数据的分析(3)以对历史数据的理解为主要目的(4)注重描述性分析信息分析概论(第二版)信息分析工具的发展阶段——Analytics2.0Analytics2.0是大数据时代(2000~2020)的主要信息分析技术、方法和工具,一般由数据科学家使用。与Analytics1.0不同的是,Analytics2.0中采用了一些新兴信息分析技术,如Hadoop、Spark、NoSQL等大信息分析技术。其主要特点是:(1)分析活动与数据的生成几乎同步,强调信息分析的实时性(2)重视非结构化数据的分析(3)以决策支持为主要目的(4)注重解释性分析和预测性分析信息分析概论(第二版)信息分析工具的发展阶段——Analytics3.0Analytics3.0是数据富足供给时代(2020开始)的主要信息分析技术、方法和工具。与Analytics2.0不同的是,Analytics3.0中信息分析更为专业化。从技术实现和常用工具角度看,Analytics3.0将采用更为专业的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大信息分析技术。其主要特点是:(1)引入嵌入式分析(2)重视行业数据,而不只是企业内部数据(3)以产品与服务的优化为主要目的(4)注重规范性分析信息分析工具的类型第三部分信息分析概论(第二版)代码简洁易懂丰富的第三方库交互式分析支持跨平台性和可移植性可扩展性庞大的社区支持信息分析概论(第二版)开源工具Python和R是最常用的信息分析开源工具。其中,Python语言是一种解释性、交互式、动态类型语言,具有“优雅”“明确”“简单”的特点。对于信息分析而言,Python语言的优缺点是:优点运行速度慢安全性较低并行计算能力差内存消耗较高缺点信息分析概论(第二版)R语言与Python语言对照表

Python语言R语言设计者计算机科学家吉多·范·罗瑟(Guido

Van

Rossum)统计学家罗斯·艾卡(RossIhaka)和罗伯特·简特曼(RobertGentleman),设计目的提升软件开发的效率与源代码的可读性方便统计处理、信息分析及图形化显示设计哲学(源代码层次上)优雅、明确、简单(功能层次上)简单、有效、完善发行年19911995前身ABC语言、C语言和Modula-3语言S语言主要维护者PythonSoftwareFoundation(Python软件基金会)TheR-CoreTeam(R-核心团队)TheRFoundation(R基金会)主要用户群软件工程师/程序员学术/科学研究/统计学家信息分析概论(第二版)R语言与Python语言对照表

Python语言R语言可用性源代码的语法更规范,便于编码与调试可以用简单几行代码即可实现复杂的数据统计、机器学习和数据可视化功能学习成本曲线入门相对容易,入门后学习难度随着学习内容逐步提升入门难,入门后相对容易第三方提供的功能以“包”的形式存在可从PyPi下载以“库”的形式存在可从CRAN下载常用包/库数据处理:pandas科学计算:SciPy,NumPy可视化:matplotlib统计建模:statsmodels机器学习:sckikit-learn,TensorFlow,Theano信息分析工具集:tidyverse数据处理:dplyr,plyr,data.table,stringr可视化:ggplot2,ggvis,lattice机器学习:RWeka,caret常用IDE(集成开发环境)JupyterNotebook(iPythonNotebook)/Spyder/Rodeo/Eclipse/PyCharmRStudio、RGuiR与Python之间的相互调用在Python中,可以通过库RPy2调用R代码在R中,可以通过包rPython调用Python代码信息分析概论(第二版)商业工具常用于信息分析的商业工具有很多,如SPSSStatistics、IBMSPSSModeler、IBMSPSSAnalyticServer、IBMSPSSCatalyst、SASEnterpriseMiner、IBMDB2IntelligentMiner、DBMiner、OracleDataMining、MicrosoftSQLServerDataMining、AngossKnowledgeStudio和Weka等。信息分析工具的应用第四部分信息分析概论(第二版)数据读入数据理解数据准备算法选择及其超级参数的设置具体模型的训练用模型进行预测模型评价模型的应用与优化信息分析概论(第二版)基于Python的信息分析案例问题和数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论