




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
商务数据分析概述1数据分析的流程目录商务数据分析的基本概念2商务数据分析应用场景3数据分析工具4小结5数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。随着计算机技术的全面发展,企业生产、收集、存储和处理数据的能力大大提高,数据量与日俱增。而在现实生活中,需要把这些繁多、嘈杂的数据运用统计分析进行萃取、提炼,以此研究出数据的发展规律,然后帮助企业管理层做出决策。基本概念广义的数据分析包括狭义数据分析和数据挖掘。狭义的数据分析是指根据分析目的,采用描述性统计和图形可视化等分析方法,运用对比分析、分组分析、交叉分析和回归分析等分析策略,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个针对不同统计量的统计结果的过程。数据挖掘则是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。数据分析概念图中展示了广义数据分析的主要内容、分析方法、输出结果和总体目标。数据分析概念商务数据分析与一般的数据分析的不同之处在于,商务数据分析更为侧重商业场景。商务数据分析需要结合内外部数据深度剖析商业问题,基于具体的商业场景以及商业逻辑,使用数据作为原材料,对数据进行相应的逻辑处理与结构化处理。同时通过数据洞察商业问题,为企业战略及商业决策提供数据支持。商务数据分析概念1数据分析的流程目录数据分析的基本概念2商务数据分析应用场景3数据分析工具4小结5数据分析已经逐渐演化为一种解决问题的过程,甚至是一种方法论。虽然每个公司都会根据自身需求和目标创建最适合的数据分析流程,但数据分析的核心步骤是一致的。数据分析的流程需求分析一词来源于产品设计,主要是指从用户提出的需求出发,探索用户内心的真实意图,并转化为产品需求的过程。产品设计的第一步就是需求分析,也是最关键的一步,因为需求分析决定了产品方向,错误需求分析,会导致在产品实现过程中走入错误方向,对企业造成损失。数据分析中的需求分析也是数据分析环节的第一步和最重要的步骤之一,决定了后续的分析的方向、方法。数据分析中的需求分析主的要内容是根据业务的需要,结合业务背景和现有的数据情况,提出的数据分析需求的整体分析方向、分析内容,制定项目的分析目标,最终和需求方达成一致意见。需求分析数据是数据分析工作的基础,是指根据需求分析的结果提取、收集数据。数据来源主要有两种,即网络数据和本地数据。网络数据是指存储在互联网中的各类视频、图片、语音、文字等信息。本地数据则是指存储在本地数据库中的生产营销财务等系统的数据。本地数据按照数据时间又可以划分为两个类型:历史数据与实时数据。历史数据是指系统在运行过程中,历史遗存下来的数据,其数据量随系统运行时间增加而增长。实时数据是指最近一个单位时间周期(月、周、日、小时等)产生的数据。数据获取的常见方式有连接数据库和读取文件等,在数据分析过程中,具体使用哪种数据获取方式,依据需求分析的结果而定。数据获取探索性分析指的是指通过计算某些统计指标、绘制图表等手段,对样本数据集的结构和规律进行分析的过程。对数据进行探索性分析能够掌握数据的基本情况,揭示数据的分布特征和分布类型,把握数据的趋势和周期性,理解数据中蕴含的相关性,同时也有助于选择合适的数据预处理方法和建模方法。探索性分析数据预处理是指对数据进行数据合并、数据清洗、数据变换和数据标准化,使得数据可以直接用于分析建模过程。数据合并可以将多张互相关联的表格合并为一张表。数据清洗可以去掉数据中的重复、缺失、异常、不一致的数据。数据标准化可以去除属性间的量纲差异。数据变换则可以通过离散化、哑变量处理等技术满足后期分析与建模的数据要求。在数据分析的过程中,数据预处理的各个过程互相交叉,并没有明确的先后顺序。数据预处理构建模型是指通过回归、聚类、分类、关联规则、智能推荐等模型与算法发现数据中的有价值信息,并得出结论的过程,构建模型的方法按照目标不同可以分为几大类。如果分析目标是描述客户行为模式,可采用描述型数据分析方法,同时还可以考虑关联规则、序列规则、聚类等模型。预测型数据分析就是量化未来一段时间内,某个事件的发生概率。预测分析模型分为两类,即分类预测和回归预测。在常见的分类预测模型中,目标属性通常都是二元数据,例如,欺诈与否、流失与否、信用好坏等。在回归预测模型中,目标属性通常都是连续型数据,常见的有股票价格预测和违约损失率预测等。构建模型模型评价是指对已经建立的一个或多个模型,根据其模型的类别,使用不同的指标评价其性能优劣的过程。常用的回归模型的算法评价指标有平均绝对误差、均方误差、中值绝对误差、可解释方差值等。常用分类模型的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值(F1Value)、ROC和AUC等。常用的聚类模型评价指标有ARI评价法(兰德系数)、AMI评价法(互信息)、V-Measure评分、FMI评价法和轮廓系数等。模型评价应用是指将通过了正式应用数据分析的结果与结论应用至实际生产中的过程。根据需求的不同,应用阶段可以是一份包含了对现状具体整改措施的数据分析报告,也可以是将模型部署在生产系统中。在多数项目中,数据分析师提供的是一份数据分析报告或者一套解决方案,实际执行与部署的是需求方。应用1数据分析的流程目录数据分析的基本概念2商务数据分析应用场景3数据分析工具4小结5客户分析(CustomerAnalytics)主要是对客户的基本数据信息进行商业行为分析。首先界定目标客户,根据客户的需求、目标客户的性质、所处行业的特征以及客户的经济状况等基本信息,使用统计分析方法和预测验证法分析目标客户,提高销售效率。其次了解客户的采购过程,对客户采购类型和采购性质进行分类分析,从而制定不同的营销策略。最后还可以根据已有的客户特征,进行客户特征分析、客户忠诚分析、客户注意力分析、客户营销分析、客户收益分析。通过有效的客户分析能够掌握客户具体行为特征,将客户细分,使得运营策略达到最优,提升企业整体效益等。客户分析营销分析(SalesandMarketingAnalytics)囊括了产品分析、价格分析、渠道分析、广告与促销分析这4类分析。产品分析主要是竞争产品分析,通过对竞争产品的分析制定自身产品策略。价格分析又可以分为成本分析和售价分析,成本分析的目的是降低不必要成本,售价分析的目的是制定符合市场的价格。渠道分析目的是指对产品的销售渠道进行分析,确定最优的渠道配比。广告与促销分析则能够结合客户分析,实现销量的提升,利润的增加。营销分析社交媒体分析(SocialMediaAnalytics)是以不同社交媒体渠道生成的内容为基础,实现不同社交媒体的用户分析、访问分析、互动分析等。用户分析主要根据用户注册信息、登录平台的时间点和平时发表的内容等用户数据,分析用户个人画像和行为特征。访问分析是通过用户平时访问的内容,分析用户的兴趣爱好,进而分析潜在的商业价值。互动分析是根据互相关注对象的行为预测该对象未来的某些行为特征。同时,社交媒体分析还能为情感和舆情监督提供丰富的资料。社交媒体分析对用户行为进行监测,并对监测获取的数据进行分析,可以帮助企业更为深入了解用户的行为习惯,从而制定更为有效的策略。通过追踪分析用户的浏览路径,分析用户对于不同页面和不同内容的喜好程度,从而对网站结构和内容进行调整优化。通过分析用户的浏览历史,了解用户的习惯和偏好,从而制定针对不同用户的个性化推荐等。用户行为分析网站是否盈利成为网站是否能生存下去的主要问题,唯有盈利之后,才能真正的稳定发展。盈利是网站最初的运营目标,也网站运营的核心目标。围绕盈利这个目标对网站的运营进行市场化的调整,需要针对渠道、成本和收益3个方面进行分析。渠道分析主要根据渠道的引流数、发布的推广数等渠道数据分析渠道所能带来的运营效果。成本分析则是分析活动的预估成本、实际成本等数据评估运营的成本。收益分析则用参与人数、转化率、评分等数据,从用户、营收或者口碑等多种角度的收益评估运营的效果。网站运营分析身份信息泄露导致身份被盗用的事件发生率逐年增长,随之而来的是欺诈行为和交易的增多。公安机关、各大金融机构、电信部门可利用用户基本信息、用户交易信息、用户通话短信信息等数据,识别可能发生的潜在欺诈交易,做到提前预防未雨绸缪。以大型金融机构为例,通过分类预测对非法集资和洗钱的逻辑路径分析,找到其行为特征。聚类分析方法可以分析相似价格的运动模式,例如,对股票进行聚类,可能发现关联交易及内幕交易的可疑信息,监控多个用户的关联交易行为,为检查跨账号协同的金融诈骗行为提供依据。欺诈行为检测1数据分析的流程目录数据分析的基本概念2商务数据分析应用场景3数据分析工具4小结5目前主流的数据分析语言有Python、R、MATLAB三种程序语言。Python具有丰富和强大的库,它常被称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地连结在一起,是一门更易学,更严谨的程序设计语言。R语言则是用于统计分析,绘图的语言和操作环境,它是属于GNU系统的一个自由、免费、源代码开放的软件。MATLAB可进行矩阵运算、绘制函数与数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。常用数据分析工具三种语言均可以进行数据分析,下表从语言学习难易程度,使用场景,第三方支持,流行领域和软件成本5方面比较Python、R、MATLAB三种数据分析工具。常用数据分析工具
PythonRMATLAB语言学习难易程度接口统一,学习曲线平缓接口众多,学习曲线陡峭自由度大,学习曲线较为平缓使用场景数据分析、机器学习、矩阵运算、科学数据可视化、数字图像处理、Web应用、网络爬虫、系统运维等统计分析、机器学习、科学数据可视化等矩阵计算、数值分析、科学数据可视化、机器学习、符号计算、数字图像处理、数字信号处理、仿真模拟等第三方支持拥有大量的第三方库,能够简便地调用C、C++、Fortran、Java等其他程序语言拥有大量的包,能够调用C、C++、Fortran、Java等其他程序语言拥有大量专业的工具箱,在新版本中加入了对C、C++、Java的支持流行领域工业界>学术界工业界≈学术界工业界≤学术界软件成本开源免费开源免费商业收费目前还出现了许多基于Python二次开发的开源平台,如TipDM数据挖掘建模平台。它是基于Python引擎、用于数据分析的开源平台,采用B/S结构,用户不需要下载客户端,可通过浏览器进行访问。平台支持数据分析所需的主要过程:探索性分析(相关性分析、主成分分析、周期性分析等);数据预处理(特征构造、记录选择、缺失值处理等);构建模型(聚类模型、分类模型、回归模型等);模型评价(R-Squared、混淆矩阵、ROC曲线等)。用户可在没有Python编程基础的情况下,通过拖曳的方式进行操作,将数据输入输出、数据预处理、挖掘建模、模型评估等环节通过流程化的方式进行连接,以达到构建数据分析全流程的目的。常用数据分析工具结合不同数据分析工具的对比,可以发现Python是一门应用十分广泛的计算机语言,在数据科学领域具有无可比拟的优势。Python正在逐渐成为数据科学领域的主流语言。Python数据分析主要包含以下5个方面优势。语法简单精练,对于初学者来说,比起其他编程语言,Python更容易上手。有很强大的库,结合在编程方面的强大实力,可以只使用Python这一种语言去构建以数据为中心的应用程序。功能强大。从特性观点来看,Python是一个混合体。丰富的工具集使它介于传统的脚本语言和系统语言之间。Python不仅具备所有脚本语言简单和易用的特点,还提供了在编译语言中的高级软件工程工具。Python数据分析的优势不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具将会给企业带来非常显著的组织效益,并降低企业的运营成本。Python是一门胶水语言。Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。例如,Python的C语言API可以帮助Python程序灵活地调用C程序。这意味着用户可以根据需要给Python程序添加功能,或者在其他环境系统中使用Python。Python数据分析的优势NumPy是NumericalPython的简称,是一个Python科学计算的基础包。NumPy主要提供了以下功能。快速高效的多维数组对象ndarray。用于对数组执行元素级的计算以及直接对数组执行数学运算的函数。用于读写硬盘上基于数组的数据集的工具。线性代数运算、傅里叶变换以及随机数生成。用于将C、C++、Fortran代码集成到Python的工具。Python数据分析常用类库1.NumPy除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有另外一个主要作用,即作为在算法支架传递数据的容器。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效的多。此外,由低级语言(如C和Fortran)编写的库可以直接操作NumPy数组中数据,使用者无须进行任何数据复制工作。Python数据分析常用类库SciPy是一个基于Python的开源代码,是一组专门解决科学计算中各种标准问题域的模块的集合,特别是与NumPy、Matplotlib、IPython、pandas这些核心包一起使用。对于不同子模块有不同应用,如插值、积分、优化、图像处理和特殊函数等。Python数据分析常用类库2.SciPySciPy主要包含了8个模块,每个模块的内容如下表所示。Python数据分析常用类库模块名称简介egrate数值积分例程和微分方程求解器scipy.linalg扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能scipy.optimize函数优化器(最小化器)以及根查找算法scipy.signal信号处理工具scipy.sparse稀疏矩阵和稀疏线性系统求解器scipy.specialSPECFUN(这是一个实现了许多常用数学函数(如伽马函数)的Fortran库)的包装器scipy.stats检验连续和离散概率分布(如密度函数、采样器、连续分布函数等),各种统计检验方法,以及更好的描述统计法scipy.weave利用内联C++代码加速数组计算的工具pandas是Python的数据分析核心库,最初被作为金融数据分析工具而开发出来,因此pandas为时间序列分析提供了很好的支持。它提供了一系列能够快速便捷地处理结构化数据的数据结构和函数。Python之所以成为强大而高效的数据分析环境与它息息相关。pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如MySQL)灵活的数据处理功能。它提供了复杂精细的索引功能,以便便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。pandas将是本书中使用的主要工具。Python数据分析常用类库3.pandasMatplotlib是最流行的用于绘制数据图表的Python库,是Python的2D绘图库。最初由约翰·D·亨特(JohnD.Hunter,JDH)创建,目前由一个庞大的开发人员团队维护。它非常适合创建出版物上用的图表。Matplotlib操作比较容易,用户只需几行代码即可生成直方图、功率谱图、条形图、错误图和散点图等图形。Matplotlib提供了pylab的模块
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 煤矿炭窑峪煤业有限公司重大安全风险分析研判报告 ((无重大风险))
- 2021-2026年中国男士香水行业深度评估及投资规划建议报告
- 2025年针织时装面料项目可行性研究报告
- PE管项目立项报告
- 中国生物药行业市场调研及未来发展趋势预测报告
- 2025年耐磨钢精铸件行业深度研究分析报告
- 2024-2030年中国低压断路器行业市场深度研究及发展趋势预测报告
- 文化产业园可行性研究报告简版
- 中国嵌入式室内机项目投资可行性研究报告
- 关于重建桥梁的申请报告
- 情侣自愿转账赠与协议书范本
- DB14-T 3043-2024 黄土丘陵沟壑区水土流失综合治理技术规范
- 青岛西海岸新区2025中考自主招生英语试卷试题(含答案详解)
- 《气象学与气候学》全书电子教案B
- 生产设备更新和技术改造项目资金申请报告-超长期国债
- 江西省“振兴杯”信息通信网络运行管理员竞赛考试题库-上(单选题)
- DLT 5756-2017 额定电压35kV(Um=40.5kV)及以下冷缩式电缆附件安装规程
- 2023高考数学艺考生一轮复习讲义(学生版)
- 2024年江苏经贸职业技术学院单招职业适应性测试题库含答案
- 2024年连云港专业技术人员继续教育《饮食、运动和健康的关系》92分(试卷)
- 《短视频拍摄与制作》课件-2短视频前期创意
评论
0/150
提交评论