商务数据分析课件:商务数据分析框架_第1页
商务数据分析课件:商务数据分析框架_第2页
商务数据分析课件:商务数据分析框架_第3页
商务数据分析课件:商务数据分析框架_第4页
商务数据分析课件:商务数据分析框架_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据分析框架商务数据分析框架商务数据分析框架分为六个模块,分别为问题明确、数据理解、数据预处理、模型建立、模型评价和模型发布。这是一个明确商业目的,进行数据的收集、整理、加工和分析,提炼出有价值信息的过程。

1.问题明确问题明确是最开始同时也是最重要的一个环节,这一环节的确定严重影响着后续工作是否有意义。在数据分析之前明确数据对象是谁,数据分析的目的是什么,解决什么样的业务问题。

2.数据理解数据理解包括数据收集和统计描述。数据收集是按照第一环节的问题和分析思路,有目的性地收集、整合相关数据的过程,它是数据分析的重要基础。常见的数据收集渠道有内部渠道和外部渠道。数据规模和数据灵活性也在不断变化,从简单的数值数据到文本数据再到音频、视频数据均可以收集到。数据的统计描述主要是对数据绘制图表进行统计分析,简单地分析数据的数量和质量,判断收集到的数据能否满足问题的分析目的,以及发现哪些数据值得进一步分析。虽然统计分析比较简单,但它可以实现很多功能。

3.数据预处理数据预处理是对收集到的数据继续进行加工、整理,以便开展后期的模型建立,它是数据分析必不可少的阶段。这一阶段是比较复杂同时也是较为占用时间的,但它必不可少,在一定程度上影响了数据质量的保证以及后期模型的表现。数据预处理主要包括数据清洗、数据变换、数据集成、数据规约和特征选择等。

4.模型建立模型建立是数据分析的核心步骤,通过具体的模型,对数据进行分析,发现数据中隐藏的规律关系和模式。模型建立首先要进行模型选择,根据不同的业务问题需求在众多模型中选择出最适合的模型、最合适的参数配置。建立模型实际上就是找到在这个模型的情境下输入和输出之间的关系模式。需要观察已有的数据,使用已有的一些常用关系模式对数据进行拟合,建立模型。

4.模型建立(1)数据集、训练集、验证集、测试集数据集:数据集合,模型的建立有两方面的考虑:其一是模型数据的维度,其二是数据的数量。训练集:用于建立模型的数据集。验证集:用于调整模型参数、对模型的能力进行初步评价的数据。测试集:用于评价已经建立的模型的表现。

4.模型建立(1)数据集、训练集、验证集、测试集数据集:数据集合,模型的建立有两方面的考虑:其一是模型数据的维度,其二是数据的数量。训练集:用于建立模型的数据集。验证集:用于调整模型参数、对模型的能力进行初步评价的数据。测试集:用于评价已经建立的模型的表现。

4.模型建立(2)数据划分方法根据样本的大小不同可以做出不同的划分选择,但是测试集必须

保证未知并且保持与训练集、验证集的独立性。

4.模型建立(2)数据划分方法留出法将所有数据按照一定比例分为互斥的两部分在分割数据的时候,需要保证这两部分的数据分布是尽可能一致的。使用留出法时,一般需要进行若干次随机划分并重复进行实验评估后取平均值,然后将其作为最终的评估结果。交叉验证法将数据均匀地分为大小相似且互斥的k份数据子集,在每次训练时,取其中的一份作为测试集其余的k-1份作为训练集。进行k次训练和测试,得到k个测试结果,对这k个测试结果取平均,将其作为最后的测试结果。交叉验证法评估结果的稳定性在很大程度上与k有关,通常也叫作“k折交叉验证”。

4.模型建立(3)过拟合、欠拟合与调参误差在使用训练集拟合输入和输出之间的关系时,总会存在误差,这种在训练模型时产生的误差叫作训练误差或者经验误差,在训练集之外的测试数据上进行预测产生的误差叫作泛化误差。建模的最终目标并不是使训练误差小,而是使模型在测试数据上的泛化误差更小,即建立一个可以被广泛应用在其他数据集上的模型。过拟合模型过多地学习到了仅存在于训练样本中的关系,由于这些关系在其他样本中可能是不存在的,模型在其他样本上的表现将远不如在训练样本上的表现,即泛化误差大。原因:学习能力过于强大,建立了复杂度过高的模型。解决方法:在构建模型时对模型进行控制和修剪欠拟合模型没有表达出样本中普遍存在的关键关系模式,导致在训练集上的训练误差都较大。原因:学习能力过于低下。解决方法:通过增加训练迭代次数

4.模型建立(3)过拟合、欠拟合与调参调参:对模型进行参数的配置在模型的训练过程中需要根据训练集进行参数设置,这些在训练过程中确定的参数称为普通参数。模型的有些参数需要人工设定,被称为超参数。

一般调参和模型的选择通常是在验证集上进行的,多次使用验证集进行不断调参并监控模型是否出现过拟合的情况,最终得到表现最好的模型,用于测试集的评估。

4.模型建立(4)有监督学习与无监督学习有监督学习一些模型建立的目的是给数据打上“标签”,当构建模型时使用的训练集必须要存在这样的标签,才能在特征和标签之间建立联系。学习时有“正确答案”无监督学习使用不带标签的数据建立模型,得到了我们想要获得的信息,这种学习任务称为无监督学习。学习时无“正确答案”

5.模型评价模型评价主要是指对模型在测试集中的泛化性能进行评估。不同类型的模型使用不同的评价标准。相同类型的模型在不同的评价标准上的表现可能不同。在具体的研

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论