自行车市场前景预测分析报告_第1页
自行车市场前景预测分析报告_第2页
自行车市场前景预测分析报告_第3页
自行车市场前景预测分析报告_第4页
自行车市场前景预测分析报告_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2010015223信管1001文东自行车市场前景预测分析报告问题分析影响自行车购买的因素有很多,如何根据销售历史数据找出目标客户群,是生产和销售部门收益、获利,实现其价值的一大难题;怎样通过对历史销售数据进行分析,提炼出有效信息来帮助锁定目标客户群已经成为实现其利益最大化的一大法宝。研究目标通过对问题实质性的分析和提炼,运用数据挖掘(DataMining)技术来实现对现有数据的分析,挖掘出有价值的信息,用来指导产品市场的投放和根据预测对未来的发展强劲做出展望,为决策提供支撑依据。数据分析评估1、Microsoft决策树分析Microsoft决策树算法是一种适合预测性建模的分类算法,该算法支持离散属性和连续属性的预测。对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态;具体地说,该算法标识与可预测列相关的输入列。对于连续属性,该算法使用线性回归确定决策树的拆分位置,如果有多个列设置为可预测列,或输入数据包含设置为可预测的嵌套表,则该算法将为每个可预测列分别生成一个决策树。Microsoft决策树算法通过在树中创建一系列拆分来生成数据挖掘模型。这些拆分以“节点”来表示。每当发现输入列与可预测列密切相关时,该算法便会向该模型中添加一个节点。该算法确定拆分的方式不同,主要取决于它预测的是连续列还是离散列。Microsoft决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Microsoft决策树算法通过获取模型的近似后验分布,将Bayesian方法应用于学习因果交互模型。决策树算法使用不同的方法来计算最佳的树。

所使用的方法具体取决于任务,任务可为线性回归、分类或关联分析。

一个模型可包含多个针对不同可预测属性的树。

而且每个树可包含多个分支,具体取决于数据中包含的属性和值的量。

特定模型中生成的树的形状和深度取决于所使用的计分方法以及其参数。

参数更改还会影响节点的拆分位置。决策树算法高效快速且可伸缩,可轻松实现并行化,这意味着所有处理器均可协同工作,共同生成一个一致的模型。

这些特征使决策树分类器成为了理想的数据挖掘工具。使用1000个调查数据建立数据模型后得到的决策树分类如下:※图中矩形表示一个拆分节点,矩形中文字是拆分条件。※矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个样本数据,颜色最深。※节点中的条包含三种颜色,蓝色、红色和绿色,分别表示此节点中的事例不购买和购买自行车以及缺省值的比例。通过对数据样本运用决策树分析后可得出在总数为1000的的样本数据中,出去需要预测的300个数据外,购买自行车的比例为34.58%,不买自行车的比例为35.37%。所有样本数据经过第一次基于地区的拆分后,所在地区为NorthAmerica的实例总计508个,购买自行车的为85个,不购买自行车的为123个;所在地区不在NorthAmerica的实例总计492个,购买自行车的为261个,不购买自行车的为231个;同时此时的拆分节点颜色较深,表明影响是否购买自行车的主要影响因素是地域。样本数据基于该拆分节点又进行第二次拆分,孩子(Children)不等于5的实例总计451,其中购买自行车的为255个,不购买的为196个;孩子(Children)等于5的实例总计41,其中购买自行车的为6个,不购买的为35个。接着可以通过依赖关系网络来分析购买自行车与否的影响因素,依赖关系网络如下图:通过运用Microsoft决策树算法进行建模分析可以得出一下两条结论:(1)、所在地域(NorthAmerica)是人们购买自行车与否的关键影响因素;(2)、同一地域的人们购买自行车的能力还与家庭中孩子的个数(5个)有关。2、Microsoft聚类分析Microsoft聚类分析算法首先标识数据集中的关系并根据这些关系生成一系列分类。

散点图是一种非常有用的方法,可以直观地表示算法如何对数据进行分组,如下面的关系图所示。

散点图可以表示数据集中的所有事例,在该图中每个事例就是一个点。分类对该图中的点进行分组并阐释该算法所标识的关系。Microsoft聚类分析算法提供两种创建分类并为分类分配数据点的方法。第一种方法是

K-means

算法,这是一种较难的聚类分析方法。

这意味着一个数据点只能属于一个分类,并会为该分类中的每个数据点的成员身份计算一个概率。第二种方法是“期望值最化”(EM)方法,这是“软聚类分析”方法。

这意味着一个数据点总是属于多个分类,并会为每个数据点和分类的组合计算一个概率。聚类分析模型标识数据集中可能无法通过随意观察在逻辑上得出的关系。

例如,在逻辑上可以得知,骑自行车上下班的人的居住地点通常离其工作地点不远。

但该算法可以找出有关骑自行车上下班人员的其他并不明显的特征。

在下面的关系图中,分类A表示有关通常开车上班人员的数据,而分类B表示通常骑自行车上班人员的数据。聚类分析算法不同于Microsoft决策树算法等其他数据挖掘算法,区别在于无需指定可预测列便能生成聚类分析模型。

聚类分析算法严格地根据数据以及该算法所标识的分类中存在的关系定型。聚类分析算法使用迭代技术将数据集中的事例分组为包含类似特征的分类。

在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。通过聚类分析我们可以很方便地得出目标群体的潜在市场。将样本数据运用聚类分析建立如下分类关系网:通过分类关系网可以得出购买自行车最强的分类分别是分类10、分类2,次之为分类1、分类7。因此可以得出在未来上述分类中的人们是自行车销售的目标客户。在确定了未来自行车销售的目标客户后,我们还可以通过分类特征(以分类10为例)来分析目标客户自身购买力的一些影响因素,如下图所示:可以看出,在目标客户群体分类10中,影响顾客购买力的因素有很多,其中关键影响因素有所在地区、婚姻状况、收入、职业等,如在欧洲地区的单身男性,收入在10000~35175之间,购买自行车的比例概率很大;然而生活在欧洲地区的单身女性、活动范围在0~1Miles,她们购买自行车的概率则低很多,大约在50%左右;对于有2个孩子的家庭,收入在35176~56140之间的持家者来说,购买自行车的概率大概在30%左右。与此同时还可以通过对比分析两个较强分类的差异,从中挖掘出有力信息,分类对比如下(分类10&分类2):如收入在48887~170000之间的人群则倾向于分类10,因此对于他们应以分类10的分类特征来分析目标客户自身购买力的一些影响因素;而收入在10000~48886之间的人群则倾向于分类2,因此对于他们应以分类2的分类特征来分析目标客户自身购买力的一些影响因素。逐步缩小分类,锁定目标客户。在聚类分析中还可以通过分类剖面图来进行更加详细的分析,分类剖面图如下:通过运用Microsoft聚类分析我们可以得出如下结论:(1)、通过分析我们可以得出最有可能购买自行车的目标群体的条件组合,利于决策者做出市场决策,锁定客户群体:欧洲地区的单身男性,收入在10000~35175之间;欧洲地区的单身女性、活动范围在0~1Miles;(2)、通过分类关系网可以得出尚存在的潜在客户(分类1和分类7),客户群体在欧洲和大洋洲。3、Microsoft神经网络分析Microsoft神经网络算法组合输入属性的每个可能状态和可预测属性的每个可能状态,并使用定型数据计算概率。之后,可以根据输入属性,将这些概率用于分类或回归,并预测被预测属性的结果。使用Microsoft神经元网络算法构造的挖掘模型可以包含多个网络,这取决于用于输入和预测的列的数量,或者取决于仅用于预测的列的数量。一个挖掘模型包含的网络数取决于挖掘模型使用的输入列和预测列包含的状态数。 神经网络模型必须包含一个键列、一个或多个输入列以及一个或多个可预测列。在多层感知器神经网络中,每个神经元可接收一个或多个输入,并产生一个或多个相同的输出。

每个输出都是对神经元的输入之和的简单非线性函数。

输入将从输入层中的节点传递到隐藏层中的节点,然后再从隐藏层传递到输出层;同一层中的神经元之间没有连接。

如果像逻辑回归模型那样没有隐藏层,则输入将会直接从输入层中的节点传递到输出层中的节点。使用Microsoft神经网络算法的数据挖掘模型与为该算法的可用参数指定的值紧密相关。这些参数定义如何对数据进行采样、数据在每个列中的分布方式或预期分布方式以及何时调用功能选择以限制在最终模型中使用的值。该算法将确定挖掘模型支持的网络的数目以及复杂性。

如果挖掘模型包含一个或多个仅用于预测的属性,算法将创建一个代表所有这些属性的单一网络。

如果挖掘模型包含一个或多个同时用于输入和预测的属性,则该算法提供程序将为其中的每个属性构建一个网络。算法提供程序通过接受之前保留的定型数据集并将维持数据中的每个事例的实际已知值与网络的预测进行比较,即通过一个称为“批学习”的进程来同时迭代计算整个网络的所有输入的权重。

该算法处理了整个定型数据集后,将检查每个神经元的预测值和实际值。

该算法将计算错误程度(如果有错误),并调整与神经元输入关联的权重,并通过一个称为“回传”的过程从输出神经元返回到输入神经元。

然后,该算法对整个定型数据集重复该过程。

该算法支持多个权重和输出神经元,因此这个共轭梯度算法用于引导定型过程来分配和计算输入权重。

有关共轭梯度算法的探讨不属于本文档的讨论范围。神经网络分析可以通过选定相关的影响因素及其取值,来分析其他影响因子的作用。如上图所述,年龄在25~36岁之间,没有孩子的北美家庭他们大多偏向于不购买自行车,只有收入在77093~35186之间,教授职位,活动范围在2~5Miles的人们才购买自行车,这就分析到在北美这中潜在客户的大前提下,存在一定特征的人们任然不购买自行车,从而为决策者多提供了一份信息,避免盲目投产造成的经济损失。神经网络分析结果表明,通过确定相关属性的值,该分析模型能够定性计算出其他可预测的状态值,可用于市场假设分析。4、MicrosoftNaiveBayes分析MicrosoftNaiveBayes算法是一种可以快速生成并且适合预测性建模的分类算法。该算法仅支持离散属性或离散化属性。而且在给定可预测属性的情况下,它将所有输入属性都当做独立属性。与其他Microsoft算法相比,该算法所需的运算量小,因而能够快速生成挖掘模型,以发现输入列和可预测列之间的关系。可以使用该算法进行初始数据探测,然后根据该算法的结果使用其他运算量较大、更加精确的算法创建其他挖掘模型。在给定可预测列的各种可能状态的情况下,MicrosoftNaiveBayes算法将计算每个输入列的每种状态的概率。使用MicrosoftNaiveBayes查看器可以直观地观察算法分布状态的方式。MicrosoftNaiveBayes查看器可列出数据集中的每个输入列。如果提供了可预测列的每种状态,它还会显示每一列中状态的分布情况。可以利用该视图确定对区分可预测列状态具有重要作用的输入列。例如,在此图中,如果某一客户的通勤距离为一至二英里,则该客户购买自行车的概率是0.387,不购买自行车的概率是0.287。在本示例中,该算法使用从诸如上下班路程之类的客户特征得出的数字信息来预测客户是否会购买自行车。通过MicrosoftNaiveBayes依赖关系网络图分析课得出,影响购买自行车的关键因素有三个,分别是:收入、地区和职业。显然,MicrosoftNaiveBayes模型分析比Microsoft决策树更准确,提供的信息更全面,更具有价值。我们还可以通过MicrosoftNaiveBayes的属性特征,来进一步有针对性、有目的地对所研究的的是否购买自行车进行相关属性分析。如我们选择购买自行车,由此可观察到具备什么样特征属性的人群具有购买自行车的能力,结果显示:Incomes:39050~71062Region:Europe这类人他们购买自行车的概率为45%左右。而Incomes<39050Region:Pacific、NorthAmerica Occupation:Professional、Clerical、SkilledManual、Management这类人他们购买自行车的概率大概为23%左右。通过属性对比可以观察到购买自行车与不购买自行车的群体之间你的差异,如上图结果显示:Incomes:39050~71062Region:Pacific偏向于购买自行车,而Region:NorthAmericaIncomes<39050这类群体则不偏重于构面自行车。以属性配置文件可以得出个影响因素在具体的影响因子中所占的比重,如下图所示:下面是对收入(Income)的数字展现形式:ʴД״̬ל̥(ȫ)NoYes?ȱʧ󐡼/TD>10003543463000Income39050-710624820.3310.4540.6930.000Income<390502850.4120.3120.1030.000Income71062-971111290.1470.1160.1230.000Income97111-127371620.0680.0660.0500.000Income>=127371420.0420.0520.0300.000Incomeȱʧ00.0000.0000.0000.000OccupationProfessional2760.2200.2830.3330.000OccupationSkilledManual2550.2180.1850.3800.000OccupationClerical1770.2120.2340.0700.000Occup

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论