



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
I《大数据分析》课程作业:分析一家企业运用的数据挖掘方法目录TOC\o"1-2"\h\u18391《大数据分析》课程作业:分析一家企业运用的数据挖掘方法 1197101大数据概述 1230601.1大数据 1187231.2大数据的特点 2136172三只松鼠运用的大数据挖掘方法 242922.1预测 3318802.2关联分析 3257822.3聚类 3299362.4偏差检测 4185323结语 426196参考文献 4摘要:在现在这样一个互联网的时代,不仅是数据的数量量和种类多,而且每时每刻还在产生着大量的新数据。三只松鼠利用大数据和新技术,洞察新生代消费行为变化,通过精准的数据分析,比消费者更“懂”消费者。本文岁了三只松鼠运用的大数据挖掘方法展开了分析。关键词:大数据;三只松鼠;数据挖掘1大数据概述1.1大数据大数据并非最近才出现的新概念,早在20世纪就有人提出大数据的概念,但直到21世纪,它才逐渐从纯粹的信息技术中突破,并在我们的日常生活中起到各种作用。信息高速项目诞生于1993年,这是人类历史上浓墨重彩的一笔,它改变了世界各地信息的产生和传输,极大地促进了互联网的发展。2012年,一项旨在改善人民服务,快速准确定位信息的大数据研究项目被美国政府提出。数据分析的原料就是大数据;先要将所有的信息汇总才能得到大数据,然后才能建立数据仓库;有了数据仓库才能进行下一步的数据筛选,清洗掉冗余的数据;最后利用得到的有价值信息进行数据挖掘才能为企业做出有用的贡献。所以大数据是一切和大数据有关技术的基础所在。对于大数据的定义,主要有以下几种诠释:(1)高德纳公司:在加工后能产生数量更少且价值更高的数据就是大数据。(2)维克托.迈尔-舍恩伯格:大数据是一种方法,这种方法需要对所有的数据进行处理,而不是对部分的随机数据进行处理。(3)维基百科:大数据具有非常庞大的数据量,并且需要使用专门的工具对其进行加工。以上多个定义从各个维度解释了“大数据”的含义。尽管他们对大数据具体的诠释各异,但也有相同的一个点,那就是对大数据“大”的特点的解释,即它是指所有的。但当数据过大的时候,人们已经很难使用传统的一般数据统计方法对其进行处理,但实际生活中我们往往又需要在某个时间段内对其进行有效处理。1.2大数据的特点虽然大数据很大但并非不能计量,接下来我们将从各个角度去分析大数据的各种特征。1.2.1从数据变动的角度来看第一、大数据的数据量巨大,数据每天都在呈指数级的增长。第二、快速的输入和输出速率。第三、大数据的类型多。不仅有文本类数据(以结构形式存在的数据),还包非结构形式存在的数据比如图形、照片和声音等。1.2.2从大数据的将来走势和外部特征的角度来看第一、完整性。尽量从更多的源数据中提取有用和相关的数据,最重要的是“完整”,只有当数据源完整时有价值的数据信息才不会遗漏,有价值的信息才能被挖掘出来进行分析和研究。因此相关数据源必须要是全部的。第二、复杂性。大数据的原始数据是充满了各种冗余信息的,只有通过一些方法手段并投入一定的时间和精力才能将这些冗余信息给消除,获得我们真正需要的有价值的信息。第三、数据之间的相关性。由于大数据的复杂性,因此人们需要找到一种数据之间的关联性,用以清洗大数据,这也是人们在大数据领域需要重点研究的课题。1.2.3从大数据概念的角度来看第一、动态性。大数据时刻都在变化着,这个变化是内容和数量上的双重变动。第二、非结构化。非结构化是大数据的特征之一,随着互联网的普及和互联网技术的发展,出现了各式各样的非结构化数据,例如图形、图片、电子邮件等,都是非结构化的数据。第三、及时性。由于大数据是动态变化的,因此这个瞬间和上个瞬间以及下个瞬间的数据都是不同的。2三只松鼠运用的大数据挖掘方法从技术角度上看,数据挖掘就是从海量的、不完整的、有噪声的、模糊的、随机的实际应用数据中提取隐藏的、未知、但具有潜在价值信息的过程。从商业角度上看,数据挖掘又是一种先进的处理信息的技术。以往,收集数据的目的主要用在科学研究上面,同时,当时的计算能力也很薄弱,对于海量数据的分析能力十分有限。现在,计算能力的提升使得数据分析不再是局限于科学研究方面,对于企业而言,利用数据挖掘技术处理客户数据,分析出有价值的东西,进而提升企业效益。通过数据挖掘的技术,可以对还未发生的行为作出预测,做出具有科学依据的决定。其主要的目标是从海量的数据中发现隐藏的,具有价值的信息,其主要功能分为五类:2.1预测通过数据挖掘技术,我们可以在庞大数据库中发现有价值的信息,找出发展的规律,进而对未来事物的发展做出的预测。预测通常需要借助一些方法才能实施,例如分类方法或估计方法。换句话说,需要使用这些方法来推导预测不确定变量的模型。而与之相关的预测是对未来的预测,这是不确定的,并且结果存在多种可能性。只有经过一段时间,我们才能知道真实结果和原始预测的准确性。2.2关联分析寻找海量数据中的相关性,假如几个数据之间存在某种规律,那么就可以说这几个数据之间有关联。关联分析中常用的技术是关联规则和列序模式。前者是找出在同一个事情中出现不同项目的相关性;后者则是寻找出事件之间时间上的相关性。关联规则用于寻找数据值之间可能的关联,即事务与其他事务之间的相互依赖和关联。简单来说,由于是对“什么和什么会同时出现”的研究,所以在实体店或在线电商的产品推荐系统中经常会用到关联规则,通过用户消费记录来分析关联规则.用户群体的共同消费特征,最具代表性的案例就是沃尔玛的“啤酒和纸尿裤”。关联规则分析可以在零售、快消品、电子商务、金融、搜索引擎、智能推荐和超市捆绑营销、银行客户交叉销售分析、搜索词推荐或其他异常等领域产生很大的影响。等待识别、基于兴趣的实时新闻推荐。通过分析交易数据库中不同产品之间的关系,企业可以识别特定用户的购买行为特征和用户的消费偏好,然后进行有针对性的营销活动,例如选择合适的页面布局、产品推荐等。大多数现有研究提供个性化推荐,以挖掘用户购买的产品和用户可能喜欢的产品之间的规则。根据用户的网购行为分析指标,可以将购买用户购买的品牌(产品)与品牌(产品)关联起来,或者通过选择优质用户来研究品牌与探索的品牌之间的相关性。我们从品牌的角度研究品牌关系,推荐用户喜欢的品牌,进行个性化营销,帮助电商进行精准营销活动。关联规则不受聚类、神经网络等算法的影响,有自己独立的分析系统,可以通过一些对聚类或神经网络没有意义的变量来挖掘相关性,如品牌、品类等。关联规则算法。2.3聚类是指将数据依据一定的规则分为若干个不同的群组。组与组之间存在很大的区别,而组内的数据差别不大。这种方法主要在客户细分方面应用。通过细分可以将具有相似特征的客户分为一个群体,例如性别、年龄等。并根据结果制定针对性的营销方案。近年来,随着数据集的日益庞大,相比于硬件方面提升已经趋近极限外,不断的修改完善我们的聚类算法成为新的研究重点,不同侧重点的算法被不断地提出改进,以适应不同形势下的需求。聚类分析算法主要分为四个方面:基于划分的聚类算法、基于层次聚类算法、基于密度的聚类算法、基于网络的聚类算法。2.3.1基于划分的聚类算法基于划分的聚类算法,常见于机器学习应用上,它的原理是通过将设置微分函数,首先将输入数据集进行划分,其次在使用这个结果通过不断的循环迭代,持续的改进,最终对目标函数进行优化。2.3.2基于层次的聚类算法这类算法首先计算每个样本之间的距离,并对类中最近的点进行分类,然后计算类之间的距离,将最近的类分类为一个大类,继续合并,直到它成为一个类。其主要方法有,计算最短距离,最长距离,中间距离等。这类算法的优点在于可以不用设置分组数量,组与组之间的关系能够清楚的表述。但是自身也有一定的局限性。其一是在分析的过程中,形成上一层次的组后,在其后的分析过程中不能自己调试;其二是该算法在分析大量繁多的数据时候效率不高。2.3.3基于密度的聚类算法主要是根据密度来对数据进行判断,与基于相似度的算法不同,这类算法可以通过对数据分布的不同密度,将其分割成不同的组类并将其分成不同的形状,同时也能够很好的清除噪声。2.3.4基于网格的聚类算法这类算法最重要的功能是可以将计算的效率大幅度的提升,将网络单元的数量大小作为时间复杂度的计算,但由于自身的局限性,无法对于斜侧边界聚类进行检测。2.4偏差检测偏差检测是指对异常的数据进行检测,发现其内在的问题,进而解决问题。例如在银行的交易数据中发现异常的交易记录,可能是存在犯罪行为,所以银行为了安全起见,就要去研究产生这些异常记录的内在原因,减小风险。3结语现在是大数据的时代,三只松鼠在这样的时代背景下被迫也要转型。三只松鼠如果想要继续存活下去保持自身的竞争能力,就必须拥抱互联网融合大数据技术,这时未来企业生存发展的必然之路。参考文献[1]金加卫,苗慧勇.大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025人教版(PEP)三年级下册期末模拟卷(含答案含听力原文无音频)
- 工业园区绿色低碳化改造方案
- 工业废弃地生态修复实践案例
- 工业旅游的发展现状及前景分析
- 工业机器人技术培训及故障排除
- 工业污染防治与生态保护
- 工业生产中热风炉的节能技术应用案例
- 工业污染对森林环境的影响与修复策略
- 工业污染防治的技术与策略研究
- 工业自动化设备维护与管理系统
- 香水广告案例分析
- 2024年北京中考记叙文阅读专题02写 人记事散文(含答案解析)
- 2024年西部机场集团青海机场有限公司招聘笔试参考题库含答案解析
- 李辛演讲-现代人的压力与管理
- 自评报告中如何展示自己在疾病防控和公共卫生方面的能力
- 基于人工智能的CAD模型自动生成技术研究
- 无忧传媒商业计划书
- 【物流运输合同】公司物流运输合同
- 建设施工隐患判定和标准化检查清单
- (完整)仰斜式挡土墙计算图(斜基础)
- 热轧带钢板形控制
评论
0/150
提交评论