大数据应用案例_第1页
大数据应用案例_第2页
大数据应用案例_第3页
大数据应用案例_第4页
大数据应用案例_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据应用案例分析目录大数据概念1大数据处理办法2大数据应用案例31大数据概念大数据时代到

来随着智能手机的普及,网民参与互联网产品和使用各种手机应用的程度越来越深,用户的行为、

位置、甚至身体生理等每一点变化都成为了可被记录和分析的数据,数据量呈现爆炸式增长。地球上至今总共的数据量:在2006

年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;据IDC研究机构预测:到2020

年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10

亿TB)!1PB=

2^50字节1EB=

2^60字节1ZB=

2^70字节GB在2011

年,这个数字达到了1.8ZB。TBPBEB ZB01大

成大数据

=海量数据(交易数据、交互数据)+针对海量数据处理的解决方案海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、微博、及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache

Hadoop。注:大数据

不仅仅指的是数据量庞大,更为重要的是数据类型复杂想驾驭这庞大的数据,我们必须了解大数据的特征。02大

4V特征03结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等,对数据的处理能力提出了更高要求实时获取需要的信息比如:在客户每次浏览页面,每次下订单过程中都会对用户进行实时的推荐,决策已经变得实时数据量巨大全球在2010年正式进入ZB

时代,IDC预计到2020年,全球将总共拥有35ZB

的数据量沙里淘金,价值密度低虽然数据量很大,但是价值密度较低,如何通过强大的机器算法更迅速地完成数据价值“提纯”,是目前大数据亟待解决的难题大数据产品市场价值解决方案转化1.

海量(Volume)3.速度(

Velocity)4.

价值(value)2.

多样(Variety)2大数据处理办法用户画像体系01每个企业都不可以避免的要对用户进行画像,用户画像的提出,根本上是源于企业对用户认知的需求。产品经理,需要了解用户的特征,对产品进行功能的完善。内容运营人员,需要筛选目标用户,对内容进行精准投放。活跃程度如何?年龄分布、区域分布是什么样的?消费习惯和特征是什么?公司在哪?对什么感兴趣?常去的商圈是哪儿?赢利点在哪?职业是什么?常住地在哪儿?购买能力如何?基本特征?用户画像体系02驾驶行为数据将构建精准的车险用户画像性别年龄国籍地理位置开车地点职业驾照类别开车频率开车原因健庩状况医疗条件感知力学习周期消费习惯民族特征教育水平婚姻状态共用车辆情况生活方式使用药物情况酒驾经历疲劳驾驶收入情况碰撞事故车辆维修犯罪记录违章驾驶记录驾驶时间通过对用户不同维度的大数据分析,最终得出可执行的业务决策。基本属性行为习惯购买能力心理特征社交网络兴趌爱好基于机器学习的数据挖掘及分类基本识别流程03训练样本数据源分词特征选择特征权重计算模型训练是模型评估是否通过待预测类别文本库文本打上类别标签否训练及测试过程预测过程训练生成的模型训练生成的模型待预测类别文本原始库数据预处理训练样本库数据预处理a.去除营销博文干扰b.去除提及人的干扰(@)c.去除如门户的作者的干扰大数数据据的处处理理04数据去去重空值处处理数据去去噪格式统统一对齐融融合融合信信息数数据库库融合信信息数数据库库里程数数据工况数数据充电数数据行驶轨迹车辆信息将空值更改改为对对应的默认认值使用UGC算法去除除无用数据使用基于密密度的聚类类去除异常数据将多源异构构数据转换换为统统一数据表表达形式去除异常的数据据项汇聚多源异异构数据中中的一一致部分数据挖掘分分类的过程程3大数据应用用案例大数据是做做好音乐平平台的一把把利器01爽歪的麻雀雀,在电线线杆上裸睡睡削个椰子皮皮,你却TM给个梨撒米拉带带带,哇嘎哇哇嘎哎哟想听的歌记记不起名字字???呀马大叔与小舅舅四斤大豆,,三根皮带带艾薇,莎啦啦啦,艾瑞瑞噢喔噢喔喔,手刹多情咱切抱抱刘继芬钢铁锅,含含眼泪喊修修瓢锅啊瑞宁瑞宁瑞宁瑞宁瑞宁产品竞竞争04*听歌进入入社交化时时代,听歌歌单、听歌歌看评论成成为流行听听歌行为;;*个性化推推荐已覆盖盖多数听歌歌用户,越越来越多用用户通过个个性化推荐荐发现好音音乐;*听歌进入入多元化时时代,民谣谣、电音、、二次元音音乐崛起;;*独立音乐乐人迅速崛崛起,社交交互动助推推音乐人涨涨粉;*90后已已成为音乐乐消费主力力人群;*用户付费费意识明显显提高,付付费会员数数和数字专专辑售卖增增长迅猛;;*综艺影视视对音乐的的影响依旧旧强大,热热门歌曲中中7成来源源于综艺或或影视;*偶像流行行乐保持高高热度,欧欧美歌曲受受众提升;;*音乐市场场正在构建建一种新的的评价体系系,评论数数成为歌曲曲热度重要要评价指标标;*男歌手受受喜爱度高高于女歌手手,女性歌歌迷消费群群体经济崛崛起;截至2016年7月呈现2亿音乐用用户听歌行行为以及2万音乐人人活跃行为为用户分析05目标用户细分群体用户特征需求音乐消费者

学生年轻,时间宽裕,喜欢新鲜,爱评论爱分享爱展示,有个性1、个性化推荐音乐2、对音乐有评论等互动行为3、分享展示喜欢的音乐白领时间碎片化,有一定压力,会关注娱乐界动态4、迅速找到喜欢的音乐5、推荐潮流音乐6、有明星动态IT从业者压力大,需要更多消遣和心理慰藉

时尚人士热爱音乐和潮流,有个性7、分享自己的口味主要需求((音乐消费费者)1、播放音乐2、发现音乐(喜欢的、特特别的、潮潮流的)3、展示自我我,有基于于音乐的互互动。—目标用户::热爱音乐,,对音乐有有较高需求求的高素质质年轻人群群。用户分析05—目标用户::热爱音乐,,对音乐有有较高需求求的高素质质年轻人群群。通过数据可可以发现网网易云音乐乐用户群中中19-30岁年龄龄段用户最最多,占比比达到48%,整体体用户群偏偏年轻化。。职业分布::学生和IT从业者者占据绝大大用户群,,企业中高高层管理人人员所占比比例最少,,另外的专专业工作人人员所占比比例区别不不大,用户户群体整体体受教育程程度普遍较较高。05目标用户细分群体用户特征需求音乐内容产生者

音乐人/DJ作品找不到渠道,希望建立个人品牌,更好的运营个人品牌1、传播自己的音乐,让更多的人知道2、与粉丝有互动歌手有一定知名度,有粉丝基础3、进一步提高知名度,吸引更多粉丝唱片公司商业机构,营利是最重要的目的。4、提高收入音乐爱好者喜欢分享音乐,评论音乐5、希望得到更多展示(专栏)主要需求((音乐内容容产生者))1、宣传音乐乐(新歌、特特别的口味味)2、宣传个人人品牌(演播厅、、采访直播播、互动等等)3、盈利(版权收费费、会员收收费等)用户分析—目标用户::(内容产生生者是活跃跃音乐社区区的关键))用户分析05用户分析0502推荐歌单—3种推荐维维度和2种种推荐算法法通过微信微微博等社区区软件进行行传播分享享网易音乐编编辑人员人人工推荐的的歌单和电电台。朋友推荐人工推荐通过大数据据分析计算算后的智能能推荐歌单单智能推荐以人为本算算法以歌为本算算法“喜欢这首首歌的人,,也喜欢XX”喜欢:点击击“喜欢””、评论、、下载、收收藏到歌单单的人所听歌曲的的标签在其其它歌曲也也包含则推推荐该歌曲曲02计算公公式潜在因子((LatentFactor)算法法:这种算算法是在NetFlix(没没错,就是是用大数据据捧火《纸纸牌屋》的的那家公司司)的推荐荐算法竞赛赛中获奖的的算法,最最早被应用用于电影推推荐中。这这种算法在在实际应用用中比现在在排名第一一的@邰邰原朗所所介绍的算算法误差((RMSE)会小不不少,效率率更高。我我下面仅利利用基础的的矩阵知识识来介绍下下这种算法法。这种算法的的思想是这这样:每个个用户(user))都有自己

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论