




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据应用案例分析目录大数据概概念1大数据处处理办法法2大数据应应用案例例31大数据概概念大 数据据时时 代到到来随着智能能手机的的普及,网民参参与互联联网产品品和使用用各种手手机应用用的程度度越来越越深,用用户的行行为、位置、甚至身体体生理等等每一点点变化都都成为了了可被记记录和分分析的数数据,数数据量呈呈现爆炸炸式增长长。地球上至至今总共共的数据据量:在2006年,个人人用户才才刚刚迈迈进TB时代,全球一共共新产生生了约180EB的数据;据IDC研究机构构预测:到2020年,整个个世界的的数据总总量将会会增长44倍,达到到35.2ZB(1ZB=10亿TB)!1PB=250字节1EB=260
2、字节1ZB=270字节GB在2011年,这个个数字达达到了1.8ZB。TBPBEBZB01大数据的构成大数据=海量数数据(交交易数据据、交互互数据)+针对对海量数数据处理理的解决决方案海量交易易数据:企业内部部的经营营交易信信息主要包括联机交易数据和联机分分析数据据,是结结构化的的、通过关系数据库进行管理和访问的静态态、历史史数据。通过这这些数据据,我们们能了解解过去发生了什什么。海量交互互数据:源于Facebook、Twitter、微博、及其他他来源的的社交媒媒体数据构构成。它它包括了了呼叫详详细记录录CDR、设备备和传感感器器信息、GPS和地理理定位映映射数据据、通过过管理文文件传输输Ma
3、nageFileTransfer协议议传送的的海量图图像文件件、Web文本和点点击流数数据、科科学信息息、电子子邮件等等等。可可以告诉诉我我们未来来会发生生什么。海量数据据处理:大数据的的涌现已已经催生生出了设计用于数据密集型处理的架架构。例例如具有有开放源源码、在在商品硬硬件群中中运行的的ApacheHadoop。注:大数数据不仅仅指指的是数数据量庞庞大,更更为重要要的是数数据类型型复杂想驾驭这这庞大的的数据,我们必必须须了解大大数据的的特征。02大数据4V特 征03结构化数数据、半半结构化化数据和和非结构化数数据如今的数数据类型型早已不不是单一一的文本本形式,网络日志志、音频、视视频、图图
4、片、地地理位置置信息等等,对数数据的处处理能能力提提出了更更高要求求实时获取取需要的的信息比如:在在客户每每次浏览览页面,每次下下订单过过程中都都会对对用户户进行实实时的推推荐,决决策已经经变得实实时数据量巨巨大全球在2010年正式进进入ZB时代,IDC预预计到2020年,全球球将总共共拥有35ZB的数据量量沙里淘金金,价值值密度低低虽然数据据量很大大,但是是价值密密度较低低,如何何通过强强大的的机器器算法更更迅速地地完成数数据价值值“提纯纯”,是是目前大大数数据亟待待解决的的难题大数据产品市场价值值解决方案案转化1.海量(Volume)3.速度度(Velocity)4.价值(value)2.
5、多样(Variety)2大数据处处理办法法用 户画画像像 体系系01每个企业业都不可可以避免免的要对对用户进进行画像像,用户户画像的的提出,根本上上是源于于企业对对用户认认知的需需求。产品经理理,需要要了解用用户的特特征,对对产品进进行功能能的完善善。内容容运营人人员,需需要筛选选目标用用户,对对内容进进行精准投投放。活跃程度度如何?年龄分布布、区域域分布是是什么样样的?消费习惯惯和特征征是什么么?公司在哪哪?对什么感感兴趣?常去的商商圈是哪哪儿?赢利点在在哪?职业是什什么?常住地在在哪儿?购买能力力如何?基本特征征?用 户画画像像 体系系02驾驶行为为数据将将构建精精准的车车险用户户画像性别
6、年龄国籍地理位置置开车地点点职业驾照类别别开车频率率开车原因因健庩状况况医疗条件件感知力学习周期期消费习惯惯民族特征征教育水平平婚姻状态态共用车辆辆情况生活方式式使用药物物情况酒驾经历历疲劳驾驶驶收入情况况碰撞事故故车辆维修修犯罪记录录违章驾驶驶记录驾驾驶驶时间通过对用用户不同同维度的的大数据据分析,最终得得出可执执行的业业务决策策。基本属性行为习惯购买能能力心理特特征社交网网络兴趌爱爱好基于机器器学习的的数据挖掘掘及分类类基本识别别流程03训练样本本数数据源分词特征选择择特征权重重计算模型训练练是模型评估估是否通过过待预测类类别别文本本库文本打上上类类别标标签否训练练及及测测试试过过程程预测
7、测过过程程训练生成成的的模型训练生成成的的模型待预测类类别别文本原原始始库数据预处处理训练样本本库数据预处处理a.去除除营销博博文干扰扰b.去除提及及人的干干扰()c.去除除如门户户的作者者的干扰扰大 数据据的 处理理04数据去去重空值处处理数据去去噪格式统统一对齐融合合融合信息息数数据库融合信息息数数据库里程数据据工况数据据充电数据据行驶轨迹迹车辆信息将空值更更改为对对应应的默认认值使用UGC算法法去除无用数据据使用基于于密度的的聚类去去除异常数据据将多源异异构数据据转换为为统统一数据据表达形形式去除异常的数数据项汇聚多源源异构数数据中中的一一致部分分数据挖掘掘分类的的过程3大数据应应用案例
8、例大数据是是做好音音乐平台台的一把把利器01爽歪的麻麻雀,在在电线杆杆上裸睡睡削个椰子子皮,你你却TM给个梨撒米拉带带带,哇哇嘎哇嘎嘎哎哟想听的歌歌记不起起名字?呀马大叔与小舅舅四斤大豆豆,三根根皮带艾薇,莎莎啦啦,艾瑞噢噢喔噢喔喔,手刹刹多情咱切切抱刘继继芬钢铁锅,含眼泪泪喊修瓢瓢锅啊瑞宁瑞宁瑞宁瑞宁瑞宁产 品竞竞争争04*听歌进进入社交交化时代代,听歌歌单、听听歌看评评论成为为流行听听歌行为为;*个性化化推荐已已覆盖多多数听歌歌用户,越来越越多用户户通过个个性化推推荐发现现好音乐乐;*听歌进进入多元元化时代代,民谣谣、电音音、二次次元音乐乐崛起;*独立音音乐人迅迅速崛起起,社交交互动助助推
9、音乐乐人涨粉粉;*90后后已成为为音乐消消费主力力人群;*用户付付费意识识明显提提高,付付费会员员数和数数字专辑辑售卖增增长迅猛猛;*综艺影影视对音音乐的影影响依旧旧强大,热门歌歌曲中7成来源源于综艺艺或影视视;*偶像流流行乐保保持高热热度,欧欧美歌曲曲受众提提升;*音乐市市场正在在构建一一种新的的评价体体系,评评论数成成为歌曲曲热度重重要评价价指标;*男歌手手受喜爱爱度高于于女歌手手,女性性歌迷消消费群体体经济崛崛起;截至2016年7月呈现2亿音乐乐用户听听歌行为为以及2万音乐乐人活跃跃行为用户分析析05目标用户细分群体用户特征需求音乐消费者学生年轻,时间宽裕,喜欢新鲜,爱评论爱分享爱展示,
10、有个性1、个性化推荐音乐2、对音乐有评论等互动行为3、分享展示喜欢的音乐白领时间碎片化,有一定压力,会关注娱乐界动态4、迅速找到喜欢的音乐5、推荐潮流音乐6、有明星动态IT从业者压力大,需要更多消遣和心理慰藉时尚人士热爱音乐和潮流,有个性7、分享自己的口味主要需求求(音乐乐消费者者)1、播放音乐2、发现音乐(喜欢的、特别的的、潮流流的)3、展示自自我,有有基于音音乐的互互动。目标用户户:热爱音乐乐,对音音乐有较较高需求求的高素素质年轻轻人群。用户分析析05目标用户户:热爱音乐乐,对音音乐有较较高需求求的高素素质年轻轻人群。通过数据据可以发发现网易易云音乐乐用户群群中19-30岁年龄龄段用户户最
11、多,占比达达到48%,整整体用户户群偏年年轻化。职业分布布:学生生和IT从业者者占据绝绝大用户户群,企企业中高高层管理理人员所所占比例例最少,另外的的专业工工作人员员所占比比例区别别不大,用户群群体整体体受教育育程度普普遍较高高。05目标用户细分群体用户特征需求音乐内容产生者音乐人/DJ作品找不到渠道,希望建立个人品牌,更好的运营个人品牌1、传播自己的音乐,让更多的人知道2、与粉丝有互动歌手有一定知名度,有粉丝基础3、进一步提高知名度,吸引更多粉丝唱片公司商业机构,营利是最重要的目的。4、提高收入音乐爱好者喜欢分享音乐,评论音乐5、希望得到更多展示(专栏)主要需求求(音乐乐内容产产生者)1、宣
12、传音音乐(新歌、特别的的口味)2、宣传个个人品牌牌(演播厅厅、采访访直播、互动等等)3、盈利(版权收收费、会会员收费费等)用户分析析目标用户户:(内容产产生者是是活跃音音乐社区区的关键键)用户分析析05用户分析析0502推荐歌单单3种推荐荐维度和和2种推推荐算法法通过微信信微博等等社区软软件进行行传播分分享网易音乐乐编辑人人员人工工推荐的的歌单和和电台。朋友推荐荐人工推荐荐通过大数数据分析析计算后后的智能能推荐歌歌单智能推荐荐以人为本本算法以歌为本本算法“喜欢这这首歌的的人,也也喜欢XX”喜欢:点点击“喜喜欢”、评论、下载、收藏到到歌单的的人所听歌曲曲的标签签在其它它歌曲也也包含则则推荐该该歌曲02计 算公公式式潜在因子子(LatentFactor)算法:这种算算法是在在NetFlix(没没错,就就是用大大数据捧捧火纸纸牌屋的那家家公司)的推荐荐算法竞竞赛中获获奖的算算法,最最早被应应用于电电影推荐荐中。这这种算法法在实际际应用中中比现在在排名第第一的邰原原朗所所介绍的的算法误误差(RMSE)会小小不少,效率更更高。我我下面仅仅利用基基础的矩矩阵知识识来介绍绍下这种种算法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 济南2025年山东济南市济阳区所属事业单位招聘初级综合类岗位44人笔试历年参考题库附带答案详解-1
- 湖南软件职业技术大学《软件质量控制与测试技术》2023-2024学年第二学期期末试卷
- 成都工业学院《云平台系统》2023-2024学年第二学期期末试卷
- 平顶山职业技术学院《建设工程造价A》2023-2024学年第二学期期末试卷
- 重庆电子工程职业学院《城乡规划原理修详设计》2023-2024学年第二学期期末试卷
- 江西应用工程职业学院《书籍形态设计》2023-2024学年第二学期期末试卷
- 扬州中瑞酒店职业学院《人工智能与大模型》2023-2024学年第二学期期末试卷
- 山东工艺美术学院《电脑立体设计》2023-2024学年第二学期期末试卷
- 青海高等职业技术学院《建筑施工组织及BIM应用》2023-2024学年第二学期期末试卷
- 济南幼儿师范高等专科学校《风景园林设计实验古典园林景观设计》2023-2024学年第二学期期末试卷
- 供应链韧性提升与风险防范-深度研究
- 基层医疗卫生服务能力提升考核试卷
- 化工原理完整(天大版)课件
- 2025年江苏连云港市赣榆城市建设发展集团有限公司招聘笔试参考题库附带答案详解
- 砥砺前行决心谱写华章
- 2025年开学教导处发言稿(5篇)
- 机电设备安装旁站监理方案
- 2025年度民政局离婚协议书范本模板官方修订2篇
- 《百达翡丽名表介绍》课件
- 《集装箱标识辨识》课件
- 2024年临床输血管理委员会年终的工作总结
评论
0/150
提交评论