下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Eon-Cloud大数据平台介绍大数据技术Hadoop是目前大数据平台中应用率最高的技术,已成为行业内事实上的标准,特别是针对诸如文本、社交媒体订阅以及视频等半/非结构化数据。Hadoop两大核心技术HDFS 和 MapReduce,解决大数据的存储与计算2大数据技术(big data),指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,需要特殊的技术和工具在合理时间实现数据的获取、管理、处理、并整理成为帮助企业经营决策价值数据。大数据最核心的价值就是在于对于海量数据进行存储和分析。大数据特点3体量大Volume多样性Variety增长速度快Velocity价值密度低Value非结构化数
2、据的超大规模和增长占总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍数据类型多样化(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义价值密度低,大量的不相关信息对未来趋势的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)短时间范围内以TB级别增长实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据下的商业智能4传统BI结构化数据关系型数据库数据规模一般TB级集中式,数据向计算靠近批处理为主离线计算报表展示统计分析使用算法看数据大数据时代的BI半结构+非结构化数据+结构化数据集群、分布式文件系统数据规模
3、从数十TB到PB级分布式,计算向数据靠近支持流式计算实时分析+离线计算智能决策自动化分析依赖算法解读数据Hadoop大数据介绍5HDFS集群6NameNode服务器客户端机架1机架2DataNode服务器DataNode服务器DataNode服务器DataNode服务器打开文件415323241352541一个文件被分成很多的数据块,存储在多台服务器上运行的HDFS分布式文件系统中,每一个数据块会有三个复本(缺省,可自定义)。例如:客户端的一个文件被分成5个数据块,存储在HDFS集群DataNode服务器上。写数据块1复制123登记,查询和管理文件系统命名空间,记录MetaData元数据复制3
4、4写完成5关闭文件1创建文件,进行分片获取数据库定位及元数据2333读读读4关闭文件数据大小超过一台独立计算机存储能力时,有必要对它进行分区,并存储到多台独立的计算机上。管理网络中多台计算机存储空间的文件系统称为分布式文件系统。3八台DataNode服务器,部署在两个机架中。HDFS分布式文件系统7存储“超大文件”,几百GB或几百TB,甚至到达PB级,一个“超大文件”数据是分散的、冗余的存储在HDFS分布式文件系统中。以流式数据访问,一次写入多次读取,写操作讲数据追加到文件末尾,每次分析(读)都将涉及数据集的大部分甚至全部的数据。不挑硬件,使用廉价的x86架构的普通服务器,甚至可以使用PC,不
5、需要专业共享存储设备。适合高数据吞吐量的分析应用,不适合低延时数据访问的分析应用(使用HBase)。数据块,HDFS进行读写的最小单位,缺省64M,每个数据块有三个副本。容忍节点故障,不丢失数据,为大数据分布式计算提供数据存储的场景。横向扩展,HDFS可以随时进行横向扩展节点,增加存储空间。Hadoop HDFS分布式文件系统特点:HDFS存放数据(复本怎么放)8DataNode服务器DataNode服务器AAAA数据块机架1机架2数据块存放原则首先,HDFS选择一台服务器,写入数据块A在同一台机器上,写入一个副本A同一个机架上另外一台服务器上,写入数据块副本A最后,不同机架的一台服务器上,写
6、入数据块副本AAHadoop MapReduce 计算9文件(流数据):每个商品不同区域的订单数量数据前三位是商品编号,后三位是订单数量167100143002167011143260143017172088143012172007( 0,167100)( 7,143002)(14,167011)(21,143260)(28,143017)(35,172088)(42,143012)(49,172007)输入(167,100)(143, 2)(167,11)(143,260)(143,17)(172,88)(143,12)(172, 7)(167,100,11)(143, 2,260,17,1
7、2)(172,88,7)(167,111)(143, 291)(172,95)167,111143,291172,95Map 映射函数Reduce化简函数Sort输出文件中是某个电商平台,每个商品每天的订单数量,现在需要统计某段时间内,每个商品的订单总数:输入文件数据,整理为(key,value)数据格式,Key为行的偏移量;通过Map函数,提取出来产品编号(1至3列)和订单数量(4至6列);通过Sort,整理出来(key,value)每个订单的元组信息(产品编号,订单数量,订单数量,订单数量,;通过Reduce函数,把每个商品的订单数量求和,并输出结果;易用云大数据平台10易用云大数据平台1
8、1HBase列族数据库HDFS 分布式文件系统Hive数据仓库Pig分析工具YARN处理框架数据层Storm内存流式计算框架Hadoop离线计算框架Spark 并行计算框架计算层业务引擎基础设施数据引擎引擎层Oracle点击流日志其他数据接口MySQLSQL Server抽取层分布式数据库数据推送权限管理任务管理关系型数据库数据展现Flume & Sqoop序列化配置管理文件其他分布式文件系统ETL清洗外部数据接口代理管理数据管理HA管理结构化业务数据、机器数据半结构化数据、机器数据NoSQL数据库平台提供的功能12提供Hadoop大数据开发和运行环境;提供大数据的HDFS分布式文件系统存储及
9、针对于小文件优化后的分布式文件系统;提供Hadoop Hive、HBase、Pig等组件功能,提供NoSQL数据库服务功能;提供Storm实时数据分析计算框架环境;提供Spark并行计算框架环境;提供机器冷数据(非业务数据)的数据分析引擎和算法工具;提供行业业务数据的大数据分析引擎;提供数据展现工具;提供大数据云化服务平台,封装数据接口服务和大数据分析云服务以及大数据读写存储云服务平台提供业务能力13大数据开发运行环境大数据行业业务数据服务大数据平台云服务大数据日志分析系统零售行业大数据分析引擎其他行业大数据分析业务如何构建大数据?建议流程14第一步,数据抽取并存储15Oracle点击流日志其
10、他数据接口MySQLSQL Server分布式数据库Flume & Sqoop序列化ETL清洗HDFS 分布式文件系统结构化数据半结构化 / 非结构化数据结构化数据,通过两种途径抽取并存放到HDFS分布式文件系统中:能够序列化的数据,直接存放到HDFS中;不能够序列化的数据,通过数据整理后统一存放在分布式数据库环境中,再经过序列化后再存放到HDFS中,经整理后还不能序列化的数据也直接存放到HDFS中;半结构化和非结构化数据:各种日志数据(通常序列化半结构化数据)直接存放到HDFS中;点击流和数据接口中的数据(通常序列化半结构化数据)直接存放到HDFS中;非结构化的数据直接存放到HDFS中;No
11、SQL数据处理16OracleMySQLSQL Server分布式数据库Flume & SqoopETL数据处理结构化数据数据处理要解决的问题:重复的数据处理缺失的数据处理格式不统一的数据处理检查数据逻辑错误需要进行计算的数据处理数据处理包括数据清洗、数据转化、数据提取、数据计算等处理方法。数据处理最基本的目的是从大量杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。数据处理对收集到的数据进行加工整理,形成适合数据分析的样式,是数据分析前必须经历的过程。数据清洗数据转换数据提取数据计算第二步,数据规划17HDFS分布式文件系统中存放海量的结构化和半结构化数据,合理化组织数
12、据:结构化和有一定格式关系的半结构化的数据存放在Hadoop Hive数据仓库中,Hive是一个构建在Hadoop上的数据仓库框架,可以通过SQL语句进行统计分析查询;结构化和有一定格式关系的半结构化数据存放在Hadoop HBase列族数据中;Hadoop Pig分析工具直接查询和分析存放在HDFS分布式文件系统中的数据,Pig Latin程序(与SQL语言很类似)可以直接把查询分析转换成MapReduce程序执行,帮助用户更多的精力放在数据上,而不是放在程序的编写上;HBase列族数据库HDFS 分布式文件系统Hive数据仓库Pig分析工具YARN处理框架数据层NoSQL数据库第三步,大数
13、据计算框架18Storm内存流式计算框架Hadoop离线计算框架Spark 并行计算框架计算层Storm实时大数据分析:一个分布式的、容错的、实时的内存流式计算系统;Hadoop离线大数据分析:大数据离线批处理系统,Spark并行大数据计算:Hadoop MapReduce的通用的并行计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。适用于实时查询分析适用于离线的大数据统计分析适用于大数据并行计算针对查询分析的实
14、时性和延时需求,可选择不同的大数据计算框架构建查询分析业务:第四步,大数据分析引擎19业务引擎基础设施数据引擎引擎层数据推送关系型数据库数据展现文件其他分布式文件系统外部数据接口行业业务属性决定计算的逻辑,计算数学是实现计算逻辑的方法(利用数学领域的算法和理论)数据分析不仅仅指运算数据,还包括全面了解数据分析所处的背景和环境数据分析结果可以保存在多种结构中数据也可以在不同的分布式集群之间进行传输、复制、同步数据分析结果可以通过多种展现形式(表格、各种展现图)进行数据展现行业属性 + 算法 = 业务数据分析引擎(帮助用户自动化分析大数据)基础设施数据引擎(机器数据引擎、日志数据引擎)数据分析20
15、数据分析方法论数据分析方法论主要从宏观角度指导如何进行数据分析,数据分析的前期规划,指导后期数据分析工作的开展,而数据分析法则是指具体的分析方法。数据分析法主要从微观角度指导如何进行数据分析。营销方面的理论模型有:4P、用户使用行为、STP理论、SWOT等。管理方面的理论模型有:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。其中PEST、5W2T、逻辑树、4P、用户使用行为等理论应用比较广泛。21PEST分析法22企业经济环境Economic政治环境Political经济环境Economic技术环境TechnologicalPEST分析法用于对宏观环境的分析,指影响
16、一切行业和经营需要的各种宏观力量。由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但是一般都从政治、经济、技术和社会这四大类影响企业的主要外部环境因素进行分析。5W2H分析法23Why何因How如何做Where何地What何事广泛应用于企业营销、管理活动;对于决策和执行的活动措施非常有帮助,也有助于弥补考虑问题的疏漏;对于任何事情的分析都可以从这七个方面去思考,指导建立数据分析框架;5W2H分析法Who何人How much何价When何时Why用户购买行为分析WhatWhoWhenWhereHowHow much用户购买的目的是什么?产品在哪方面吸引用户?在用户购买行为分析上
17、的应用公司提供什么产品或服务?与用户需求是否一直?谁是我们的用户?用户有何特点?何时购买?多久再次购买?用户在哪里购买?用户在各地区的构成怎样?用户购买支付方式是怎样?用户购买花费的时间、交通等成本各是多少?数据分析24数据分析描述性数据分析EDA探索性数据分析CDA验证性数据分析初级数据分析,使用常见的分析方法数据分析是指用适当的统计分析方法,对收集来的大量数据进行分析,提取出有价值的信息,总结出所研究对象的内在规律。侧重在数据之中发现新的特征,高级数据分析侧重于验证已有假设是否成立,高级数据分析数据分析计算方式25传统的数据分析计算方式:各种数据运算,把数据整理成可以让人理解的内容;快速傅
18、立叶变换(FFT)及平滑和滤波把离散的数据变成可视化和可以理解的数据曲线;基线和峰值分析可以帮助用户看到数据的发展趋势及可预见的最高和最低值;数据分析作用26数据分析作用描述基本方法数据分析方法现状分析分析过去发生了什么。通过日常通报(日、周、月报等形式)对比对比分析平均分析综合评价分析原因分析分析某一个现状为什么发生。一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析细分分组分析、结构分析、交叉分析、杜邦分析、漏斗图分析、矩阵关联分析、聚类分析预测分析分析将来会发生什么。一般通过专题分析来完成,通常在制定企业季度、年度等计划时进行预测回归分析、时间序列、决策树、神经网络高级
19、数据分析方法27研究方向数据分析方法产品研究相关分析、对应分析、判别分析、结合分析、多维尺度分析等品牌研究相关分析、聚类分析、判别分析、因子分析、对应分析、多维尺度分析等价格研究相关分析、PSM价格分析等市场细分聚类分析、判别分析、因子分析、对应分析、多维尺度分析、Logistic回归、决策树等满意度研究相关分析、回归分析、主成分分析、因子分析、结构方程等用户研究相关分析、聚类分析、判别分析、因子分析、对应分析、Logistic回归、决策树、关联规则等预测决策回归分析、决策树、神经网络、时间序列、Logistic回归等高级数据分析方法不一定是最好的方法,能够简单有效解决问题的方法才是最好!综合
20、评价分析法综合评价分析法的基本思想是讲多个指标转化为一个能够反映综合情况的指标来进行分析评价,通常有5个步骤。281. 确定综合评价指标体系,既包含哪些指标,是综合评价的基础和依据。2. 收集数据,并对不同计量单位的指标数据进行标准化处理。3. 确定指标体系中各指标的权重,以保证评价的科学性。4. 对经处理后的指标再进行汇总计算出综合评价指数或综合评价分值。5. 根据评价指数或分值对参评单位进行排序,并由此得出结论。评价过程不是逐个指标顺次完成的,而是通过一些特殊方法讲多个指标的评价同时完成在综合评价过程中,一般要根据指标的重要性进行加权处理评价结果不再是具有具体含义的统计指标,而以指数或分值
21、表示参评单位综合状况的排序数据挖掘29数据挖掘30数据挖掘是有组织、有目的地收集数据,通过分析数据使之成为信息,从而从大量数据中寻找潜在规律以形成规则或知识的技术。数据挖掘是一种高级的数据分析方法,是传统数据分析和统计分析方法学的延伸或扩展,基于完善的数学理论和高超的技巧。数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式与规律。数据挖掘中的数据模型是一个预测和概率模型,但不会告诉用户为什么会这样,数据挖掘的运作不是用于验证某个假定的模式或者模型的正确性,而是通过数据挖掘方法让模型自动形成,也就是说在本质上数据挖掘是一个归纳的过程。数据分析和数据挖掘的区别数据分析主要是一
22、个假设检验的过程,是一个严重依赖数据分析师手工作业的过程;数据挖掘一般是再没有明确假设的前提下整理数据、挖掘信息、发现知识。数据挖掘是人驱使机器(机器学习算法)挖掘知识的过程,在挖掘之前目标并不一定明确;数据分析以统计学的算法为主,分类和预测是两种数据分析形式,抽取能够描述重要数据的集合或者预测未来数据趋势的模型中的样本;而数据挖掘不仅仅需要统计学,还需要大量使用机器学习、人工智能和模式识别领域的算法。数据挖掘也需要数据分析的算法和思路,只是用新的方法重新组织实施;31数据挖掘算法分类32数据挖掘领域有大量基于海量数据的分类问题,对于分类问题的解决就是生成分类器的过程。支持向量机(SVM)神经
23、网络K最近邻算法(kNN)决策树(if-then)数据挖掘算法聚类33聚类的目的也是把所有对象分成不同的群体,但是和分类算法最大不同是聚类算法划分之前并不知道要把数据分成多少组,也不知道依赖哪些变量进行数据划分。聚类算法有很多种,K-means聚类算法(K均值)比较常用。满足方差最小标准的K个聚类K-means聚类算法数据挖掘算法关联规则34所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据中隐藏的关联网。关联规则算法关联规则(支持度置信度)的发现过程分为两步:第一步
24、是迭代识别所有的频繁项目集(Frequent Itemsets),要求频繁项目集的支持度不低于用户设定的最低值;第二步是从频繁项目集中构造置信度不低于用户设定的最低值的规则,产生关联规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分;数据挖掘算法序列35在数据挖掘中的序列挖掘指的是从一个序列中的数据找出统计规律。根据时间序列型数据,由历史和当前的数据去推测未来的数据。时间序列算法例如,基于事件的实际问题:一个客户购买了车,那么他很可能需要在一周内去购买汽车保险;可以根据前12个月的转化率和收入情况,预估出第13个月的总体转化率和收入情况;大数据分析方向36Mutil
25、Data SourceSemantic EnginesAnalytic VisualizationsData Mining AlgorithmsPredictive Analytic CapabilitiesData Quality and Master Data Management可视化分析数据挖掘算法预测性分析能力语义引擎数据质量和数据管理数据来源多样化算法研究37参考案例38案例一. 分析气象大数据390067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+0081+
26、999999999990043011990999991955051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0221+999999999990043011990999991955051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0111+999999999990043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN050
27、0001N9+0171+999999999990043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0306+999999999990067011990999991952051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+0131+999999999990043011990999991952051512004+68750+023550FM-12+038299999V0203201N0067
28、1220001CN9999999N9+0221+999999999990043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0265+999999999990043012650999991953032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0336+999999999990043012650999991955032418004+62300+010750FM-12+048599999V
29、0202701N00461220001CN0500001N9+0218+999999999990043011990999991953051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0221+999999999990043011990999991955051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9+0239+999999999990043012650999991952032412004+62300+010750FM-1
30、2+048599999V0202701N00461220001CN0500001N9+0336+999999999990043012650999991951032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+0268+999999999990043011990999991949051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+0276+999999999990043011990999991950051518004+6875
31、0+023550FM-12+038299999V0203201N00261220001CN9999999N9+0318+99999999999美国国家气候数据中心NCDC,分布在全球各地的气象传感器(几万)每天收集气象数据,其中有年份和温度数据(+-代表零上零下,气温除以10是实际气温)。全球的从1901年到2001年100年的气象数据大约200-300TB,以下是样例数据:大数据分析需求:统计分析出每年气温最高的记录是多少?案例一. 分析气象大数据4019500515+008119550515+022119550515+011119500324+017119500324+0306195205
32、15+013119520515+022119500515+026519530324+033619550324+021819530515+022119550515+023919520324+033619510324+026819500515+027619500515+031819500515+008119550515+022119520515+011119500324+017119500324+030619520515+013119520515+022119500515+026519530324+033619550324+021819530515+022119550515+02391952032
33、4+033619510324+026819500515+027619500515+0318对气象数据进行切片,分成四份存放到Hadoop HDFS分布式文件系统中;分别放在四台计算机中,每台计算机占用一个数据块的空间;每一个块运行一个Map函数;计算机1计算机2计算机3计算机4案例一. 分析气象大数据4119500515+008119550515+022119550515+011119500324+017119500324+030619520515+013119520515+022119500515+026519530324+033619550324+021819530515+02211955
34、0515+023919520324+033619510324+026819500515+027619500515+0318计算机1计算机2计算机3计算机4(1950,81)(1955,221)(1955,111)(1950,171)(1950,306)(1952,131)(1952,221)(1950,265)(1953,336)(1955,218)(1953,221)(1955,239)(1952,336)(1951,268)(1950,276)(1950,318)(1950,81,171)(1955,221,111)(1950,81,171)(1950,306,265)(1950,276,
35、318)(1952,131,221)(1952,336,221)(1950,81,171,306,265,276,318)(1952,131,221,336,221)ReduceMapMap(1950,306,265)(1952,131,221)Map(1953,336,221)(1955,218,239)Map(1952,336,221)(1955,268,111)(1950,276,318)(1955,221,111)(1953,336,211)(1955,218,239)(1955,268,111)Reduce(1955,221,111,218,239,268,111)(1953,336
36、,211)(1950,318)(1952,336)(1955,268)(1953,336)输出结果输出结果分类拷贝Merge合并Merge合并计算每年的最高气温分类分类分类分类案例二. 统计论文引用42Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop海量论文数据,每篇论文结尾都有引文(引用和参考了哪些论文和文章)。统计引文中,论文关键字被引用的数次;例如:Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop计算机1计算机2计算机
37、3数据切分为三个切片,存放在3台服务器上的HDFS分布式文件系统中案例二. 统计论文引用43Hello World Bye WorldHello Hadoop Bye HadoopBye Hadoop Hello Hadoop计算机1计算机2计算机3MapMapMap(Hello,1)(World,2)(Bye,1)(Hello,1)(Hadoop,2)(Bye,1)(Bye,1)(Hadoop,2)(Hello,1)(Hello,1,1,1)(World,2)(Bye,1,1,1)(Hadoop,2,2)Reduce(Hello,3)(World,2)(Bye,3)(Hadoop,4)分类合
38、并输出结果求和关键词计数案例三. 电商大数据精准营销44性别年龄教育程度星座腰围身高体型家中是否有孕妇孩子年龄是否有孩子孩子性别是否有车是否有房用户的关系网婚否收入活跃程度购物类型评价关注程度颜色偏好品牌偏好家电的潜在购买需求促销敏感度购物忠诚度购买力消费信用水平所属购买群体基本属性购买能力行为特征社交网络心理特征兴趣爱好案例三. 电商大数据精准营销45海淘犹豫型理性比较型购物冲动型目标明确型用户浏览SKU数量用户浏览至购买的时长学校公司家网吧用户分群网购达人有房一族家庭用户单身贵族时尚男女奶爸奶妈闪购用户超级用户电脑达人数码潮人案例三. 电商大数据精准营销46性别:男年龄:26-35购买力:
39、高收入:8000需要:商务机价位:4000颜色:黑/红用户画像个性化搜索体系个性化推荐体系千人千面情感分析个性化推荐系统47推荐系统从推荐的形式来看,亚马逊把推荐服务应用到了网站的每一个角落,从首页到产品内页无所不至;而在推荐方法技术上,亚马逊也综合了多种类型的推荐服务,有的基于项目相似性和相关性,有的基于客户浏览和购买历史记录,也有的基于协同过滤等技术。亚马逊能够根据客户当前所查看页面的类型和内容、当前和之前关注的产品信息等内容动态地组合这些推荐服务。销售额 = 访客数 * 转化率 * 客单价,提升网店的总收入需要在其中的一个或者多个数据点上面下功夫,当电子商务网站的老客户的比例比较高的时候
40、,转化率比较高,所以提升老客户的活跃度是提升转化率从而增加整体收入的一个有效手段。48推荐系统,根据不同客户的兴趣特点和购买行为,预测客户对某种商品感兴趣的程度,向客户推荐商品信息或提供个性化商品,引导客户购买。帮助客户找到感兴趣的、愿意购买某样商品的兴奋点,形成购买行为;推荐系统的作用可以帮助建立客户忠诚度(可以更愿意买到最能满足需求的商品)挖掘老客户的价值二八定律,企业80%的业务收入通常来自20%的客户向新客户推销的费用要数倍甚至数十倍于向现有客户推销的花费通过数据分析,可以发现什么样的客户群体在什么时间范围,购买什么样的商品,平均支出是多少,最喜欢的商品是什么类型对于新推出的产品哪些客
41、户可能会购买,哪些客户是最需要留住进行深度营销和人性化关怀的49协同过滤算法 推测同类用户的行为50帮助用户在海量的互联网信息(商品)中找出该用户会感兴趣的内容,找出关联商品推荐。一般来说,做推荐系统的数据一般分两种,一种从在线的读取,比如用户产生一个行为,推荐系统就反应下,还有一种就是从数据库里读。协同过滤算法可以帮助找到和某个用户喜好类似的群体,看他们都买了哪些东西,然后推荐给这个用户。基于用户的:收集用户的信息属性,对于每一个用户A,找到跟他比较接近或者相似的一些用户。根据这些相似的用户的信息对用户A的兴趣点进行预测,挖掘出用户A潜在的兴趣点。基于项目:收集项目的信息属性,对每个项目X找到一些类似的项目。一个用户如果对X有很高的兴趣,那么这个用户很可能也对X相似的其他项目感兴趣。基于内容的:除了用户和项目信息,还需要进一步分析用户的评价内容和反馈。用向量表示数据51编号问题1是否为男性?2一线城市的用户?3月收入是否超过7000元?435岁以上?5最大的购物金额是否大于1000元?6购买次数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《期货交易导论》课件
- 神经内科护理
- 抛物线的简单性质课件北师大选修
- 教育硕士进修协议书模板
- 供热通风与空调施工运行专业学生的职业生涯规划
- 2024年农村土地买卖合同样本
- 五年级下册英语一课一练-Unit 12 Where did you go 第二课时 湘少版三起(含答案)
- 五年级下册英语一课一练-Unit 8 Can you tell me the way to the XinHua Hotel 第一课时 湘少版三起(含答案)
- 上海市超市饮料类流通安全协议
- 2024年股权转让协议范本学习啦
- 腹水回输治疗技术
- 教育培训机构教师合同模板
- 2024年度数据服务合作协议3篇
- 《浮游藻类细胞流式显微成像技术研究与实现》
- 2015-2016学年第二学期《电工电子技术》学科授课教案
- 浙江省2023年1月学业考试物理物理试题(解析版)
- 公司管理制度完整版
- 2025年高考数学热点题型:切线问题综合(十一类题型)含答案
- 天津市2024年七年级上学期数学期中考试试卷【附答案】
- 基础plc自学入门单选题100道及答案解析
- 《篮球原地运球 原地单手肩上投篮》教案(三篇)
评论
0/150
提交评论