电子课件数据科学概论ch12-it_第1页
电子课件数据科学概论ch12-it_第2页
电子课件数据科学概论ch12-it_第3页
电子课件数据科学概论ch12-it_第4页
电子课件数据科学概论ch12-it_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 内容可修改电子课件数据科学概论ch12_it数据科学的行业应用:互联网行业目录互联网行业概况互联网行业的数据数据科学的应用推荐系统(示例)444互联网行业概况机遇互联网行业利用信息技术与互联网平台,充分发挥其在生产要素配置中的优化作用,实现互联网与传统产业的深度融合,将互联网的创新成果应用于各领域中,实现国家生产力的提升。互联网用户量随着计算机技术的迅速发展而激增,移动端设备也实现了数据化,数据量呈指数增长。挑战互联网技术的进步在促进数据科学发展的同时带来挑战。与前互联网时代统计学家所处理的小型数据相比,当前互联网行业的数据具有以下特点:样本量大特征变量多结构复杂这一现状要求数据科学家们不能

2、仅仅局限于对理论方法的研究,还要接受 “get your hands dirty”的理念,提升解决实际问题的能力。777互联网行业的数据行业数据分类互联网行业的具体业务保罗万千,包括线上交易平台、智能控制、物流交付等,其数据形式也较为复杂。从数据结构的角度考虑:结构化数据非结构化数据半结构化数据从数据处理方式的角度考虑:批处理数据流处理数据结构化数据结构化的数据指可以使用关系型数据库表示和存储、表现为二维形式的数据。一般特点是:数据以行为单位,每一行数据表示一个实体(样本点)的信息,每一列数据表示一个特征。例如,某网约车公司掌握的用户数据如下表所示,其中每一行代表 一位用户,由主键(用户ID)

3、唯一确定,每一列代表用户的个人背景信息以及业务信息。用户 ID性别年龄用车平均花费(元)是否深度用户A001012325以下0A012103025-501B080804325以下0非结构化数据非结构化数据指结构不规则或不完整,不方便用数据库二维逻辑表来表现的数据。在技术层面,它比结构化数据更难标准化,其存储、检索、发布以及利用需要更加智能化的 IT 技术。从具体形式看,非机构化数据包含文本数据、语音数据、图像数据等,对应多种具体业务。例如:线上购物平台上的用户评价是文本数据;智能音箱对接受到的语音数据作出相应反馈;搜索引擎的 “以图搜图” 处理的是图像数据。半结构化数据以XML和JSON为代表

4、的半结构化数据虽然不具有关系型数据库或其他数据表的结构化形式,但其包含可以用来分隔语义元素的相关标记。相关标记还可以对记录和字段进行分层。在半结构化数据中,属于同一类的实体可以有不同的属性,而且属性的顺序可以不一致。(如下图中某手机软件用户信息的 JSON 数据所示)半结构化数据半结构化数据相比于结构化数据的优势在于其具有更好的延伸性, 新增数据可以自由地流入系统。如果软件的某位新用户填写了收入信息,那么在新增该用户信息的同时就已经引入了对应属性。而如果是使用结构化数据进行记录,则需要先中断系统以改变原表的结构,才能增加“收入”属性。批处理数据批处理主要操作大容量的静态数据集,在计算过程完成后

5、返回结果。MapReduce 是典型的批处理模型,其核心思想是先将数据分为若干小数据块,对它们进行并行处理并分别产生中间结果,而 后将所有中间结果合并为最终结果。MapReduce示意图批处理数据由于能简单高效地实现复杂数据的存储和管理,批处理技 术被广泛应用于网页挖掘等领域。批处理的缺点是需要对数据集整体进行操作后才能返回结果, 时效性较差。流处理数据某些数据(如股票价格、天气信息、App的用户数据等)的业务价值会随时间的推移而迅速降低,在采集新数据后必须第一时间对其进行处理和分析。此时流处理技术是更好的选择。流处理示意图流处理数据流处理系统将数据视为随时间延伸而不断增长、没有边界的流式数据

6、集,例如购物平台的用户消费记录、股票交易数据等。流处理一般不针对整个数据集执行操作,而是对在滑动时间窗口内进入系统的数据进行递增式处理与分析。借助此类分析得出的信息,互联网企业得以掌握用户的实时动态并迅速作出反应。批数据与流数据当数据的价值较为稳定,需要使用大量历史数据以保证较为精确的计算结果,并且对计算时间要求不高时,通常使用批处理。当数据随时间推移而迅速贬值,需要快速得到计算结果时,通常使用流处理。当前许多数据处理系统需要将两种技术有机结合,实现“批流一体化”,以适应不同的业务需求。以推荐系统为例:根据用户在一段时间内(如一个月内)的消费记录,在购物平台的首页向其推荐可 能感兴趣的商品,这

7、一过程应用了批处理技术;当用户点击某笔记本电脑的详情页后,即刻向 其推荐类似型号的电脑并显示在当前页面,则是属于流处理。181818数据科学的应用推荐系统推荐系统的本质是通过大量用户对海量商品的购买行为数据的分析探索用户与商品间相关度的统计测度,是典型的数据科学问题。推荐系统示意图推荐系统平台通过追踪用户在购物时所表现出的消费倾向,分别提取用户与商品的特征,利用相关性度量(余 弦值等)或机器学习算法(聚类等)实现两者之间的关联分析。在构建推荐系统的过程中,既 可以根据用户间的相似性,向用户推荐与其具有共同兴趣的用户购买过的商品;也可以实现商品的聚类,向已购买某件商品的用户推荐类似商品。智能舆情

8、监测舆情监测系统对于帮助客户及时准确地掌握网络动态、提 高对重大网络事件的公关应变能力、把控舆情发展方向具有重要的现实意义。舆情监测系统示意图智能舆情监测舆情监测系统在运用 爬虫技术对网络平台上的用户言论进行实时抓取、一 “网” 打尽后,使用自然语言处理技术对文本进行分词,并转化为词向量,实现舆情数据化。数据科学家对用户隐私数据进行脱敏处理,通过机器学习模型过滤掉其中无价值的信息,并对提取后的数据进行多维度的可视化分析,展示网友对热点事件的关注程度、对事件中重点人物的情感倾向等舆情。搜索引擎搜索引擎是一种网络信息检索工具,在接受用户的查询命令后提供符合要求的在线资源。常见搜索引擎搜索引擎在数以

9、万亿计的网页中,要快速找到与搜索词最相关的网页,不仅需要借助计算机技术实现高效检索,还需要通过数据科学方法准确度量网页与搜索词的相关性。搜索引擎首先自动访问互联网抓取网页数据,再从页面信息中提取重要特征,建立网页索引数据库。当用户输入搜索词后,系统会调用索引库检索包含该词的所有网页,并根据其对应特征,利用机器学习算法预测各网页与搜索词的相关性,以此对网页进行排序,并由页面生成系统将结果返回给用户。图像识别购物平台的 “拍照搜商品” 功能、搜索引擎的 “以图搜图” 功能可以根据用户上传的图像输出相应的商品或同类图片,其本质是实现用户上传图片与平台数据库中已有图片的匹配,需要运用图像识别技术。图像

10、识别示例图像识别由于图片是典型的非结构化数据,数据科 学家在衡量图片间的关联度前需要先进行特征工程,将其转化为结构数据:在去除图片中的噪声后,通过将每个像素点对应到具体数值得到特征矩阵,使其包含图片的颜色分布、梯度变化、纹理等基础特征。在这一基础上,通过神经网络算法进一步提取多层重要特征。网络游戏随着网络游戏玩家的渗透率越来越高,游戏服务器常常会积累大量用户数据。如何利用数据挖掘用户兴趣,吸引更多玩家以创造更大的商业价值,成为了游戏策划的重点。网络游戏的成功运营,离不开数据科学的支持,例如:根据玩家在游戏中的对道具的喜好倾向,对玩家实现聚类,在付费活动的推荐列表中推荐其可能更有付费意愿的道具,

11、提升产品的转化率。对玩家行为进行实时监控,通过分类算法甄别用户是否使用 “外挂”,打击作弊玩家。282828推荐系统(示例)数据介绍对于线上购物平台(如淘宝、京东)来说,如何根据用户的个人信息及购买行为记录从海量商品中快速检索出该用户可能感兴趣的商品进行精准推荐以促进消费,决定了平台的商业前 景。大型购物平台通常用户众多、商品量大,要求推荐算法兼顾计算效率和估计精度,以及时 反馈有价值的推荐结果。本节以阿里巴巴提供的淘宝用户行为数据集(UserBehavior)为例,展示推荐系统如何利用数据创造价值。数据介绍UserBehavior 数据集的结构相对简单,只包含 5 个变量,分别为:用户 ID

12、商品 ID商品所属类别 ID消费行为时间其中,行为类型包括点击商品详情页(pv)、购买(buy)、加入购物车(cart)和收藏(fav)。每一行表示某用户于某个时间点在移动购物平台进行的一次操作,例如“小明在 2020 年 1 月 1 日将属于电子产品的某品 牌手机加入购物车”。该数据集一共包含 987,994 名用户对 4,162,024 件商品(从属于 9,439 个类别)的 100,150,807 次消费行为。推荐算法简介常用的推荐算法可以分为四个大方向:基于流行度的推荐基于用户属性的推荐基于商品属性的推荐协同过滤推荐算法简介(基于流行度)基于流行度的推荐,指研究者根据项目的流行程度(如

13、被购买次数、关注人数)进行排序并向用户推荐热度排名较高项目的过程。典型的例子包括微博热搜、音乐软 件的年度热榜等。该算法比较简单直接,但无法为不同用户实现个性化推荐,不适用于移动购物平台。推荐算法简介(基于用户属性)基于用户属性的推荐,指研究者根据用户的人口学信息(如性别、年龄、职业等)进行用户聚类并将同类用户喜爱的商品推荐给当前用户的过程。该算法没有利用商品的信息,忽略了用户对商品本身的兴趣,因此推荐结果有时不够精确。推荐算法简介(基于用户属性)基于商品属性的推荐,指研究者根据商品本身特征(如价格、所属类型、生产商等)进行商品聚类并向用户推荐已购买商品类别 中其他商品的过程。该算法的问题在于

14、商品信息往往比较有限且不同类商品之间难以直接比较,并且没有考虑用户的购买行为。推荐算法简介(协同过滤)协同过滤算法的核心思想是从该矩阵中提取重要特征,通过多个用户消费行为的协同作用将商品 “过滤” 出来推荐给目标用户。根据算法对特征的提取与使用方式差异,可以分为以下三种:基于用户的协同过滤基于商品的协同过滤基于模型的协同过滤用户口红眼影化妆蛋笔记本平板电脑数据科学概论A011100B110010C001011D000111E111100推荐算法简介(基于用户的协同过滤)推荐算法简介(基于模型的协同过滤)基于模型的协同过滤,以行为矩阵作为输入数据,使用机器学习算法训练推荐模型,再根据实时用户的购

15、买记录预测其最可能购买的商品进行推荐。例如,将用户是否购买某件商品视为二分类因变量,将除了该商品以外的购买记录视为自变量,针对每件商品分别训练 Logistic 回归模型。对于特定用户,根据模型分别预 测其购买各件商品的概率,取概率最高的K件商品进行推荐。在机器学习中,可以用于建立推荐模型的主流方法包括:关联规则聚类分类矩阵分解神经网络图模型基于深度神经网络的协同过滤算法在互联网行业大数据量环境下往往具有更高的预测精度,近年来逐渐成为主流。数据处理本节从 UserBehavior 数据集中抽取一部分,使用推荐算法(如基于流行度的算法以及基于用户、商品的协同过滤算法等)分析数据并展示结果。由于该

16、数据集的用户行为矩阵较为稀疏,在子数据集上使用传统推荐算法可能会效果不佳。因此,在本节的推荐系统建模分析示例中,只对商品类别而非商品进行推荐。此外,截取用户总感兴趣次数超过一定比例的热门商品类别,使行为矩阵变得更加稠密且用户之间的相似性信号更强。最终整理得到用于分析的数据集包含 789 名用户对 785 类商品的 90,656 次消费行为。评价指标评价指标推荐模型构建与结果评估利用训练集数据,分别构建基于流行度的推荐模型(Popularity)、基于商品的协同过滤模型(Item Base)和基于用户的协同过滤模型(User Base)。各模型根据测试集中用户前一半时间的消费行为预测最感兴趣的

17、20 件商品并与其在后一半时间内实际购买的商品进行比较,得到指 标得分如下表所示。为了方便比较,加入随机推荐(Random)的结果作为基准线。推荐模型构建与结果评估Precision达到 10%,表明平均而言用户会对所推荐的 20 件商品中的 2 件感兴趣,而 Recall 达到 10% 表 明平均而言在用户实际购买的商品中有十分之一是推荐商品。考虑到商品量较大且用户购物倾向时刻发生变化,本例推荐结果整体来看令人满意。在该数据集上,基于用户的协同过滤模型表现最好。MethodPrecisionRecallF-MeasureRandom0.93%1.42%1.05%Popularity11.51

18、%15.29%12.27%Item Base11.64%16.66%12.74%User Base12.83%17.98%13.93%基于神经网络的推荐系统考虑在UserBehavior的完整数据集上建立推荐模型。 由于完整数据集所涉及的用户和商品数量较大,使用基于用户或基于商品的协同过滤算法计算代价太高,本节考虑基于模型的协同过滤算法。神经网络算法恰好能够高效准确地模拟矩阵分解的非线性实现, 它以用户的行为矩阵的每一行(表示用户属性)和每一列(表示商品属性)作为输入层,经过多个隐藏层,得到每一用户与每一件商品对应的embedding向量。基于神经网络的推荐系统拓展:深度树匹配模型拓展:深度树匹配模型如下图所示,可以用树结构表示所有商品的集合,其中每一个叶子节点表示一件商品。从根节点开始,按照某种规则对商品进行划分,一直到无法再分为止。该步骤相当于将商品逐层划分为子类。检索树示意图拓展:深度树匹配模型拓展:深度树匹配模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论