【毕业学位论文】(Word原稿)基于海量数据评论挖掘的导购系统研究与应用-软件工程_第1页
【毕业学位论文】(Word原稿)基于海量数据评论挖掘的导购系统研究与应用-软件工程_第2页
【毕业学位论文】(Word原稿)基于海量数据评论挖掘的导购系统研究与应用-软件工程_第3页
【毕业学位论文】(Word原稿)基于海量数据评论挖掘的导购系统研究与应用-软件工程_第4页
【毕业学位论文】(Word原稿)基于海量数据评论挖掘的导购系统研究与应用-软件工程_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 年 月 日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 年 月 日 同济大学 硕士学位论文 摘要 I 摘 要 本文将评论挖掘技术与云计算技术结合,讨论 基于 千万级的商品及上亿评论信息的 移动终端 导购系统的构建。 首先,本文以学术界评论挖掘的前沿成果为基础,改进并实现了面向大规模评论信息的挖掘方法,并且实现了对中文评沦信息的处理和挖掘。在此基础之上,本文提出了基于评论挖掘和用户偏好学习的评分预测方法,试验表明,该方法在评论样本足够多的时候能够提供比传统方法更加精确的预测。 其次,本文的系统为了解决大规模计算及存储的挑战,引入并大量应用了云计算基础设施,包括本文提出 并 设计和实现的在线计算基础平台,以及开源的离线计算平台 布式存储平台 益于这些基础设施的应用,本文构建的导购系统具有良好的扩展性及容错性。 最后,本文针对移动互联网终端设备开发了客户端,根据移动终端设备的特性进行了专门的设计及优化,提供了除传统文本检索之外,包括条形码扫描检索以及图像检索在内的多种检索方式,极大地提升了用户体验。 目前该系统己投入使用,实验证明,本 文设计的系统能够成功工作在百万商品及上亿条评论的数量级上,并且在实际应用中能够高效处理用户的各种查询请求并提供商品导购信息。 关键词: 海量数据, 评论挖掘,协同过滤, 移动终端, 导购系统,云计算,分布式存储,条形码识别,图像检索 I of of of of of on on on is to be of of is to of in on to of of as be to of a of s to 济大学 硕士学位论文 目录 目 录 摘 要 . I . 录 . 1章 绪论 . 1 究背景 . 1 . 1 购系统的需求分析 . 2 关工作 . 4 论挖掘概述及现状 . 4 . 7 文的主要工作 . 9 于海量数据评论挖掘的移动终端导购系统系统设计 . 10 . 12 第 2章 数据计算及数据存储平台设计 . 13 . 13 数据计算系统包括在线计算系统和离线计算系统两部分。 . 13 . 13 . 13 . 14 . 16 程模型和运算框架 . 16 构与实现 . 17 量数据存储系统 . 17 . 17 . 18 据模型 . 18 架结构及流程 . 19 第 3章 评论挖掘子系统分析与设计 . 22 论预处理 . 24 词系统 . 24 性标注 . 24 组 (取 . 25 面发现与评分推断 . 26 向最化 . 26 V 面发现 . 27 . 27 . 28 . 29 第 4章 推荐子系统分析与设计 . 30 户偏好学习与评分预测 . 30 成推荐 . 32 第 5章 检索子系统分析与设计 . 33 . 33 立文本索引 . 33 询 . 33 . 33 第 6章 系统展示及实验结果 . 36 统核心数据 . 36 . 36 第 7章 总结与展望 . 40 致 谢 . 42 参考文献 . 43 个人简历、在读期间发表的学术论文与研究成 果 . 错误 !未定义书签。 同济大学 硕士学位论文 目录 V 图目录 图 当网上某商品评论信息截图 图 瓣网某商品截图 图 于评论挖掘的导购系统的目标及系统边界 图 面发现与评分汇总问题 设定 图 软购物搜索 图 道购物搜索主界面 图 道购物搜索商品比较界面 图 统架构 图 线计算系统架构 图 线计算系统中的消息数据结构 图 线计算系统中服务与请求响应器的关系 图 程 图 架结构图 图 交更新以及刷新 程 . 图 当网商品评论示例 图 均值预测以及本文方法基于 准确性比较, 图 排表检索示例 图 种常见的 1 维条形码 图 码检索过程中客户端与服务器的交互过程 图 购系 统主界面 图 索结果示例 图 形码扫描识别模式 图 品检索示例 I 表目录 表 储内容示例 表 组抽取结果示例 表 面发现与聚类结果 表 本书籍的层面分数计算结果 第 1 章 绪论 1 第 1 章 绪论 究背景 论信息对消费者购买决策的影响 对大多数人 而言 ,“其他人怎么看” 对 决策制定过程 具有非常 大的影响力,甚至于会具有决定性的影响。 在互联网广泛普及之前, 评论信息的获得渠道比较单一 ,信息量也比较少 , 招聘 者 通过推荐信对求职者进行了解 , 家庭主妇 参考 报纸上的消费者报告来决定购买哪一种 洗碗机 ,招聘者与家庭主妇想要获得更多的信息就比较困难 。互联网和网站 的广泛应用 使得 信息的获得渠道与数量爆炸性发展, 用户 可以通过不同的网站获得各种不同的信息, 既可以方便的获得权威人士与机构的评价,也能够 发现大量 的陌生普通人 的观点和经历。与此同时,越来越多的人 乐于 通过互联网 发表他们的 个人 感受与观点, 这些感受与观点可以快速及时地被陌生人获得 ,为互联网提供的海量的信息来源 。 在 两项超过 2000 人参与的 互联网用户 网上购物的 调查 里 , ,2 ( 1) 有 81%的互联网用户对商品进行 过 在线搜索; ( 2) 有 20%的互联网用户 会在一个典型日期这么做; ( 3) 有 32%的消费者会 为商品、服务或者人员通过在线评分系统进行 打分,而 30%的消费者会 发布关于商品或者服务的在线批注或评论。 ( 4) 在餐厅、旅馆和各类服务的在线评论的读者中, 73% 87%的人其购买行为受到 评论信息的 显著影响 ; ( 5) 消费者 愿意为评价等级 五星商品比四星商品多花费 20% 99%(这一数据的 差异来源于不同的商品和服务 )。 由以上数据可以看出,消费者 在网上进行消费时, 非常看重网上的评论 信息 ,并且 非常乐意在网络上发表自己对于消费的商品或者服务的评论。 同时, 消费者的行为严重受到评论信息的影响 , 有些消费者的消费决定 甚至 完全依赖于 商品 评论信息 。 使用者 对于 在线建议和推荐 渴望和依赖 性非常大,这 仅仅是在线评论 观点处理的系统 数量 大增 现象的一个方面 。 另一方面, 正如 指出 的那样, 当大多数的互联网使用者在在线商品搜索中报告出良好经历的同时, 58%的人同样也报告出在线信息缺失、无法找到、迷惑或者具有压倒性的。因此这就明确地需同济大学 硕士学位论文 基于 海量数据 评论挖掘的导购系统 研究与应用 2 要通过建立比现存更好的信息获取系统来帮助商品和信息的消费者。 购系统的需求 分析 随着 具有强大交互性的 . 0 的普及,越来越多的电子商务网站支持用户对于购买商品发表评论,如图 示是国内最大的 站当当网的 商品评论网页 截图。一项来自顾客体验咨询公司 调查发现, 有 超过 85%的消费者 会选择 在网上 关注 或购买大件商品 , 如电子产品和汽车 等 , 而 63%的人则 更倾向 于选择提供用户 评论功能 和 商品评价等级 的网站进行产品研究和购买。绝大多数的 网络消费者在 网站进行购买商品前,都会 先阅读关于商品的评论信息,并将其作为重要的参考源来进行购买行为决策。 图 互联网可以给消费者提供大量的商品及其评价信息,但 对于线下的消费者来说,获取商品的评论信息就不那么方便了。 对于 汽车 、 家电等 大宗商品 而言 , 由于商品的可选范围比较固定, 决策 周期长, 消费者可以在购买前做 进行详细的研究 并进行 选择 , 消费行为发生时对于评价信息的依赖会比较弱。 这种消费决策方式 对于即兴消费来说就不大现实了。 线下 即兴消费时 ,消费者往往只能求助于导购员 或者现场商品说明 来了解商品, 这些 信息 都是 由 卖方提供的, 往往 无法 准 确第 1 章 绪论 3 客观的 反应 商品 情况 , 更加无法了解商品的 真实 使用情况 。 同时线下消费也具有不确定性,商品的范围非常广泛。 因而 线下即兴消费对于 来自第三方的 评价信息的需求 分散而数量巨大 。 目前, 智能手机 已经 普及 ,而 移动互联网 也随之得到大规模的发展,移动互联网得到越来越多手机用户的青睐。 这使得 将网络上该商品的评论信息汇总并经过移动互联网推送到消费者的手机上 成为可能,并能使得 消费者 随时随地获得商品 的 评价信息而非仅仅依赖于电脑这种工具 。 能够为手机用户提供商品信息及评价等级 功能的系统就是基于移动终端的导购系统。 基于移动终端的导购系统 面对的主要问题在于 以下几个方面 : 一 、 大量 不同来源的 评 论信息 。 提供大量的 全面和客观 的商品评论信息, 传统的电子商务网站 在这一方面已经比较成熟, 大多数 网站 都提供了客户发表评论的功能 平台 。 但传统的电子商务网站 通常会偏重于 特定的 领域 , 如当当网的 书籍 ,京东的电器 等 , 导致 同一 网站上不同类别商品评论数量的 差距较大,甚至 可以达到几十上百倍 。 图 示是豆瓣网关于同一件商品的评论截图 ,该商品的评论一经达到上千条, 与图 比可以发 现,两者评论数量差了几十倍。 用 户想要获得 某商品的 完整评论信息,通常需要辗转多个网站,非常不便。 图 价网页 截图 二 、 评论 信 息的分散 、繁琐 和不统一 。 目前大多数网站 对商品评价信息的处同济大学 硕士学位论文 基于 海量数据 评论挖掘的导购系统 研究与应用 4 理 都还仅仅是针对分数等量化信息进行汇总,没有对文字进行处理。 对于一个商品而言,外观、功能、安全性、便利性等多个方面的评价,仅仅通过一个抽象的评价数字很难让消费者了解 商品到底哪些地 方好,哪些地方不好 , 要 获取这些信息就只能依靠阅读文字评论信息 自己进行总结 。 而阅读文字评论信息 非常费时,特别是要对几个商品进行比较来决定购买哪一个 时,需要阅读的信息量就更多;同时, 由于屏幕大小的限制, 在移动终端上阅读文字评论信息 也很 不方便。 基于移动终端的导购系统 需要具备 将文字评论 信息的摘要提取并汇总 的功能,提供给用户方便阅读的信息数量 。 针对于这些的问题, 基于移动终端的导购 系统 具有 以下 功能 : 1、 收集和汇总不同网站以及不同来源的商品信息和评论数据 ; 2、 对评论数 据进行挖掘处理,将挖掘结果进行汇总,并提供便捷的方式让用户检索。 基于移动终端的导购系统 将不同来源的信息通过爬取汇总, 集中对信息进行观点挖掘和评分预测,生成推荐信息,将推荐信息建立索引,用户可以通过检索得到系统生成的推荐信息进行参考。 如图 示,其中虚线框中的部分就是导购系统所要提供的功能。 图 关工作 论挖掘概述 及现状 评论挖掘首次出现在 et 3发表在 文章中,文中提出理想的观点挖掘工具能够“对一项给定条目执行一系列搜索结果,产生出一份产 品属当当网 卓越 淘宝网 其他评论源 爬取汇总 观点挖掘 评分预测 生成推荐 建立索引 检索 终端用户 第 1 章 绪论 5 性清单 (质量、特点,等等 )并且对每一项进行观点加总 (差评 、中评、好 评 )。”很多随后研究自我鉴定例如观点挖掘符合 这项 描 述 强调在其对给定条目不同性质的提取和分析评价。然而,这个术语最近也被拓宽阐释,包括了很多不同类型的评价文本分析 4。 最近,有一些总结在线评论的 研究。 5通过使用利用 充的种子形容词组来应用关联挖掘来提取产品的特点和决定评价意见的极性,但是没有方法来对属性进行聚类。 的一项类似研究,在特点提取和观点极性确认上都远胜于 5系统,也遇到了类似的问题。 同一 属性使用不同的词汇 ,或者 在线短评 中 出现 误拼 , 而该短评 对属性评分 价值 非常重要的这些领域,聚类非常重要。不同 的 监督框架的一个方法是同标注数据中学习属性提取的规则。例如, 关注影评挖掘和总结。缺点是这个技术局限于特定的领域和高度依存于训练数据。情感分类通常 定义为一份文件和一个句子的二元分类问题 8,9,10,11。在近期的一些研究中, 般化该定义为评定量表 12。 13,通过对属性之间的依赖关系建模来改进属性水平评分预 测 。这条工作思路瞄准了改进分类精度,这与大多数研究的焦点有所不同。 同济大学 硕士学位论文 基于 海量数据 评论挖掘的导购系统 研究与应用 6 图 4在 08年的 够在基于大量用户打分的短小文字评论中,发掘出用户感兴趣的各个方面,并且根据其打分情况对这些方面进行评分预 测 (如图 示 )。 14的问题设置是关于近期无监管属性情感分类研究的一般化。如果评分是二元的,这个问题设置会降低为无监管属性情感分类。现存的对情感分类的研究几乎无一例外都使用了一些外部知识 (使用单词列表 15,16或者训练例子 17 )来区分正面的和负面的极性。而 4的研究更多关注于在一个更加一般化的方法下解决评分分解问题并且 4提出了一个普遍的方法来利用和评论无关的总体评分来预测具体属性的评分。这是在文本挖掘研究中对评论、博文和其他文本的混合属性建模的另一条思路 18,19,20,21, 4的层面发现和聚类算法是沿着这条思路的。不同之处在第 1 章 绪论 7 于 4加入了话题模型的新用法从解析语句结构来获取信息。一个近期的 2的 研究,结合文本建模和属性评分,但是他们的目标是使用评分信息来确认更多的相关属性。另一个局限是他们假设了一个预先定义的属性组。与之对比, 14的研究关注与挖掘用户关注的属性,并根据总体评分自动进行评分推断甲,这在 评论 挖掘 领域 是具有一定开创性的。但是 4的问题在于其方法比较复杂,针对超大规模数据量的情况下 非常费时,虽然其效果不错,但是并不能直接进行应用。本文在其思路的基础上,对其方法进行了一定程度的简化,使该技术能够达到面向海量数据的实用的 级别。 有系统 目前商业化的导购系统很多,但绝大多数都是为在线消费者提供价格比较服务的,极少会用到商品的评分信息,更不用说对文字评论信息进行挖掘处理了。 图 同济大学 硕士学位论文 基于 海量数据 评论挖掘的导购系统 研究与应用 8 目前比较成功的系统是微软的购物搜索 1,如图 示。微软购物搜索是少数提供了评论聚集及挖掘的导购系统。除了将用户的打分进行统计展示之外,它还将用户的文字评论信息进行了挖掘处理,对 于用户关注的方面提取并进行分数预测,以绿色的小条来表征对应方面的好坏。但是微软购物搜索是 基于 ,并且只支持文本 检索 ,这就使得手机用户使用该系统非常不方便。另外该系统目前只检索了英文商品及评论信息。 在手机平台上做得比较好的是有道公司的购物助手 图 示。购物助手提供了非常好的用户体验,不仅支持手机用户通过移动互联网以文本的方式检索商品信息,而且支持条形码的拍摄和识别,作为辅助输入手段,极大地方便了用户的使用。但是该系统目前仅仅只提供基本的商品信息以及价格比较服务,没有涉及到评论相 关的功能。 图 1 ,从系统的角度出发,分析了一款能够索引上百万商品,上亿条评论的,基于评论挖掘技术并易于使用的导购系统的实现方法,并实现了这样一个系统。 目前学术界对于评论挖掘的工作有 很 多,但主要是基于英文的,本文将这些成果转化和应用到中文领域,需要面对许多挑战, 包括 资料 库的缺失 , 理工具较少等等。 另外本文设计的系统面向的数量级是上千万的商品以及上亿条的评论信息 ,商品信息包括文本及图像信息,评论信息则主要是文本,如此海量的数据大小在到 别,单机必然是无法高效存储的。如何设计分布式系统,灵活可扩展并且保持高效的对这些数据进行存储和访问是本文解决的第二个挑战。 伴随着海量数据产生的挑战,除了存储之外,还有计算方面的。其中计算既包括离线计算,也包括在线计算。离线计算主要包括对于评论的预处理,挖掘,聚类以及评分预测等等工作,而在线计算主要是用于处理高并发量的用户索引请求。 本 文的目标是让用户随时随地都能享受到导购系统带来的便捷,这就决定了目 标用户群是移动互联网用户。移动互联网用户受制于设备及网络 条件 ,有很 多同济大学 硕士学位论文 基于 海量数据 评论挖掘的导购系统 研究与应用 10 特点,其中包括终端设备计算能力较弱,网络连接带宽较少,输入不便等等,如何针对这些特点开发出对应性强的客户端为用户提供更加良好的体验是本文所面对的另外一个挑战。 于 海量数据 评论挖掘的 移动终端 导购系统 系统设计 基于移动终端的导购系统 分为客户端,前端和后端共三部分 , 如图 示 。 客户端负责发出商品检索请求,同时用于展示收到的商品检索结果。其中商品检索请求可以是基于文本的,也可以是基于图像或者条形码的,后两者要求客户端宿主系统拥有摄像 头。 前端系统用于响应来自客户端的请求,分为前端服务器集群以及检索系统。前端服务器负责解析客户请求以及做负载均衡,安全验证等,同时其还负责生成最终结果并发回客户端。检索系统负责读取索引库并进行商品检索,包括文字检索,图像和条码检索。前端服务器及检索系统都运行在分布式在线计算系统平台上。 后端系统包括爬取系统,评论挖掘 子系统、 推荐 子 系统以及索引 子 系统。爬取系统负责从电子商务网站如当当 3,京东 4,亚马逊 5,以及评论网站如豆瓣 6等地方爬取商品信息及评论信息,并且将相同商品的评论信息做标准化处理归并后存入商品及评论 库。之后,评论挖掘及推荐系统根据商品及评论库中所存储的商品及评论信息,进行观点挖掘以及评分推断等计算操作,之后根据计算结果更新商品及评论信息,将信息写回商品及评论库。索引系统则在商品信息有更新的时候,更新索引库,其索引的内容包括商品文本信息,商品条码信息以及商品图像信息。评论挖掘及推荐系统和索引系统都运行在分布式离线计算平台上 ; 商品及评论库以及索引库 都存储在分布式存储平台上 。 3 图 于海量数据评论挖掘的移动终端导购系统系统 结构框图 检索请求 (文字,条形码或图片 ) 检索结果 (商品信息、挖掘汇总等 ) 客户端 (移动设备 ) 前端服务器集群 检索系统 分布式存储集 ( 商品评论 索引库 爬取系统 评论源 评论源 评论挖掘及推荐系统 索引系统 评论源 分布式离线计算集群 (同济大学 硕士学位论文 基于 海量数据 评论挖掘的导购系统 研究与应用 12 文组织 本文第二章讨论系统所需要用到的基础设施的构建,包括大规模数据计算系统 (在线,离线 )以及海量数据的存储系统。第三章 讨论评论挖掘 子 系统的设计与实现 ,如何对评论进行预处理,如何进行层面的自动发现与评分推断等。第四章讨论推荐子系统,提出了通过挖掘文字评论信息学习用户偏好,并且根据不同的用户偏好帮他们进行个性化的评分预测和推荐的具体方法。第五章讨论了如何 高效的检索商品信息。第六章演示了最终系统的一些功能,同时给出了一些实验及性能数据。第七章是对本文工作的总结与展望。 第 2 章 基础知识 13 第 2 章 数据计算及 数据 存储 平台 设计 对于一个可以使用的导购系统来说,需要让用户在购买大多数商品时都能得到导购系统的帮助,导购系统需要收录的商品必须是海量的。 基于 海量数据评论挖掘的 移动终端 导购系统 需要检索上百万 种 的商品信息,其中包括文本信息如商品名称,厂家,批号等等,以及上亿条的评论信息。 这些 功能 对于系统的 数据计算和数据存储平台提出了很高的要求 ,其中既有存储容量方 面的挑战,也有计算数据规模上的挑战。对于存储容量方面来说,单机存储是不够的,需要分布式、高可靠性、可容错并动态扩展的系统 ; 对于计算数据规模方面, 需要支持海量数据的高效处理,也需要高并发 低延迟 的在线计算系统来支持检索等服务。 规模数据计算系统 设计 数据计算系统包括在线计算系统和离线计算系统两部分。 线计算系统 设计 线计算系统的需求分析 本文的导购系统有很多在线计算的需求,比如大数据量的用户并发查询,对于用户提交的检索文本的分析,用户提交的图像检索特征的提取等等。这些需求都有 一些共同特征,就是要快速响应,尽量降低延迟。 同时为 了达到基于该在线计算系统基础设施方便开发应用的目的, 在线计算基础设施在理论上应该对一个计算模型进行封装。在这之前有许多先行者,比如 3,封装了计算密集型的计算模型,方便用户开发计算密集型的并行应用 ;又比如 4,封装了数据密集型的 5计算模型,使得用户方便开发数据密集型的计算任务。事实上,他们做得很好,在他们之上开发应用都非常容易。但是如果用 开发计算密集型的应用或者用 开发数据密集型的应用 就显得捉襟见肘了。 没有一个计算模型能够支持所 有的应用,因此 在设计基础设施的时候并没有从封装计算模型的角度出 发去设计,而是将选择权留给了用户。系统 仅 仅是封装了消息通信机制和 6设计模式,在此基础上提供了一套框架将网络通信方面的工作透明化,使得基 于 系统 框架开发云计算应用与开发单机应用一样简同济大学 硕士学位论文 基于 海量数据 评论挖掘的导购系统 研究与应用 14 单。这就是对于在线计算基础设施的最终定位。 基于以上分析, 系统 的在线计算系统需要达到以下几个设计目标。 1、 提供简单的编程接口 ; 2、 设计一个由普通硬件组成的高可用、可扩展性良好的集群 ; 3、 最小化延时 ; 4、 使用分散、对称的结构 : 所有节点功能一样,无中心节点和特殊功能节点 (方便部署和维护 ); 5、 可插拔的结构以满足通用和定制的需要 ; 6、 设计思想要比较友好 : 容易编程、比较灵活。 线计算系统的设计与实现 在线计算系统的架构如图 同的 个 责提供一类服务。 现了 式,每个 以挂接任意数量的消息处理器即 (在向消息管理器 注册之后, 应的消息,就会调用对应的消息处理器来负责处理消息。 图 不同的 例之问都通过消息进行通信,所有的 连接在对应的 息都通过 以是同 的广播,也可以是点对点的发送。通过引入 概念,隐藏了 而方便实现去中心化以及可动态扩展的网络集群。 消息是在线计算基础设施模块非常重要的概念,每个消息都有 2 章 基础知识 15 消息可以广播到整个集群,也可以发给单个节点。其中, 是字符串类型, 统会自动 的做序列化并发出和重组消息。具体的消息 如图 线计算基础设施模块 一个计算单元就是一个 统 提供了 基类,在基础设施平台上开发具体应用只需要继承 继承了 后,自动获得了整 个基础设施平台的支持和提供的各项功能,非常方便。 名思义,就是消息的回调器。服务在接收到消息之后,消息分发器会根据消息的 理完成之后,系统会根据处理结果自动给远方调用者回一条消息。 以动态的注册和解注册到 证了系统良好的扩展性。 同的 样在保证扩展性的同时,也方便了在线计算应用的开发,同一个集群内的云节点可以处理不同的任务而不会冲 突。 图 为了开发者开发的方便,基础设施支持角色的定义。角色是逻辑意义上的概念,实现上就是一组 前系统内置了如下 3种角色 : (1)提供对于集群全局信息的获取和管理服务。与传统的 同济大学 硕士学位论文 基于 海量数据 评论挖掘的导购系统 研究与应用 16 构的集群不同,他只是一个逻辑上的概念,由于整个网络的协议是去中心化的 ,所以当一个 群会自动在备用 个特性是基础设施平台自动支持的。 (2)逻辑意义上执行具体计算的节点,一个 (3)本身不对云集群进行任何管埋操作, 也 不 执行计算任务 ,主要用来对云集群提交任务。提供 个角色,主要是为了方便在 样的地方提供同集群通信的设置和通道。可以把 线计算系统 7项目作为基础设施架构的,该项目会检索网页并且为检索到的网页建立一个搜索引擎索引。 8项目的一部分。它提供了一个分布式文件系统,该系统可以在数千台服务器存储数据,以及在这些机器中进行运算 (关任务 ), 让计算跟着数据走 。 程模型和运算框架 图 程 值对数据集进行分布式操作序列的分第 2 章 基础知识 17 布式计算的编程范式。 架驾驭了 机器集群并且在集群的节点中执行用户定义的 个段。这个运算的输入是键 /值对数据集。 在 架将输入数据集分割成大量碎片并且为每一块碎片指派一个框架同样将这许多 照它们所运行的集群节点分布。每一个 它们被指派的 碎片 中获取键 /值对并产生 一 系列中间键 /值对集。对 于每一个输入的键 /值对 (K,V), 用一个用户定义的 不同的键 /值对 (K ,V )。 在 段后该框架将中间数据集按照键分类并且产生 (K, V*)元组集以至于所有和一个特定键相联系的值一起出现。它也将元组集分割成与 在 一个 指派给它的 (K, V*)元组碎片中赋值。对于每一个这样的元组它都调用一个用户定义的 能化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论