【毕业学位论文】（Word原稿）基于海量数据评论挖掘的导购系统研究与应用-软件工程

上传人：O*** IP属地：江苏上传时间：2016-06-30 格式：DOC 页数：54 大小：4.28MB 积分：30 举报 版权申诉

【毕业学位论文】（Word原稿）基于海量数据评论挖掘的导购系统研究与应用-软件工程_第2页

【毕业学位论文】（Word原稿）基于海量数据评论挖掘的导购系统研究与应用-软件工程_第3页

【毕业学位论文】（Word原稿）基于海量数据评论挖掘的导购系统研究与应用-软件工程_第4页

【毕业学位论文】（Word原稿）基于海量数据评论挖掘的导购系统研究与应用-软件工程_第5页

已阅读5页，还剩49页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

学位论文版权使用授权书本人完全了解同济大学关于收集、保存、使用学位论文的规定，同意如下各项内容：按照学校要求提交学位论文的印刷本和电子版本；学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存论文；学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务；学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版；在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名：年月日同济大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名：年月日同济大学硕士学位论文摘要 I 摘要本文将评论挖掘技术与云计算技术结合，讨论基于千万级的商品及上亿评论信息的移动终端导购系统的构建。首先，本文以学术界评论挖掘的前沿成果为基础，改进并实现了面向大规模评论信息的挖掘方法，并且实现了对中文评沦信息的处理和挖掘。在此基础之上，本文提出了基于评论挖掘和用户偏好学习的评分预测方法，试验表明，该方法在评论样本足够多的时候能够提供比传统方法更加精确的预测。其次，本文的系统为了解决大规模计算及存储的挑战，引入并大量应用了云计算基础设施，包括本文提出并设计和实现的在线计算基础平台，以及开源的离线计算平台布式存储平台益于这些基础设施的应用，本文构建的导购系统具有良好的扩展性及容错性。最后，本文针对移动互联网终端设备开发了客户端，根据移动终端设备的特性进行了专门的设计及优化，提供了除传统文本检索之外，包括条形码扫描检索以及图像检索在内的多种检索方式，极大地提升了用户体验。目前该系统己投入使用，实验证明，本文设计的系统能够成功工作在百万商品及上亿条评论的数量级上，并且在实际应用中能够高效处理用户的各种查询请求并提供商品导购信息。关键词：海量数据，评论挖掘，协同过滤，移动终端，导购系统，云计算，分布式存储，条形码识别，图像检索 I of of of of of on on on is to be of of is to of in on to of of as be to of a of s to 济大学硕士学位论文目录目录摘要 . I . 录 . 1章绪论 . 1 究背景 . 1 . 1 购系统的需求分析 . 2 关工作 . 4 论挖掘概述及现状 . 4 . 7 文的主要工作 . 9 于海量数据评论挖掘的移动终端导购系统系统设计 . 10 . 12 第 2章数据计算及数据存储平台设计 . 13 . 13 数据计算系统包括在线计算系统和离线计算系统两部分。 . 13 . 13 . 13 . 14 . 16 程模型和运算框架 . 16 构与实现 . 17 量数据存储系统 . 17 . 17 . 18 据模型 . 18 架结构及流程 . 19 第 3章评论挖掘子系统分析与设计 . 22 论预处理 . 24 词系统 . 24 性标注 . 24 组 (取 . 25 面发现与评分推断 . 26 向最化 . 26 V 面发现 . 27 . 27 . 28 . 29 第 4章推荐子系统分析与设计 . 30 户偏好学习与评分预测 . 30 成推荐 . 32 第 5章检索子系统分析与设计 . 33 . 33 立文本索引 . 33 询 . 33 . 33 第 6章系统展示及实验结果 . 36 统核心数据 . 36 . 36 第 7章总结与展望 . 40 致谢 . 42 参考文献 . 43 个人简历、在读期间发表的学术论文与研究成果 . 错误 !未定义书签。同济大学硕士学位论文目录 V 图目录图当网上某商品评论信息截图图瓣网某商品截图图于评论挖掘的导购系统的目标及系统边界图面发现与评分汇总问题设定图软购物搜索图道购物搜索主界面图道购物搜索商品比较界面图统架构图线计算系统架构图线计算系统中的消息数据结构图线计算系统中服务与请求响应器的关系图程图架结构图图交更新以及刷新程 . 图当网商品评论示例图均值预测以及本文方法基于准确性比较，图排表检索示例图种常见的 1 维条形码图码检索过程中客户端与服务器的交互过程图购系统主界面图索结果示例图形码扫描识别模式图品检索示例 I 表目录表储内容示例表组抽取结果示例表面发现与聚类结果表本书籍的层面分数计算结果第 1 章绪论 1 第 1 章绪论究背景论信息对消费者购买决策的影响对大多数人而言，“其他人怎么看” 对决策制定过程具有非常大的影响力，甚至于会具有决定性的影响。在互联网广泛普及之前，评论信息的获得渠道比较单一，信息量也比较少，招聘者通过推荐信对求职者进行了解，家庭主妇参考报纸上的消费者报告来决定购买哪一种洗碗机，招聘者与家庭主妇想要获得更多的信息就比较困难。互联网和网站的广泛应用使得信息的获得渠道与数量爆炸性发展，用户可以通过不同的网站获得各种不同的信息，既可以方便的获得权威人士与机构的评价，也能够发现大量的陌生普通人的观点和经历。与此同时，越来越多的人乐于通过互联网发表他们的个人感受与观点，这些感受与观点可以快速及时地被陌生人获得，为互联网提供的海量的信息来源。在两项超过 2000 人参与的互联网用户网上购物的调查里， ,2 （ 1）有 81%的互联网用户对商品进行过在线搜索；（ 2）有 20%的互联网用户会在一个典型日期这么做；（ 3）有 32%的消费者会为商品、服务或者人员通过在线评分系统进行打分，而 30%的消费者会发布关于商品或者服务的在线批注或评论。（ 4）在餐厅、旅馆和各类服务的在线评论的读者中， 73% 87%的人其购买行为受到评论信息的显著影响；（ 5）消费者愿意为评价等级五星商品比四星商品多花费 20% 99%(这一数据的差异来源于不同的商品和服务 )。由以上数据可以看出，消费者在网上进行消费时，非常看重网上的评论信息，并且非常乐意在网络上发表自己对于消费的商品或者服务的评论。同时，消费者的行为严重受到评论信息的影响，有些消费者的消费决定甚至完全依赖于商品评论信息。使用者对于在线建议和推荐渴望和依赖性非常大，这仅仅是在线评论观点处理的系统数量大增现象的一个方面。另一方面，正如指出的那样，当大多数的互联网使用者在在线商品搜索中报告出良好经历的同时， 58%的人同样也报告出在线信息缺失、无法找到、迷惑或者具有压倒性的。因此这就明确地需同济大学硕士学位论文基于海量数据评论挖掘的导购系统研究与应用 2 要通过建立比现存更好的信息获取系统来帮助商品和信息的消费者。购系统的需求分析随着具有强大交互性的 . 0 的普及，越来越多的电子商务网站支持用户对于购买商品发表评论，如图示是国内最大的站当当网的商品评论网页截图。一项来自顾客体验咨询公司调查发现，有超过 85%的消费者会选择在网上关注或购买大件商品，如电子产品和汽车等，而 63%的人则更倾向于选择提供用户评论功能和商品评价等级的网站进行产品研究和购买。绝大多数的网络消费者在网站进行购买商品前，都会先阅读关于商品的评论信息，并将其作为重要的参考源来进行购买行为决策。图互联网可以给消费者提供大量的商品及其评价信息，但对于线下的消费者来说，获取商品的评论信息就不那么方便了。对于汽车、家电等大宗商品而言，由于商品的可选范围比较固定，决策周期长，消费者可以在购买前做进行详细的研究并进行选择，消费行为发生时对于评价信息的依赖会比较弱。这种消费决策方式对于即兴消费来说就不大现实了。线下即兴消费时，消费者往往只能求助于导购员或者现场商品说明来了解商品，这些信息都是由卖方提供的，往往无法准确第 1 章绪论 3 客观的反应商品情况，更加无法了解商品的真实使用情况。同时线下消费也具有不确定性，商品的范围非常广泛。因而线下即兴消费对于来自第三方的评价信息的需求分散而数量巨大。目前，智能手机已经普及，而移动互联网也随之得到大规模的发展，移动互联网得到越来越多手机用户的青睐。这使得将网络上该商品的评论信息汇总并经过移动互联网推送到消费者的手机上成为可能，并能使得消费者随时随地获得商品的评价信息而非仅仅依赖于电脑这种工具。能够为手机用户提供商品信息及评价等级功能的系统就是基于移动终端的导购系统。基于移动终端的导购系统面对的主要问题在于以下几个方面：一、大量不同来源的评论信息。提供大量的全面和客观的商品评论信息，传统的电子商务网站在这一方面已经比较成熟，大多数网站都提供了客户发表评论的功能平台。但传统的电子商务网站通常会偏重于特定的领域，如当当网的书籍，京东的电器等，导致同一网站上不同类别商品评论数量的差距较大，甚至可以达到几十上百倍。图示是豆瓣网关于同一件商品的评论截图，该商品的评论一经达到上千条，与图比可以发现，两者评论数量差了几十倍。用户想要获得某商品的完整评论信息，通常需要辗转多个网站，非常不便。图价网页截图二、评论信息的分散、繁琐和不统一。目前大多数网站对商品评价信息的处同济大学硕士学位论文基于海量数据评论挖掘的导购系统研究与应用 4 理都还仅仅是针对分数等量化信息进行汇总，没有对文字进行处理。对于一个商品而言，外观、功能、安全性、便利性等多个方面的评价，仅仅通过一个抽象的评价数字很难让消费者了解商品到底哪些地方好，哪些地方不好，要获取这些信息就只能依靠阅读文字评论信息自己进行总结。而阅读文字评论信息非常费时，特别是要对几个商品进行比较来决定购买哪一个时，需要阅读的信息量就更多；同时，由于屏幕大小的限制，在移动终端上阅读文字评论信息也很不方便。基于移动终端的导购系统需要具备将文字评论信息的摘要提取并汇总的功能，提供给用户方便阅读的信息数量。针对于这些的问题，基于移动终端的导购系统具有以下功能： 1、收集和汇总不同网站以及不同来源的商品信息和评论数据； 2、对评论数据进行挖掘处理，将挖掘结果进行汇总，并提供便捷的方式让用户检索。基于移动终端的导购系统将不同来源的信息通过爬取汇总，集中对信息进行观点挖掘和评分预测，生成推荐信息，将推荐信息建立索引，用户可以通过检索得到系统生成的推荐信息进行参考。如图示，其中虚线框中的部分就是导购系统所要提供的功能。图关工作论挖掘概述及现状评论挖掘首次出现在 et 3发表在文章中，文中提出理想的观点挖掘工具能够“对一项给定条目执行一系列搜索结果，产生出一份产品属当当网卓越淘宝网其他评论源爬取汇总观点挖掘评分预测生成推荐建立索引检索终端用户第 1 章绪论 5 性清单 (质量、特点，等等 )并且对每一项进行观点加总 (差评、中评、好评 )。”很多随后研究自我鉴定例如观点挖掘符合这项描述强调在其对给定条目不同性质的提取和分析评价。然而，这个术语最近也被拓宽阐释，包括了很多不同类型的评价文本分析 4。最近，有一些总结在线评论的研究。 5通过使用利用充的种子形容词组来应用关联挖掘来提取产品的特点和决定评价意见的极性，但是没有方法来对属性进行聚类。的一项类似研究，在特点提取和观点极性确认上都远胜于 5系统，也遇到了类似的问题。同一属性使用不同的词汇，或者在线短评中出现误拼，而该短评对属性评分价值非常重要的这些领域，聚类非常重要。不同的监督框架的一个方法是同标注数据中学习属性提取的规则。例如，关注影评挖掘和总结。缺点是这个技术局限于特定的领域和高度依存于训练数据。情感分类通常定义为一份文件和一个句子的二元分类问题 8,9,10,11。在近期的一些研究中，般化该定义为评定量表 12。 13，通过对属性之间的依赖关系建模来改进属性水平评分预测。这条工作思路瞄准了改进分类精度，这与大多数研究的焦点有所不同。同济大学硕士学位论文基于海量数据评论挖掘的导购系统研究与应用 6 图 4在 08年的够在基于大量用户打分的短小文字评论中，发掘出用户感兴趣的各个方面，并且根据其打分情况对这些方面进行评分预测 (如图示 )。 14的问题设置是关于近期无监管属性情感分类研究的一般化。如果评分是二元的，这个问题设置会降低为无监管属性情感分类。现存的对情感分类的研究几乎无一例外都使用了一些外部知识 (使用单词列表 15,16或者训练例子 17 )来区分正面的和负面的极性。而 4的研究更多关注于在一个更加一般化的方法下解决评分分解问题并且 4提出了一个普遍的方法来利用和评论无关的总体评分来预测具体属性的评分。这是在文本挖掘研究中对评论、博文和其他文本的混合属性建模的另一条思路 18,19,20,21， 4的层面发现和聚类算法是沿着这条思路的。不同之处在第 1 章绪论 7 于 4加入了话题模型的新用法从解析语句结构来获取信息。一个近期的 2的研究，结合文本建模和属性评分，但是他们的目标是使用评分信息来确认更多的相关属性。另一个局限是他们假设了一个预先定义的属性组。与之对比， 14的研究关注与挖掘用户关注的属性，并根据总体评分自动进行评分推断甲，这在评论挖掘领域是具有一定开创性的。但是 4的问题在于其方法比较复杂，针对超大规模数据量的情况下非常费时，虽然其效果不错，但是并不能直接进行应用。本文在其思路的基础上，对其方法进行了一定程度的简化，使该技术能够达到面向海量数据的实用的级别。有系统目前商业化的导购系统很多，但绝大多数都是为在线消费者提供价格比较服务的，极少会用到商品的评分信息，更不用说对文字评论信息进行挖掘处理了。图同济大学硕士学位论文基于海量数据评论挖掘的导购系统研究与应用 8 目前比较成功的系统是微软的购物搜索 1，如图示。微软购物搜索是少数提供了评论聚集及挖掘的导购系统。除了将用户的打分进行统计展示之外，它还将用户的文字评论信息进行了挖掘处理，对于用户关注的方面提取并进行分数预测，以绿色的小条来表征对应方面的好坏。但是微软购物搜索是基于，并且只支持文本检索，这就使得手机用户使用该系统非常不方便。另外该系统目前只检索了英文商品及评论信息。在手机平台上做得比较好的是有道公司的购物助手图示。购物助手提供了非常好的用户体验，不仅支持手机用户通过移动互联网以文本的方式检索商品信息，而且支持条形码的拍摄和识别，作为辅助输入手段，极大地方便了用户的使用。但是该系统目前仅仅只提供基本的商品信息以及价格比较服务，没有涉及到评论相关的功能。图 1 ，从系统的角度出发，分析了一款能够索引上百万商品，上亿条评论的，基于评论挖掘技术并易于使用的导购系统的实现方法，并实现了这样一个系统。目前学术界对于评论挖掘的工作有很多，但主要是基于英文的，本文将这些成果转化和应用到中文领域，需要面对许多挑战，包括资料库的缺失，理工具较少等等。另外本文设计的系统面向的数量级是上千万的商品以及上亿条的评论信息，商品信息包括文本及图像信息，评论信息则主要是文本，如此海量的数据大小在到别，单机必然是无法高效存储的。如何设计分布式系统，灵活可扩展并且保持高效的对这些数据进行存储和访问是本文解决的第二个挑战。伴随着海量数据产生的挑战，除了存储之外，还有计算方面的。其中计算既包括离线计算，也包括在线计算。离线计算主要包括对于评论的预处理，挖掘，聚类以及评分预测等等工作，而在线计算主要是用于处理高并发量的用户索引请求。本文的目标是让用户随时随地都能享受到导购系统带来的便捷，这就决定了目标用户群是移动互联网用户。移动互联网用户受制于设备及网络条件，有很多同济大学硕士学位论文基于海量数据评论挖掘的导购系统研究与应用 10 特点，其中包括终端设备计算能力较弱，网络连接带宽较少，输入不便等等，如何针对这些特点开发出对应性强的客户端为用户提供更加良好的体验是本文所面对的另外一个挑战。于海量数据评论挖掘的移动终端导购系统系统设计基于移动终端的导购系统分为客户端，前端和后端共三部分，如图示。客户端负责发出商品检索请求，同时用于展示收到的商品检索结果。其中商品检索请求可以是基于文本的，也可以是基于图像或者条形码的，后两者要求客户端宿主系统拥有摄像头。前端系统用于响应来自客户端的请求，分为前端服务器集群以及检索系统。前端服务器负责解析客户请求以及做负载均衡，安全验证等，同时其还负责生成最终结果并发回客户端。检索系统负责读取索引库并进行商品检索，包括文字检索，图像和条码检索。前端服务器及检索系统都运行在分布式在线计算系统平台上。后端系统包括爬取系统，评论挖掘子系统、推荐子系统以及索引子系统。爬取系统负责从电子商务网站如当当 3，京东 4，亚马逊 5，以及评论网站如豆瓣 6等地方爬取商品信息及评论信息，并且将相同商品的评论信息做标准化处理归并后存入商品及评论库。之后，评论挖掘及推荐系统根据商品及评论库中所存储的商品及评论信息，进行观点挖掘以及评分推断等计算操作，之后根据计算结果更新商品及评论信息，将信息写回商品及评论库。索引系统则在商品信息有更新的时候，更新索引库，其索引的内容包括商品文本信息，商品条码信息以及商品图像信息。评论挖掘及推荐系统和索引系统都运行在分布式离线计算平台上；商品及评论库以及索引库都存储在分布式存储平台上。 3 图于海量数据评论挖掘的移动终端导购系统系统结构框图检索请求 (文字，条形码或图片 ) 检索结果 (商品信息、挖掘汇总等 ) 客户端 (移动设备 ) 前端服务器集群检索系统分布式存储集 ( 商品评论索引库爬取系统评论源评论源评论挖掘及推荐系统索引系统评论源分布式离线计算集群 (同济大学硕士学位论文基于海量数据评论挖掘的导购系统研究与应用 12 文组织本文第二章讨论系统所需要用到的基础设施的构建，包括大规模数据计算系统 (在线，离线 )以及海量数据的存储系统。第三章讨论评论挖掘子系统的设计与实现，如何对评论进行预处理，如何进行层面的自动发现与评分推断等。第四章讨论推荐子系统，提出了通过挖掘文字评论信息学习用户偏好，并且根据不同的用户偏好帮他们进行个性化的评分预测和推荐的具体方法。第五章讨论了如何高效的检索商品信息。第六章演示了最终系统的一些功能，同时给出了一些实验及性能数据。第七章是对本文工作的总结与展望。第 2 章基础知识 13 第 2 章数据计算及数据存储平台设计对于一个可以使用的导购系统来说，需要让用户在购买大多数商品时都能得到导购系统的帮助，导购系统需要收录的商品必须是海量的。基于海量数据评论挖掘的移动终端导购系统需要检索上百万种的商品信息，其中包括文本信息如商品名称，厂家，批号等等，以及上亿条的评论信息。这些功能对于系统的数据计算和数据存储平台提出了很高的要求，其中既有存储容量方面的挑战，也有计算数据规模上的挑战。对于存储容量方面来说，单机存储是不够的，需要分布式、高可靠性、可容错并动态扩展的系统；对于计算数据规模方面，需要支持海量数据的高效处理，也需要高并发低延迟的在线计算系统来支持检索等服务。规模数据计算系统设计数据计算系统包括在线计算系统和离线计算系统两部分。线计算系统设计线计算系统的需求分析本文的导购系统有很多在线计算的需求，比如大数据量的用户并发查询，对于用户提交的检索文本的分析，用户提交的图像检索特征的提取等等。这些需求都有一些共同特征，就是要快速响应，尽量降低延迟。同时为了达到基于该在线计算系统基础设施方便开发应用的目的，在线计算基础设施在理论上应该对一个计算模型进行封装。在这之前有许多先行者，比如 3，封装了计算密集型的计算模型，方便用户开发计算密集型的并行应用；又比如 4，封装了数据密集型的 5计算模型，使得用户方便开发数据密集型的计算任务。事实上，他们做得很好，在他们之上开发应用都非常容易。但是如果用开发计算密集型的应用或者用开发数据密集型的应用就显得捉襟见肘了。没有一个计算模型能够支持所有的应用，因此在设计基础设施的时候并没有从封装计算模型的角度出发去设计，而是将选择权留给了用户。系统仅仅是封装了消息通信机制和 6设计模式，在此基础上提供了一套框架将网络通信方面的工作透明化，使得基于系统框架开发云计算应用与开发单机应用一样简同济大学硕士学位论文基于海量数据评论挖掘的导购系统研究与应用 14 单。这就是对于在线计算基础设施的最终定位。基于以上分析，系统的在线计算系统需要达到以下几个设计目标。 1、提供简单的编程接口； 2、设计一个由普通硬件组成的高可用、可扩展性良好的集群； 3、最小化延时； 4、使用分散、对称的结构：所有节点功能一样，无中心节点和特殊功能节点 (方便部署和维护 )； 5、可插拔的结构以满足通用和定制的需要； 6、设计思想要比较友好：容易编程、比较灵活。线计算系统的设计与实现在线计算系统的架构如图同的个责提供一类服务。现了式，每个以挂接任意数量的消息处理器即 (在向消息管理器注册之后，应的消息，就会调用对应的消息处理器来负责处理消息。图不同的例之问都通过消息进行通信，所有的连接在对应的息都通过以是同的广播，也可以是点对点的发送。通过引入概念，隐藏了而方便实现去中心化以及可动态扩展的网络集群。消息是在线计算基础设施模块非常重要的概念，每个消息都有 2 章基础知识 15 消息可以广播到整个集群，也可以发给单个节点。其中，是字符串类型，统会自动的做序列化并发出和重组消息。具体的消息如图线计算基础设施模块一个计算单元就是一个统提供了基类，在基础设施平台上开发具体应用只需要继承继承了后，自动获得了整个基础设施平台的支持和提供的各项功能，非常方便。名思义，就是消息的回调器。服务在接收到消息之后，消息分发器会根据消息的理完成之后，系统会根据处理结果自动给远方调用者回一条消息。以动态的注册和解注册到证了系统良好的扩展性。同的样在保证扩展性的同时，也方便了在线计算应用的开发，同一个集群内的云节点可以处理不同的任务而不会冲突。图为了开发者开发的方便，基础设施支持角色的定义。角色是逻辑意义上的概念，实现上就是一组前系统内置了如下 3种角色： (1)提供对于集群全局信息的获取和管理服务。与传统的同济大学硕士学位论文基于海量数据评论挖掘的导购系统研究与应用 16 构的集群不同，他只是一个逻辑上的概念，由于整个网络的协议是去中心化的，所以当一个群会自动在备用个特性是基础设施平台自动支持的。 (2)逻辑意义上执行具体计算的节点，一个 (3)本身不对云集群进行任何管埋操作，也不执行计算任务，主要用来对云集群提交任务。提供个角色，主要是为了方便在样的地方提供同集群通信的设置和通道。可以把线计算系统 7项目作为基础设施架构的，该项目会检索网页并且为检索到的网页建立一个搜索引擎索引。 8项目的一部分。它提供了一个分布式文件系统，该系统可以在数千台服务器存储数据，以及在这些机器中进行运算 (关任务 )，让计算跟着数据走。程模型和运算框架图程值对数据集进行分布式操作序列的分第 2 章基础知识 17 布式计算的编程范式。架驾驭了机器集群并且在集群的节点中执行用户定义的个段。这个运算的输入是键 /值对数据集。在架将输入数据集分割成大量碎片并且为每一块碎片指派一个框架同样将这许多照它们所运行的集群节点分布。每一个它们被指派的碎片中获取键 /值对并产生一系列中间键 /值对集。对于每一个输入的键 /值对 (K,V)，用一个用户定义的不同的键 /值对 (K ,V )。在段后该框架将中间数据集按照键分类并且产生 (K， V*)元组集以至于所有和一个特定键相联系的值一起出现。它也将元组集分割成与在一个指派给它的 (K, V*)元组碎片中赋值。对于每一个这样的元组它都调用一个用户定义的能化

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）基于海量数据评论挖掘的导购系统研究与应用-软件工程

文档简介

温馨提示

最新文档

评论

相关文档