《Spark应用开发技术》课件-03-探索分析法律服务网站数据_第1页
《Spark应用开发技术》课件-03-探索分析法律服务网站数据_第2页
《Spark应用开发技术》课件-03-探索分析法律服务网站数据_第3页
《Spark应用开发技术》课件-03-探索分析法律服务网站数据_第4页
《Spark应用开发技术》课件-03-探索分析法律服务网站数据_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Spark应用开发技术本章主要讲述SparkSQL的使用。本章主要讲述SparkDataFrame基础操作。通过学习本节将能够学习SparkSQL、SparkDataFrame基础操作。通过本节学习可以:理解SparkSQL的基本概念。掌握SparkSQL与Shell交互。掌握创建DataFrame对象的方法。掌握DataFrame查看数据的方法。掌握DataFrame的查询及输出操作。认识SparkSQLSpark

SQL简介Spark

SQLCLI配置SparkSQL与Shell交互掌握DataFrame基础操作创建DataFrame对象DataFrame查看数据DataFrame查询操作DataFrame输出操作探索分析法律服务网站数据获取数据、网页类型分析、点击次数分析、网页排名分析背景某家电子商务类的大型法律资讯网站,致力于为用户提供丰富的法律信息与专业咨询服务,并为律师与律师事务所提供卓有成效的互联网整合营销解决方案,随着其网站访问量增大,数据信息量也在大幅度增长。用户在面对大量信息时无法及时从中获得自己需要的信息,对信息的使用效率越来越低。这种浏览大量无关信息的过程,使用户需要花费大量的时间才能找到自己需要的信息,从而使得用户不断流失,给企业造成巨大的损失。为了能够更好地满足用户需求,依据其网站海量的数据,研究用户的兴趣偏好,分析用户的需求和行为,发现用户的兴趣点,从而引导用户发现自己的信息需求。为用户提供个性化的服务,并且建立网站与用户之间的密切关系,让用户对推荐系统产生依赖,从而建立稳定的企业忠实客户群,实现客户链式反应增值,提高消费者满意度。通过提高服务效率帮助消费者节约交易成本等,制定有针对性的营销战略方针,促进企业长期稳定高速发展。探索分析法律服务网站数据背景当用户访问网站页面时,系统会记录用户访问网站的日志,其中记录了用户IP、用户访问的时间、访问内容等多项属性的信息,各个属性的说明如表所示探索分析法律服务网站数据背景探索分析法律服务网站数据获取数据探索分析法律服务网站数据获取数据在Hive中创建数据库law在law数据库下创建law表将数据导入到law表探索分析法律服务网站数据网页类型分析探索分析法律服务网站数据网页类型统计从中发现点击与咨询相关的网页(网页类型为101,http://www.*.cn/ask/)的记录占比为49.16%,其次是其他类型网页(网页类型为199)占比24.05%,然后是知识相关网页(网页类型为107,http://www.*.com/info)占21.84%。探索分析法律服务网站数据通过观察类别为199的网页,发现其页面信息多数与法律法规相关,所以统计类别为199,并且包含法律法规的记录个数可以得到类别为199并且包含法律法规记录个数为47407。综合可得199的记录数应该为153992,而301的记录数应该为65837。因此可以得到用户点击页面类型的排行榜为:咨询相关、知识相关、其他方面的网页、法规(类型为301)、律师相关(类型为102)。可以初步得出:相对于长篇的知识,用户更加偏向于查看咨询或者进行咨询。探索分析法律服务网站数据咨询类别内部统计进一步针对咨询类别内部进行统计分析,统计内容为101网页类型的子类型、记录数及其所占101网页类型总记录百分比探索分析法律服务网站数据咨询类别内部统计浏览咨询内容页(101003)记录最多,其次是咨询列表页(101002)和咨询首页(101001)。结合上述初步结论,可以得出用户都喜欢通过浏览问题的方式找到自己需要的信息,而不是以提问的方式或者查看长篇知识的方式。探索分析法律服务网站数据网页中带有“?”记录统计统计所有访问网页中带有“?”的总记录数。统计分析访问网页中带有“?”的所有记录中,各网页类型、记录数、占访问网页中带有“?”的记录数的百分比探索分析法律服务网站数据网页中带有“?”记录统计包含“?”总记录数为65477,特别在其他网页这一类型中占了98%左右,比重较大,因此需要进一步分析该类型网页的内部规律,但在知识相关与法规专题中的占比仅为1%左右。探索分析法律服务网站数据进行数据查看后,发现大部分网址以如下形式存在http://www.XXX.cn/guangzhou/p2lawfirm地区律师事务所http://www.XXX.cn/guangzhou地区网址http://www.XXX.cn/ask/ask.php咨询网页http://www.XXX.cn/ask/midques_10549897.html中间类型网页http://www.XXX.cn/ask/exp/4317.html咨询经验http://www.XXX.cn/ask/online/138.html在线咨询页探索分析法律服务网站数据统计分析其他类型网页的内部规律探索分析法律服务网站数据统计分析其他类型网页的内部规律探索分析法律服务网站数据在1999001类型中,标题为法律快车-律师助手的这类信息占比77%,通过对业务了解,这是律师的一个登录页面。标题为咨询发布成功页面时自动跳转页面。带有“?”的页面记录,如“http://www.XXX.cn/ask/question_9152354.html?&from=androidqq”,代表该网页曾被分享过,因此可以通过截取“?”前面的网址对其进行处理,还原其原类型。统计“瞎逛用户”点击的网页类型在查看数据的过程中,发现存在一部分这样的用户,他们没有点击具体的网页(以.html后缀结尾),他们点击的大部分是目录网页,这样的用户可定义为“瞎逛用户”,统计“瞎逛用户”点击的网页类型探索分析法律服务网站数据统计“瞎逛用户”点击的网页类型探索分析法律服务网站数据从统计结果中看出,小部分是与知识、咨询相关,大部分是与地区、律师和事务所相关的。这部分用户有可能是找律师服务的,或者是瞎逛的。通过上述网址类型分布分析,可以发现与分析目标无关的数据清洗规则无点击.html行为及URL中的用户记录。中间类型网页(带有midques_关键字)。网址中带有“?”类型,无法还原其本身类型的快搜页面与发布咨询网页。法律快车-律师助手记录,页面标题包含“法律快车-律师助手”关键字。筛选模型所需记录(咨询、知识、法规专题页面数据)。重复数据(同一时间同一用户,访问相同网页)。记录这些规则,有利于在数据清洗阶段对数据进行清洗操作。探索分析法律服务网站数据点击次数分析统计分析原始数据用户浏览网页次数的情况,统计内容为点击次数、用户数、用户百分比、记录百分比探索分析法律服务网站数据点击次数分析探索分析法律服务网站数据从统计结果中发现用户总数为350090,总记录数为837450。可以发现浏览一次的用户占66%左右,大约84%的用户只提供了约42%的浏览页,即浏览网页1~2次的用户占了大部分。浏览一次用户行为分析针对浏览次数为一次的用户进行统计分析,统计内容为网页类型、记录个数、记录占浏览一次的的用户百分比探索分析法律服务网站数据浏览一次用户行为分析探索分析法律服务网站数据统计结果如表所说,问题咨询页占比为75%左右,知识页占比为16%左右,而且这些访问基本上都是通过搜索引擎进入。针对浏览次数为一次的用户分析结果,可以对该类用户情况做出两种猜测。用户为流失用户,在问题咨询与知识页面上没有找到相关的信息。用户找到其需要的信息,因此直接退出。综合这些情况,可将这些点击一次的用户行为定义为网页的跳出行为,用于计算网页跳出率。统计点击一次用户访问URL排名为了降低网页的跳出率,需要对这些网页进行针对用户的个性化推荐,帮助用户发现其感兴趣或者需要的网页。针对点击一次的用户浏览的网页进行统计分析探索分析法律服务网站数据统计点击一次用户访问URL排名统计结果如表所示,可以看出排名靠前的页面均为知识与咨询页面,因此可以猜测大量用户的关注点为法律知识或咨询。探索分析法律服务网站数据网页排名分析个性化推荐主要针对.html后缀的网页。从原始数据中统计.html后缀的网页的点击率探索分析法律服务网站数据网页排名分析探索分析法律服务网站数据网页排名分析点击率排名结果如上表所示,从中可以看出,点击次数排名前10名的项目中,法规专题占了大部分,其次是知识。但是从前面分析的结果中可知,原始数据中与咨询主题相关的记录占了大部分,但是在其.html后缀的网页排名中,专题与知识的占了大部分。通过业务了解,专题是属于知识大类里的一个小类。在统计.html后缀的网页点击排名时出现这种现象的原因是知识页面相比咨询的页面要少很多,当大量的用户在浏览咨询页面时,呈现一种比较分散的浏览次数,即其各个页面点击率不高,但是其总的浏览量高于知识类,所以造成网页排名中咨询方面的排名比较低。探索分析法律服务网站数据统计翻页的网页从原始html的点击率排行榜中可以发现如下情况,排行榜中存在这样两种类似的网址:"http://www.XXX.cn/info/hunyin/lhlawlhxy/20110707137693.html”和“http://www.XXX.cn/info/hunyin/lhlawlhxy/20110707137693_2.html”。通过简单访问网址,发现其本身属于同一网页,但由于系统在记录用户访问网址的信息时会同时记录翻页信息,因此在用户访问网址的数据中存在翻页的情况。针对这些翻页的网页进行统计探索分析法律服务网站数据统计翻页的网页探索分析法律服务网站数据通过业务了解,登录次数最多的页面基本为可从外部搜索引擎直接搜索到的页面。对其中浏览翻页的情况进行分析,平均60%~80%的人会选择看下一页,基本每一页都会丢失20%~40%的点击率,点击率会出现衰减的情况。同时对知识类网页进行检查,可以发现页面上并无全页显示功能,但是知识页面中大部分都存在翻页的情况。这样就造成了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论