




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据及社交网络用户行为的研究摘要从Gartner的相关研究来看,每天需要生产的数据大约为2.5QB,现如今,全世界所有的数据当中约有90%的是在最近两年当中产生的,这些不同的数据来分别来自不同的地区,例如天气数据、社交媒体、购物交易、手机地理数据等,而这些数据就是我们所说的大数据。现如今,大数据的影响力正在不断扩大,且已经成为了行业领先的一种对数据进行分析的工具,与此前的数据分析相比,该工具更加便捷,且能够使得成本得到更好的节约。而从我国的发展情况来看,百度、腾讯、阿里巴巴等互联网巨头则较早的对大数据进行了引用,并在互联网业务决策当中进行应用。以此为背景,本文的研究主要包含有也以下几个方面:第一,分析了大数据的现状,深入的了解大数据的概念及其研究方向;第二,分析了大数据的普及现状,阐述了如何对大数据瘦身,并对大数据市场的未来情况进行了展望。第三,从互联网在线社区当中获取数据,并通过用户的典型行为模式对其进行分组,从而将决策依据提供给互联网在线社区。关键词:大数据数据精简用户行为
目录TOC\o"1-3"\u1.绪论 .绪论1.1研究背景与意义不断发展的信息技术、网络技术,使得全球的数据数量不断增加。从行业专家的数据预测来看,截止至2020年,全球数量的数据总量将增长4000%,而在这些数据当中,由个人产生的数据将达到70%,且受到企业存储、管理以及安全保护的数据则为80%。爆炸式增长的数据,也改变了传统的关系型数据库,视频、图片、社交媒体等数据的快速增长,均使得传统关系型数据库非结构化的数据具有更强的弹性,但也更加无序。大数据本身的价值是需要得到承认的,但是对于大数据价值的挖掘则具有较高的难度。例如,监控视频每天产生的视频数据大部分并没有利用价值,但仅有几秒钟的镜头能够捕捉最烦的体貌特征,而对于公安部门来讲,即便只是几秒钟的价值也十分重要,因此就需要对24小时当中的全部数据进行保存,而这也是大数据的重要特征。但是,从应用的角度来看,必须要在极快的时间当中形成答案,否则受到数据快速生产的影响,这些结果可能就是过时的。例如,导航现如今已经得到了比较广泛的应用,其中的路况信息就具有较强的实效性特点,越及时的路况信息就具有越强的有效性,而路况信息的实时性,能够使得物流企业效率得到有效的改善,并保证企业的运营成本得到降低。而对大数据局与传统数据仓库技术、BI技术的关键区别之一,其实就是实时处理的要求。1.2国内外发展现状现如今,在企业、IT厂商当中,大数据、商业智能化均成为了其中讨论的热门话题,WindowsAzure平台是其中应用较为领先的企业,现如今,Azure已经对一个云计算平台进行了构建,能够对Saas,Paas等云服务给予提供,此外,亚马逊也具有全球领先的云计算以及服务。除上述之外,IBM、DELL等一些传统的软件杭商也推出了将大数据作为基础的商业智能化软件服务。我国应用、建设大数据目前仍然比较初级,投入比较早期的均为互联网企业,例如淘宝、新浪、腾讯、百度等,由于我国具有庞大的互联网用户群,因此每天都会产生大量的交易数据、浏览数据、点击数据等,通过这些数据分析用户行为,对于吸引互联网用户、提高企业竞争力意义重要。距离来讲,在每年的双十一购物节中,淘宝均会分析不同区域、不同采购习惯的消费者,并以此为基础针对性的进行排版,从而更好的吸引应用。此外,百度等搜索引擎也会将用户习惯作为基础,对餐饮、酒店、团购等信息进行提供,大数据的普遍应用能够使得企业针对用户数据提供决策,而电信运营商针对不同消费群体的不同促销活动,则是其最常见的表现之一。1.3研究目的本文的研究目的,在于定义大数据以及数据市场,以互联网在线社区为基础,对如何快速互联网提供商提供业务决策进行分析。2.大数据分析及优化2.1大数据的定义O’ReillyMedia认为,所谓的大数据,就是数据的性能、数据量达到足够成为实施数据管理、分析系统的设计以及决定因素。该研究定义的大数据与一般的大数据定义相比,对管理系统、分析系统中大数据的作用更加关注。而针对于大数据的级别来看,不同的组织看法各不相同。从大型企业的角度来看,大数据有着PB级别以上的数据,而从中小型企业的来讲,其数据等级则主要为TB等级。当然,在对大数据问题进行解决时,数据的大小只是其中一方面的因素,事实上,数据的增长除了庞大的数据量之外,数据自身的复杂程度也会不断提升。2.2数据的质量从上文当中大数据的定义来看,大数据当中包含所有的数据,其中除了人工录入的数据之外,也包含有机器、传感器产生的数据、经过分析之后产生的数据等。这些数据的数据集均十分庞大,而如何才能够对这些数据有效利用,并对企业需要的高质量数据进行提取就变得十分重要。任何一个企业、组织在对大数据进行分析之前,提取潜在的数据是其中最重要的步骤。虽然目前在行业内部当中始终认为并不需要担心数据的质量,但我们仍然需要对数据质量进行讨论。我们在开始使用传统的关系型数据库时就已经认识到要对数据质量不断提高,而在传统的关系型数据库当中,有很多工具是用来对数据进行整理的。而在大数据的不断发展过程当中,对于数据质量的提升也变得更加重要,高质量的数据能够将帮助企业更好的决策,但是,由于大数据是一种非传统型数据库数据,因此能够提升数据质量的通用工具较少。控制大数据质量,将会使得大数据给予企业帮助得到更大的提高。从目前的发展来看,不同传感器收集到数据,都会使得大数据整理的难度不断提升,因此,目前并没有太昊的数据管理模型及工具,而这也阻碍了企业对大数据的有效利用。许多企业在考虑大数据时,决策者往往会更多的考虑数据质量以及成本。在大数据领域当中,如何将数据重新定义成其他用户需要使用的数据十分重要。例如,不同的组织都能够从不同的数据当中对不用题集进行获取。在这个例子当中,数据是固定的,只是由于分析角度的不同对相关问题的答案进行获取。因此,在对大数据领域中数据质量范围进行定义时,需要充分考虑到这些数据的不同用法。因此,在当今企业当中,清晰的定义数据的属性非常重要,只有对数据属性清晰的定义,才能够使得人们更好的对其进行应用。目前,在很多实践的过程当中,很多关于数据质量的项目都没有成功,其中很重要的原因就是只考虑了企业内部的数据。但是,大数据强调的是结合内部以及外部的数据,此外还具有公开的数据集。一些与数据质量相关的项目,都通过大量的经费购买相关工具来整理数据,但这个方法并不一定能够成功,对于正确数据分析工具的选择十分重要,这是因为,在数据管理中,数据质量本身的重要性极强,目前来看,传统IT行业当中数据质量的工具主要包含有Parsing、Matching等不同几个方面的属性。在大数据概念当中,这些属性也同样十分重要,而在庞大的数据当中,需要一些分析工具来对这些属性进行筛选。现如今,很多厂商都能够对提高数据质量的工具进行提供,如IBM、SAP等。除了上述厂商之外,也有一些软件公司创新了Informatica、DataFlux等工具,这工具都能够提供非常多的新方法,使得大数据当中的数据质量问题得到解决。在对其质量进行考虑时,大数据需要非常高的自动化流程来对数据质量问题进行解决,因此,在计划大数据时,就应小心的计划大数据质量。其中,最底层的数据能够将企业可信任的方向提供给业务决策,因此,在对大数据项目计划进行考虑时,应将数据质量的把控作为最高的优先级。2.3数据的瘦身现如今,企业在对大数据项目考虑时,首先需要对大量的数据进行收集,这些数据的来源渠道十分广泛,而这些数据均是大数据当中最底层的数据来源,与此同时,从企业角度来看,这也增加了企业存储数据的费用,这些问题的出现,都使得企业面临如何有效瘦身数据的问题。所谓的数据瘦身,可以看做是将不需要的数据从没有进行选择、筛选的数据当中去除,并将数据整理在能够承受的范围中。现如今,在行业当中,数据瘦身并不是比较流行的讨论话题,因为大数据自身发展时间并不长,并没过高的存储成本。而越加热门的大数据,也会使得越来越多的政府、企业对这些数据产生依赖。从另外一个方面来看,越大的数据量就会导致越贵的存储成本,其中包含有数据管理、数据保护以及如何快速索引等,这也提出了更高的的存储性能需求,因此,大量数据将会带来不可低估的存储成本,随着企业对于数据依赖性的提高,其成本的增长速度也会不断上涨。除了在未来发展当中,目前在很多企业当中,均已经有类似问题出现,其主要表现在以下几点:2.3.1数据的清理分析的文本成为了企业额外付出的成本,但是这些额外的成本则需要持续性的付出,但却并没有得到足够的回报。2.3.2数据的管理问题管理海量数据需要花费大量的经费,这会导致企业的额外成本付出不断提升。2.3.3大量的无用数据大数据当中并不是所有数据都有用的,事实上,其中大多数的数据并不能够发挥作用,而分析数据将会导致企业的开销不断提升,除了金钱、系统方面的开销之外,还会对开发者、使用者的精神产生影响,并导致了许多无用工作量的出现。由于目前数大数据市场仍然处于起步阶段,因此该问题并不是最热门的问题,市场当中也没有有效的工具使得数据瘦身得到解决,但是,随着企业逐渐认识到数据瘦身问题,也将会改变这个趋势。而对于大数据项目的人员来讲,与其通过工具对数据进行瘦身,不如从最初的收集数据阶段防止这一问题的出现。目前来看,整个业绩当中并没有统一标准出现,也没有太多成功案例能够得到参考。3.社交网络用户行为模式大数据3.1需求分析3.1.1平台背景系统整体面向的用户为在校大学生,系统整体可为学生提供更便捷的查询课表、成绩、学分等操作,学生也可以进行发帖功能的留言等。现市场上常见的APP有课程格子、超级课程表、掌上课表等。系统为免去用户的安装采用B/S的架构方案实施,可嵌入微信公众平台,也可独立WEB访问,还可以通过一系列的技术方案将其发布成应用程序安装包。技术方案:平台整体保证可移植性,可以在不同的应用平台上进行加载运行。系统采用JAVA语言来进行编程。关系型数据库使用MySQL,非关系型数据库系统使用Redis、HBase;日志收集系统采用LogStash;数据分析检索系统采用ElasticSearch;数据展示系统采用Kibana。数据备份:为保证平台的可持续运行及数据的稳定,平台使用多种备份方案,依据MySQL系统采用主从备份,及定时mysqldump数据冷备到OSS数据存储仓库中心;Redis系统采用集群方式进行部署,对Redis产生的RDB和AOF两种文件分别进行热备份和冷备份两种方式;对HBase的数据定时的进行备份导出;灾备机房相同代码的部署。安全性:系统会涉及到用户的个人资料和个人隐私的一些数据,系统的安全性非常重要。系统在设计上对权限及管理上严格把控。对于管理平台系统采用VPN登录验证,IP白名单方式把控。3.1.2业务需求平台整体分为前后两端,前端主要面向于用户,包含认证、查询、留言等功能;后端主要面向管理人员,主要包含系统模块、推送模块、数据采集分析模块等。具体需求如下:日志模块:系统日志的产生主要分为Nginx和JAVA应用打印日志。推送模块:系统采用任务调度模式来生成定时任务管理。系统模块:主要配置系统环境变量抓取数据信息等。认证中心:将多平台的认证接口统一到Oauth2中进行认证授权。3.2系统设计3.2.1系统架构及技术解决方案如系统整体基于微服务SOA分布式的架构来进行设计与实现。数据采用了前后端分离的JWT方式进行交互。具体框架结构如下:整体架构:SpringCloud做为项目的整体核心被引用,版本使用Finchley.SR1。作为选型方案中SpringCloud和Dubbo成为SOA微服务的最佳选择,Dubbo采用的RPC方式进行远程调用SpringCloud底层采用的是RestTemplate方式进行调用,结合整体分析SpringCloud更适合于当前系统。配置中心:携程的Apollo作为项目的配置中心被引用,版本使用1.4.0。作为选型方案中的携程Apollo、SpringCloudConfig、随行付ConfigKeeper多种配置中心,携程的Apollo有自己的独立UI、支持热发布、灰度发布、不同环境的配置以及部署简单的优点被采用。注册中心:阿里的Nacos作为项目的注册中心被引用,版本使用1.1.0。作为选型方案中的Eureka已经宣布闭源,Zookeeper并不支持多数据中心和自身监控。相比Consul、Eureka和SpringCloudConfig的原生解决方案Nacos计划在更适应云环境、多配置管理、容灾、管控、容量支撑和易运维等方面做更多的能力扩展熔断限流:阿里的Sentinel作为熔断限流的组件被引用,版本使用1.4.0。hystrix已经停止更新,阿里的Sentinel在熔断和限流降级的策略上显得更有优势网关配置:SpringCloudGateway作为网关被引用选择版本与SpringCloud当前最新依赖版本保持一直。Zuul和Soul都是作为网关被引用,但是SpringCloudGateway中的策略路由、处理器过滤器的使用变得让整个网关更加成熟。链路追踪:Zipkin作为链路追踪被引用,版本使用2.2.1。Zipkin目前基于springcloudsleuth得到了广泛的使用,轻量,使用部署简单;Pinpoin和SkyWalking的UI功能较强,接入端无代码侵入。目前SkyWalking已加入Apache孵化器。他们的实现方式不同,Zipkin拦截请求,发送(HTTP,MQ)数据至zipkin服务;Pinpoint和SkyWalking是java探针,字节码增强。授权中心:SpringOauth2版本使用与SpringCloud的版本保持一致,为使前后端分离权限认证更为便捷系统Token采用JWT和原生Token两种方式任务调度:自主研发分布式任务调度平台,通过对开源平台XXL-JOB和Elastic-JOB的研究自己发布任务调度平台通过Quartz的生成方式来进行实现。日志采集分析:ELK(Elasticsearch、Logstash、Kibana)Logstash作为日志的收集;Elasticsearch对日志进行分析;Kibana对日志数据的展示。数据库:MySql作为基本的数据存储、Redis作为用户登录信息、一些基本数据的缓存和分布式锁的使用、HBase对抓取的数据进行存储。消息队列:Kafka作为消息队列,相比其他的MQ吞吐量会更高一些。数据统计:Hadoop进行计算统计。3.2.2数据库设计微信日志、操作日志、访问日志表设计如下:字段名字段描述字段类型允许空id自增IDbigintNOopen_id微信对应用户唯一idvarcharNOapp_id微信唯一IDvarcharNOuser_id平台用户idbigintNOuser_code平台用户codevarcharNOcreate_time创建时间datetimeNOmsg_type消息类型varcharYESevent事件varcharYEScontent消息内容varcharYESmsg_id消息IDvarcharYESpic_url图片地址varcharYESmedia_id素材IDvarcharYESformat转换数据varcharYESrecognition语音翻译实体varcharYESthumb_media_id封面IDvarcharYESlocation_x地理位置XvarcharYESlocation_y地理位置YvarcharYESscale等级varcharYEStitle标题varcharYESdescription描述varcharYESurl消息URLvarcharYESevent_key消息KEYvarcharYESlabel标签varcharYES表3-1log_mp(微信日志表)字段名字段描述字段类型允许空id自增idbigintNOip请求人地址varcharNOreq_time请求时间datetimeNOreq_method请求方式varcharNOreq_uri请求URIvarcharNOhttp_type请求Http类型varcharNOresponse_code返回状态码varcharNOresponse_length返回长度varcharNOreq_url请求完整地址varcharNOnetwork网络类型varcharNOlanguage语言varcharYESbrowser浏览器类型varcharYESversion版本varcharYESagent浏览器代理类型varcharYES表3-2log_nginx(nginx访问日志表)字段名字段描述字段类型允许空id自增idbigintNOcreate_time创建时间datetimeNOlevel日志级别varcharNOline行数varcharNOclass_name类名varcharNOthread_name线程名称varcharNOcontent内容longtextYES表3-3log_opt(操作日志表)3.2.3功能展示系统日志、微信日志、Kibana数据看板展示如下图:图3-1系统日志图3-2微信日志图3-3Kibana数据看板pv/uv图3-4Kibana数据看板数据分析3.3共同好友分析3.3.1数据背景每一位用户都有不同的好友,通过Hadoop离线计算出共同好友。A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J3.3.2各个朋友关系的MapReducepublicstaticclassMutualFriendMapperextendsMapper<LongWritable,Text,Text,Text>{Textk=newText();Textv=newText();@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{String[]split=value.toString().split(":");String[]split1=split[1].split(",");v.set(split[0]);for(Strings:split1){k.set(s);context.write(k,v);}}}publicstaticclassMutualFriendReduceextendsReducer<Text,Text,Text,Text>{Textk=newText();Textv=newText();@Overrideprotectedvoidreduce(Textkey,Iterable<Text>values,Contextcontext)throwsIOException,InterruptedException{List<String>list=newArrayList<String>();for(Textvalue:values){list.add(value.toString());}v.set(key);for(inti=0;i<list.size()-1;i++){for(intj=i+1;j<list.size();j++){k.set(list.get(i)+"-"+list.get(j));context.write(k,v);}}}}执行所得到的的结果为每一个人对应的好友关系3.3.3共同好友的MapReducepublicstaticclassMutualFriend2MapperextendsMapper<LongWritable,Text,Text,Text>{Textk=newText();Textv=newText();@Overrideprotectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{String[]split=value.toString().split("\t");k.set(split[0]);v.set(split[1]);context.write(k,v);}}publicstaticclassMutualFriend2ReduceextendsReducer<Text,Text,Text,Text>{Textk=newText();Textv=newText();@Overrideprotectedvoidreduce(Textkey,Iterable<Text>values,Contextcontext)throwsIOException,InterruptedException{k.set(key+">");StringBuilderstringBuilder=newStringBuilder();for(Textvalue:values){stringBuilder.append(value.toString()+"\t");}v.set(stringBuilder.toString());context.write(k,v);}}4.结论4.1总结与展望通过对用户发帖用户的行为分析,可以得到什么班级的用户对于什么话题会比较感兴趣。通过各种渠道对用户进行清洗整合,再次通过图表工具进行展示,可以直观的展现出用户的分布、行为、喜好等等。随着用户体系的增长,用户所处的纬度会不断的增多,清理数据的时候清洗的角度也会不同。随着系统的使用,慢慢的也会展露出系统中含有的弊端与不足。我会慢慢的离线的计算也会转为实时的计算,大数据的实时计算也包含了许许多多的技术和功能,通过学习使用Hadoop的离线计算,我相信我也有信心去做好关于用户社交大数据的行为分析。
参考文献[1]梁薇.互联网金融背景下大数据的应用及风险防范[J].中国市场,2019(19):184-185.[2]胡敏.大数据在互联网经济发展中的作用[J].中国市场,2019(21):193-194.[3]王峻.大数据促进电子商务发展探究[J].计算机产品与流通,2019(07):72.[4]邹伟军.探讨大数据对审计的影响[J].经济师,2019(06):124-125.[5]杨兆圆,董嗣彬.大数据背景下个人信息保护
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 63522-9:2025 EN-FR Electrical relays - Tests and measurements - Part 9: Climatic tests
- 2025年现场施工管理考试试题及答案
- 2025年水利工程管理测试试卷及答案
- 2025年宝石学与鉴定技术考试卷及答案
- 2025年公共政策分析基础考试试卷及答案
- 2025年公共健康科学考试试题及答案
- 2025年公共卫生与预防医学考题及答案
- 2025年科技与管理结合的职业考试试题及答案
- 2025年户外教育与青少年发展课程考试题目及答案
- 七级语文测试题及答案
- 医疗器械网络销售质量管理规范宣贯培训课件2025年
- SL631水利水电工程单元工程施工质量验收标准第1部分:土石方工程
- DL∕T 5370-2017 水电水利工程施工通 用安全技术规程
- 广东省2024年中考数学试卷【附真题答案】
- (高清版)TDT 1075-2023 光伏发电站工程项目用地控制指标
- 监控立杆基础国家标准
- 亿赛通数据泄露防护(DLP)_CDG_V3.1用户使用手册
- 方格子汉字独体字表
- 德鲁克的绩效观
- 那洛巴尊者传
- 包材产品HACCP计划
评论
0/150
提交评论