




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
计算机生产实习报告.完整项目理论学习设计UI基础概念及UI的发展前景网站设计规范及流程Photoshop软件的基本认识和使用2、前端1)Html5+CSS3技术HTML5相关基础知识,包括HTML5概述、Web开发历史、HTML标签、HTML5文档结构与创建HTML5文档;CSS3概述,CSS选择器,页面元素布局方式(浮动、定位),定义文本、字体与颜色,设计背景、阴影和边框,使用2D、3D变换,设计动画以及CSS3的其他新特性。2)JavaScript语言JavaScript发展、概述,js变量、流程控制、循环、函数、对象等基础语法;利用JavaScript操作浏览器、文档模型,页面动效制作;使用Ajax技术与后台进行异步数据交互;分析和处理数据并进行前台可视化展示3)Nodejs框架Nodejs的发展、概述,使用Nodejs制作简2.2JavaScript进行数据请求及分析处理 JavaScript是一个浏览器脚本语言,用它可以操作页面元素,从而实现页面数据的渲染及更新。使用JavaScript中的Ajax技术可以发送异步数据请求2.3Nodejs进行服务器环境搭建 Nodejs是JavaScript的运行环境,可以使JavaScript语言在服务器端运行,由于Ajax必须在服务器环境下运行,所以使用Nodejs搭建web服务器,从而支持ajax技术,以及使用Nodejs中的“文件模块”读取本地文件的内容并将读取到数据返回前台。2.4Echarts插件进行数据可视化展示在网站KPI分析中,有很多数据是需要使用图标进行展示的,如用户每小时PV统计、页面独立IP的访问量统计、用户的访问设备统计等,复杂的图标使用CSS或Photoshop制作时会非常复杂。Echarts是百度一款可视化插件,可以使用代码将数据方便快捷的转化为各类图表。3、后台搭建及设计部分3.1Nginx日志分析一个网站服务器日志中,每条日志都代表着用户的一次访问,下面就是一条Nginx服务器日志:18--[18/Sep/2017:06:51:36+0000]"GET/wp-includes/js/comment-reply.min.js?ver=3.6HTTP/1.1"3040"http://blog.fens.me/nodejs-socketio-chat/""Mozilla/5.0(WindowsNT5.1;rv:23.0)Gecko/20100101Firefox/23.0"其中包含了多种信息,包含访问者IP、访问用户名称、访问时间、状态码、访问设备等等,从一个网站的日志可以分析出运行情况等。3.2网站KPI指标网站KPI指标可以看出一个网站的运行情况,并且通过大数据分析可以得到用户的习惯,为网站的发展运营做出战略性判断PV(pageview)即页面浏览量,通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。网页浏览数是评价网站流量最常用的指标之一,简称为PV。监测网站PV的变化趋势和分析其变化原因是很多站长定期要做的工作。PageViews中的Page一般是指普通的html网页,也包含php、jsp等动态产生的html内容。来自浏览器的一次html内容请求会被看作一个PV,逐渐累计成为PV总数。UV(uniquevisitor),指访问某个站点或点击某条新闻的不同IP地址的人数。在同一天内,uv只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。独立IP访问者提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。IP,网站每天的访问IP数Browser(访问设备),可以看到用户平常喜欢用PC还是移动端等访问设备访问3.3项目背景-架构分析1、在少量数据的情况下1).少量数据的情况(10Mb,100Mb,10G),在单机处理尚能忍受的时候,我们可以直接利用各种工具,awk、grep、sort、join等都是日志分析的利器,再配合perl,python,正则表达式,基本就可以解决问题2).例如,从Nginx日志中得到访问量最高的5分IP,实现很简单:cataccess.log.10|awk'{a[$1]++}END{for(bina)printb”\t”a[b]}'|sort-k2-r|head-n102、在海量数据的情况下1).当数据量每天以10G,100G增长的时候,单机处理能力已经不能满足需求。我们就需要增加系统的复杂性,用计算机集群,存储阵列来解决。在Hadoop出现之前,海量数据存储,和海量日志分析都是非常困难的。只有少数一些公司,掌握着高效的并行计算,分布式计算,分布式存储的核心技术2)Hadoop的出现,大幅度的降低了海量数据处理的门槛,让小公司甚至是个人都有能力,搞定海量数据。并且,Hadoop也非常适合日志分析系统3.4日志的手机方式1、脚本收集架构设计:应用系统及日志系统架构架构设计:数据流1).日志是有业务系统产生的,我们可以设置web服务器每天产生一个新的目录,目录下面会产生多个日志文件,每个日志文件64M。 2).设置系统定时器CRON,夜间在0点后,向HDFS导入昨天的日志文件。3).完成导入后,设置系统定时器,启动MapReduce程序,提取并计算统计指标4).完成计算后,设置系统定时器,从HDFS导出统计指标数据到数据库,方便以后的即时查询2、FlumeFlume体系架构1).dataflow描述了数据从产生,传输、处理并最终写入目标的一条路径(图中的实线)2).Agent用于采集数据,是Flume中产生数据流的地方,将产生的数据流传输到collector3).collector用于对数据进行聚合,往往会产生一个更大的流4).收集数据有2种主要工作模式,如下:PushSources:外部系统会主动地将数据推送到FlumePollingSources:Flume到外部系统中获取数据3.5需求分析此次项目要统计出来的KPI指标1).PV(PageView):页面访问量统计2).IP:页面独立IP的访问量统计3).Time:用户每小时PV的统计4).Browser:用户的访问设备的统计3.6算法模型1、变量分析1、remote_addr:记录客户端的IP地址,2、remote_user:记录客户端用户名称,3、time_local:记录时间与时区,4、request:记录请求的url与http协议,5、status:记录请求状态,6、body_bytes_sent:记录发送内容大小7、http_referer:用来记录从哪个页面链接访问过来的8、http_user_agent:记录客户浏览器的相关信息,2、变量解析1、remote_addr2、remote_user3、time_local4、request5、status6、body_bytes_sent7、http_referer8、http_user_agent要想获得上述变量,需要对Nginx日志进行分片处理3、并行算法本次采用MapReduce并行算法框架各个模块算法解析如下1、PV(PageView):页面访问量统计 -Map:{key:$request,value:1} -Reduce:{key:$request,value:求和(sum)}2、IP:页面独立IP统计 -Map:{key:$request,value:remote_addr} -Reduce:{key:$request,value:去重再求和(sum(unique))}3、Time:用户每小时PV的统计 -Map:{key:$time_local,value:1} -Reduce:{key:$time_local,value:求和(sum)}4、Browser:用户的访问设备统计 -Map:{key:$http_user-agent,value:1} -Reduce:{key:$http_user_agent,value:求和(sum)}四、项目实现1设计部分 使用Photoshop矢量工具、文字工具等进行网页设计2前端部分2.1Ajax其核心有JavaScript、XMLHTTPRequest、DOM对象组成,通过XmlHttpRequest对象来向服务器发异步请求,从服务器获得数据,然后用JavaScript来操作DOM而更新页面。2.2传统的HTPP服务器会由Aphche、Nginx、IIS之类的软件来担任,但是nodejs并不需要,nodejs提供了http模块,自身就可以用来构建服务器,而且http模块是由C++实现的,性能可靠。打开浏览器,输入localhost:88888我们就可以看到屏幕上的提示,这表明这个最简单的nodejs服务器已经搭建成功了。2.3Excel和Mac的Numbers里面所带有的图表功能,有一些基本的图表类型,如柱形图、折线图、饼图、条形图、面积图、散点图等等这些基本的图表类型,用Echarts都可以实现,并且Echarts通过程序来控制数据,因此能够做到及时拓展数据使用Echarts绘制图标需要初始化Echarts实例、配置图标数据、创建图表三个步骤:3后端部分3.1 Hadoop集群搭建Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop集群有三种配置模式独立模式所有的程序运行在一个JVM中,不需要启动hadoop的进程,应用的是本地文件系统伪分布式 完全类似于完全分布式,但是只有一个节点完全分布式 可以真正体现出分布式存储及分布式处理思想我们在这里搭建一个三台Centos主机的完全分布式集
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2031年中国高效吸水方巾行业投资前景及策略咨询研究报告
- 班委申请书多少字
- 2025至2031年中国电脑灯专用信号放大器行业投资前景及策略咨询研究报告
- 2025至2031年中国电脑工频相位仪行业投资前景及策略咨询研究报告
- 危险运输合同范本
- 励志奖学金申请书500字
- 车站承包合同(2篇)
- 合同遗失补签合同范例
- 厂家与商家合同范本
- 下浮 合同范本
- 全方位管理理念下肿瘤心脏病学课件
- 普通生物学普通生物学试题
- -淹溺PPT模板课件
- 工作交接表模板(2)
- H.248协议正常呼叫流程解析
- 库车县“7.9”天山炼化油储罐火灾扑救战评
- 绝句迟日江山丽
- 宏伟公司财务管理目标与利益冲突案例
- (完整版)信息技术读书笔记3篇
- 商务运营管理PPT课件
- 理论力学(周衍柏)第二章质点组力学
评论
0/150
提交评论