《数据采集技术》课件-网页请求原理_第1页
《数据采集技术》课件-网页请求原理_第2页
《数据采集技术》课件-网页请求原理_第3页
《数据采集技术》课件-网页请求原理_第4页
《数据采集技术》课件-网页请求原理_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网页请求原理Contents知识目标掌握网页请求原理技能目标能够复述出浏览器加载网页的过程素养目标培养良好的信息素养和道德意识思考WWW.这段网络访问过程中发生了什么在浏览器的地址栏输入网址,按下回车后会显示该网址对应的网页。回车浏览网页过程浏览网页过程的示意图如下所示客户机web服务器通过IP地址请求页面返回页面返回IP地址域名DNS服务器对HTML页面进行渲染域名传输协议信息及主机类型信息+网址统一资源定位符URLURL是互联网上标准资源的地址,包含了文件的位置以及浏览器处理方式等信息。/nmrjydsjxy/index.htm统一资源定位符URL协议头除了https外,常见的协议头还有http、ftp、file等。URL地址由协议头、服务器地址、文件路径三部分组成。服务器地址文件路径统一资源定位符URLHTTP是一套计算机通过网络进行通信的规则,它由两部分组成:客户端(Client)请求消息和服务端(Server)响应消息。请求响应存储着一些资源ClientServer统一资源定位符URL2.发送请求4.响应1.输入URL分析浏览器显示完整网页的过程用户浏览器web服务器3.封装成HTTP响应报文5.解析HTML文件并加载其中的JavaScript文件分析浏览器显示完整网页的过程所有的文件都下载成功后,浏览器会根据HTML语法结构,将网页完整的显示出来。客户端HTTP请求格式请求方法空格URL空格协议版本回车符换行符请求行头部字段名:值回车符换行符头部字段名值回车符换行符:回车符换行符请求头部请求数据请求行请求头部空行请求数据客户端发送一个HTTP请求到服务器的请求消息,组成部分:客户端HTTP请求消息示例GET/HTTP/1.1Host:Connection:keep-aliveUpgrade-Insecure-Requests:1User-Agent:Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/54.0.2840.99Safari/537.36Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8Referer:/Accept-Encoding:gzip,deflate,sdch,brAccept-Language:zh-CN,zh;q=0.8,en;q=0.6Cookie:BAIDUID=04E4001F34EA74AD4601512DD3C41A7B:FG=1;BIDUPSID=04E4001F34EA74AD4601512DD3C41A7B;PSTM=1470329258;MCITY=-343%3A340%3A;H_PS_PSSID=1447_18240_21105_21386_21454_21409_21554;BD_UPN=12314753;sug=3;sugstore=0;ORIGIN=0;bdime=0;H_PS_645EC=7e2ad3QHl181NSPbFbd7PRUCE1LlufzxrcFmwYin0E6b%2BW8bbTMKHZbDP0g;BDSVRTM=0请求行客户端HTTP请求HTTP版本描述HTTP0.9只有基本的文本GET功能。HTTP1.0定义了三种请求方法:GET,POST和HEAD方法。HTTP1.1在1.0基础上进行更新,新增了五种请求方法:OPTIONS,PUT,DELETE,TRACE和CONNECT方法。HTTP2.0所有首部键必须全部小写,而且请求行要独立为::method、:scheme、:host、:path这些键值对。不同的HTTP版本下使用的请求方法不同用于从Web服务器请求数据客户端HTTP请求最常用的请求方法是GET和POST,两者的区别:1.GET方法(1)发送一个请求浏览器web服务器(2)返回响应数据在使用GET方法时:客户端HTTP请求最常用的请求方法是GET和POST,两者的区别:用于向Web服务器提交数据2.POST方法(1)数据打包发送浏览器web服务器(3)返回响应在使用POST方法时:(2)根据数据执行相应的操作客户端HTTP请求两者的区别:参数都显示在URL上1.GET请求服务器根据该请求所包含URL中的参数来产生响应内容。请求参数都暴露在外,安全性不高。参数在请求体当中2.POST请求消息长度没有限制而且采取隐式发送,通常用来向HTTP服务器提交量比较大的数据。高安全性比GET多使用场合客户端HTTP请求参数参数名称Host主机和端口号Connection连接类型Upgrade-Insecure-Requests升级为HTTPS请求User-Agent浏览器名称Accept传输文件类型Referer页面跳转来源Accept-Encoding文件编解码格式Accept-Charset字符编码CookieCookieContent-TypePOST数据类型服务端HTTP响应格式状态行响应报头空行响应正文HTTP响应由四个部分组成:服务端HTTP响应消息示例HTTP/1.1200OKServer:TengineConnection:keep-aliveDate:Wed,30Nov201607:58:21GMTCache-Control:no-cacheContent-Type:text/html;charset=UTF-8Keep-Alive:timeout=20Vary:Accept-EncodingPragma:no-cacheX-NWS-LOG-UUID:bd27210a-24e5-4740-8f6c-25dbafa9c395Content-Length:180945<!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN"....服务端HTTP响应消息示例HTTP/1.1200OKServer:TengineConnection:keep-aliveDate:Wed,30Nov201607:58:21GMTCache-Control:no-cacheContent-Type:text/html;charset=UTF-8Keep-Alive:timeout=20Vary:Accept-EncodingPragma:no-cacheX-NWS-LOG-UUID:bd27210a-24e5-4740-8f6c-25dbafa9c395Content-Length:180945<!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN"....状态行服务端HTTP响应格式响应码描述100~199表示服务器成功接收部分请求,要求客户端继续提交其余请求才能完成整个处理过程。200~299表示服务器成功接收请求并已完成整个处理过程。常用状态码为200。300~399为完成请求,客户需进一步细化请求。400~499客户端的请求有错误,常用状态码包括404和403。500~599服务器端出现错误,常用状态码为500。响应状态代码由三位数字组成,其中第1位数字定义了响应的类别,有五种可能取值。服务端HTTP响应格式常用的响应报头和取值Cache-Control:must-revalidate,no-cache,private在下次请求资源时,必须要重新请求服务器,不能从缓存副本中获取资源。同样含义的报头还有Pragma:no-cache。告诉客户端服务端不希望客户端缓存资源服务端HTTP响应格式常用的响应报头和取值Connection:keep-alive告诉客户端服务器的TCP连接也是一个长连接,客户端可以继续使用这个TCP连接发送HTTP请求。客户端服务端回应客户端的Connection:keep-alive服务端HTTP响应格式常用的响应报头和取值Content-Encoding:gzip服务端发送的资源是采用gzip编码的,客户端看到这个信息后,应该采用gzip对资源进行解码。客户端服务端告诉报头的取值服务端HTTP响应格式常用的响应报头和取值Content-Type:text/html;charset=UTF-8客户端需要使用UTF-8格式对资源进行解码,然后对资源进行HTML解析。客户端服务端告诉资源文件的类型和字符编码服务端HTTP响应格式常用的响应报头和取值HTTP协议中发送的时间都是GMT的,解决在互联网上不同时区在相互请求资源时的时间混乱问题。Date:Sun,21Sep201606:18:21GMT客户端服务端告诉服务端发送资源时的服务器时间格林尼治所在地的标准时间服务端HTTP响应格式常用的响应报头和取值Expires:Sun,1Jan200001:00:00GMT告诉客户端在这个时间前,可以直接访问缓存副本。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论