Web技术与网络信息搜索.ppt_第1页
Web技术与网络信息搜索.ppt_第2页
Web技术与网络信息搜索.ppt_第3页
Web技术与网络信息搜索.ppt_第4页
Web技术与网络信息搜索.ppt_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自我介绍,姓名:张浩平 办公室:0248 手机E-mail: QQ:1296014857,教材: Internet应用技术与实践 共享邮箱: nl_ 中的网盘 密码:xinxixueyuan,应用篇,第六章 Web技术与网络信息搜索 第七章 网页设计基础 第八章 网络通信与交流 第九章 电子商务 第十章 网络多媒体应用 第十一章 移动互联网应用,第六章 Web技术与网络信息搜索,6.1 WWW概述 6.2 HTTP协议 6.3 WWW浏览器 6.4 网络信息资源概述 6.5 网络信息检索 6.6 搜索引擎 6.7 文件传输 6.8 Web数据挖掘技术,6.1 WWW概述,6.1.1 WWW的产生,随着互联网的迅猛发展,如何在海量的网络信息中搜索所需要的信息,成为一个急需解决的问题。Gopher 是20世纪90年代初期常用的信息检索系统,它提供了一种向文件和菜单中添加链接菜单的方法。通过这些菜单可利用互联网从其他计算机系统获取文件或抓取新的链接菜单。,www是万维网(World Wide Web)的简称,web的本意是蜘蛛网或网的意思,因此,www又称为“环球网”。,Web技术使用了一种被称为 HTML(超文本标记语言)的文件格式,通过“超级链接”从某一页跳到其它页 ,“超链接”将分布在网络各处的信息连在一起,形成巨大的WWW,使得互联网成为一片能自由航行的信息海洋。,1990年Web浏览器和Web服务器使用面向对象技术相继在CERN实Berners-Lee 和他的合作伙伴成功引入了构成Web体系结构的基本元素:Web服务器、Web浏览器、浏览器与服务器之间的通信协议HTTP(Hypertext TransferProtocol 、超文本传输协议)、写Web文档的语言HTML(Hypertext Markup Language、超文本标记语言)、以及用来标识Web上资源的URL(Universal Resource Locator 、统一资源定位器)。,HTML语言编写网页示例 (1)用记事本编写如下的文挡: 我的第一个 HTML 页面 body 元素的内容会显示在浏览器中。 title 元素的内容会显示在浏览器的标题栏中。 (2)将文档以文件名“myhtml.html”保存。 (3)双击myhtml.html文件,在浏览器窗口就可以看到如下内容:,6.1.2超文本与超媒体,超文本就是一种含有可以链接到其他字段或者文档的超链接的电子文档,通过点击超链接允许从当前阅读位置直接切换到超链接所指向的文挡,这些文档可以在本机,也可以在网络中的其它主机中。超文本通常使用超文本标记语言(Hyper Text Markup Language,HTML)书写,大多数网页都属于超文本。,超媒体是超文本和多媒体在信息浏览环境下结合的物,超媒体不仅可以包含文字而且还可以包含图形、图像,动画、声音和电视片断,这些媒体之间也是用超链接连接的 。,超媒体与超文本的不同之处在于,超文本主要是以文字的形式表示信息,建立的链接关系主要是文句之间的链接关系。,6.1.3超文本标记语言(HTML),网络上发布的网页是一种特殊的电子文档,必须要用浏览器打开它,才能够被世界各地的浏览者所阅读,HTML就是万维网上编写超文本的发布语言。,HTML 语言是英文 HyperText Markup Language 的缩写,中文名为超文本标记语言。标记语言是一种基于源代码解释的访问方式,它的源文件由一个纯文本文件组成,值得指出的是,HTML语言不是一种程序设计语言,只是一种网页的描述语言。,在20世纪90年代WWW刚刚兴起时,多种浏览器同时流行于世界各地,它们支持HTML语言的标准也各不相同,这样限制了HTML标记语言本身的发展。 W3C(万维网联盟),一个负责制订万维网的诸多标准和协议的组织,联手一些较为流行的浏览器开发厂商一同定义了 HTML 标准,并且力推浏览器解释语言和显示方法的统一。,XML(Extensible Markup Language)即可扩展标记语言,它与HTML一样,都是SGML(Standard Generalized Markup Language,标准通用标记语言)。XML与HTML的设计区别是:XML是用来存储数据的,重在数据本身,而HTML是用来定义数据的,重在数据的显示模式。因此,XML不是HTML的替代,而是补充,在大多数 web 应用程序中,XML 用于传输数据,而 HTML 用于格式化并显示数据。,6.2 HTTP协议,Web的应用层协议HTTP是Web的核心。HTTP协议采用客户机/服务器模式,客户机上的浏览器进程通过和服务器进程交换HTTP消息来获得网页资源,HTTP定义这些消息的结构以及交换这些消息的时序。,6.2.1 统一资源定位符,统一资源定位符(URL,Uniform / Universal Resource Locator 的缩写)也被称为网页地址,是因特网上标准的资源的地址,给出资源所在的位置。Internet上的每一个网页都具有一个唯一的URL地址,这种地址所标识的资源可以在本机磁盘,也可以在局域网上的某一台计算机上,更多的是在Internet上的某一台网站服务器上。,URL地址格式排列为:协议:/主机地址:端口/路径。,其中: 1.协议:获取服务器上资源所使用的协议,如“http:/”表示WWW资源,“ftp:/”表示FTP资源,“new/:”表示新闻组。 2.主机地址:服务器的IP地址或域名。 3.端口:服务器进程的TCP端口号,常用的协议都有默认的端口,如HTTP为80,FTP为21,Telnet为23,如果使用的是默认端口号可以省略。 4.路径:指明服务器上某资源的位置(结构通常为“目录/子目录/文件名”)。如果是指向服务器的默认网页,则可以省略。,例如: /wwwroot/index,URL是URI命名机制的一个子集,URI(Uniform Resource Identifier)称之为通用资源标志符,用来对Web上可用的每种资源,如HTML文档、图像、视频片段、程序等进行定位。URL则是属于URI标识方法中的一种,也是最常用的方法。,6.2.2 HTTP报文,HTTP报文是面向文本的,报文中的每一个字段都是一些ASCII码串,各个字段的长度是不确定的。 HTTP有两类报文:从客户到服务器的请求报文和从服务器到客户的响应报文。,每种报文都由五个字段组成,其中第一和第三字段有两种名称,分别用于请求报文或响应报文。,第一字段是请求行或状态行。第二字段是通用首部。第三字段是请求首部或响应首部。第四字段是实体首部。第五字段是实体主体。这里的“实体”指的就是报文。上面这五个字段都是完整请求和完整响应的报文结构,其中的实体主体字段是可选的。,下面列出请求报文一些常用方法:,方法(操作) 意义 OPTION 请求一些选项的信息 GET 请求读取由URI所标识的信息 HEAD 请求读取由URI所标识信息的首部 POST 给服务器添加信息(例如,注释) PUT 在指明URL下存储一个文档 DELETE 删除指明URL所标志的资源 TRACE 用来进行回环测试的请求报文 CONNECT 用于代理服务器,HTTP/1l规定了在请求报文中的第一个字段是“请求行”。请求行中只有三个内容,即方法,请求资源的URI,以及HTTP的版本。所谓“方法”就是对所请求的对象进行的操作,因此这些方法实际上也就是一些命令。,客户端发出请求报文后,服务端返回响应报文,响应报文的第一行就是状态行。状态行包括3项内容,即HTTP的版本,状态码,以及解释状态码的简单短语。状态码都是三位数字的,分为5大类共33种。 例如:,1xx表示通知信息的,如请求收到了或正在进行处理。 2xx表示成功,如接受或知道了。 3xx表示重定向,表示要完成请求还必须采取进一步的行动。 4xx表示客户的差错,如请求中有错误的语法或不能完成。 5xx表示服务器的差错,如服务器失效无法完成请求。,下面是一个请求报文的例子: GET /wwwroot/index.htm HTTP/1.1 请求行,GET表示请求读 取由URI 所标识的信息 Host: 此行是首部行的开始。这行给出主机域名 Connection: close 告诉服务器发送完请求的文档后就可释放连接 User-Agent: Mozilla/5.0 表明客户端使用何种浏览器 Accept-Language: cn 表示用户希望优先得到中文版本的文档 请求报文的最后还有一个空行,6.2.3 HTTP通信时序,HTTP协议建立在TCP传输协议之上,HTTP客户首先发起建立与服务器的TCP连接。一旦连接建立,浏览器进程和服务器进程就可以通过TCP进行交互。,下面是一个典型的HTTP时序: 1. HTTP服务器使用默认端口号80持续监听来自HTTP客户的连接建立请求。 2. 客户浏览器进程初始化一个与服务器主机中的HTTP服务进程的TCP连接。 3. 浏览器进程经由TCP发出个HTTP请求消息。这个消息中包含所需资源的路径名。,4. HTTP服务器接收这个请求消息,再从服务器主机的内存或硬盘中取出资源对象,经由TCP发出包含该对象的响应消息。 5. HTTP服务器告知TCP关闭这个TCP连接(不过TCP要到客户收到刚才这个响应消息之后才会真正终止这个连接)。 6. HTTP客户接收这个响应消息。TCP连接随后终止。浏览器进程从响应消息中取出资源对象。,HTTP/1.1的默认模式使用带流水线的持久连接,这种情况下,TCP连接建立好以后,HTTP客户可以在不释放TCP连接的情况下,连续发出多个对象的请求。服务器收到这些请求后,也可以连续地发出各个对象。与非持久连接相比,持久连接的效率要高。,上面的例子称之为“非持久连接”方式,即每次建立TCP连接后只传递一个对象(如一个jpge格式的图像),而一个网页往往含有多个对象,因此非持久连接方式效率较低。,6.3 WWW浏览器,6.3.1 浏览器结构,浏览器主要由控制模块、HTTP客户端模块和对象解释模块所组成,基本结构如图所示。,图62,控制模块是浏览器的核心,负责接受用户键盘输入的信息,并控制和协调各模块的工作;HTTP客户程序负责实现HTTP协议的通信功能,按照控制模块的要求从服务器获得HTML文件和各种对象交给解释模块;解释模块解释各种对象(如图像、文字等),并按照HTML文件中规定的格式通过驱动程序显示出来。,浏览器缓存的作用是为了加速浏览,浏览器在用户磁盘上对最近请求过的网页进行存储,当访问者再次请求这个页面时,浏览器就可以直接从本地磁盘取出显示,这样就可以加速页面的阅览,缓存的方式节约了网络的资源,提高了网络的效率。,浏览器缓存中有一种特殊的文本文件叫做Cookies, Cookies是一种能够让网站服务器把少量数据储存到客户端的硬盘或内存,或是从客户端的硬盘读取数据的一种技术。,6.3.2 IE浏览器的常用设置,1. 更改启动IE 浏览器时的默认主页,2.临时文件处理 IE在上网的过程中会在系统盘内自动的把浏览过的图片,动画,Cookies文本等数据信息保留在浏览器临时文件夹缓存中,为了提高浏览网页的效率,当用户在IE地址栏输入网址并回车后,IE首先会在IE的临时文件夹中寻找与该网址对应的网页内容,如果找到就把该网页的内容调出,显示在浏览窗口,然后再连接到网站的服务器读取更新的内容,并显示出来。如果找不到,IE才直接去连接服务器,下载服务器上的网页内容。,Internet临时文件选项组里有三个按钮,单击“删除Cookies”可删除缓存中的Cookies,单击“删除文件 ”可删除临时文件夹的内容。,3.设置历史记录的保存时间 在IE 浏览器中,用户只要单击工具栏上的“历史”按钮就可查看所有浏览过的网站的记录,可以在“Internet 选项”对话框中设定历史记录的保存时间,这样一段时间后,系统会自动清除这一段时间的历史记录。方法是在“历史记录”选项组的“网页保存在历史记录中的天数”文本框中输入历史记录的保存天数即可。单击“清除历史记录”按钮,可立即清除已有的历史记录。,4.进行Internet 安全设置 IE 浏览器中就提供了对Internet 进行安全设置的功能,用户使用它就可以对Internet 进行一些基础的安全设置。,5.设置隐私 在Internet 浏览过程中,用户要注意保护自己的隐私,对于自己的个人信息不要轻易让他人获得。通过IE 浏览器,用户可以进行隐私保密策略的设置。,6.3.3 IE浏览器使用技巧,1.在计算机上保存完整的网页内容 在Internet Explorer中,可以通过“文件”下拉菜单的“另存为”一项将当前页面的内容保存到硬盘上,既能以.HTML文档(.HTM/.HTML)或文本文件(.TXT)的格式存盘,又能实现完整网页的保存。,2.自动完成功能 当用户再次浏览以前曾经浏览过的网站时,只需输入网址的前几个字符,系统就会自动补齐后面的字符。自动完成功能同时还具有表单的自动填充功能、表单的用户名和密码自动保存功能等其他功能。,6.3.4 IE浏览器安全常识,1.浏览器安全隐患 (1)病毒 (2)漏洞 (3)流氓工具,2.浏览器安全管理,将“Internet区域的安全级别”的默认级别由“中”改为“高”,或者点击“自定义级别”按钮,在弹出“安全设置”对话框,把其中所有ActiveX插件和控件以及与Java相关全部选项选择“禁用”就可以大大减少被网页恶意代码感染的几率。但是,这样做在以后的网页浏览过程中有可能会使一些正常应用ActiveX的网站无法浏览。另外,一定要在计算机上安装杀毒软件和网络防火墙,并要时刻打开“实时监控功能”。,6.4网络信息资源概述,网络信息资源就是指可以通过计算机网络获得的各种信息资源的总和。具体的说是指所有以电子数据形式把文字、图像、声音、动画等多种形式的信息存储在网络中的计算机的存储介质上,通过网络通信获得、并能够在计算机或终端等设备上再现出来的资源。,1.存储数字化 2.表现形式多样化 3.以网络为传播媒介 4.数量巨大,增长迅速 5.信息源复杂 6.结构复杂、分布广泛 7. 无序性, 不稳定性,6.4.1 网络信息资源的概念,6.4.2 网络信息资源的特点,6.4.3 网络信息 资源的类型,6.5 网络信息检索,6.5.1 网络信息检索方法,要在因特网上获取信息,用户要找到提供信息源的服务器。首先以找到服务器在网上的地址(URL)为目标,再通过该地址去访问服务器提供的信息。一般的信息检索的方法有:,1.随意浏览,3.利用搜索引擎,2.利用网络资源指南,6.5.2 网络信息检索的特点,因特网检索与传统的文献检索大不相同,其特点主要表现为:,(1)信息检索空间巨大 (2)良好的反馈能力和快速响应能力 (3)交互式作业方式 (4)用户界面友好且操作方便,6.5.3 网络信息检索存在的问题,(4)多媒体搜索效果不理想,(3)冗余信息过多,(2)查全率不高,(1)查准率不高,6.6搜索引擎,搜索引擎的是指自动从Internet搜集信息,经过一定整理以后,提供给用户进行查询的系统。,6.6.1搜索引擎的分类,基于“全文检索”的搜索引擎。,目录索引,非主流搜索引擎 元搜索引擎 ;集成搜索引擎 ; 免费链接列表;开放式分类目录(ODP);,6.6.2搜索引擎的工作原理,搜索引擎的自动信息搜集功能分两种:一种是自动搜索,另一种是提交网站搜索 。,一般搜索引擎定期的对因特网进行搜索,即每隔一段时间,搜索引擎采用一种称之为“蜘蛛”的搜索程序,对一定IP地址范围内的因特网的网站进行搜索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。,蜘蛛程序(Spider),也称为网络爬虫,是一个自动提取网页的程序,是搜索引擎的重要组成部分。,对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广度和链接深度。,抓取网页的方法有广度优先和深度优先两个策略,广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易实现。,PageRank 算法,(1)如果一个页面被许多其他页面引用,则这个页面很可能就是重要页面;,(2)如果一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面;,(3)一个页面的重要性被均分并将传递到它所引用的页面中。 其中页面的重要程度量化后的分数就是 PageRank 值(简称PR值)。,搜索引擎的网站信息来源的另一条途径是由网站拥有者主动向搜索引擎提交网址,搜索引擎将主动提交的网址放入搜索引擎数据库,在一定时间内定向向该网站进行扫描,并将有关信息存入数据库,以备用户查询。,6.6.3搜索引擎优化,搜索引擎优化(Search Engine Optimization),简称SEO,是指通过采用易于搜索引擎索引的合理手段,使网站各项基本要素适合搜索引擎的检索原则,从而更容易被搜索引擎收录及优先排序。通常采用的方法是:通过总结搜索引擎的排名规律,对网站进行合理优化,使网站在搜索引擎的排名提高,并且返回的检索信息让用户看起来有吸引力,让网站在行业内占据领先地位,从而获得品牌收益。,站外SEO 其目的是尽可能地增加外部网站对本网站的超链接数目,特别是一些重要网站对本网站的链接,以影响搜索引擎排名。最有用、功能最强大的外部网站因素就是反向链接,又称为外部链接,所谓反向链接就是采用各种手段,使其它外部网站增加对本网站的链接。,站内SEO 是建立在搜索引擎技术的基础上实现站内优化的方法。其实现的途径有丰富网站关键词、实现主题网站、增强网站设计、加强网站与网站的内部链接、进行有规律的更新、实现有效的汇出链接等。,FTP 是File Transfer Protocol(文件传输协议)的英文简称,而中文简称为“文件传输协议”。用于Internet上的控制文件的双向传输。 FTP的主要作用就是让用户连接上一个远程计算机(这些计算机上运行着FTP服务器程序),察看远程计算机有哪些文件,然后把文件从远程计算机上拷到本地计算机,或把本地计算机的文件送到远程计算机去。,6.7 文件传输,6.7.1 FTP概述文件传输,6.7.2 FTP工作原理 FTP是基于客户/服务器模型工作的。 FTP在传输文件时,要在客户程序和服务程序之间建立两个TCP连接,一个是Control connection (控制连接):另一个是Data connection(数据连接)。 文件传输不仅提供本地机从远程机拷贝文件,即从远程计算机上传输文件到本地机上,有时还提供反向的文件传输操作,即从本地机上传输文件到远程机上。前者称为下载(download)文件,后者则称为上载(upload)文件。,一般来说,一次完整的文件传输过程遵循以下几个基本步骤: 1.启动FTP; 2.登录; 3.确定目录位置; 4.定义文件传输模式; 5.开始数据传输; 6.结束数据传输; 7.关闭连接; 8.退出FTP。,ftp所传输的文件一般是2 种模式:文本模式和二进制模式。ftp是建立在传输层TCP 协议之上,TCP 是面向连接的协议,负责保证数据从源计算机到目的计算机的传输。TCP 采用校验、确认接收和超时重传等一系列措施提供可靠的传输,所以FTP是一种高可靠性的文件传输协议。,6.7.3 FTP文件传输协议,FTP协议中,控制连接均由客户端发起,而数据连接有两种工作方式:PORT方式和PASV方式。,FTP 客户端首先和FTP服务端应用程序的TCP 21端口建立连接,通过这个通道发送命令,客户端需要接收数据的时候在这个通道上发送PORT命令。PORT命令包含了客户端用什么端口(一个大于1024的端口)接收数据。在传送数据的时候,服务器端通过自己的TCP 20端口发送数据。FTP 服务端应用程序必须和客户端建立一个新的连接用来传送数据。,PORT模式(主动方式),在建立控制通道的时候和PORT模式类似,当客户端通过这个通道发送PASV 命令的时候,FTP服务端应用程序打开一个大于1024的随机端口,并且通知客户端在这个端口上传送数据的请求,然后FTP服务端应用程序将通过这个端口进行数据的传送,这个时候FTP服务端应用程序不再需要建立一个新的和客户端之间的连接传送数据。,PASV模式(被动方式),6.7.4 FTP操作,FTP的操作可以通过FTP软件,DOS方式,IE浏览器等方式进行,其中,浏览器方式比较简单,只需在地址栏里输入“ftp:/FTP网站的域名或IP地址”即可(如:9/),如果需要用户名和密码,则会弹出对话框,如果允许匿名登录,则会在浏览器窗口中直接显示出存储在FTP服务器上的文件名和文件夹,进入FTP共享文件夹,看到需要下载的文件,右击选择“复制”命令,选择本地的一个文件夹,右击选择“粘贴”即可下载该文件或文件夹。如要上传文件,选择需要上传的某一个本地文件,复制该文件,然后在登录的服务器的IE窗体中,右击,选择“粘贴”命令,则出现上传文件传输过程。 FTP软件有很多,如:cuteftp,Leapftp,flashFXP等等,1、运行CuteFTP,界面如下图,打开“FTP站点管理,2、FTP站点设置 在弹出的站点管理器窗口中点“新建(N.)”就会弹出一个对话框。填写好相应项目就可以连接了。,在“站点标签”文本框中输入FTP站点的名称。 在“站点地址”文本框中输入站点的地址。 在“站点用户名”和“密码”文本框中分别输入登录所需要的用户名和密码 如果登录站点不需要密码,则在“注册类型”区域中选择“匿名”单选钮。 在“端口”文本框中输入FTP地址的端口,默认值是21。,3.上传和下载文件 添加了站点之后,在站点管理窗口中选择一个FTP(注意只能选择一个FTP站点),与之建立连接。连接到服务器以后,CuteFTP的窗口被分成左右两个窗格。左边的窗格显示本地硬盘的文件列表,右边的窗格显示远程硬盘上的文件列表。文件列表的显示方式和Windows的资源管理器完全一样。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论