《大数据采集技术》课件-项目1:校园消费数据网页制作_第1页
《大数据采集技术》课件-项目1:校园消费数据网页制作_第2页
《大数据采集技术》课件-项目1:校园消费数据网页制作_第3页
《大数据采集技术》课件-项目1:校园消费数据网页制作_第4页
《大数据采集技术》课件-项目1:校园消费数据网页制作_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据,大智慧,大未来项目1:校园消费数据网页制作项目描述大数据采集技术课程主要目的是通过网络爬虫技术,获取网页源代码,根据网页结构对源代码进行解析,从而获取数据,可以说网页结构是获取网页源代码和解析代码的基础。本课程主要依托的工作场景是校园消费数据管理系统,这是一个需要用户登录之后才能访问的系统。本项目主要介绍和数据采集相关的网页制作技能,包括登录页面和消费数据展示页面的制作,让学生掌握网页制作的基础知识和基本技能,包括使用HTML进行网页布局、使用FORM实现表单交互、以及使用简单的PHP和HTML混编实现分页显示。任务分解项目1校园消费数据网页制作任务1.1.登录页面制作HTML布局表单交互任务1.2流水查询页面制作数据获取HTML布局与数据展示分页显示0102大数据,大智慧,大未来1.1登录页面制作任务描述根据对校园消费数据系统应用单位的调研,已知管理员可以通过账号和密码登录该校的校园消费数据系统进行数据查询。根据校园消费数据采集的实际需求出发,本任务要求实现登录页面的制作。壹知识储备Knowledgereserve贰技能小练Skillpractice叁任务实施Taskimplementation肆任务小结TasksummaryCONTENTS目录知识储备第一环节WampServerForm标签Input标签Div标签知识点1.1WampServer为了进行校园消费数据网页制作,并运行熟悉其工作流程,本任务是基于WampServer集成开发环境,使用SubLimeText3编辑器进行代码编写。因此,本任务重点讲述在Windows10下WampServer的启动、服务的查看,以及SubLimeText3进行登录网页的制作。WampServer就是WindowsApacheMysqlPHP集成安装环境,即在Windows操作系统下的Apache、Php和Mysql的服务器软件。拥有简单的图形和菜单安装和配置环境。知识点1.1WampServerApache(音译为阿帕奇)是世界使用排名第一的Web服务器软件。它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一。MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一,在WEB应用方面,MySQL是最好的RDBMS(RelationalDatabaseManagementSystem,关系数据库管理系统)应用软件之一。PHP(PHP:HypertextPreprocessor)即“超文本预处理器”,是在服务器端执行的脚本语言,尤其适用于Web开发并可嵌入HTML中。

技能小练知识点1.2Form标签Form标签是html中重要的组成部分,是用于搜集不同类型的用户所输入的信息。格式:<formaction=""method=""name=””></form>语法说明:action:定义在提交表单时执行的动作,向服务器提交表单的通常做法是使用提交按钮,通常,表单会被提交到web服务器上的网页。method:规定在提交表单时所用的HTTP方法(GET或POST)。name:一个页面上的表单可能不止一个,为了区分这些表单,就需要name属性给表单命名,通常与id属性值相同。需要注意的是表单名称中不能包含特殊字符和空格。注意:Form标签需要和input等标签一同使用,有关input标签的内容将在知识点1.4中做介绍。

技能小练知识点1.3Input标签<input>表示form表单中的一种输入对象,其又随type类型不同而分为文本输入框、密码输入框,单选/复选框,提交/重置按钮等。用户名将使用文本输入框,格式如下所示。<inputtype=”text”name=”根据要求设置”/>以上是一个文本域<input>的基本构成,其中type属性设置为text,表示是文本域,name指定了该文本输入框的名称,在后台使用php进行数据交互时将使用该名访问这个元素。知识点1.3Input标签知识点1.4Div标签<div>标签定义HTML文档中的一个分隔区块或者一个区域部分。<div>标签常用于组合块级元素,以便通过CSS来对这些元素进行格式化,其格式如下:<divid=""class=""style="">块包含的内容</div>知识点1.4Div标签style属性:设置图层的样式,未定义前通过浏览器查看不到效果。图层style属性的取值可以由多个“属性/属性值”对构成。其中主要属性有:position属性——定义图层的定位方式,。left、top属性——定义图层左上角位置(左边距和上边距)。width、height属性一一定义图层的宽度和高度。float属性——设置图层的浮动位置,可以向左、向右浮动或不浮动。clear属性——清除图层内浮动,与浮动属性是一对作用相反的属性。。z-index属性——设置图层的层叠的上、下层关系,设置此属性以实现多个图层层叠的效果。z-index值越大,图层的位置越高。子层始终位于父层之上。

技能小练技能小练第二环节技能1:编写第一个网页小练要求基于WampServer集成开发包,使用SublimeText编写第一个网页,页面显示“HelloWorld!”技能2:Form的使用小练要求使用Form,编写一个简单文本框进行用户交互。技能3:Div的使用小练要求使用Div,完成如下页面。任务实施第三环节子任务划分打开login.php文件并分析其构成用户名密码登录按钮登录页面制作启动WampServer启动开发环境打开项目启动服务并打开项目任务小结第四环节任务小结通过知识储备我们掌握了WampServer集成开发环境的相关概念,了解了form、div和input标签,牛刀小试初步熟悉了与之相关的技能点,完成了登录页面的制作。这个页面是用户登录消费数据管理平台的入口,也是我们后面进行数据采集的基础。大数据,大智慧,大未来1.2流水查询制作任务描述根据对校园消费数据系统应用单位的调研,已知管理员可以通过账号和密码登录该校的校园消费数据系统进行数据查询。根据校园消费数据采集的实际需求出发,本任务要求实现流水查询页面的制作。壹知识储备Knowledgereserve贰技能小练Skillpractice叁任务实施Taskimplementation肆任务小结TasksummaryCONTENTS目录知识储备第一环节PHP标记Table标签A标签知识点1.4PHP标记标记格式说明XML风格<?phpecho"C语言中文网";?>使用最多的标记风格简短风格<?echo"C语言中文网";?>在日常的开发中并不推荐使用这种风格的标记ASP风格<%echo"C语言中文网";%>已移除SCRIPT风格<scriptlanguage="php">echo'C语言中文网';</script>已移除知识点1.5Table标签在HTML中,使用<table></table>标签来创建一个表格,在<table></table>中使用<tr></tr>来表示表格中的一行,有几行就有几个<tr></tr>,在<tr></tr>中需要使用<td></td>来创建一个单元格,有几个单元格就有几个<td></td>。下面简单介绍以下<table></table>标签的使用HTML表格由<table>标签来定义。HTML表格是一种用于展示结构化数据的标记语言元素。每个表格均有若干行(由<tr>标签定义),每行被分割为若干单元格(由<td>标签定义),表格可以包含标题行(<th>)用于定义列的标题。tr:tr是tablerow的缩写,表示表格的一行。td:td是tabledata的缩写,表示表格的数据单元格。th:th是tableheader的缩写,表示表格的表头单元格。

技能小练知识点1.6A标签<a>是HTML语言标签,用于定义超链接,用于从一个页面链接到另一个页面。<a>元素最重要的属性是href属性,它指定链接的目标。<ahref="https://">这是一个链接</a>

技能小练技能小练第二环节技能4:Table标签小练小练要求完成如图一个3行*3列的表格。技能5:a标签小练小练要求在网页文字“打开百度”添加超链接,可以直接跳转打开百度。任务实施第三环节子任务划分页面结构分析表格流水查询实现表格显示流水创建数据库拷贝备份文件到指定路径执行数据库还原操作数据准备页面结构分析分页导航实现分页显示任务小结第四环节任务小结通过知识储备我们了解了PHP标记的基本概念以及常见的标记方式,掌握了Table、A标签的使用,牛刀小试初步熟悉了与之相关的技能点,完成了流水查询页面的制作。这个页面是显示用户消费数据的页面,是我们后面数据采集的对象。大数据,大智慧,大未来2.1登录任务描述通过浏览器打开消费系统商家中心0/xiyun/login.php,并输入用户名、密码,点击“登录”可以进入校园消费数据查询系统。本任务是使用Python编程,模拟浏览器登录校园消费数据,为后续爬取数据做准备。壹知识储备Knowledgereserve贰技能小练Skillpractice叁任务实施Taskimplementation肆任务小结TasksummaryCONTENTS目录知识储备第一环节SessionCookies知识点2.1SessionSession:在计算机中,尤其是在网络应用中,称为“会话控制”。Session对象存储特定用户会话所需的属性及配置信息。这样,当用户在应用程序的Web页之间跳转时,存储在Session对象中的变量将不会丢失,而是在整个用户会话中一直存在下去。当用户请求来自应用程序的Web页时,如果该用户还没有会话,则Web服务器将自动创建一个Session对象。当会话过期或被放弃后,服务器将终止该会话。Session对象最常见的一个用法就是存储用户的首选项。知识点2.1SessionSession常见操作:#1.创建session对象session=requests.session()#2.使用session对象,实现之后所有的接口请求session.get()session.post()session.put()

技能小练知识点2.2CookieCookie是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie是一个记录了用户登录状态以及用户属性的加密字符串,Cookie可以保持登录信息到用户下次与服务器的会话。Cookie以键/值对形式存储。Cookie验证流程:当用户第一次登陆网站时,服务端会在返回的响应头ResponseHeaders中添加Cookie数据,浏览器接收到响应头的信息后,会将Cookie保存至浏览器本地存储中,当用户再次向该网站发送请求时,请求头中就会携带Cookie,这样服务器通过读取Cookie就能识别登陆用户了。

技能小练技能小练第二环节技能1:Session模拟登录小练要求测试网站位于0/session/login,正确的用户名和密码分别是:admin和123456,编写程序,实现使用session方式进行登录。技能2:Cookie模拟登录小练要求测试网站位于0/session/login,正确的用户名和密码分别是:admin和123456,编写程序,实现使用cookie方式进行登录。任务实施第三环节子任务划分定义函数调用函数验证结果登录实现谷歌浏览器参数:URLMethodRefererFormData登录分析任务小结第四环节任务小结通过知识储备我们掌握了Session和Cookie的相关概念,了解Session和Cookie模拟登录的技能点,并使用这些技能点完成了校园消费系统模拟登录,为后续数据采集做好准备。大数据,大智慧,大未来2.2查询设计任务描述在浏览器进行流水查询时,在查询日期文本框按照要求输入查询日期,点击查询按钮后,可以查询到该日期的消费记录。本任务是python编程模拟用户输入查询日期,获取流水数据。壹知识储备Knowledgereserve贰技能小练Skillpractice叁任务实施Taskimplementation肆任务小结TasksummaryCONTENTS目录知识储备第一环节正则表达式Re知识点2.3正则表达式Re(2)re库的基本使用Re库使用rawstring类型(原生字符串类型),表示为r'test',例如:r'[1-9]\d{5}'表示大陆的邮政编码。【原生字符串:不包含转义符的字符串】应用:当正则表达式中包含转义字符时,用rawstring来表达。又称规则表达式。(英语:RegularExpression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。(1)re库的调用方法importre知识点2.3正则表达式Re功能函数作用re.search()在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象,在字符串中搜索和正则表达式一样的地方。re.match()从一个字符串的开始位置起匹配正则表达式,返回match对象,只在给定字符串的开始位置匹配正则表达式。re.findall()搜索字符串,以列表类型返回全部的匹配字符串。re.split()将一个字符串按照正则表达式匹配结果进行分割,返回子串的列表类型。re.finditer()搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象,可以通过循环方式对每一个匹配进行相关操作。re.sub()在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串。(3)re库的主要功能函数

技能小练技能小练第二环节技能3:正则表达式Re小练小练要求(1)从字符串“BIT100085”提取邮政编码;(2)搜索字符串“BIT100081TSU10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论