火车头采集器初学者入门教程ppt课件_第1页
火车头采集器初学者入门教程ppt课件_第2页
火车头采集器初学者入门教程ppt课件_第3页
火车头采集器初学者入门教程ppt课件_第4页
火车头采集器初学者入门教程ppt课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、;n一、软件下载n二、新建站点n 三、采集网址n 四、采集内容n 五、其他功能;火车头采集器官网地址为:火车头采集器官网地址为:locoylocoy最新版本为最新版本为8.48.4,可以从官网下载到,下载地址:,可以从官网下载到,下载地址:files.locoy/v8/LocoySpider_V8.4_Build20190618.rarfiles.locoy/v8/LocoySpider_V8.4_Build20190618.rar如不会安装如不会安装apacheapache、mysqlmysql可以运用一键安装软件可以运用一键安装软件XAMPPXAMPP:big.softdl.360tpcd

2、n/xampp/xampp_1.8.3_5.exebig.softdl.360tpcdn/xampp/xampp_1.8.3_5.exe以下是本文中提到的其他一些软件的下载地址:以下是本文中提到的其他一些软件的下载地址: phpmyadmin phpmyadmin softdl.360tpcdn/phpMyAdmin/phpMyAdmin_4.2.11.zip softdl.360tpcdn/phpMyAdmin/phpMyAdmin_4.2.11.zip navicat for mysqlnavicat for mysql版版 cr173/soft/38153.html cr173/soft

3、/38153.html 软件需求破解软件需求破解注册码:注册码:NAVH-WK6A-DMVK-DKW3NAVH-WK6A-DMVK-DKW3称号和组织不用填写称号和组织不用填写;火车头采集器有付费版和免费版,免费版根天性满足需求。下面内容是以免火车头采集器有付费版和免费版,免费版根天性满足需求。下面内容是以免费版功能进展的讲解。费版功能进展的讲解。翻开火车头软件出现如何界面,由于运用的是免费版本,不用修正,点击登翻开火车头软件出现如何界面,由于运用的是免费版本,不用修正,点击登录即可。录即可。;翻开火车头软件,界面如以下图:翻开火车头软件,界面如以下图:;第一步:根据需求建立分组或义务,义务需

4、求建立在分组之下如以下图第一步:根据需求建立分组或义务,义务需求建立在分组之下如以下图;第二步:点击第二步:点击“新建站点后出现如下界面。填写义务称号新建站点后出现如下界面。填写义务称号;点击起始网址区域右侧点击起始网址区域右侧“添加按钮后,根据需求选择添加采集网址方式,这添加按钮后,根据需求选择添加采集网址方式,这里我们先选择里我们先选择“批量批量/ /多页为例:多页为例:;以抓取慧聪业界动态以抓取慧聪业界动态info.it.hc360/list/zx_yjdt.shtmlinfo.it.hc360/list/zx_yjdt.shtml为例:为例:经过察看页脚网址参数变化,可以看到下方网址中

5、标红部分数字随着页数大小经过察看页脚网址参数变化,可以看到下方网址中标红部分数字随着页数大小发生了变动,随意复制其中一个网址,例如下方网址发生了变动,随意复制其中一个网址,例如下方网址info.it.hc360/list/zx_yjdt-2.shtmlinfo.it.hc360/list/zx_yjdt-2.shtml;在地址格式中输入刚刚复制的网址,框选中变动的数字,点击右侧的在地址格式中输入刚刚复制的网址,框选中变动的数字,点击右侧的* *符号会自动输入页码变动符号。符号会自动输入页码变动符号。由于该网址采用数字等差数列,在由于该网址采用数字等差数列,在“等差数列右侧首项输入想要采集的等差

6、数列右侧首项输入想要采集的起始起始IDID页数,页数,“项数右侧输入一共要采集的数量,普通为最后页码数。项数右侧输入一共要采集的数量,普通为最后页码数。查看下方预览区域中网址能否正确,如正确点击查看下方预览区域中网址能否正确,如正确点击“添加添加- -完成按钮。假完成按钮。假设添加后发现有错误,可用鼠标点击完成下方的网址,选择删除即可。设添加后发现有错误,可用鼠标点击完成下方的网址,选择删除即可。;在在“单挑或多条网址区域下方输入要采集的网址一行一个,点击添单挑或多条网址区域下方输入要采集的网址一行一个,点击添加加“按钮按钮完成按钮,完成添加。完成按钮,完成添加。;有时我们知道要采集的网址,或

7、者有时用程序批量生成要采集的网址可以用有时我们知道要采集的网址,或者有时用程序批量生成要采集的网址可以用“文本导入功能。文本导入功能。下面是在文本编辑器中输入范例中的部分网址的例如,接着我们把这部分网下面是在文本编辑器中输入范例中的部分网址的例如,接着我们把这部分网址导入到火车头采集器中,作为采集目的源。址导入到火车头采集器中,作为采集目的源。;点击点击“阅读按钮,找到本人想要导入的文本文件,点阅读按钮,找到本人想要导入的文本文件,点“确定按钮前往该确定按钮前往该窗口,点击窗口,点击“添加添加- -完成按钮完成添加义务。完成按钮完成添加义务。;点击“完成按钮,那么出现以下类似界面,起始网址处可

8、以看到新添加的要采集的;假设要获取的信息是在这个页面中的链接,就需求设定“多级网址获取。点击“多级网址获取右侧的“添加按钮。;为了更精准获取要采集的网址,会设定在页面某区域中获取相关网址。以第一页为例,可以看到网址截取区域开场以及结尾页面的内容。网址截取区域开场网址截取区域结尾;查看页面源代码,我们以“业界动态快速定位到要抓取网址区域开场附近,经过代码分析,可以判别出标红区域中代码为独一代码必需为独一代码,否那么抓取内容会不准确,标志为开场内容。同理可以获取到页尾代码: ;1 1、从网页自动分析得到地址链接:、从网页自动分析得到地址链接:在方框内输入刚刚判别的截取区域开场和终了代码,点击在方框

9、内输入刚刚判别的截取区域开场和终了代码,点击“保管按钮。如想保管按钮。如想测试采集的网址效果,点击右下角的测试采集的网址效果,点击右下角的“测试网址采集。如确定信息正确点击测试网址采集。如确定信息正确点击“保管按钮。保管按钮。;2 2、手动填写链接地址规那么:、手动填写链接地址规那么:与与“从页面自动分析获得地址链接方式多了一块功能区域。从页面自动分析获得地址链接方式多了一块功能区域。从网页源代码中我们可以看到每篇文章的源代码大体如下:从网页源代码中我们可以看到每篇文章的源代码大体如下:O2O+O2O+会员营销会员营销, ,千亿盛宴他预备好了吗?千亿盛宴他预备好了吗? 11 11月月1010日

10、日 18:5418:54其中粗体红色、蓝色为变动值,框住网址部分,点右侧的其中粗体红色、蓝色为变动值,框住网址部分,点右侧的“参数参数 交换网址,交换网址,“实践衔接处由于网址采用相对途径,需求手工加上前面域名和途径如链实践衔接处由于网址采用相对途径,需求手工加上前面域名和途径如链接地址是完好的,可以忽略执行这一步。其他变动信息用接地址是完好的,可以忽略执行这一步。其他变动信息用( (* *) )交换掉。交换掉。页面中能够还有部分要采集的数据,可以用页面中能够还有部分要采集的数据,可以用“标签:标签:XXXXXX获取,该内容会获取,该内容会自动传送到下一步的标签里,这里加过的标签不用出如今下一

11、步中。自动传送到下一步的标签里,这里加过的标签不用出如今下一步中。;假设点击了前面的“测试网址采集按钮,显示如以下图相关界面。可以经过点击左侧的“+看该网址下面的链接,可以用右侧的导出功能导出相关网址。普通在左侧选择中要采集的网址,在右侧选择“导出同级节点。可以选择左侧网址,点击右侧“阅读网页预览页面。点击“测试该页可以进入内容采集预览页。如需退出点击“前往修正设置按钮。;在采集过程中遇到不需求采集的文章,可以经过“不得包含功能将其过滤掉。为了减少采集范围可以运用“必需包含功能。;正确获取网址后,点击“第二步:采集内容规那么就可以进入采集内容模块了。;运用左侧的添加、修正、删除按钮修正标签对应

12、的内容。点击“、“箭头可以进展标签称号排序。右侧“规那么测试区域可以在典型页面输入测试网址,也可以经过前面测试页面功能自动导入进相应页面地址。点击右侧“测试按钮,选择“第二步:采集内容规那么后,出现如下界面。;以info.it.hc360/2019/11/101145796593.shtml为例,该例如有分页,需求运用到“分页获取规那么。由于这个例子更适宜上下页获取,应选择第二种。提取区域左侧填写的是分页代码独一开场标示代码,右侧为终了标示代码。;从对方页面上判别需求采集的内容,以info.it.hc360/2019/11/101145796593.shtml为例,主要有标题、来源、内容3项。

13、;“标签名右侧输入标签名字。特殊情况下勾选右侧相应匹配项,该例子中用到的是第二项。提取数据方式本例采用的是前后截取方式,分别在左右两个标红区域填入开场、结尾独一标示字符串。;数据处置处可以点击“添加新增处置方式,主要用到类型有“内容交换、“HTML标签过滤2种。点击左侧添加,在“内容交换区域左侧输入相应字符串,右侧“交换为输入交换后的内容,本例交换为空,故没有内容。添加终了按“确定按钮提交。运用“删除键可以删除选中的数据处置方式。运用“、“箭头可以进展数据处置顺序排序。;少量时候会涉及图片或文件下载,这就需求勾选右下角相应配置:免费版只需勾选“将相对地址补全为绝对地址;“HTML标签过滤可以交

14、换掉您不想采集到的相应html代码,例如对方页面中关键词链接、iframe、文字标红等等,详细可以根据实践需求进展勾选。普通我会选择“链接、“字体、“去除首位空白符、“框架4项。;提取数据方式除了“前后截取以外,还有其他几种,常用只运用“正那么提取方式。以下是正那么提取样例,大家可以和“前后截取例子看看之间有什么差别。正那么截取常用在复杂的内容提取上,由于内容复杂不容易懂,这里不再赘述。;除了“经过采集得到数据方式以外,还可以运用“自定义固定格式的数据,这里我们常用的是“固定的字符串、“随机抽取信息2种。 “固定的字符串可以把标签固定写死成某个字符串。“随机抽取信息主要用于采集完文章后随机生成

15、作者或发布人姓名一类。;进入第三步:发布内容设置可以看到如下界面。软件提供了3种导入数据方案,由于公司目前没有提供web网站,因此主要运用方式二和三。下面截图中红色区域是数据存成文件方式的根本配置。文件存成的格式免费版只能存成TXT、HTML、CSV 3种方式,WORD、EXCEL需求付费。TXT模板可以运用系统默许。HTML系统自带模板没有写网页字符方式呵斥输出成乱码,请运用我提供的模板,运用中需求查看采集网站的字符格式,并更改系统配置以及HTML模板中字符格式。CSV默许模板翻开后是乱码,需求运用文本编辑器翻开修正模板,第一行是字段名,第二行字段值,编辑好后另存为以utf-8编码保管。假设

16、要输出excel表格,可以用csv格式输出。;点击“方式三下方的“数据库发布配置管理链接,看到如下界面:;如是建立好的配置,双击左侧配置列表或点击下方编辑按钮即可。如要新建入库配置,先点击左侧“新建按钮,再点击右上方“新建按钮。在下一页里可以看到相应页面图。;选择数据库类型为您运用的数据库种类,普通运用“Mysql、“SQL Server,详细根据您安装的数据库种类决议。点击右侧的“INSERT语句例如链接,可以看到上方自动插入了一些曾经写好的数据库写入语句。请根据曾经建立好的数据库表构造修正“Table_Name中字段,VALUES后标签那么是“第二步:采集内容规那么里的标签内容。修正好后点

17、“保管模块,输入保管称号点“保管,弹出“胜利保管窗口,点“确定。封锁“数据库模块编辑器。;插入的语句下方有3排内容,如以下图。主要用到“常用标签和“系统标签。系统标签主要用到“采集页网址,可以插入从哪个页面采集相应数据。“文章编号:表名XXX用于插入数据后获取最后一条信息的ID号,这样可以利用该ID号执行新的select、update中包含该文章编号的“where id=xxx语句。;以下是比较复杂的SQL插入语句例子。INSERT INTO ceshi(gongsimingcheng,lianxiren,shoujihaoma,dianhuahaoma,chengxintongnianfen

18、,jingyingdizhi,zhuyinghangye,jingyingmoshi,zhuceziben,gongsichenglishijian,gongsizhucedi,qiyeleixing,fadingdaibiaoren,zhuyaoxiaoshouquyu,zhuyaokehuqunti,nianyingyee,fuwulingyu,yuangongrenshu,dangqianwangzhi,xingbie,chuanzhen,dizhi,youbian,gongsizhuye,gongsizhiwei,suozaidiqu,aliwangwang) VALUES (标签:公

19、司称号,标签:联络人,标签:联络,标签:固定,标签:诚信通年份,标签:运营地址,标签:主营行业,标签:运营方式,标签:注册资本,标签:公司成立时间,标签:公司注册地,标签:企业类型,标签:法定代表人,标签:主要销售区域,标签:主要客户群体,标签:年营业额,标签:效力领域,标签:员工人数,标签:当前网址,标签:性别,标签:,标签:地址,标签:,标签:公司主页,标签:部门职位,标签:所在地域,标签:阿里旺旺);以下MYSQL数据库对应建立数据库的大约语句例子,需求对数据库有一定了解。可以用phpmyadmin或Navicat等图形数据库管理工具来处置。CREATE TABLE alibaba ( gongsiidhao int(10) NOT NULL AUTO_INCREMENT, gongsimingcheng char(255) NOT NULL, lianxiren char(255) DEFAULT , shoujihaoma char(255) DEFAULT , dianhuahaoma char(255) DEFAULT , chengxintongnianfen char(255) DEFAULT , jingyingdizhi char(255) DEFAULT , zhuyinghangye medi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论