版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据采集及自动处理流程1概述本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程。通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文档的阅读,对于我们欠缺的采集接口做及时的补充。对于我们下面所设计的接口,希望网信相关人员可以提供测试数据供我们测试,采集接口定义2.1爬虫BT接口待确认问题因为在原有的速网后台中,我们没有发现该接口的设置界面,所以请相关人员就一下几个问题给与解答爬虫是否会去爬取BT的信息如果爬虫会爬取BT的信息,那么和H
2、TTP爬取的信息是否一致?Bt爬虫爬取的数据与Bt主动缓存解析的数据有什么区别基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计1爬虫会爬取BT信息2.爬虫爬取的信息仅包含资源信息。接口设计调用方:爬虫系统调用频率:当发现爬取到新的数据时实时调用或者每天定时调用约束:确保每次发送的信息都是最新批次的数据输入参数:输入参数明细如下18FORMAT文件格式2NAME名称用于完整性校验,判断去重4PROTOCOL采集协议5LANGUAGE语言(6CNT_SIZE大小7QUALITY质量10DATA_RATE码流11INFOHASHInfohash值判断去重12Duration播
3、放时长13URL资源来源完整性校验输出:成功或者失败。22爬虫HTTP接口2.2.1待确认问题爬虫爬取HTTP在线资源时,资源资料信息是否同时采集?Http爬取的资源中是否带有影片名称,集数?基于上述的问题,在没有获得网信相关人员答复的前提下,我们按照如下条件设计爬虫爬取HTTP在线资源时,资源和资料信息不是同时进行采集接口设计爬虫HTTP资源接口18FORMAT文件格式2NAME名称用于完整性校验,判断去重4PROTOCOL采集协议5LANGUAGE语言(6CNT_SIZE大小7QUALITY质量10DATA_RATE码流11INFOHASHInfohash值判断去重12Duration播放
4、时长13URL资源来源完整性校验爬虫HTTP资料接口编号字段名称说明备注2NAME名称影片名称3LABEL别名4DESCRIPTION描述影片的剧情描述5HPOSTER横向海报6VPOSTER竖向海报7IS_HOT是否热点8TAGTag栏9CHILDREN_COUNT子集数量10AUTHOR编剧11TV_NAME电视台名12TV_HOST主持人13SPAN时长播放时间14COMMENTS点评15LANGUAGE影视语言(FK)16ACTORS主要演员17DIRECTORS导演18PLAYDATE影视上映日期19COUNTRY地区分类(FK)20MOVIETYPE影视分类(FK)21CONTEN
5、T_TYPE题材分类(FK)22AVG_MARKS评分23capture_site采集点判断是不是10大门户网站24channel频道可用于区分是否有集数,主演作者等一系列字段自动处理流程自动处理流程的目的是对于采集接口获得的数据通过系统的自动内容筛选,自动内容质控,自动内容发布功能提高入库数据的质量,减轻人工编辑的工作量。3.1规则列表下方表格中定义了我们归纳出的筛选,质控,发布的规则,平台的规则引擎会自动根据下方的规则对数据进行处理。请根据实际情况对这些规则进行确认以及补充。筛选规则屏蔽资料垃圾数据通过对影片名称,播放地址进行非空判断。如有空字段,则把该数据放到垃圾表中处理。(资料)屏蔽资
6、源垃圾数据通过对影片名称,播放地址进行排空处理。如有空字段,则把该数据放到垃圾表中处理。(资源)采集信息资料去重对“影片名称”进行比对。如有相同数据,则把该相对数据内容不全的资料放到垃圾表中处理。采集信息资源去重对“播放地址”“infohash”进行比对。如果数据相同。则删除其中一条记录。兀数据资料去重通过影片名,别名与兀数据中原先资料进行对比,如果有相同资料,则此资料不添加到元数据库中。兀数据资源去重http通过播放地址进行对比,bt通过infohash值进行对比。如找到相同记录,此资源状态改为屏蔽添加到元数据库中。绑定入库如果在去重阶段未找到相同记录。通过杳找对应的影片名(资料查找资源)进
7、行绑定,反之,亦然。(资源资料)对于有父子级关系的(例如电视剧)资料。如果库中没有子集资料。父子资料会自动生成子集资料供资源绑定。审核规则合法性校验判断各字段中是否有关键词(例如:黄色词语),如果有则转入人工待审核(资源资料通用)资源有效性校验资源是否属于10大门户网站,如果是直接审核通过。向播放地址发送ping看是否有效。资料内容校验首先判断资料是否属于10大门户网站,如果是,直接审核通过。对别名中出现的逗号,顿号自动转换成/去除”/“两边的空格。评分字段如果低于5分,自动转为5分以上,如果评分为整数,则添加一位小数。对于导演,演员,自动去除每一行的前后空格。对于剧情描述,首行空2个空格,自
8、动添加或删除多余空格。对于演员,导演,如果名字不全(例如:张艺谋,但资料中是张艺)查找字典表,自动补全名称。演员亦是如此。对于地区:如果地区为空,可通过演员,导演来推算是哪个地区。如果频道对应的剧集,影片。那么演员,导演不能为空。如果对应是动漫,那么作者不能为空。如果对应是综艺,那么主持人,电视台不能为空。不符合规则,转为人工代审核分布管理规则资源发布规则根据资源的热度(点击率,排行,搜索次数)划分出若干个等级,根据热度等级的结合每个局点的缓存情况,下发到各个局点。例如将热度分为高,普通,低3个等级,对于等级为高的资源下发所有局点,对于热度为普通的资源只下发到缓存空间多的局点,对于热度等级为低
9、的资源只下发到本地。缓存优化规则1当发现某个资源的缓存进度一直处于比较低的时候,根据规则替换或者删除该缓存2当发现一个资源被缓存多次时,应根据资源的缓存进度保留进度最高的资源,删除其他资源缓存。3当发现局点缓存空间偏低,应根据每个资源的热度,缓存情况,清理资源,清理热度低,缓存进度低的资源。3.2详细描述1资源处理流程图资源在入库前,会进行完整性校验,同批次去重,资源可靠性审核等多重步骤,保证进入元数据的资源是真实可用。资源在入库后会定时调用审核规则查看资源库中的数据是否符合审核条件,对于已经失效的链接等进行剔除操作。并且对符合发布条件的资源调用分布管理机制,保证资源的最大利用率。券皱4tw总-msyl無W昧HY2资料处理流程图资料在入库前,会进行完整性校验,同批次去重,与元数据库去重等多重步骤,保证元数据的资料是唯一的。并且在入库之前也会调用什么审核规则,尽量提前修正资料的中错误。资料在入库后会定时调用审核规则查看资料库中数据完整性,可靠性,并对一些数据自动进行校正,修正。并且对符合发布条件的资料进行发布。接口提供infohash和內容信息自动流程、爬虫一httpW:味H-K和名称内容采集内容筛选内容质控元数据管理缓存内容筛选缓存地址筛迭提供内谷信息判断资料中是否有必要宁段例j如敢地址,infohash影片名等阔用内谷质控複块
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度企业总部基地租赁合同范本2篇
- 2025年度现代农业病虫害综合防治与防治药物研发服务合同3篇
- 二零二五年度河北省二手房买卖合同附带贷款利率及还款方式协商3篇
- 二零二五年度教育培训合同(不含教材)3篇
- 二零二五年度旅游行业投资并购合同3篇
- 二零二五年度搬迁项目进度管理合同3篇
- 贪吃蛇c++课程设计
- 二零二五年度国际酒店设施招标采购合同3篇
- 海南外国语职业学院《乐理基础与视唱(二)》2023-2024学年第一学期期末试卷
- 海南外国语职业学院《MATLAB与电机系统仿真》2023-2024学年第一学期期末试卷
- 2025北京丰台初二(上)期末数学真题试卷(含答案解析)
- 体育赛事志愿者管理
- 辽宁华电高科环保技术有限公司油泥煤循环流化床协同资源化工业化试验项目环境影响评价报告书
- 复旦大学普物B期末考试试卷
- 剪映教程PPT版本新版剪影零基础教学课程课件
- 小学语文低年级写话 鸽子
- GB/T 35223-2017地面气象观测规范气象能见度
- GB/T 24183-2009金属材料制耳试验方法
- 医院感染质量控制中心工作总结和计划课件
- 中共一大介绍
- 生产车间5s管理培训课件
评论
0/150
提交评论