版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息采集与大数据分析科研平台建设需求一、需求概述标的名称数量具体内容数量单位全球信息采集与大数据分析科研平台1套多语种文献资料库8个外文网站的数据抓取、清洗和文本分析端口,全网搜索1项翻译机4台计算机辅助翻译软件系统1项二、需求内容(一)多语种文献资料库1.英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语8个语种文献资料库,包括数据汇入、数据共享、数据查询、小语种翻译、账号权限管理等主要模块,各模块功能如下:2.数据汇入:采集数据汇入、用户资料编辑、上传;3.数据共享:数据展示、查看、取用;4.数据查询:搜索功能、主题分类;5.账号权限管理:账号管理、角色权限、用户分组管理、登录控制、账号注册。(二)外文网站的数据抓取、清洗和文本分析端口,全网搜索:共1项(服务期2年)。1.采集内容使用爬虫技术,采集范围包括800个外文网站(外文网站目录由采购人提供),采集内容包括文章标题、时间、作者、正文、链接,采集频率为每天采集一次,数据每24小时更新,数据存储在本地,数据接入资料库。中标方须根据数据采集要求,在定向800个网站进行数据收集,使用语言包括英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语,并将所采集数据进行数字化转化,同时确保数据的真实性、完整性和合法性。2.词语分析根据抓取的数据进行每周关键词、热词分析提示。3.海外内容搜索接入全网搜索入口、800个外文网站全部内容搜索入口,提供线路供搜索海外内容,外文网站域名由后台限定。4.数据抓取要求4.1反爬机制要求为确保网络爬虫系统能够高效稳定地采集所需信息,需要满足以下反爬机制:1)使用代理IP网络爬虫应具备代理IP功能,代理IP应用于规避目标网站的IP封锁等限制,确保顺利进行数据采集。2)模拟登录网络爬虫系统应支持模拟登录功能,实现自动化登录操作,并保证账号和密码的安全传输和存储。3)分析网页源码实现网页源码分析功能,通过使用浏览器自带的开发者工具等技术,提取难以采集的页面中的所需信息。4)使用API接口在可能的情况下,应优先使用目标网站提供的API接口来获取所需信息。4.2数据去重和增量更新要求为保证数据的准确性和避免不必要的资源浪费,网络爬虫系统需要实现数据去重和增量更新功能。将爬取过程中产生的URL进行存储,并确保URL的唯一性,免重复请求。网络爬虫系统应对爬取到的每条数据进行唯一标识的制定,确保爬取的数据在持久化存储前进行去重,避免重复存储相同的数据。4.3分布式等问题要求网络爬虫系统需要支持分布式部署,以提高爬虫的效率、速度和可靠性。采用分布式爬虫技术,将爬虫任务划分成多个子任务,提高爬虫的效率和稳定性。(三)性能先进的翻译机:共4台。拥有离线翻译、拍照翻译、语音速记、扬声器等功能,支持英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语8个语种,网络支持WiFi、蜂窝数据等方式。(四)计算机辅助翻译软件系统:共1项。1.支持语言数量在线翻译定向外文网站搜集到的内容,支持英语、德语、法语、阿拉伯语、西班牙语、俄语、日语、韩语等70种语言。2.文件格式支持pdf\doc\docx\xls\xlsx\txt\ppt\pptx共8种文件格式。3.文档翻译支持文本、文档翻译,自动识别源语言语种,支持OFFICE系列/PDF等多种文档格式翻译,翻译结果原格式、原译导出,支持30M以上文档大小。4.翻译历史用户翻译历史记录留存、自主管理,支持通过语言方向、文档名称等条件检索。5.用户管理授权用户登录后才可以使用翻译功能,翻译调用情况可以实时查看。6.翻译页数20万页(无时间周期限制,直至20万页用完为止)。7.账号数量1个主账号+100个子帐号+3条vip专属通道+5条普通通道。(五)培训和售后服务提供相关用户培训文档,培训形式、时间等根据招标人要求确定。提供自终验合格之日起2年的质保,人员5*12小时响应。三、技术要求(一)技术1、系统应采用B/S模式,前后端分离和微服务架构进行开发;2、采用Java语言开发,符合J2EE规范;3、数据库需采用关系型数据库,支持Oracle、MySql,支持千万级以上数据的复杂搜索和统计;4、支持分布式部署,通过消息队列,集群管理,负载均衡等方式对关键数据的访问进行加速,保证系统的正常使用;5、采用RBAC权限模型支持用户身份认证和访问控制,并对用户的关键数据进行加密,防止用户敏感信息泄露,系统需要采取防火墙保护和入侵检测等措施来保障系统的安全性。6、系统的开发过程需要遵循软件开发生命周期(SDLC)的各个阶段,如需求分析、设计、编码、测试、部署和维护等,以确保系统的高质量和稳定性;(二)性能1.稳健性和快速性(1)支持大于1000人并发用户;(2)保证7×24小时运行,对于软件更新、加载时不影响正常业务;(3)业务高峰时服务器内存不大于70%,CPU使用率不低于30%,不高于90%;(4)简单页面操作响应速度小于1秒;平均延时小于3秒,最大延时不超过30秒,报表统计生成页面不超过15秒。(5)支持负载均衡、可扩展性,可支持系统弹性扩缩容(6)支持千万级数据的搜索与统计,对关键数据的搜索效率不得超过1秒。2.兼容性(1)能够最大限度地保证学校现有各种计算机软、硬件资源的可用性和连续性,以及学校未来应用的发展;(2)客户端支持chrome、firefox等主流浏览器;(3)前端服务器要求支持nginx、jetty,应用服务器支持各种主流应用服务器Tomcat等;(4)服务器操作系统支持各种主流操作系统平台,如Windows、Linux、Unix等;3.安全性(1)与防止对程序技术的非授权的故意或者意外访问的能力有关的软件属性;(2)采用多种备份机制保证数据库和文件系统不因服务器故障导致数据丢失;(3)应用系统必须提供完善的审计功能,对系统关键数据的每一次增加、修改和删除都能记录相应的修改时间、操作人和修改前的数据记录;(4)应用系统必须支持操作失效时间的配置。当操作员在所配置的时间内没有对界面进行任何操作则该应用自动失效;(5)数据备份:支持系统内高速度、大容量自动的数据存储、备份与恢复;实现增量备份,即只备份那些上次备份之后更改过的文件;4.易用性(1)包括统一的操作风格、简洁的用户界面、智能的操作提示等;(2)对一些频繁使用的操作界面要考虑增强用户体验,如增加智能提示、自动完成等辅助功能;(3)使用Ajax技术减少用户的等待或频繁刷屏等问题;(4)用户登录后点击不超过3次,即可访问业务所需要的功能;(5)普通用户的培训不超过2天、管理员培训不超过一周即可熟练掌握软件的操作技能;(三)技术开发方案1.本项目拟采用的技术开发方案如下:序号项目可选方案1应用及消息中间件服务器操作系统Linux内核系统2数据库服务器操作系统Linux内核系统3客户端操作系统无限制4数据库管理系统Navicat5开发平台Vue.jsJdk1.86开发技术SpringCloud,Springboot,Maven,Git,Redis,MySql,Nginx,ElasticSearch7开发工具IDEA:Java应用程序开发Navicat:数据库运维管理工具VSCode:设计页面版式、操作界面FinalShell:服务器运维工具代码扫描工具TAPD:项目系统Bug跟踪管理工具Git:项目管理工具2.基本开发架构全球信息采集与大数据分析科研平台序号产品端功能模块分项功能实现的功能要求及参数1前端页面展示设计规范1.视觉呈现遵循统一的规范体系,体现页面设计规范性整体的统一性;2.需求调研:对使用者,使用环境,使用方式,策划出最终用户合适的数据平台;3.架构策划:整站架构,个性化页面架构梳理;4.设计原型:根据需求调研,进行设计原型分析以及方案的改进;2登录、注册注册用户1.手机注册:支持找回密码、、修改个人信息、更改密码等3.用户登录:支持账号密码登录、短信验证登录3登录、注册及账号权限管理1.配置不同账号查看全球信息采集与科研平台的权限,分发账号给对应人员2.普通用户可前台自行注册,通过后或注册后可查看球信息科研数据库5资源稿件上传1.用户可对全球信息采集与科研数据库进行在线投稿,投稿内容需要经过系统审核,支持敏感词检测等2.支持用户上传本地文件以丰富全球信息采集与科研数据库,上传文件类型包括图文、视频等类型;6全球信息采集与科研数据资源检索1.支持数据资源精准搜索与模糊搜索;2.支持按稿件标题、描述、发文人、发布时间、搜索内容等进行筛选、过滤;7数据统计分析1.全球信息采集与科研数据库资源总量统计;2.全球信息采集与科研数据库资源增量统计;3.数据支持可视化报表展示8个人中心1.个人资料:可查看、修改或完善个人信息(头像、昵称、所在单位等)2.账号信息:可查看个人账号信息支持修改密码9管理后台管理员系统权限部门管理/角色管理/菜单管理10管理权限1.管理后台采取总管理账户及各分管理账户的权限设置;2.可开设不同用户账号和密码,分设不同人员管理数据库不同模块;3.具备权限的分账户可登录管理权限范围内的模块,但对于其他模块则不可见;13用户管理1.列表页可查看所有用户信息2.支持修改、删除、批量删除用户信息3.支持通过关键词检索用户14全球信息采集与科研数据库列表1.可查看所有审核通过后的资源稿件2.可查看单个稿件的浏览量、点赞量等3.支持查询删除、批量删除稿件4.支持导出稿件、视频等资源15多端兼容展示1.默认制作网站以PC版电脑为主,即1920*1080的分辨率电脑;2.其余PC版兼容主流分辨率:16多语言支持多语言版本1.支持将指定语种的内容进行在线翻译;2.支持多语种动态扩展功能,后期可根据客户诉求进行其他语言版本新增。17三方数据对接按照采购人的要求,为日后其他系统的对接开放接口,提供接口数据,服务费用包含在本项目总价中。四、安全服务要求系统安全防护建设要按照国家关于信息系统安全管理有关要求及国家有关安全策略、法规、标准和管理要求进行,以风险评估和需求分析为基础,坚持适度安全、技术与管理并重、分级与多层保护和动态发展等原则,保证网络与信息安全和监管与服务的有效性。安全系统建设内容包括信息安全管理规章制度、资源安全、应用安全、系统安全、网络安全等方面。(一)安全合规要求设计开发系统的安全功能需满足国家法律要求、需要满足招标人的安全监管要求及网信系统安全标准,相关要求包括不限于以下:《网络安全法》。承诺交付的系统在通过以上合规要求时提供技术支持;如果遇到因功能缺失导致无法满足合规要求时,应立即响应并对安全功能改进。(二)安全管理要求应采取必要的措施和机制保证设计开发业务系统的安全性。措施应包括不限于以下部分:(1)设置安全专员;(2)定期安全培训;(3)定期安全自查与改进。(三)漏洞规避要求应确保交付的成果不存在中高危漏洞和安全缺陷。(1)不得存在高危漏洞包括不限于:注入漏洞XSS跨站漏洞已公开的框架漏洞CSRF漏洞非法上传漏洞远程包含漏洞远程执行漏洞硬编码漏洞水平权限、垂直权限漏洞其他owasptop10漏洞(2)不得存在安全设计缺陷包括不限于:密码未加密或弱加密存储已公开的框架漏洞撞库攻击、密码破解遍历漏洞恶意注册漏洞验证码绕过短信、邮件接口轰炸漏洞伪随机重放漏洞敏感信息泄露取回密码绕过验证(3)应采取必要的手段包含不限于:代码审计、黑盒扫描、人工渗透测试等方法对系统可能存在的漏洞和缺陷进行发现并修复。(4)承诺交付给买方的系统已经经过全面的安全测试并已经修复。(四)平台安全服务保障1.服务器系统每周对平台进行数据安全备份(包含源程序和数据库),以及根据采购人需求做服务器数据隔天回滚恢复工作;2.服务人员每月15日、30日检查平台运行页面显示等情况;3.技术人员每月检查平台前后台程序/数据库安全问题,确保采购人平台防篡改/暗链修复,防止挖矿脚本,防止反射型XSS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 04年O公司人工智能语音识别技术研发合同
- 《476例结肠癌临床病理特征及预后比较分析》
- 《融合通信系统中分布式存储引擎的设计与实现》
- 2024城市地铁建设设备采购及安装服务合同
- 2024年快递店业务外包合同
- 2024年度舞台设备安装合同
- 2024年银川客运车资格证考试题库及答案
- 2024年乌鲁木齐道路运输客货从业资格证考试题库
- 2024年绵阳客运从业资格证理论考试题
- 2024年克拉玛依客运上岗证模拟考试题答案
- 年产15万吨PET的生产工艺设计-毕业论文
- 车间生产计划完成情况统计表
- 品管圈(QCC)降低ICU护士床头交接班缺陷率课件
- 《左道:中国宗教文化中的神与魔》读书笔记模板
- 2023年初级游泳救生员理论知识考试题库(浓缩400题)
- 施工现场临时用电安全技术规范
- 同仁堂药品目录
- 社会问题概论
- 高中语文-如何读懂古诗词教学设计学情分析教材分析课后反思
- 虚假诉讼刑事控告书(参考范文)
- 部编版道德与法治四年级上册第11课《变废为宝有妙招》优质课件
评论
0/150
提交评论