非结构化数据平台建设需求_第1页
非结构化数据平台建设需求_第2页
非结构化数据平台建设需求_第3页
非结构化数据平台建设需求_第4页
非结构化数据平台建设需求_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非结构化数据平台建设需求一、项目概况序号采购内容技术参数数量单位1软件建设非结构化大数据治理平台并与学校现有“学在XX”五大平台及原“XX云盘”等功能实现接管①接管原“XX云盘”功能,确保数据安全快速访问;②与学校现有“学在XX”五大平台对接,实现资源互通;③支持资源全生命周期管理,包括归档、分类、转码、NLP、OCR、人像/场景提取、图谱关联;④集成AI技术,实现智能分析、推荐、搜索;1套2AI助教系统①支持向量知识库管理、知识库迁移、文档管理、问题管理、工作流编排、问题解析、多轮对话、AI大模型部署与管理、用户与权限管理、智慧课程问答智能体管理;②基于该系统建成不少于5门示范智慧课程;1套3硬件租赁服务存算AI一体机服务器租赁①IntelXeon64核2.1GHz;②4代Intel芯片组;③DDR5内存512GB;④SSD硬盘30TB;⑤RAID控制器卡;⑥NVIDIA4090D(或以上)显卡8张;⑦支持热插拔冗余电源4个,每个≥3000W;⑧具备双25Gbps光纤端口的高性能网卡1张;3年二、技术指标序列功能详细要求1.1微服务架构1、支持在Windows和Linux两种服务器操作系统上的部署;2、平台应能满足大规模数据处理和高并发访问的需求;集群核心组件采用容器化部署,服务模块应包括注册中心、网关服务、认证服务、定时任务服务、系统监控服务、文件存储服务、文件转码服务、全链路追踪等;集群架构提供多种数据保护机制,包括数据冗余、故障转移和数据校验等;实时监控服务返回情况,提供熔断、限流、重试等配置策略,支持链路追踪技术清晰快速定位系统数据问题;3、平台具有运维管理服务,以图形化界面实时查看每个微服务的运行状态、运行实时日志,提供服务自动化部署维护工具;具有全面监控机制,可以实时监控集群节点运行状态,各服务器的运行状态(CPU占用、内存占用、服务状态等);当服务节点出现故障时,能够迅速将请求切换到另一节点,实现无缝的故障转移;4、为提高数据读写能力,系统须具备高效的分布式文件存储架构,提供图形化存储服务管理能力,将数据分散存储在多个节点上,实现数据的并行处理和高速传输;使用分布式的冗余机制将数据复制到不同节点上,以防止数据的丢失;支持数据校验和数据恢复功能;通过添加新的节点,用户可以线性地扩展存储集群的容量和吞吐量;5、平台具备高可用网关集群服务,自动负载均衡,实时监测网关主服务器运行状态,当服务器出现故障时,自动切换至备份服器,确保服务的连续性,提高系统可用性;文件上传和转码服务支持多节点部署,根据实际情况增加新的服务节点,满足高并发的文件上传和转码需求;6、系统可针对文件配置冗余备份,实时计算热点文件,将热点文件更新到特定存储服务器;1.2资源门户1、导航栏目自定义设置,系统logo和导航图设置;2、支持平台水印、在页面中自动显示水印,包括部门、登录用户名称、角色等信息;3、智能搜索门户,允许通过关键词、分类和标签进行快速检索视频/文件内容,响应结果能够定位相关上下文;4、具备响应式设计,适配PC端与移动端呈现效果;1.3平台管理1、用户管理,支持导入学生清单;2、支持多租户管理,按学院作为租户管理单元,租户管理员能够独立管理租户成员、角色、权限;3、角色管理,预设学生、教师、访客、资源管理员、运维管理员角色,权限可灵活调整配置;1.4编目管理支持管理员维护多级树状编目,编目支持排序、设置显示隐藏状态,支持通过拖拽调整编目层级结构;编目可上传自定义轮播图,支持用户自定义选择展示模版,平台最少内置3套模版;支持编目设置资源类型,并对上传的资源按类型进行过滤;例如:视频类型仅允许视频资源上传,否则禁止上传;综合专题类型允许所有类型的资源上传;1.5标签管理1、资源标签,支持自动从资源对应的视频、音频、文档中提取标签,并支持多级关系标签;2、平台标签,基于课程、资源类目、编目规则等自动、手动维护标签结构,构建平台知识图谱实现高效精准的资源查询;3、标签可视化,提供可视化界面查看标签图谱,提供标签推理检索;标签应具有权限管理,个人标签仅个人使用,表现筛选只能查看个人的资源;1.6资源文件管理1、支持在线编辑文档(如Word、Excel、PPT);支持块状文本编辑功能;提供在线预览PDF、图片、视频和音频的能力,确保多媒体内容的顺畅展示;支持文件创建、移动、上传、编辑、收藏、分享,支持通过文件目录管理文件夹;支持分享外发,至少支持播放链接、页面嵌入代码、窗口播放链接三种分享方式,分享受权限限制,可以按照3天、7天、永久选择链接失效时间;支持文件访问行为记录,任何用户对文件上传、预览、分享、编目、移动、删除等操作,都会以生命周期形式记录到文件元数据,方便后续进行分析和追溯;2、支持空间管理,教师、部门、学院的空间可后台配置,空间具有严格的资源隔离,能够上传/下载/分享个人资源;支持查看共享资源,共享资源不重复占用空间;3、提供分布式的对象存储管理能力,支持SSD与HDD二层缓存存储架构,支撑不低于30TB规模的数据存储;支持大规模非结构化数据的存储与管理,具备弹性扩展、高可用方案,具有数据备份方案;4、上传资源后,支持多种数据格式文件批量上传,随时预览,视频资源可以拉取任意时间自动截图作为资源封面;5、支持存量数据的迁移至新系统,并进行结构化编目;提供存量视频、音频的智能化处理,自动提取文本和标签;1.7智能文件处理能力1、支持对音视频资源智能处理任务,嵌入语音转文字、画面提取文字、人脸识别等算法,实现对音视频资源自动提取标签,输出文本化内容;2、支持音视频自动切片,将长音视频切断成短视频;3、支持对音频、视频、文档类数据进行语义分析,能够提取智能化标签,实现对资源内容的精准摘要,并能够提取章节概要;4、智能生成内容需提供人工校对、手动调整功能;1.8音视频转码1、提供高效的音视频转码能力,统一存储格式,统一码率,支持视频的流式播放;2、视频支持输入格式包括MP4,MKV,AVI,MOV,FLV等格式统一为H.264编码,将音频MP3,AAC,WAV格式统一为AAC编码;支持1080p2mbps500路并发;1.9平台安全性1、支持IP白名单限制,确保特定资源仅在授权IP下访问,防止文件泄露;2、建立完善的权限体系,支持文件粒度的查看、修改和删除权限,允许文件共享及全局或群组共享;进行上传文件格式与内容的校验,以避免非法文件的传入;3、支持即满足在线浏览、播放的同时禁止资源复制或下载到本地,避免资源泄露;4、提供多租户管理能力,为不同学院提供隔离的租户环境,确保数据安全与资源独立性,具备多租户管理;1.10平台开放性1、标准API接口;平台提供数据接口服务,提供详细使用说明文档,包括:①资源管理API:资源上传/入库,转码、截图、删除、下载;②数据检索API:按照时间、类型、大小、所属栏目等维度进行检索;③应用权限API:包括接口认证、管理接口;2、存储服务支持主流协议S3、RESTfulAPI、XML格式协议,确保多种数据访问方式;3、提供接口开放平台,支持接口授权、接口路由、接口文档及在线接口调试;具备API接口流量管理、负载均衡、安全验证、熔断限流和监控分析,提供20项接口监控指标,确保高效、安全地管理API请求,提高系统的可用性与可靠性;1.11数据统计1、资源应用分析:包括资源发布、浏览、下载和分享的总量,以及各类用户行为的趋势分析;可视化方式包括折线图、柱状图、饼图和雷达图等,支持学校进行资源管理分析,并为决策提供数据依据;2、资源统计:资源总量、各系统接入数据、资源来源、资源类型及排名统计;3、资源访问频率与时段分析,应具有评估资源的访问频率及其在不同时段使用情况的功能,以识别高峰期和低谷期;具体指标包括访问次数统计,即统计各类资源在不同时间段的访问次数,从而识别最受欢迎的资源;4、按标签维度构建热点图,为平台资源使用情况提供直观的图形化展示;5、提供可配置的数据统计服务,支持在线配置仪表盘大屏;1.12云盘迭代与数据迁移本次建设的非结构化数据中台应对现有云盘功能进行迭代升级,以确保系统在数据处理上具备高效能;云盘中的所有历史数据需进行整体迁移,保证数据安全与功能延续性,并提供全面的数据迁移支持服务,以实现无缝的系统切换;1.13“学在”系列板块支持本次建设的非结构化数据中台应对既有的“学在”系列五个板块提供数据支撑,确保新增加的非结构化数据资源能够被这五个板块便捷访问与调用,实现资源的无缝集成与展示,满足各板块的应用需求;2.1向量化课程知识库的创建系统需支持两种创建知识库的形式,包括上传本地文件和从Web站点自动爬取数据,以确保知识的多源输入和灵活性;本地文件上传可以覆盖多种数据来源,例如教师个人的笔记、课程资料、教材扫描文件等,而Web数据爬取则可实时更新互联网公开数据,进一步丰富知识库内容;2.2本地文件上传支持系统应支持主流的文档格式(包括Markdown、TXT、PDF、DOCX、HTML、Excel、PPT和CSV),并且在上传过程中提供数据清洗和分段管理功能;通过设置分段标识符和长度,系统应能够自动划分和标注内容,提高知识库内容的可读性和逻辑关联性;每个分段内容都可以设置标题,便于在检索时快速定位到对应内容;2.3Web站点数据爬取系统在实现Web站点数据自动化爬取的基础上,支持输入网站根地址以批量获取数据;系统应内置选择器功能,可以帮助用户从指定的HTML元素(如div、span等)中提取内容;这种选择器功能应有助于过滤出重要内容并排除页面中的杂项数据,确保爬取内容的高质量;系统能够支持高效地从教育相关的网站、知识分享平台或教学资源网站中获取最新的学习资料,并将其自动导入到知识库中进行分类存储和管理,为后续的智能检索和推荐提供数据支持;2.4知识库管理功能系统需要提供全面的知识库管理功能,允许用户对知识库的名称、描述、向量模型等属性进行编辑,同时支持重新向量化功能,以便在需要更新模型或优化内容向量表示时重新处理知识库内容;导出功能应支持Excel格式,并确保每个文档存储在独立的sheet中;具备删除知识库的功能,且删除操作不可逆;2.5文档管理系统支持跨知识库的文档迁移,同时允许用户为每个文档设置不同的命中处理方式,可以选择优化模型响应或直接返回分段内容;用户可以根据实际需求灵活设置文档的响应模式,以便在检索时为学生提供更准确的回答;文档删除操作不可恢复;2.6问题管理功能系统应具备批量创建和修改知识库问题的功能,同时提供问题与知识库分段的快速关联;知识库应能够快速响应用户提问,形成问题到知识的快速检索通道;支持问题命中率的测试,以评估知识库的准确性和响应能力,便于后期优化和调整;2.7工作流编排功能工作流编排功能需能够在多步骤任务节点之间进行逻辑连接,以适应复杂的业务场景;工作流编排支持灵活配置不同步骤之间的依赖关系,可以根据特定条件触发后续操作或设定自动处理规则;系统还应允许管理员对工作流进行配置调整,使不同业务需求下的操作流程更加高效,减少重复的手动操作,并适应不同部门或项目的具体需求;2.8自然语言处理系统需要具备自然语言处理能力,以便解析用户的问题并从知识库中找出最符合的问题答案;在回答生成的过程中,系统应能够结合上下文和语义分析,自动对用户输入的自然语言进行处理,理解问题背后的意图;例如,在学生提问模糊或使用不准确表达时,系统仍然能够通过语义解析识别关键词,从而找到最为适当的答案;此外,系统还需要能够自动生成简洁而准确的回答,以确保学生能够在学习过程中获得清晰的指导;2.9多轮对话能力系统应支持多轮对话,允许在会话过程中提交上下文关联的N个问题(N≥3)给大模型进行处理;系统应能够记住用户在同一会话中的问题顺序,提取相关的历史问题,以便在回答时考虑上下文关系;例如,当学生在提问过程中提出连续的知识点或探讨一组关联性问题时,系统能够依据上下文提供更完整的答案;同时,多轮对话功能还应支持在复杂提问场景下的深度交互,以便学生能够探索更广泛的知识内容;2.10基座大模型管理模型管理模块应支持多种大语言模型的灵活切换和高效对接,以满足系统在不同场景中的应用需求;模块应内置尽可能多的通过安全审查的主流大模型,例如(不限于)通义千问/智谱AI/百度千帆/火山引擎/腾讯混元/Kimi/DeepSeek等;模型管理模块还具备对接大模型集成器(例如ollama、vLLM)的功能;2.11AI智能体管理系统的AI智能体管理模块需支持智能体的创建、配置、修改与复制,并允许智能体在不同使用场景中调用;支持提示词工程,以提升智能体在应用场景下的任务处理能力;管理员可以在后台为智能体配置特定的上下文关联规则,并且通过启用或禁用选项对智能体进行状态控制;为便于跨系统协作与安全管理,智能体应具备嵌入第三方业务系统的接口和权限分配机制;系统还应支持记录智能体与用户的对话日志,以便对AI模型进行分析与优化;2.12用户和权限管理系统应具有严格的用户管理与权限控制功能,系统支持权限的动态调整和分级控制,确保特定用户只能在授权范围内访问和操作知识库、工作流、智能体等功能;2.13数据提取与格式转换系统应集成高效的数据提取功能,能够从PDF、网页、电子教材等数字化教学资源中自动提取文本内容并转换为结构化的Markdown格式,保留原始文档的标题、段落、列表、图像、表格等信息;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论