文学大数据中心建设项目需求_第1页
文学大数据中心建设项目需求_第2页
文学大数据中心建设项目需求_第3页
文学大数据中心建设项目需求_第4页
文学大数据中心建设项目需求_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文学大数据中心建设项目需求一、项目背景2024年文学大数据中心项目,主要聚焦以全国首个文学智能体的打造为抓手,全面推动新时代文学高质量发展;落实省委宣传部要求,率先打造全国红色经典文学数据库,创新红色经典文学应用和普及教育方式;在我国文学大数据应用领域卡位争先,保持领先优势,以数字化赋能,全面提升文学场馆智能化水平,提供高质量文学公共服务,为广大的文学爱好者提供更加丰富多彩和智能化的文学应用。二、建设目标文学大数据中心项目(一期)的建设目标为以文学大数据和文学领域垂类大模型双轮驱动为核心,从标准体系、文学数据库体系和文学智能应用体系等方面的建设工作入手,打造全国首个文学智能体平台,为新时代我国文学数字化建设确定标准和规范,打造并不断夯实文学数据库,为众多文学机构提供智能化的平台服务,全面提升文学智能化水平,同时也为广大的文学爱好者提供高质量的文学公共服务。通过项目的建设,为实践“中华优秀传统文化创造性转化、创新性发展”提供文学领域的样本和示范。整体的建设内容包括以下9个平台和应用子系统:(1)标准体系建设:建设包含数据采集标准、数据存储标准、数据分析标准、数据应用标准、数据接口标准在内的完整标准体系,为文学大数据中心的长远发展奠定基础;(2)大数据中心基座平台;(3)文学数据库建设;(4)文学大模型平台;(5)文学智能体平台;(6)全国文学场馆综合管理服务平台(“馆际通”);(7)文学公众服务平台;(8)我国文学地图应用平台;(9)红色关键词数字化应用。三、建设内容文学大数据中心项目(一期)的建设内容包含9大平台子系统和应用系统,分别为标准体系建设、大数据中心基座平台、文学数据库建设、文学大模型平台、文学智能体平台、全国文学场馆综合管理服务平台、文学公众服务平台、我国文学地图应用平台、红色关键词数字化应用。1.标准建设内容包括数据采集标准、数据存储标准、数据分析标准、数据应用标准、数据接口标准等五个方面。2.大数据中心基座平台是整个项目的基座平台,负责大数据中心中数据全生命周期和全方位的监测管理,确保数据的可靠、可用、可观、可感。该平台基于政务云进行私有化部署,提供智能媒资数据系统、知识图谱数据系统、数据智能采集系统、数据治理和开发系统、数据安全监测系统、数据应用服务接口、多租户用户权限系统、监控运维系统、多实例容灾备份等基础功能。大数据中心基座平台提供综合数据大屏展示系统中的所有数据和应用信息。3.文学数据库建设的内容包括建设6个数据库:全国基础文学数据库、红色经典文学数据库、文学金句数据库、“正在发生的文学”数据库、馆际通业务数据库、用户行为数据库等的建设,以及针对这6个数据库的内容进行数据体系的编目设定和标签体系构建,并对数据进行智能标引处理,以及构建完整的文学知识图谱。构建数据库管理系统对这些数据进行查询、检索和管理,构建文学数据挖掘分析系统针对文学数据进行深度分析,含图片和视频数据的分析、文学数据的知识图谱分析和基于大模型的深度数据分析。文学数据库内容建设是大数据中心项目双轮驱动的核心引擎之一,为整个项目的各类上层应用提供数据能力的支撑,也为文学领域大模型的训练提供了专业专属的文学数据,使得文学大模型具有特定的优势。4.文学大模型平台是本项目双轮驱动的另外一个核心引擎,提供了平台所需要的核心AI智能能力。通过定制化训练文学领域大模型,使得大模型具备更专业的文学数据和知识,更好理解和处理文学场景的任务,从而超越通用大模型针对文学数据处理分析和问答对话能力。本项目基于定制化训练的文学领域垂类大模型和多模态的AI算法,构建了为大数据中心的深度智能集群。5.文学智能体平台深度融合文学数据库的内容和文学领域垂类大模型的智能能力,结合用户在业务和应用场景上的创意能力,支持用户构建形态和功能各异的智能体并进行评测、维护和优化,服务于文学馆各类应用场景中的知识问答、任务处理、和流程自动化。基于文学智能体平台打造一个专属智能体——AI文学官,具有灵巧可爱的形象、丰富的文学知识、专业的文学技能,为文学馆的游客接待、文学馆的管理运营以及文学馆机构的内容生产提供智能化的服务。6.全国文学场馆综合管理服务平台是文学大数据中心打造的,以服务全国文学类场馆为宗旨的综合性、公益性管理服务平台。该平台使用数据集成化、功能模块化的建设方案,资源联通、权限分级的建设理念,通过统一的资源接入、管理和使用标准,实现数据和数字化应用等资源的所有权和使用权分离,建设文学数据和文学类数字化应用互通共享的基础服务平台,AIGC工具集、资源共享中心、展项开发系统、展项应用管理、临展设计系统等功能模块,为全国文学类场馆提升数字化水平、推进公共服务水平提供平台支持。7.文学公众服务平台是文学大数据中心面向社会公众和文化机构提供服务的综合窗口,通过构建一个集文学资源汇聚、文化传播、知识教育及文化创新于一体的公众服务平台,以小程序为载体,面向广大市民游客及文学爱好者,打破时空限制,让文学之美触手可及。8.我国文学地图应用平台,以文学数据库中的“全国基础文学数据”、“红色文学数据”、“文学金句”以及“正在发生的文学”等数据为基础,全方面展示建设成果。以我国地图为基础,全面展示全国范围内的重要文学地标、文学活动、文学作品、文学应用、多馆联盟临展,并通过综合考虑各种指标形成全国各地的文学热力值分布,一屏总览当下的文学态势。9.红色关键词数字化应用:以“牺牲、母亲、选择、信仰、爱情、故乡、青春”等7个关键词为中心,根据红色文学数据库相关数据进行深度分析,对分析结果进行梳理,串联起作家、作品、红色文学地标和作品背后的故事,构建视角独特、形式新颖、生动活泼的文学知识图谱,并通过新颖的可视化应用和数字化互动应用,结合影像、实物展示等,将红色文学作品的深刻内涵传递给观众,形成与观众的有效互动,激发观众情感的共鸣。9大平台子系统和应用系统的功能模块如下表所示:序号平台名称平台子系统一标准体系建设数据采集标准数据存储标准数据分析标准数据应用标准数据接口标准二大数据中心平台基座智能媒资数据系统知识图谱数据系统数据智能采集系统数据治理和开发系统数据安全监测系统数据应用服务接口多租户用户权限系统监控运维系统多实例容灾备份数据大屏三文学数据库建设全国基础文学数据库红色经典文学数据库文学金句数据库“正在发生的文学”数据库馆际通业务数据库用户行为数据库文学数据库管理和分析系统四文学大模型平台文学领域大模型服务大模型训练调优平台五文学智能体平台文学智能体生产平台AI文学官六全国文学场馆综合管理服务平台(馆际通)基础服务资源共享中心文学数据管理数字化展项开发系统数字化临展设计开发AIGC工具集展项应用管理日志数据统计七文学公众服务平台文学探索文学游线文韵解码文库检索资讯公告八我国文学地图平台我国文学地图(驾驶舱)文学热力值文学地图管理后台AI文学官集成九红色关键词展陈应用7个关键词大数据分析及可视化利用新技术设计落地的互动体验应用AI文学官集成(一)标准体系建设2024年先行开展团体标准制定和申报。标准建设内容包括数据采集标准、数据存储标准、数据分析标准、数据应用标准、数据接口标准等五个方面。中标单位要结合项目建设具体情况,完成标准起草、论证、修改等系列工作,并要求将系列标准提交我国作协主管的具有团体标准发布资格的社会团体,完成团体标准发布。(二)大数据中心平台基座大数据中心平台基座是整个项目的基座平台,负责大数据中心中数据全生命周期和全方位的监测管理,确保数据的可靠、可用、可观、可感。该平台基于政务云进行私有化部署,按需分类存入本次建立的全国基础文学数据库、红色经典文学数据库、“正在发生的文学”数据库及文学金句数据库等对应数据库内并形成文学数据池,并与多地文学馆及多类型文化体验终端打通、互动展示,通过快速建立灵活、高效、开放的数据分析方案,探索文学数据价值,实现文学数据高效利用、供求双方智能化匹配、存量资源激活,最终建成标准、开放、安全的文学大数据中心平台。通过构建多模态的文学大数据中心平台,强化对各类文学数据的采集、分析和利用,为文学数字化应用提供基础支撑。1.核心功能文学大数据中心平台核心功能应包含多实例集群管理,数据源、数据集成、数据治理、数据应用以及底层的大数据平台支撑层,涉及标准规划定义、数据采集、数据存储、数据计算、数据开发、数据挖掘、数据服务、数据资产、数据质量等功能。同时,要建立高标准、高等级、规范化的安全防护体系。2.建设内容功能系统功能模块模块说明数据智能采集系统数据汇聚1、支持批量采集、离线采集、实时采集;2、支持excel数据采集导入;3、支持DB数据库采集导入;4、支持SQL语句采集导入;5、支持通过数据API导入;6、支持文本、doc、pdf、图片、视频和3D模型等非结构化数据的导入;7、支持可视化配置方式进行数据采集;数据采集支持对接主流文学期刊目录、文学图书出版平台,实现文学作品数据的采集;支持网络抓取采集我国作家网和全国各省作协主办的文学网站的文学活动、作品期刊发表、文学图书、文学奖项、改变影视等数据内容;支持网络采集抖音、B站、小红书、微博、微信、豆瓣等主流社交媒体平台上文学活动、作品期刊发表、文学图书、文学社交、媒体传播、文学作品出海、文学奖项、改编影视等数据;数据治理和开发系统数据建模展示数据相关统计指标,包括数据标准、数据模型等相关统计;支持根据业务属性、行业数据、数据属性进行主题划分,创建主题域;根据行业规范创建统一数据标准并用于后续建表过程表结构的创建、规范数据库体系;支持原子指标、时间周期、派生指标、复合指标设计;基于指标进行数据的分析统计计算,支持以插件方式扩展用户自定义指标;基于分层建模理论,支持STG、ODS、DWD、DWS、ADS层建模;支持可视化建模;支持规则配置、标签设置、字段映射、数据关联、数据清洗等;支持ODS、DWS、DWS、ADS层模型、热数据注册编排调度;元数据管理元数据管理需支持对数据仓库元数据的全面管理,功能至少包括元数据采集、元数据解析、元数据存储、元数据管理、元数据查询、元数据服务接口等;支持可视化配置的方式采集元数据;提供元数据存储模块,支持定制功能,支持自定义开发元数据功能;支持数据字典的管理和查看;支持对采集到的元数据进行查看和管理;提供元数据查询模块,需至少支持对数据表的血缘和影响分析;元数据管理,需具有良好的扩展性,支持针对数据仓库中数据的现状,不断进行迭代更新,各数据表的元数据定义需支持自动化采集;数据资产提供数据资产的首页,面向业务应用人员,支持资产信息的快速查询;支持对平台内发布的表资产的查询、申请、查看和收藏等;支持对平台内指标资产的查询、申请、查看和收藏等;支持根据数据分类查询搜索平台内可进行注册发布为资产的数据、指标等;支持平台内的数据资产状况进行全景式呈现;数据开发1、支持数据的离线开发;支持通过SQL语句进行复杂业务的数据治理;2、支持对数据模型中的数据进行查询,包括表结构、表详情等;3、支持上传jar包,用户可以通过自定义资源进行函数开发;4、支持对数据库中的视图进行解析;支持根据解析结果进行建模;数据安全监测系统数据权限支持对数据进行权限管理;支持创建数据的管理策略;支持数据字段级别权限控制配置和管理;支持为不同角色和账号授予不同的数据权限;数据分级支持数据安全分级分类管理;支持标准化数据分级分类的自定义;数据脱敏支持数据脱敏策略配置;支持掩码、截断、MD5等多种脱敏加密方式;数据传输支持安全的数据传输协议;支持数据访问的认证鉴权;数据审计支持对数据访问的审计日志记录;支持对数据访问的审计日志监控和告警;数据监测支持对数据的可访问性进行实时检测;支持对数据的存储完整性进行实时抽样检测;支持对数据采集的状态进行实时检测;数据应用服务接口数据访问接口1、支持针对不同类型的数据提供标准开放的访问API;2、支持数据API访问的安全和配额机制;3、支持数据API接口配置告警规则并进行监控;4、支持数据访问时对部分字段进行脱敏处理;多租户权限系统租户管理支持租户的创建和信息编辑、查看;支持租户的功能权限和资源的开通和配置;支持租户下用户账号的管理和角色的管理;支持租户下管理员的创建和设置;用户管理支持用户账号的创建、编辑、密码设置、登录和登出;支持用户身份认证体系;支持用户和角色的关联;角色管理支持角色的创建和管理;支持角色的权限策略配置管理;支持权限的继承和维护机制;支持用户和角色的绑定;支持角色权限的动态调整;访问权限体系支持基于角色的访问权限控制;支持细粒度权限点的管理和设置,权限和功能的组合配置;支持角色和权限的绑定和解绑;权限验证支持对用户、角色的访问权限进行验证,是否符合访问权限策略的配置;监控运维系统数据总览汇总并展示数据采集、汇聚和集成的统计;汇总各类数据总量和增量情况的统计;任务监控汇总实时、离线的数据采集的任务;汇总实时、离线的数据开发的任务;汇总实时、离线的数据安全监测任务;数据访问监控汇总大数据中心各类数据访问的统计情况;汇总大数据中心各类数据访问性能的统计情况;多实例容灾备份容灾备份提供容器化微服务部署,支持不同微服务服务的多实例部署;支持服务的实时切换,保障服务的高可靠;数据大屏驾驶舱平台驾驶舱支持将大数据中心中的所有资源、数据、任务、应用、用户、日志等内容进行综合的统计分析和展示。以简易直观的可视化形式进行呈现,真正实现一屏掌控全局;智能媒资系统门户首页提供热门媒资、热门检索、精选分类和推荐专题等内容;媒资上传支持多渠道的媒资文件上传;媒资管理支持媒资的存储、编辑、AI算法分析、内容的详情;媒资详情查看媒资数据的详情,媒资的相关AI算法分析结果;智能检索提供多模态的数据检索,提供AI语义检索;知识图谱系统数据总览提供实体关系和文本资料书籍等数据的总览呈现,支持全局的数据检索;数据管理提供知识图谱实体关系、资料书籍、媒资素材等类型数据的存储和管理;分析挖掘提供基于大模型和AI能力的知识图谱数据挖掘;智能生产提供基于知识图谱数据的数据可视化智能生产;3.系统能力要求在完成上述内容建设中,要注重中台的集成性、系统性,注重整合各块功能,形成系统能力,提供提供智能媒资数据系统、知识图谱数据系统、数据智能采集系统、数据治理和开发系统、数据安全监测系统、数据应用服务接口、多租户用户权限系统、监控运维系统、多实例容灾备份等功能。(1)数据智能采集系统数据智能采集系统旨在从多种数据源中高效地收集、整合和汇聚文学相关数据,以便为后续的数据处理分析和应用提供高质量的数据支持。(2)数据治理和开发系统通过一系列的过程、技术和工具来管理组织内部的数据资产,并确保数据的质量、可用性、安全性以及合规性,同时支持数据的开发和应用。通过系统确保数据准确性、完整性,通过实时监控与改进提升数据质量。(3)数据应用服务接口数据应用服务接口是大数据中心平台对外提供数据服务和功能访问的桥梁,旨在通过标准化的接口,为各类应用、系统和用户提供高效、可靠、安全的数据访问和操作能力。通过相关的数据应用服务接口的建设,确保大数据中心平台能够高效、可靠、安全地为各类应用和用户提供数据服务,满足各种复杂数据应用场景的需求。(4)数据安全监测系统实时监控数据采集、访问、存储及计算全过程的状态与性能,包括数据源稳定性、访问完整性、存储容量及类型、计算任务效率等,并即时告警潜在异常,确保数据全生命周期的安全与合规。通过数据安全监测系统,确保大数据中心基座平台整体运行的安全性和可靠性,为后续的扩展打好基础。(5)智能媒资数据系统智能媒资数据系统是大数据中心平台基座的重要组成部分,主要负责多媒体资源(如图片、音频、视频等)的高效管理、处理和应用。该系统通过智能化的技术手段,实现多媒体资源的全生命周期管理,提升多媒体资源的使用价值和应用效果。通过智能媒资数据系统的建设,实现大数据中心平台中多媒体资源的高效管理、智能处理和深度应用,提升媒资数据的使用价值,满足各种复杂的媒资应用需求。(6)知识图谱数据系统知识图谱数据系统是大数据中心平台基座的核心模块之一,旨在通过结构化的知识表示和智能化的知识推理,实现文学相关知识的高效管理和深度应用。该系统利用知识图谱技术,对多源异构数据进行语义关联和整合,为文学大数据中心提供智能检索、智能问答、知识推荐等多种应用服务。通过知识图谱数据系统的建设,实现大数据中心平台中多源异构数据的语义关联和智能化应用,提升数据的使用价值和应用效果,满足文学大数据中心项目中复杂的知识管理和应用需求。(7)多租户用户权限系统集用户角色管理、访问权限控制、数据访问控制、操作审计及策略管理于一体。系统支持用户账号的全生命周期管理、灵活的角色配置与权限绑定,实现基于角色的细粒度权限控制。通过多租户用户权限系统,满足不同租户用户的安全和运营需求。(8)监控运维系统监控运维系统旨在确保大数据中心平台的高可用性和稳定性,通过实时监控、故障预警、性能优化等措施,对平台的运行状态进行全面的管理和维护。通过监控运维系统的建设,确保大数据中心平台能够稳定、高效、安全地运行,为平台的持续优化和改进提供有力支持。(9)多实例容灾备份支持上述不同系统的多实例容灾备份,确保系统的可靠性、稳定性和可用性。支持多实体的部署和服务切换,实现数据、任务、服务等相关系统的稳定性。(10)平台综合驾驶舱支持将大数据中心中的所有资源、数据、任务、应用、用户、日志等内容进行综合的统计分析和展示。以简易直观的可视化形式进行呈现,真正实现一屏掌控全局。4.非功能性要求(1)数据中心平台,应结合第三项的数据库建设,建立统一的文学数据输入(采集)和输出(多地文学馆打通)标准。(2)数据中心平台,应具备数据接入、发布、输出的数据审批流机制,可根据不同文学馆、不同文学著作类别、不同的平台入住申请、不同内容审核资质、建立不同的数据审批流程。(3)数据中心平台,应提供对于文学数据分级别进行数据标注的功能和机制,从而更好的为文学多模态大语言模型的数据训练提供服务。(4)数据中心平台,应监测各个应用对于数据中心数据使用情况,包括但部限于数据展示情况,数据交互情况,数据下载和收藏情况等。5.性能要求文学大数据中心整体性能应满足如下要求:(1)整体系统针对非结构化大文本文件(每个文件大于100MB)的并发导入速率不低于100M/S;(2)整体系统针对非结构化小文本文件(每个文件小于10KB)的并发上传速率不低于20M/S,文件平均下载速率不低于50M/S;(3)核心服务接口支持100并发,且接口平均响应时间小于0.2秒;(4)核心服务接口支持100并发,且失败用户为0;(5)各类服务接口总ops不小于500。6.硬件参数(1)数据大屏的硬件参数:多媒体主机:1)4u工控机箱;2)CPU:I710700同等性能及以上;3)内存:≥16GDDR4;4)硬盘:≥128GSSD;5)显卡:RTXA4000同等性能及以上;6)功能支持:定时开关机,上电自启动,远程唤醒;LED屏体:1)净显示尺寸:10.24*2.88m备用10块模组,约0.5平方;2)像素点间距≤1.536,模组尺寸320mm*160mm;3)单元最大亮度≥700cd/m2;4)刷新率≥3840Hz;5)亮度均匀性≥98%;6)色度均匀性±0.003之内;7)对比度≥6000:1;8)灰度等级:≥16Bit;9)峰值功耗≤700W/㎡,平均功耗≤300W/㎡。钢结构及不锈钢包边;接受系统;视频处理器;配电柜;合并式功放;吸顶音响(6寸音响);性能参数:额定功率:60W、低频:1x6.5"、高频:1x1"、频率响应:80Hz~20kHz(-3dB)、覆盖范围:90°Hx90°V、额定阻抗8Ω;(2)AI导览定位蓝牙信标硬件参数供电:1200mAh*2锂亚电池组;续航时间:3-5年;发射时间:100ms~10s可调;尺寸:Φ47mm×27mm或更小;工作温度:-20~70摄氏度;定时iBeacon广播,结合位置坐标,形成定位环境;支持广播间隔、发包频率灵活配置;支持密码保护,防篡改防蹭用;设备运行状态自动上报;ROHS环保认证;SRRC无线电发射设备型号核准证。(3)机房中控的硬件参数机柜;电源时序器;智能开关控制模块;中央控制处理器;运维主机;堡垒机;中控平板(性能参数:内存容量:≥128GB;分辨率:≥2000*1200;CPU核心数:八核;屏幕尺寸:≥10英寸;运行内存:≥6GB);线材及辅材;移动端控制软件;桌面端控制软件;(三)文学数据库建设文学数据库建设是文学的数据中心项目的基础和核心,是“数据+大模型”双轮驱动的其中一个引擎。丰富的文学数据库内容不仅为文学内容生产者和文学爱好者提供了消费的内容,也为文学大模型的训练提供了坚实的数据语料,同时为文学智能体的智能生产提供了数据资源。文学数据库建设的内容包括以下几个方面。1.全国基础文学数据库建设完成全国重要文学地标、文学类场馆的数据采集,制作动态化、可视化、可互动的我国文学地图。作为基础性、支撑性数据,在本年度搭建好框架,并逐年累积和拓展数据。数据内容需要包含重要文学地标、文学作品数据、作家数据等。2.红色经典文学数据库建设一是扫描文学馆指定的进步期刊,形成数据资产;二是采集采买经典文库和经典长篇小说等红色主题经典文学书籍。三是采集红色经典文学相关的图片、影像、音频、艺术品等。四是逐步采集红色文学相关地标,与我国文学地图联通,构建红色经典文学数据库。3.文学金句数据库以文学与生活为主题进行数据挖掘,将作家作品中相关的金句提炼出来,形成可视化展项。让生活与作品中的“个体”形成共情。适用于各种场景包括AI文学官的应用。4.“正在发生的文学”数据库基于“全国基础文学数据库”,采集主流文学期刊目录、文学图书出版数据、文学活动数据、社交媒体“传播力”数据等,构建“正在发生的文学”数据库。主要包含以下相关数据:主流文学期刊目录数据、文学图书出版数据、文学活动数据、社交媒体“传播力”数据等。5.“馆际通”业务数据库搭建“馆际通”业务数据库,对文学机构对接平台接入数据的机制进行规范,对该平台接入进来的数据进行分类存储和管理,包含文学机构的介绍数据、文学机构共享的文学数据,平台上的数字化应用数据等。6.用户行为数据库建文学馆联盟的用户行为数据库,围绕游客“参展前—参展中—参展后”整个参展路径来获取更多的用户行为数据,进而了解游客的兴趣爱好和参展习惯,生成用户画像,挖掘游客意向需求,并依托于智能推荐算法,为游客提供精准化服务,持续提高游客的参展体验,增强游客粘性。7.文学数据库管理和分析系统(1)数据管理文学数据库管理系统提供全面浏览、检索、编辑和探索分析文学数据库内容的工具系统,是各类人员使用和维护文学数据库内容的入口。(2)文学数据编目和智能标引构建完整的文学数据内容的分类编目和智能标引体系,并将文学数据库的内容按照分类编目和智能标引体系进行标签归类,以便更好的检索和管理文学数据库的相关内容。分类编目应考虑文学的体裁和形式、地域、流派、主题、年代等方面的因素,编目体系中的编目项不少于100个。智能标引下的标签体系需要围绕各类文学相关实体的标签内容,如作家、作品、事件、年代、文化、习俗等方面的内容,智能标引体系中包含的标签项不少于1000项。(3)图片视频媒资分析在文学数据库中,图片和视频媒资作为重要组成部分,不仅丰富了文学内容的展现形式,也提供了更直观的理解途径。图片视频媒资分析模块旨在通过先进的图像识别和视频处理技术,对这些多媒体内容进行深入分析。这包括图片、视频的主题分类(将图片或视频归类到特定的文学主题下)、智能化编目和标签处理,以及内容摘要生成(自动生成图片或视频的内容摘要,便于快速浏览)。此外,该模块还支持对媒资素材的元数据管理,如时间、地点、作者等信息的录入与检索,以及基于这些信息的统计分析,帮助用户更好地理解和利用这些媒资资源。(4)文本知识图谱分析针对文学数据库构建的数据内容进行知识图谱的处理分析、内容构建以及校对审核,将文学数据库中的作品、作家、地域、地标、年代、奖项、艺术品等建立完整的知识图谱关系网络,并针对文学作品的内容构建各自的知识图谱。此项工作构建的知识图谱需要融入文学大数据中心项目的文学知识图谱数据体系中。文学知识图谱的构建流程依赖文学领域大模型提供的各项能力。(5)数据分析数据分析模块利用大模型的能力,以及深度学习、自然语言处理(NLP)等先进技术,对文学数据库中的海量数据进行深度挖掘和分析。该模块可以针对文学作品中的内容进行关键信息的抽取,并借此构建知识图谱、人物年表、大事记年表等,通过数据分析挖掘作品中人物的关系,事件的脉络,方便读者阅读,并加深对内容的理解。数据分析的引入,极大地提升了文学数据处理的智能化水平和决策的科学性。(6)多模态AI语义检索多模态AI语义检索模块实现了对文学数据库中多模态数据(包括文本、图片、视频等)的高效检索。该模块通过融合多种模态的信息表示方法,将不同模态的数据映射到统一的语义空间中,使得用户能够使用自然语言查询来检索跨模态的信息。例如,用户可以通过输入“鲁迅故居”,快速找到素材库中相关的图片和视频资源。这种检索方式不仅提高了检索的准确性和效率,还极大地丰富了用户的查询体验。(7)关键词检索分析关键词检索分析模块是文学数据库管理系统中的基础且关键的功能之一。它支持用户根据关键词快速定位到相关的文学内容,包括文本、图片、视频等多种数据类型。同时,该模块还提供了关键词词频统计、词云分析等高级功能,帮助用户发现文学内容中的联系和规律。通过这些检索结果的可视化呈现,用户可以更深入地理解文学作品的内涵和背景,以及文学领域的发展趋势和热点话题。(8)文学数据质量监测文学数据质量监测模块是确保文学数据库内容准确性和可靠性的重要保障。该模块通过自动化的数据清洗、校验和评估流程,对文学数据库中的数据进行全面的质量监控。它包括对文本内容进行语法、重复性等维度的检查,确保数据的准确性和权威性;同时,还通过对图片、视频等多媒体内容的清晰度、版权合法性等方面的检查,保障媒资素材的质量,确保文学数据库的持续稳定运行。功能系统功能模块模块说明全国基础文学数据库建设全国重要文学地标采集和梳理全国范围内的重要文学地标数据并录入对应数据库中,文学地标数据应体现我国文学的深厚底蕴和丰富多样性。按照不同的地标类型进行采集整理,包括但不仅限以下数据:1.文学人物相关地标(如作家故居、作家纪念馆等);2.文学流派或者社团相关地标(如陈列馆、纪念馆等);3.文学历史地标(如书院、学堂等);4.文学景观地标(如文学作品中的地点、文学主题公园或景区等);5.以及全国各地的综合性文学院馆。整体数量不少于1000个,原则上每个省不少于30个。具体内容包括:类型、简介、地址、位置坐标,地标图片、相关文学人物和文学作品。文学作品数据采集各类文学作品数据,包括小说、诗歌、散文、戏剧、传记、儿童文学等多种文学体裁的作品,这些作品可能覆盖从古至今、不同国家和地区的重要文学作品。包含的字段信息如作品详细信息:如作者、出版年份、出版社、ISBN号、文学流派、风格特点、作品简介、内容摘要等。公版图书全文电子版不少于5000册。作家数据采集整理我国文学历史长河中相关作家基本信息,作家数量不少于500位,需要包含作家生平与传记、作家作品等。作家的姓名、生卒年月、国籍、代表作品、创作风格、作家的生平事迹、成长经历、创作历程、作品信息等。正在发生的文学数据库文学图书出版数据采集和梳理项目上线时间点以后的全国文学图书出版和榜单数据并录入对应的数据库,包括图书的名称、作者、出版时间、出版机构等字段。采集主流的文学图书畅销书排行榜单数据并录入对应的数据库,每期榜单中的图书数量不少于30个,包括图书的名称、作者、出版时间、出版机构等字段。主流文学期刊目录主流文学期刊在文学领域占据举足轻重的地位,它们不仅代表了当前文学创作的最高水平,也是推动文学发展的重要力量。参照全国文学报刊联盟会员单位名单,采集156家文学报刊期刊目录信息数据,具体包括期刊的名称、期数、文章标题、作者等信息,期刊数据支持及时更新。文学活动数据采集全国范围内重要的文学活动、文学出海数据并录入对应的数据库,具体内容包含:活动的时间、地点、主题、参与人员、主办单位等,原则上每场活动需网络采集图片不少于1张。完成2024年数据采集,同时支持数据每天自动更新采集,每年可自动采集更新增加不少于1000场。社交媒体“传播力”数据采集微博、微信公众号、豆瓣、小红书、B站和抖音等社交媒体上的相关文学传播数据。具体的数据包含但不仅限以下:话题热度榜、热搜榜。阅读量、分享情况。浏览量、点赞量、评论数、转发数。以上数据每日更新。红色文学数据库红色文学地标采集和梳理红色文化地标数据并录入到对应的数据库中,根据红色文化特色进行分类。具体字段包括但不限于以下内容:名称、类型、简介、地址、位置坐标、相关文学人物和文学作品。红色经典文学媒资库采集和整理红色文化相关的图片、影像、音频、艺术品等,构建红色经典文学媒资库;二维数据采集制作:红色经典文学相关的图片100张,红色经典文学等相关艺术作品100幅;视频采集:红色经典文学相关影像(15-30分钟/个)20个;音频采集:红色经典文学相关音频,(30-60分钟/个)50个;全景采集:红色文学相关地标、场景20个。红色经典文学作品数据库采买采集馆方指定的红色经典文学作品,建立红色经典文学作品数据库,数据库主要包括以下内容:1、作品的基本信息、内容摘要、社会影响、版本流传、研究价值等多个维度,以及相关的多媒体资源(如图片、音频、视频等)。2、多媒体资源数据包含但不限于以下:作品基本信息(作品名、作者、出版情况、类型等)、作者信息(姓名、出生/逝世日期、主要作品等)、作品信息(简介、人物角色、作品全文、摘要、作品时代背景、关联事件等)。3、涉及作品的全文电子版。进步期刊数据库数字化馆方指定的进步期刊,并完成整理、校对,导入红色经典文学数据库。进步期刊数据库需具备对外开放检索功能。文学金句数据库文学金句数据库1.采集和梳理不少于1000部重点文学作品中的名言名句并录入对应的数据,名言名句的内容包含但不仅限以下字段:金句内容、来源作品、作者、主题标签(如:爱情、友情、亲情、梦想、勇气、苦难、孤独、善与恶、成长、人生感悟、风景等),构建文学金句相关的主题标签体系,涵盖主要的文学类主题。2.构建“畲族文学”专题数据库,收录全国各地“我国民间文学三套集成”中的畲族文学内容,各地畲族史、畲族志,以及其他畲族主题的文学作品。畲族文学专题数据库需具备开放检索功能。3.金句数据库需具备对外开放检索功能,用户可以据意查句。每个金句下面提供了一键复制、点赞、反馈等选项,帮助大家更方便的使用。不是简单的根据输入的文字来查找含有这个字的句子,而是能一定程度理解输入内容所代表的重点或深层含义,在进行相关的推荐。4.支持金句共建功能,用户可上传文学金句,经审核后可进入数据库,金句需要可关联对应的作品。后期可支持AI文学官的应用。馆际通业务数据库平台机构会员数据库完成3-5家入驻馆际通综合管理服务平台的文学馆机构相关信息的采集和数据录入,包括以下字段内容:机构的基本情况:如名称、简介、地址、网站主页、联系方式等。完成该文学馆常设展项的数字化,并将手稿、图片、影像资料等数据接入数据库。3、按需部署落地相关适配数字化应用的硬件。共享文学数据库构建所有入驻馆际通综合服务平台上的文学机构的共享文学数据库,支持各个文学机构录入相关的文学数据内容,接入文学馆一期已建成的文学数据库内容,包括文学实体库、实体间关系、文学资料库和文学素材等数据,供馆际通的所有机构用户共享使用,后续入驻平台的文学馆机构共享的文学数据库。数字化展项数据库构建所有在馆际通平台上开发的数字化展项数据库,供服务平台上的所有机构用户共享使用。数字化展项数据库的内容包括如下信息:名称;简介;版本;发布时间;发布机构;安装部署次数;点赞次数;评论数据;AIGC内容数据库构建所有在馆际通平台上通过AIGC工具生产并发布至资源共享中心的数据库。文学数据库管理和分析系统数据管理文学数据库管理系统提供全面浏览、检索、编辑和探索分析文学数据库内容的工具系统,是各类人员使用和维护文学数据库内容的入口。文学数据库管理系统需要包含以下几个模块的内容:1、数据库内容总览:提供综合页面展示文学数据库的所有内容板块,每个板块的数据量,数据内容介绍,数据使用情况等等。2、数据库内容分项板块:针对每个数据板块提供专属的页面进行内容的呈现和检索,如全国文学地标、文学期刊目录、文学图书出版、文学活动、红色文学内容、文学金句数据、文学知识图谱、馆际通业务数据库等。3、数据库内容管理:根据文学数据库的内容形式,提供针对实体库、文本资料、媒资素材等数据形式的管理功能,支持内容的编辑修改、内容的编目、标签更新。4、数据共享管理:根据文学数据库的内容和业务需求进行内容的共享设置,支持将文学数据库中的内容按照项目(project)粒度进行共享设置,共享的内容会出现在馆际通综合服务平台的资源共享中心模块中,供所有入驻平台的文学馆机构查看和使用。5、数据权限管理:文学数据库的数据权限管理包括数据库内容查看和修改的账号权限设置,以及文学数据库内容共享之后各个文学馆会员机构的使用权限设置。6、访问日志和数据统计:支持将访问文学数据库内容的各类操作日志进行记录用于后续的查询和审计,支持针对文学数据库内容访问的日志数据统计分析,以获得对文学数据库使用情况的总览。文学数据编目和智能标引1、构建完整的文学数据内容的分类编目和智能标引体系,并将文学数据库的内容按照分类编目和智能标引体系进行标签归类,以便更好的检索和管理文学数据库的相关内容。2、分类编目应考虑文学的体裁和形式、地域、流派、主题、年代等方面的因素,编目体系中的编目项不少于100个。智能标引下的标签体系需要围绕各类文学相关实体的标签内容,如作家、作品、事件、年代、文化、习俗等方面的内容,智能标引体系中包含的标签项不少于1000项。图片视频媒资分析在文学数据库中,图片和视频媒资作为重要组成部分,不仅丰富了文学内容的展现形式,也提供了更直观的理解途径。图片视频媒资分析模块旨在通过先进的图像识别和视频处理技术,对这些多媒体内容进行深入分析。这包括图片、视频的主题分类(将图片或视频归类到特定的文学主题下)、智能化编目和标签处理,以及内容摘要生成(自动生成图片或视频的内容摘要,便于快速浏览)。此外,该模块还支持对媒资素材的元数据管理,如时间、地点、作者等信息的录入与检索,以及基于这些信息的统计分析,帮助用户更好地理解和利用这些媒资资源。文本知识图谱分析针对文学数据库构建的数据内容进行知识图谱的处理分析、内容构建以及校对审核,将文学数据库中的作品、作家、地域、地标、年代、奖项、艺术品等建立完整的知识图谱关系网络,并针对文学作品的内容构建各自的知识图谱。此项工作构建的知识图谱需要融入文学大数据中心项目的文学知识图谱数据体系中。文学知识图谱的构建流程依赖文学领域大模型提供的各项能力。数据分析数据分析模块利用大模型的能力,以及深度学习、自然语言处理(NLP)等先进技术,对文学数据库中的海量数据进行深度挖掘和分析。该模块可以针对文学作品中的内容进行关键信息的抽取,并借此构建知识图谱、人物年表、大事记年表等,通过数据分析挖掘作品中人物的关系,事件的脉络,方便读者阅读,并加深对内容的理解。数据分析的引入,极大地提升了文学数据处理的智能化水平和决策的科学性。多模态AI语义检索多模态AI语义检索模块实现了对文学数据库中多模态数据(包括文本、图片、视频等)的高效检索。该模块通过融合多种模态的信息表示方法,将不同模态的数据映射到统一的语义空间中,使得用户能够使用自然语言查询来检索跨模态的信息。关键词检索分析关键词检索分析模块是文学数据库管理系统中的基础且关键的功能之一。它支持用户根据关键词快速定位到相关的文学内容,包括文本、图片、视频等多种数据类型。同时,该模块还提供了关键词词频统计、词云分析等高级功能,帮助用户发现文学内容中的联系和规律。通过这些检索结果的可视化呈现,用户可以更深入地理解文学作品的内涵和背景,以及文学领域的发展趋势和热点话题。文学数据质量监测文学数据质量监测模块是确保文学数据库内容准确性和可靠性的重要保障。该模块通过自动化的数据清洗、校验和评估流程,对文学数据库中的数据进行全面的质量监控。它包括对文本内容进行语法、重复性等维度的检查,确保数据的准确性和权威性;同时,还通过对图片、视频等多媒体内容的清晰度、版权合法性等方面的检查,保障媒资素材的质量,确保文学数据库的持续稳定运行。(四)文学大模型平台文学大模型平台是文学大数据中心双轮驱动的另一个核心引擎,为整个项目系统提供核心的智能能力,文学大模型平台深度融合文学数据库的数据知识和其他文学类知识加以训练和调优,同时也为文学数据库的进一步内容扩充和建设提供智能工具能力,从而形成文学大数据和文学大模型相互促进,双轮驱动的发展模式。文学大模型平台具体的建设内容包括:(1)文学领域大模型;(2)大模型训练调优平台。1.文学领域大模型基于相对通用的底座大模型针对文学领域进行专项的数据和任务训练,使得文学领域大模型获得更加专项和深入的文学知识,同时更好的理解文学类的问题和执行文学领域类的任务,从而获得比通用的大模型更好的效果。构建文学领域大模型,对于用于模型训练的数据有特定的要求,至少要包含以下文学数据,项目实施过程中需要获取这些数据并对这些数据进行专门格式的处理形成大模型能够识别和使用的知识,参与到模型定制化内容的文学类相关数据应不少于百亿token:(1)项目建设中的文学数据库的数据内容;(2)全国各省市地方志数据;(3)各类文学名人传记、文学作品、文学轶事、文学志和文学史等相关书籍不少于5000本;(4)不少于百万首的我国古诗词数据;(5)不少于1000万字的我国文化古籍数据。在数据明确之后,训练文学领域大模型需要针对文学领域中的特定任务进行持续多轮的调优,从而达到更好的效果,文学领域大模型的特定任务包括但不限于:(1)重要文学奖项知识问答;(2)文学地标知识问答;(3)文学期刊和作品知识问答;(4)红色文学知识问答;(5)文学金句知识问答;(6)我国古诗词知识问答和诗词创作。经过特定数据的训练和针对特定文学领域任务的调优构建而成的文学领域大模型在相匹配的评测集上要优于通用商用大模型,如百度文心和通义千问。以下是文学领域大模型训练的流程示意图:(文学领域大模型训练流程图)经过训练调优的文学领域大模型支持在政务云环境进行部署并支持国产化GPU品牌,大模型推理服务要实现如下功能:(1)支持根据文本提示词的描述给出符合要求的文字输出;(2)支持系统提示词、用户提示词、对话上下文等参数输入;(3)支持回答内容的流式输出;(4)支持函数调用(Functioncalling);(5)提供标准的大模型调用的API和SDK;(6)模型参数不小于14B;(7)支持敏感词的配置和更新;(8)大模型算法服务需要适配国产化GPU进行部署和推理;(9)大模型算法服务在A800或同等能力国产GPU上的推理速度不少于30tokens/秒,首字延时小于1秒。在大模型部署之后,中标单位需要协助业主取得大模型服务备案(互联网信息服务算法备案)。由于大模型技术在快速迭代发展,项目打造的文学领域大模型需要持续的根据业务中用户使用的反馈和实际的用户问答数据进行调优,并提供质保期间内每年4次的模型微调和升级部署的服务,同时还需具备切换到其他基础大模型的能力,如在今后涉及基础大模型的切换,中标单位协助做好切换工作。2.大模型调优训练平台大模型部署到生产环境进行业务服务之后,会持续的对用户的问答数据进行回流采集和评测分析,并针对用户明确反馈不好或者甲方运营人员反馈不好的数据进行人工的修正,在积累一段时间之后,这些数据形成了一个新的数据集,可以用于后续的训练调优。该项目要求中标单位在提供文学领域大模型的同时,也提供配套的大模型调优训练平台,以支持定期的模型调优和部署升级。为了实现这一目标,大模型调优训练平台至少要包含以下模块并提供对应的功能。(1)模型数据管理1)支持指令微调数据集、评测数据集的管理;2)提供针对文学领域的定制化训练集的管理;(2)数据处理支持对预训练原始数据的预处理,内容抽取、清洗、去除噪声、修复格式错误等,获得用于模型预训练的高质量文本数据。(4)模型训练支持通过选择数据集,调整训练参数,重新训练特定的模型以提高模型效果,模型训练支持设置和调整以下参数:模型名称、循环次数、批次大小、学习率策略、Prompt损失权重、验证步数、序列长度、权重衰减、梯度存储等。(5)模型部署支持通过容器化平台,将训练完成的模型进行部署和线上推理,配置发布模型应用的基础信息,即可快速实现模型部署。支持模型服务的上线、下线、升级、查看、调试的等管理操作。(6)模型评测支持选择评测数据集,对训练好的模型进行自动化评测,通过评测系统进行打分或标注,验证模型调优的效果,支持以下功能:1)支持模型评测的端到端完整评测链路,无需代码开发,支持主流开源大模型、微调后大模型的一键评测和对比;2)支持多个领域的常用公开数据集的评测,完整还原官方评测方法,雷达图全景展示;3)支持多模型多任务同时评测,评测结果图表式对比展示,辅以单条评测结果详情,方便全方位比较分析;4)支持针对文学垂类模型定制数据集的开发和评测和结果预览;5)支持基准评测、指令跟随评测以及定制化文学评测集的评测,对模型能力有更加全面的了解。(7)模型库管理管理初始模型和训练好的模型,支持查看模型库的列表,查看每一个模型的详情,包括模型的参数大小、训练参数、训练集、训练时间、评测集、评测结果等。功能系统功能模块功能需求说明文学领域大模型大模型服务功能1、支持根据文本提示词的描述给出符合要求的文字输出;2、支持系统提示词、用户提示词、对话上下文等参数输入;3、支持回答内容的流式输出;4、支持函数调用;5、提供标准的大模型调用的API和SDK;6、模型参数不小于14B;7、支持敏感词的配置;8、大模型算法服务需要适配国产化GPU进行部署和推理;9、大模型算法服务在A800或同等能力国产GPU上的推理速度不少于30tokens/秒,首字延时小于1秒。大模型定制化训练基于特定的文学数据并针对特定文学场景进行模型的专项训练和调优,并在相关评测集和评测任务上的性能和正确率高于常见的商用模型(如通义千问和百度文心等)。参与到模型定制化内容的文学类相关数据应不少于百亿token。特定的文学数据至少包含如下内容:1、项目建设中的文学数据库的数据内容;2、不少于百万首诗词数据;3、我国文化古籍数据;4、不少于10省的地方志数据;5、各类文学名人传记、文学作品、文学轶事、文学史等相关书籍不少于1000本;6、茅盾文学奖、鲁迅文学奖、老舍文学奖、曹禺戏剧文学奖、冰心奖、人民文学奖等文学奖项的全部获奖作家和获奖作品相关数据;特定文学领域包括但不限于:重要文学奖项知识问答;文学地标知识问答;文学期刊和作品知识问答;红色文学知识问答;文学金句知识问答;我国古诗词知识问答和诗词创作;定制训练的模型参数量不小于14B;模型量化将大模型转换为低精度版本,减少模型大小,提升推理速度。1、精度保持:确保量化后的模型在预测精度上与原模型相近,满足业务需求。2、集成与部署:量化后的模型无缝集成至现有系统,支持在多种环境中部署。3、性能优化:通过量化,显著提升模型在资源受限设备上的运行效率。推理加速1、高效推理引擎:集成高性能推理引擎,加速大模型的推理速度。2、硬件加速:模型推理过程支持使用硬件加速技术(如GPU)以提高性能。3、批量处理:优化批量推理能力,提升大数据量下的处理速度。4、动态调整:根据实时负载动态调整资源分配,确保推理服务的稳定性和高效性。部署及运维服务支持在公共云或者政务云环境进行文学领域大模型的私有化部署;中标单位需要配合业主取得文学领域大模型服务备案;支持大模型问答数据的回流采集,基于回流数据的评测进行模型调优和升级服务,每年提供不少于4次的模型调优训练和升级服务;模型训练调优平台模型数据管理1、支持指令微调数据集、评测数据集的管理;2、提供针对文学场景的定制化训练集的管理;数据处理支持预训练数据的预处理,内容抽取、清洗、去除噪声、修复格式错误等。模型训练支持通过选择数据集,调整训练参数,重新训练特定的模型以提高模型效果,模型训练支持设置和调整以下参数:模型名称、循环次数、批次大小、学习率策略、Prompt损失权重、验证步数、序列长度、权重衰减、梯度存储等。模型部署支持通过容器化平台,将训练完成的模型进行部署和线上推理,配置发布模型应用的基础信息,即可快速实现模型部署。支持模型服务的上线、下线、升级、查看、调试的等管理操作。模型评测支持选择评测数据集,对训练好的模型进行自动化评测,通过评测系统进行打分或标注,验证模型调优的效果,支持以下功能:1、支持模型评测的端到端完整评测链路,无需代码开发,支持主流开源大模型、微调后大模型的一键评测和对比;2、支持多个领域的常用公开数据集的评测,完整还原官方评测方法,雷达图全景展示;3、支持多模型多任务同时评测,评测结果图表式对比展示,辅以单条评测结果详情,方便全方位比较分析;4、支持针对文学垂类模型定制数据集的开发和评测和结果预览;5、支持基准评测、指令跟随评测以及定制化文学评测集的评测,对模型能力有更加全面的了解。模型库管理管理初始模型和训练好的模型,支持查看模型库的列表,查看每一个模型的详情,包括模型的参数大小、训练参数、训练集、训练时间、评测集、评测结果等。(五)文学智能体平台文学智能体平台是构建在文学数据库和文学大模型能力之上的智能工具生产配置平台,通过智能体平台提供的工具和流程,平台的用户可以构建功能丰富、形象定制、风格各异的个性化智能体,为大数据中心接入的文学机构提供智能化的生产服务,为文学展馆的日常运营提供智能化的操作体验,也为文学展馆内的游客用户提供无处不在的智能体验。文学智能体平台通过对接文学数据库中的数据内容,为智能体提供海量且持续更新的知识,通过对接文学大模型系统为智能体赋予认知和感知等智能能力,通过数据和大模型AI的双轮驱动,实现智能体的高效运行和广泛存在,真正成为文学大数据中心项目的核心亮点。文学智能体平台包含两大模块:1)文学智能体生产平台:支持用户组装和配置各类文学智能体的工具平台,实现智能体的任务分解规划和执行;2)AI文学官:针对本项目两类不同场景需求定制的一个超级文学智能体,实现智能体的无处不在。1.文学智能体生产平台文学智能体平台是该项目的核心能力,提供用户构建和组装智能体所需要的系统工具,规范构建智能体的流程和功能模块,用户通过文学智能体生产平台生产出来的一个个智能体,更好的将文学数据和文学大模型能力进行融合,更好的服务文学馆的游客用户、文学馆的管理运营人员以及文学馆机构内部的文学研究和内容生产任务。用户既可以在文学智能体生产平台上与各类智能体进行交互体验,也可以通过API方式将智能体的能力集成到各个应用中。文学智能体生产平台具有以下模块:(1)智能体推理执行引擎提供智能体与大语言模型进行推理交互、流程串联和任务执行的运行时引擎和环境系统,智能体推理执行引擎是智能体生产平台中的关键底层模块。(2)生产配置平台智能体生产平台中的智能体配置设定功能模块是一个重要组件,允许用户自定义和优化智能体的行为、功能和响应。智能体配置设定功能模块帮助用户全面自定义和优化智能体的行为和性能,使智能体能够更好地满足特定应用场景的需求,并提供优质的用户体验。(3)智能体广场智能体广场是一个集成式展示和管理模块,旨在提供一个用户友好、功能丰富的界面,用于展示、浏览、评估和部署各种智能体。(4)智能体功能插件智能体功能插件是智能体生产平台中用于扩展和增强智能体功能的模块化组件。通过功能插件,用户可以为智能体添加特定的能力和功能,从而满足不同的场景需求。(5)向量数据库向量数据库是智能体平台用于存储知识数据和智能体记忆的关键模块,用户和智能体的对话数据经过总结处理之后以向量的形式存储到向量数据库,智能体关联的知识库本身的数据也以向量的形式存储到向量数据库中用户后续的实时语义检索,向量数据库中的知识数据被检索之后,作为对话上下文传递给智能体大模型进行相关内容的生成。(6)知识库RAG知识库RAG(Retrieval-AugmentedGeneration)的功能模块是一种结合信息检索与生成模型的先进技术,用于提升智能体的知识回答能力和信息准确性。知识库RAG模块通过对用户的query输入进行分析和理解并进行必要的改写,从海量知识库中检索出与用户query最相关的知识条目和内容,并对知识条目进行相关性排序,将最相关的内容作为用户query的参考答案提交给大模型进行答案生成,从而保障了回答的准确性和可控性。知识库RAG要能对接多种类型的数据存储进行检索,包括大数据中心平台基座中的知识图谱和智能媒资。(7)数据统计分析智能体对话数据统计分析模块是一项关键功能,用于分析和理解智能体与用户之间的对话数据。该模块通过收集、处理和分析对话日志,提供深入的洞察和数据驱动的决策支持。2.AI文学官AI文学官是基于文学智能体平台打造的一个(一组)具象的文学智能体实例。AI文学官既是大数据中心交互实现的出口,也是公众的需求产生入口,因此AI文学官不仅是一个虚拟形象,更是以数字人为基础,语音识别、自然语言处理为抓手的复合型技术能力。AI文学官针对两类人群和两大场景提供全面的智能服务能力。两类人群包括:(1)各文学馆的线上和线下游客用户;(2)入驻文学大数据中心各文学馆的展馆运营管理人员和文学内容生产人员。两大场景包括:(1)通过线下数字化展项和线上小程序服务游客进行文学馆展厅的参观游览和互动;(2)通过馆际通平台面向场馆运营管理人员提供的展项应用设计、内容策划、辅助生产和部署管理。为了在两大场景中为两类人群提供无所不在的智能服务,AI文学官需要集成到手机端、PC屏幕端和大屏端等多种形式的设备和介质中,使得用户在线下的数字化应用和线上的小程序空间都能让用户感受到AI文学官的不同形象和不同服务,实现文学智能体可视可感。具体而言,AI文学官需要包含AI导览讲解、多场景多模态回答、互动游戏、内容辅助生产、展馆运营等相关能力,并支持多终端适配。为了适应业务的变化发展需要,AI文学官需要能实现服务的插拔式替换,如若后续中标单位终止对AI文学官的人工智能训练和持续学习服务,或招标单位不再需要中标单位提供该项服务,中标单位需配合招标单位在保障AI文学官现有能力的基础上,完成对已有大模型的切割,并顺利接入新需要的大模型。同时,为了确保AI文学官的算力持续性运转,中标单位还需要配合招标单位完成AI文学官在服务器上的技术迁移。以下是文学智能体平台的功能需求描述和参数说明。功能系统功能模块功能需求说明文学智能体平台智能体推理执行引擎提供智能体与大语言模型进行推理交互、流程串联和任务执行的运行时引擎和环境系统,具体包含以下功能:任务执行计划生成,基于大模型的推理能力对智能体的任务编排进行执行计划的生成,并根据每一步的结果进行计划的调整;大模型集成调用,根据不同的提示词进行大模型服务的调用和结果处理;插件的管理和执行调用,支持流程中调用第三方插件并获取执行的结果;支持智能体与文学数据库的数据对接,含数据读取和数据存储;异常出错的处理,保障智能体运行的可靠性;支持智能体任务输入输出的统一管理和引用;支持智能体对话记录的永久记忆和存储;支持不少于10个智能体的并发推理执行,支持后续的扩容;智能体生产配置平台提供生产和维护智能体的管理配置平台,提供web操作界面,支持智能体的创建、配置管理、流程编排、插件关联、角色设置、智能体的功能调试和试运行、上线发布等功能;支持多租户登录和权限管理;智能体广场展示平台已经构建配置完成的智能体集群,对平台上所有租户可见,支持智能体列表的展示和搜索,支持单个智能体的详情功能查看,支持与智能体的交互体验,数量不少于10个;智能体功能插件提供用于组装和构建智能体所需要的技能插件,如文化数据库对接、AI绘图、文本分析等等,提供不少于20个智能体插件,覆盖文学数据集成、文学数据处理、文学数据分析、多模态AIGC等能力;向量数据库提供高维向量数据的存储和检索,支持智能体的知识和记忆保存,保障智能体对话回答内容的准确性和可控性:支持高维向量的存储和检索;支持向量数据的写入、更新和删除;支持多种索引结构,如FLAT,IVF,HNSW等类型;支持与搜索引擎的集成;支持千万级向量数据的存储和召回;具备分布式架构,支持水平可扩展;知识库RAG系统知识库增强了智能体模型的知识和问题回答的可控性,知识库RAG模块支持智能体从知识库中获取与用于query相关的知识并进行针对性的回答,具有以下功能:支持问答对知识库、语料知识库和知识图谱知识库等多种形式;支持知识库中知识的新增、更新、删除;支持多模态知识内容的管理;支持向量检索和文本检索等多种检索模式;支持回复答案中对于知识库内容引用的标记,增加智能体回答的可解释性和透明性;知识库RAG要能对接已有系统的数据进行检索,包括大数据中心平台基座中的知识图谱和智能媒资相关数据。智能体数据统计分析提供用户与文学智能体应用交互的日志数据采集和统计分析,提供数据分析的可视化呈现,包括智能体调用次数、智能体类型、总调用次数趋势、延时分布、插件调用分布、大模型调用分布、用户反馈数据统计;AI文学官AI导览讲解基于文学馆提供的展纲和文本大纲,通过小程序和数字人的形式向游客提供文学展馆内展厅内容和展项内容的讲解和智能问答。智能客服提供文学展馆内日常运营信息的客户服务,支持内容的定期更新和扩充,支持多模态内容的输出。文学知识问答对话支持基于文学大模型的文学知识问答对话;支持多模态内容的透出,包括文字、图片、视频和可视化组件等;支持将AI文学官智能体集成到文学馆小程序内提供线上的知识问答服务;支持将AI文学官智能体集成到数字化大屏中,为展馆内的游客用户提供知识问答服务;文本分析针对用户提供的文学文本提供内容的结构化分析,输出作品的主题、人物、地点、事件、关联关系、修辞手法等;支持将AI文学官集成到馆际通综合服务平台上为文学馆机构提供服务;AI封面设计支持根据用户输入的文学作品名称和相关内容描述和要求,通过AIGC技术自动输出符合描述的作品封面;支持提供参考图进行封面的生成;AI辅助创作线上AI文学官支持写作辅助,文本润色、续写、扩写等。互动游戏结合AI文学官,落地实际的场馆运营,设计提供对应的互动游戏。多端适配1、线下对话一体机,可放置8个展厅及一楼中央空间。2、线下可与其他大屏互动展项结合,在体验互动展项的同时获取AI文学官的同步讲解。AI文学官3D形象为AI文学官构建3D形象,提供不少于4套服饰,以及不少于4套动作表情,为文学官适应不同季节、节日提供不同的造型,支持3D嘴型驱动,支持根据回答的内容搭配相应的动作和表情。声音驱动为AI文学官定制特定的声音,并基于AIGC算法平台实现根据文字的内容生成带有情感色彩和语气声音的功能效果。支撑硬件1.实体模型。根据AI文学官3D形象定制不少于5个实体模型(其中最高尺寸要求高度1米2左右),落地在文学馆内供观众拍照打卡。2.线下对话一体机。提供不少于8个一体机(65寸触摸显示屏,分辨率≥3840*2160;主机显卡:RTX3060同等性能及以上;同时需要带有摄像头、麦克风以及主扩声音箱喇叭模)。(六)馆际通综合服务平台全国文学场馆综合管理服务平台(“馆际通”):“馆际通”是文学大数据中心打造的,以服务全国文学类场馆为宗旨的综合性、公益性管理服务平台。该平台使用数据集成化、功能模块化的建设方案,数据联通、权限分级的建设理念,通过统一数据接入、管理和使用标准,实现数据所有权和使用权分离,既可为全国文学类场馆提供本地数据资源管理、全国数据共建共享、馆际信息互联互通的基础服务,也可根据各地实际需求开发个性化服务模块,实现全国文学类场馆数据互通有无、一网集成,文学类应用一地开发、全国共享,为全国文学类场馆提升数字化水平、推进公共服务水平提供平台支持。“馆际通”平台要注重文学“在场”,注重“数据留存”,在做好系统平台开发的同时,同步抓好数据库建设,使数据“接得进来、留得下来、跑得起来、用得起来”。整体建设过程在本次项目制定的文学数据标准体系下统一规划建设,实现各馆数据的统一接入、管理和使用,设计方式确保各馆数据所有权和使用权的有效分离,即可为全国文学类场馆提供文学大数据中心的数据资源,又能采集到各馆特有的数据资源,真正做到全国文学数据共建共享、馆际信息互联互通。馆际通平台的核心元素包含三类:1)会员机构;2)各类资源;3)生产能力。会员机构就是馆际通平台上主体用户,包括接入馆际通平台的各个文学馆机构,也包括馆际通平台本身的管理人员。文学大数据中心一期建设将接入不少于3家会员机构,进行战略合作,馆际通项目除了建设此平台外,还需要对这几家的馆际通入驻进行全程服务,包括协助采集数据、根据各馆需求定制知识图谱、提供应用展示落地硬件设备(或根据该馆已有硬件设备进行适应性调试)、馆际通平台使用培训等。资源包括文学数据资源,活动直播类资源,数字化展项资源,AIGC内容资源等。生产能力是指平台提供各类工具用于生产可以共享的各类资源。馆际通平台的各项功能围绕这三个核心概念展开,具体包含以下:1.机构会员基础服务提供馆际通平台会员机构开通、设置和管理的基本功能,支持文学馆机构会员接入馆际通平台的完整流程,支持会员机构租户下的账号开通和管理。馆际通会员机构下通常会有多人使用馆际通平台进行内容的管理和生产。2.资源共享中心资源共享中心是馆际通平台上所有会员机构租户的公共资源池,包括文学数据集、数字化展项、AIGC生产的内容等等。文学馆会员机构可以将其自有的文学数据或者生产的内容共享到资源共享中心,也可以从资源共享中心中订阅获取平台或者其他机构共享的内容。我国文学大数据中心项目自身建设的文学数据库内容默认作为资源共享中心的内容,供其他所有文学馆机构会员使用。通过资源共享中心这种业务模式,在遵循数据和资源所有权的情况,充分扩大数据的使用权,从而将各项资源的利用价值发挥到最大,在馆际通上形成一个良好的合作共享的生态。3.文学数据接入管理系统文学数据接入管理系统为会员机构提供了一个管理和查看本地文学数据的功能子系统,提供了包括实体关系库、文本资料库、媒资素材库等数据的查询、检索和编辑。同时也支持会员机构共享自有文化数据并发布到资源共享中心供其他会员机构使用的场景,以及订阅资源共享中心的其他文学数据集并进行使用。4.数字化展项开发系统及应用管理支持会员机构在馆际通平台上生产数据可视化的展项,对接文学数据的内容,设置展项的布局、主题、各类属性配置,以及预览和调试展项生产的效果。会员机构生产的数字化展项可以发布共享到资源共享中心供其他会员机构使用,也可以将展项直接发布上线部署到文学馆内的设备上。支持文学馆机构在馆际通平台进行相关文学应用的运维监控以及下发安装。(1)展项实时监控运维:支持全馆展项的基础运维、监控、告警工作。自动对展项的运行状态进行实时监控,若有展项发生运行异常情况,能自动发送告警到指定的通知渠道,并告知管理员具体的异常问题信息,帮助管理员快速定位,提升管理效率。(2)展项云端联控:运营管理员可以在平台进行相关文学应用的选择,一键更新下载安装到对应的线下设备;同时支持联网管理数字化展项的软件版本与数字内容。5.数字化临展设计开发提供针对多馆同时举办主题临展的内容策划和展项开发能力。通过集成AI文学官的数字化临展策划功能和数字化展项开发系统的功能模块,为数字化临展设计开发提供一站式操作的功能模块。6.AIGC生产工具集支持文学馆机构在馆际通平台利用AIGC工具进行文学相关内容的生产,包括文学作品封面设计、文学元素(文学地标、文学人物肖像、红色文学关键词)生产、卡通人物造型生产、旧照片上色和超分等,并支持生产内容的发布和共享。7.访问日志和数据统计记录馆际通平台上各个会员机构用户使用和操作各个功能模块的访问日志和审计日志,满足合规要求的同时,对于日志进行定期的统计分析从而获得对于平台功能使用情况的宏观了解,为平台的持续发展和功能迭代提供决策支撑。以下是馆际通综合服务平台的功能模块需求和功能参数:功能系统功能模块功能需求说明机构会员基础服务文学馆机构会员管理(管理端)支持文学馆机构入驻到文学大数据中心平台成为会员机构的完整流程,提供机构会员管理功能,具体包含以下功能:文学馆机构会员的创建和初始信息设置,包括名称、简介、地址、联系人、联系电话、数据权限、功能列表等;支持针对某个文学馆机构会员进行信息的编辑和管理;支持针对某个文学馆机构会员设置其在馆际通平台上的功能列表、能访问的文学数据权限;支持所有文学馆机构会员的列表信息和检索查询;文学馆机构内账号管理支持会员机构租户内的账号管理、支持账号的创建、编辑、列表和查询,支持账号的权限管理、角色管等功能;资源共享中心文学数据共享中心支持会员机构查看平台上所有的共享文学数据集的内容目录;支持会员机构申请共享中心中的文学数据集内容的使用权限;支持对共享中心中的文学数据集进行评分和评价;支持针对会员机构根据其使用记录进行相关文学数据的推荐;数字化展项共享中心支持会员机构查看所有发布到数字化展项共享中心的展项内容;支持会员机构订阅数字化展项并获取数字化展项的访问token信息;支持会员机构对数字化展项进行评分和评价;支持针对会员机构根据其使用记录进行相关数字化展项的推荐;AIGC内容共享中心支持会员机构查看所有发布到共享中心的AIGC作品;支持会员机构申请共享中心的AIGC作品的使用权限;支持对共享中心中的AIGC内容进行评分和评价;支持针对会员机构根据其使用记录进行相关AIGC内容的推荐;文学数据管理系统文学数据采集和接入1、支持文学馆机构在平台上上传自有的文学数据(包括文学实体和关系、书籍文本、图片视频素材等)到当前租户进行保存和后续的查看使用;2、支持文学馆机构在平台上查看上传的文学数据的内容;3、支持文学馆机构在平台上对自有上传的数据进行管理编辑;4、支持文学馆机构会员查看平台上已订阅的数据内容,包括知识图谱数据、文本资料数据、媒资素材数据等;文学数据发布支持文学馆机构将自己上传的数据发布到馆际通资源共享中心并进行描述,对数据的使用范围和权限进行设置;支持文学馆机构将已经发布到资源共享中心的文学数据进行使用范围和权限的修改;支持文学数据内容的更新并将更新的信息同步到资源共享中心;4、支持将已经发布到资源共享中心的文学数据进行撤销;数字化展项开发系统及应用管理展项开发支持数字化展项的可视化开发:支持通过可视化操作设置展项组件的布局、主题、数据关联以及其他属性;支持预览数字化展项的可视化视觉效果和用户交互功能;支持关联文学数据库中的数据、用户上传数据来进行展项的开发;支持修改更新数字化展项的各类属性并实时预览结果;支持删除数字化展项应用;展项发布1、支持将机构账号创建好的数字化展项发布到资源共享中心供其他机构进行订阅和使用;2、支持数字化展项的基本信息和版本信息的发布更新;展项安装1、支持为机构开发的数字化展项和机构订阅的数字化展项生成访问token并生成对应的访问url;2、支持使用上述生成的url进行展项的安装和部署;展项实时监控运维1、支持全馆展项的基础运维、监控、告警工作。2、自动对展项的运行状态进行实时监控,若有展项发生运行异常情况,能自动发送告警到指定的通知渠道,并告知管理员具体的异常问题信息。3、监控展项维度,包含总展项数、异常展项数、展项名称、展项状态。展项云端联控通过展项管理模块,完成展项维度的设备绑定、软件应用更新几数字内容绑定。1、运营管理员可以在平台进行相关文学应用的选择,一键更新下载安装到对应的线下设备。2、支持联网管理数字化展项的软件版本与应用内具体的数字内容。AIGC生产工具集AI封面设计提供AI封面设计。文学元素生产提供文学元素AIGC生成能力。卡通人物生成提供卡通人物生成的功能。旧照片上色提供旧照片上色的功能。照片超分提供照片超分的功能。日志和数据统计访问日志支持会员机构租户内的账号使用各个功能的访问日志记录和查看。审计日志支持会员机构租户内的账号修改文学数据、开发和编辑数字化展项、进行AIGC生产等操作的日志记录和查看。数据统计支持会员机构内的管理员查看各功能使用情况的数据统计结果。(七)文学公众服务平台在全球化与信息化快速发展的今天,文化传播与传承、知识普及与教育、推动文化创新已成为提升国家文化软实力、促进社会和谐发展的重要途径。本项目旨在通过构建一个集文学资源汇聚、文化传播、知识教育及文化创新于一体的公众服务平台,以小程序为载体,面向广大市民游客及文学爱好者,打破时空限制,让文学之美触手可及。具体功能如下:1.文学探索基于我国文学地图数据,打造移动版文学地图,游客可在小程序上探索文学地标,了解相关故事。第一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论