档案用户数据分析引擎建设研究_第1页
档案用户数据分析引擎建设研究_第2页
档案用户数据分析引擎建设研究_第3页
档案用户数据分析引擎建设研究_第4页
档案用户数据分析引擎建设研究_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、https:/档案用户数据分析引擎建设研究档案用户数据分析引擎建设研究摘要:本文提出了一个档案用户数据分析引擎的总体框架模型。在此基础上,探讨了实现与部署该模型应进行的主要工作。集中对档案用户数据分析引擎的实现技术选择以及典型功能的实现方案进行了论述,并对档案用户数据分析引擎的优化问题及其配套制度建设进行了探讨。关键词:档案用户;分析引擎;协同过滤;档案模型;推荐系统本文从分析用户数据来提升档案服务的目的出发,立足于档案馆实践需求和实际数据建设能力,提出一个档案用户数据分析引擎架构模型方案。该方案的核心思想是,通过建立档案馆对用户数据的分析机制,指导和促进自身服务的提升。1 档案用户数据分析引

2、擎模型本文所称的档案用户数据,是指用户在利用档案过程中所形成的反映档案利用行为、利用主体及客体特征的数据。要实现通过关注档案用户数据促进档案服务的提升,就要建立对这部分数据进行分析、知识抽取以及采取相应行动的机制,这就是档案用户数据分析引擎。该分析引擎的意义在于,使得档案部门可以利用对用户行为数据分析的技术手段,将原本的“数据废气”1变废为宝,为档案部门的服务提升和管理进步提供了现实支持。为此,我们提出一个档案用户数据分析引擎模型,如图 1 所示:图 1 档案用户数据分析引擎模型该引擎总体上分为五个层次:存储层、知识提取层、知识表示层、行为层和反馈层。其中存储层主要负责实施对档案用户数据收集、

3、存储和向上层调用控制。该层次中的档案用户数据收集模块负责对档案用户特征、档案利用行为、用户对档案评价等数据的收集,数据整理清洗模块负责规整收集到的数据、消除数据噪声等。随后将收集到的数据存储至档案用户数据库中。隐私保护和密级保护规则模块,负责防止数据向上层调用时违反隐私和保密规则。用户满意度是对分析引擎效能的最终极评价指标,用户的反馈意见是引擎优化的根本依据。因此本引擎在设计上设置了反馈层,用以收集档案用户对于引擎驱动的档案服务提升的满意度信息,根据用户实际满意度来调整和完善分析引擎的架构与技术方案。2 档案用户数据分析引擎的实施与部署以上我们所提出的分析引擎,从概念模型的角度阐释了引擎总体架

4、构和所包含的功能。下面,我们结合当前档案馆的实际,探讨一下对该引擎进行实施和部署应采取的几方面工作措施:https:/2.3 结合自身情况实现分析引擎的具体功能。所提出的档案用户数据分析引擎所具有的实际功能包含很多种,每种功能面对档案部门的实际环境也会具有不同的表现形式。因此,档案部门可根据自身所面对的用户群体与档案资源状况,应用自身所选择的引擎实现技术,实现符合自身服务需要的分析引擎功能。例如,可以根据自身所面对用户的身份特征信息,开展对档案数据资源的个性化推荐;建立对档案用户属性的多维分析资源库;开发对档案数据资源的辅助检索系统,应对用户检索多样化的应用环境;为了防止档案资源流失,通过异常

5、检测分析潜在的不守信用用户并进行预警;通过趋势变动及预估来感知用户对档案需求或反馈意见的变化趋势等。从总体讲,这些具体功能的根本目的,就是为了将用户数据驱动服务提升与管理进步的宗旨落到实处。2.4 建立与完善分析引擎的配套制度。对于档案部门来说,信息技术要与配套制度相结合,才能实现档案服务与管理的真正进步。用户数据分析引擎在档案馆部署运行的过程中,档案部门要制定有效的管理制度和使用规范,确保其发挥良好的作用。例如,应研究建立档案数据个性化推荐系统使用规则、用户数据收集实施办法、用户数据安全性责任规范、用户意见反馈收集实施办法等。通过这一系列的工作制度和纪律规范,明确用户数据分析引擎运行过程中档

6、案工作人员的任务职责,以制度的形式确保分析引擎的良好运行以及对档案部门进步的促进作用。3 档案用户数据分析引擎实现技术选择的探讨协同过滤技术3的基本原理是基于最近邻居的评分数据对目标用户产生推荐。协同过滤技术的核心是用户 评分矩阵,用来表示用户对每个项目的评价。基本的推荐步骤是用户评价、最近邻查找、推荐结果生成。项目的向量建模技术主要思想是,将目标项目提取为特征向量,用于匹配计算等场景。这项技术的个性化程度较高,但其难点在于对推荐项目(如文档)特征的提取,如文献4中介绍了对于文本的特征提取公式等。而对于那些难以提取特征、准确表达成向量形式的推荐项目(如音像档案等)则较难应用。考虑到目前我国档案

7、馆的现实数据分析需求、技术力量以及馆藏资源特点,在此我们提出主要选择协同过滤技术作为用户分析引擎的实现技术,并辅以向量建模技术以提高分析效果。基于本节的分析,以下我们阐述几种分析引擎典型功能的技术实现方案。4 档案用户数据分析引擎若干典型功能技术方案4.1 档案数据资源个性化推荐。当前用户对档案资源的需求主要属于因办理某事务而对档案资料的刚性需求。所以在实际应用场景中,用户的档案需求往往在档案类别上有共性、在具体文件上有个性,因此,我们提出如下的推荐方案:https:/对档案用户进行建模,采用向量形式描述用户属性集合。将档案文件按照所属全宗类别进行建模,每一类别作为协同过滤矩阵中的一个项目。根

8、据档案利用数据,建立“用户属性-档案文件类别”二值观测值矩阵,其中以 0、1 数值的形式记录具有某属性的用户利用过某类档案文件的情况。当目标用户在档案利用中输入自身属性信息,分析引擎的推荐引擎模块即根据其属性信息在用户向量模型空间中计算查找最相似用户,然后检索这些最相似用户在“用户属性-档案文件类别”矩阵中利用过什么类别的档案文件。将检索到的文件类别(并集)与目标用户自身属性相结合,在档案系统数据库中检索到具体的档案数据文件推荐给用户。该方案实际上是对经典协同过滤技术的一种变形,主要是将其“用户-项目”矩阵变为“用户属性-档案文件类别”矩阵,并结合用户属性向量实施推荐。对于目标用户的最近邻查找

9、是在用户属性向量模型空间中完成的,而推荐结果的生成则划分为两步:一是在矩阵中直接读取最近邻用户的档案文件类别,二是结合目标用户自身属性检索具体档案文件。这种策略大大缓解了传统协同过滤的稀疏性与冷启动问题。更为重要的是,其更加适用于档案领域的实际场景。4.2 档案利用关联分析。档案利用关联分析的目的是要揭示用户属性(如身份信息、利用目的等)与所利用档案类别集合之间的关系。这种分析得出的结果主要有两个方面的重要用途:一是为档案馆识别用户、安排与优化档案资源提供决策依据;二是为实现上述的档案数据资源个性化提供建模支持。基于 4.1节中所提出的协同过滤矩阵,建立利用分析模型。重点是根据档案馆实际情况分

10、别建立档案用户模型与档案资源类别模型。其中用户模型的建模目的是将档案用户映射为不同的特征向量。例如,在档案资源个性化推荐中,使得目标用户能通过模型映射找到与其特征相似近邻用户;而对于档案项目的建模,目标是使资源模型可以准确刻画档案数据文件从属于何种类别,该类别的划分有助于揭示此类文件的共性,且有助于其与用户属性结合后准确地直接检索到用户所需的具体文件。具体的建模策略实际可视为一个分类模型(classificationmodel)问题,即将“用户属性-档案文件类别”二值观测值矩阵中的每一行视为一个独特状态。档案馆通过分析总结档案利用数据与馆藏档案类别,首先归纳得出若干不同的利用状态(矩阵行),然

11、后利用分类模型技术,将档案用户身份属性信息映射到各自唯一对应的档案利用状态(也就是分类决策树的叶节点)。如图 2 所示:图 2 用户利用档案类别分析模型所建立的分类决策树模型,每个叶节点应对应“用户属性-档案文件类别”矩阵中的一行,决策树中的每个非叶节点代表一个应当体现在用户向量模型中的用户属性项目。从而以此指导建立档案用户向量模型。而之所以不将该决策树直接用于推荐引擎,是因为决策树模型往往存在误差,且直接在树上查询至叶https:/节点也往往存在效率上的问题。因此,以协同过滤技术实现推荐服务可具有更好的容错性和运行效率。在建立分类模型过程中,可以应用诸如 C4.5 等5分类模型技术,通过信息

12、增益率来确定用户属性项目的价值(即属性选择度量),这对于完善档案用户向量模型是一种直接而有效的方法。而建立分类模型需要训练集(trainingset)与检验集(testset)。对此可以将档案馆人员分析得出的用户属性-利用档案文件类别数据集,分为训练集与检验集两部分,前者建立决策树,后者进行模型的验证和完善。而且,这个过程在实践中可以通过新得出的数据定期进行,以完善和优化所建立的分类模型。4.3 档案未命中检索词分析。用户检索档案数据所使用的关键词,体现出用户对档案资源的实际需求以及自身表达特点。若是用户在档案信息系统中经过一系列尝试后未检索到所需的档案文件,那么,档案馆应该定期对这些“未命中

13、检索关键词”进行分析(通过操作日志等),找出检索未命中的原因。该原因一般可归结为三类:资源不存在、检索词笔误、资源命名不匹配。在经过认真分析确定原因后,档案馆应分别采取如下的处理措施:对于资源不存在,应在对检索词统计汇总后,研究加强今后的档案资源建设,调整所需档案收集的项目,以使馆藏档案资源的扩充向用户实际需求方向发展;对于检索词笔误,可将用户输入有误的检索词作为“规则”与其应该命中的文件建立链接,今后系统再遇到该错误时,即可将正确的文件推送到用户,增强档案检索系统的容错性;对于资源命名不匹配问题,也可按照该方式,将用户所用检索词与应命中文件链接,增强档案检索系统的适应性。在此提出的技术策略,

14、实际上是通过倒排文件的思想,来提升档案信息系统检索的智能化水平。5 档案用户数据分析引擎的优化及制度建设任何成功的制度设计,都应具备有效的自我完善机制。因此,我们提出的档案用户数据分析引擎设置了反馈层,用以收集分析引擎运行后用户对档案服务的满意度和反馈意见等信息。以此为依据,对分析引擎的功能、实现机制、技术方案等做出优化调整。对于档案数据分析引擎的配套制度建设,目前我们应该重点关注两点:一是有效收集档案用户数据的问题,二是对系统中档案用户隐私保护问题。对于有效收集档案用户数据的问题,档案用户数据的主要内容包括对档案利用行为的数据、档案用户自身属性的数据、所利用档案具有属性的数据三个主要的部分。

15、对于它们的收集要本着准确、及时、全面的原则,因为它们是整个档案用户数据分析引擎运行的基石。对于档案利用行为数据,在数字化档案馆条件下,可基于档案信息系统自动完成。档案部门也可对以往档案利用登记数据进行汇总,获得更为全面的利用规律。对于档案具有属性的数据,应基于档案元数据来获得,这就要求档案部门今后要更加重视档案元数据的收集、存储和利用。https:/对于档案用户自身属性的数据,相关研究中6亦称为用户人口统计信息(DemographicInformation)等。对于其的收集,档案部门首先是调查搞清:哪些信息项目对于分析引擎的功能是需要的,要收集加以考虑,而哪些信息项目不重要,不可盲目收集。另外

16、还要注意哪些是用户“最不愿意填写”的信息项目,这些项目用户要么就不会提供、要么即使填写也是不真实的信息,从而影响引擎的分析功能正常发挥。对此,档案馆要充分地向用户宣传与沟通,积极促进用户提供自身真实有效的属性信息。例如,4.2 节中所提出的分类模型,其在建模过程中就会逐步筛选出对于分析有意义的用户属性项目,因此在实践中应对用户的这些属性加以重点收集、确保其正确和真实,这就意味着档案部门要通过有效的策略鼓励用户提供这些信息项目的真实信息。对于分析引擎中用户隐私保护问题,当前相关研究中7提出了一系列的用户隐私保护措施,如收集主体的合法性、隐私管理者的保密及忠实义务、贯彻落实相关的法律规定等,在分析引擎实际运行中可以参照这些措施对用户的信息实施保护。这实际与有效收集用户属性信息问题是相辅相成的,只有用户的信息受到良好的保护

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论