资源·技术·思维_第1页
资源·技术·思维_第2页
资源·技术·思维_第3页
资源·技术·思维_第4页
资源·技术·思维_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

资源•技术•思维

——大数据时代档案馆的三维诠释*周枫(上海大学图书情报档案系上海200444)摘要大数据是当前信息领域研究热点,也是档案馆未来发展的重要机遇。从资源维度而言,档案馆已具有了大数据的特征,构建数字记忆资源库成为大数据时代档案馆的路径选择;从技术维度而言,大数据技术将从档案资源挖掘、用户数据挖掘、关系洞察及趋势预测三个方面实现用户需求与档案资源的双向理想控制;从思维维度而言,从经验驱动到循数管理、从供给导向到需求导向、从追寻因果律到审视相关性成为大数据时代档案馆的思维嬗变。关键词大数据档案馆资源技术思维Abstract:Bigdataisthecurrentresearchhotspotsininformationfield,andalsotheimportantopportunityforthefuturedevelopmentofarchives.Intheresourcedimension,archivesalreadyhasthecharacteristicsofbigdata,constructingadigitalmemoryresourcesrepositorybecomesthepathselectionofarchivesinbigdataera.Inthetechnicaldimension,bigdatatechnologywillrealizethebidirectionalidealcontrolofuserrequirementsandarchivesresourcesfromarchivesresourcesmining,userdatamining,relationalinsightandtrendfore-casting.Inthedimensionofconcept,fromexperiencedrivingtofollowingdata,fromsupply-orientedtodemand-oriented,frompursuitofcausalitytoreviewofcorrelationbecomethethoughtevolutionofarchivesinbigdataera.Keywords:Bigdata;Archives;Resource;Technology;Thought大数据是继web2.0、云计算、物联网之后近两年最为炙热的一个词汇,也引发了信息科技领域越来越多的关注与投身热潮。2011年,麦肯锡在研究报告《大数据:下一个创新、竞争和生产率前沿》[1]中首次提出“大数据”的概念,之后《纽约时报》[2]、《华尔街日报》[3]等都对大数据进行了专栏介绍。随着2012年奥巴马政府宣布投资两亿美元启动“大数据研究与发展计划”[4],大数据正式上升为与历史上的互联网、超级计算同等重要的国家战略。“这是一次革命”,哈佛量化社会科学研究所主任GaryKing说:“我们的确正在起航,在庞大的新数据来源的支持下,量化的前进步伐将会踏遍学术、商业和政府领域,没有一个领域可以不被触及。”[5]档案馆也不例外,从上古的结绳记事到如今源源不断的信息流,大数据时代的到来,也给档案馆带来了极大的冲击。文章从资源、技术、思维三个维度对大数据时代的档案馆予以解构和勾勒,既为厘清大数据时代档案馆的目标定位打下基础,也为推动大数据时代档案馆的路径转变提供依据。1资源维度的档案馆对于数据的理解,首先源于数据一种资源。大数据时代,数据的资源特性更加明显,成为一种“战略性原料”,奥巴马则将数据定义为“未来的石油”,是与陆权、海权、空权同等重要的“国家核心资产”。从资源语境去理解大数据时代的档案馆,具有两层含义。档案馆具有了“大数据”的特征随着档案馆资源体系建设步伐的加快及用户服务要求的提高,档案馆资源在大数据时代已经具有了一定的大数据特征。档案馆数据资源总量庞大且增长迅速虽然目前单个档案馆数据资源总量达到PB级的还不多,但各档案馆档案资源总和则堪称海量。早在2008年我国各级国家档案馆共保存档案1.93亿卷,较上年增加1769万卷,增幅达10%[6],而到2011年各级国家档案馆馆藏已达3.3亿卷,到2020年,各级国家档案馆馆藏将达到6亿多卷[7]。在美国,ERA于2009年12月接收的电子文件实际总量已达到77TB,此后平均每季度至少采集10TB的电子文件,2011年3月达到了108.2TB,2011年底达到124TB。⑻随着数字档案馆建设的不断推进及资源整合的实现,这些海量资源将形成一个巨大的档案资源库。1.1.2档案馆数据资源种类繁杂,结构多样在档案馆的数据资源中,既有数字化的纸质档案、接收进馆的电子文件、音视频数据库等,也有用户利用信息、服务数据等数据资源,这些数据资源分布在不同的系统中,格式、特征等形式多样,组织方式各异,而各馆之间更是差异明显,从而形成了大量的异构数据。更值得注意的是,数据结构也在逐渐发生变化,“Gartner预计,2012年半结构和非结构化的数据,诸如文档、表格、网页、音频、图像和视频等将占全球网络数据量的85%左右”[9],这些资源将成为未来档案馆馆藏的重要来源,馆藏数据非结构化的趋势越来越明显。1.1.3档案馆数据资源价值丰裕度、凝聚度很高作为国家和社会精心保存的历史记录,毫无疑问,档案这种数据资源具有很高的价值。与绝大部分数据资源“价值总量高、价值密度低”的特性相比,“档案是一种最真实、最可靠、最具权威性与凭证性的原生信息资源”[10],可以说是整个社会数据资源中最为精华的部分,这就使得数据洪流时代档案的价值与作用更加凸显,也必将使之在大数据时代占据重要地位。1.2大数据视阈的数字记忆资源库毫无疑问,档案馆是社会信息家族的“大户”,也具备大数据的特征。然而,大数据时代背景下,社会需要一个什么样的档案馆,是无所作为从而在大数据时代进一步边缘化,抑或借助大数据重新回到“上帝”身边?档案馆又需要怎样的“大数据”,是固守以前档案资源建设的老路,还是树立大数据观从而更好地契合时代脉搏?这需要档案馆重新审视自己的目标定位。显然,作为社会记忆的建构者与保存者,大数据时代,数字记忆的保存应是档案馆的社会自觉与文化担当,构建一个“基于互联网的,以档案数字资源为主体,以文本、图片、音频、视频等为形式,为中华民族集体记忆的建构和传承提供文献支撑的‘中国记忆'数字资源库”[11]将成为我们新的目标与使命。事实上,这绝非档案人的“痴心妄想”,而是具有其合理性与科学性。一方面,各级国家档案馆是集中统一保管党和国家档案的科学文化事业机构,是永久保管档案的基地,是社会各界利用档案史料的中心。因此,作为一种机构性存在与制度性安排,国家档案馆的公益性、服务性、公平性、永久性等特征,使得档案馆成为人们心目中最系统、最可信赖的数据资源库。另一方面,档案馆在数据处理上具有丰富的经验。考察数据生命周期,涉及到数据生成、采集、传输、处理、分析、应用等阶段,而这也恰恰是档案馆熟悉的业务范畴,因此档案馆可以通过模拟或借鉴传统档案处理的整套业务规范或流程来指导海量数据集的处理,档案馆“对知识规范性控制的思想和技术方法恰巧在大数据领域有了用武之地”[12]。数据资源没有明确的边界,很大程度上是谁建设谁拥有。例如,大英图书馆从2013年起,将记录所有英国网站、电子书、网络新闻和博客,以保存该国的“数字记忆”。因此,大数据时代,档案馆应从狭义档案资源观向“大档案观”转变,尽可能地收集全面数据、完整数据和综合数据,更多地关注一些底层化、碎片化、复杂化的信息,从而构建一幅反映国家和社会变迁的实时全景图。在进一步推进纸质档案数字化、加快电子文件接收进馆的基础上,档案馆要有意识地收集一些诸如电子邮件、网页、社交媒体等价值重大、形式多样的数据资源,从而实现档案资源的多角度保存,真正建立覆盖人民群众的、满足长远需要的档案资源体系。2技术维度的档案馆数据一直存在,那么如今又何以称为大数据呢?这主要是因为数据集如此庞大、复杂以致现有的数据管理工具或传统数据处理手段无法处理。大数据时代,借助Hadoop、MapReduce、NoSQL等工具,“对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给用户”[13]。因此,从技术角度讲,大数据的产生是这个时代的产物。事实上,白宫大数据白皮书FactSheet:BigDataAcrosstheFederalGovernment中对NARA的规划也主要是从技术层面进行:为十亿电子记录CI-BER)的网络基础设施是一个联合机构主办的测试平台,这个多机构主办的网络基础设施,对国家档案馆87万多样化的数字记录的文件和信息的收集,可称为计算研究所的文艺复兴。这个试验台将评估技术和方法,超大规模数据收集,以支持可持续的访问。[14]从技术维度而言,大数据技术将从三个方面实现档案资源与用户需求的双向理想控制。首先,档案资源挖掘。大数据时代的到来,表征着信息资源的有效开发利用,从“谷歌流感趋势”到阿里巴巴的“信用贷款”,无一不是基于大数据的海量资源挖掘与开发。对于档案馆而言,数据分析成为档案馆知识服务体系创新及完善的重要支撑。大数据时代,信息服务竞争加剧及用户需求提升推动着档案馆从常规分析向广度、深度分析转变,利用语义分析、人工智能、机器学习、知识图谱等大数据技术从海量资源中分析潜在的价值决定着大数据时代档案馆的发展水平及方向,这也意味着档案馆的传统业务将向数据分析、数据挖掘方向转移,对馆藏海量资源的分析与处理将成为档案馆的主要业务。其次,用户数据挖掘。凡使用数字化工具都会留下记录,将这些记录串联起来,就可以推测判断出一个人的行动轨迹、行为轨迹,甚至是思维轨迹,正如复杂网络权威巴拉巴西所言:人类行为93%是可以预测的。当前,社会对档案馆知识服务、智慧服务的要求更为苛刻,相关服务需求已经开始显现或诉诸于用户日常行为中,档案馆能否精准感知将影响到服务价值实现和用户认同提升。借助大数据技术,对档案馆用户身份记录、借阅记录等结构化数据及存储行为、搜索方式、行为轨迹乃至SNS上的言行记录等半结构化数据进行分析,将有效发现用户隐性诉求从而更好地提升档案馆的服务。事实上,档案部门已有初步尝试,NARA通过分析用户对馆藏目录的点击率,选取点击率高的档案进行数字化,进而开展深层次的信息服务,取得了很好的效果。再次,关系洞察及趋势预测。无论是档案资源还是用户数据,往往以孤立的数据和分散的链接这种形式存在,“数据的共性、网络的整体特征隐藏在数据网络中,大数据往往以复杂关联的数据网络这样一种独特的形式存在,因此要理解大数据就要对大数据后面的网络进行深入分析”[15]。例如啤酒和尿布,两个原本互不沾边的事物,通过数据分析进行的重组则产生了意想不到的效果。对于档案馆而言,对关系尤其是档案之间、用户之间及档案与用户之间关系的精确洞察将使得关联服务、精准服务、跟踪服务成为可能,从而实现用户需求与档案价值的双向理想控制。在关系洞察的基础上,对档案馆自身管理、机构发展、社会服务等方面的趋势预测成为可能,从而更好地实现优化与监管。3思维维度的档案馆革命的意义在于,它能改变人们的思维方式,成为变革世界的源泉。相对于资源、技术维度上的相对直观,大数据的思维价值较难发觉,却最为深远。作为一场“引爆信息社会的哥白尼式革命”[16],大数据时代的到来,将从多个方面变革传统的档案馆思维模式,为档案馆管理、服务及业务理念带来颠覆性的变化。管理思维:从经验驱动到循数管理大数据时代是弘扬理性精神的时代,决策行为将日益基于数据分析,而不是像过去更多地依赖于经验甚至直觉。耶鲁大学法学教授丹尼尔.埃斯蒂认为,“基于数据驱动的决策方法,政府将更加有效率、更加开放、更加负责,引导政府前进的将是基于实证的事实,而不是意识形态,也不是利益集团在政府决策过程中施加的影响”[17]。为了提升档案管理的科学水平,档案馆必须实现从经验驱动到循数管理的转变,让“数据说出未来”。例如,在我国的数字档案馆建设中,数字化的比例及规模成为重要的衡量标准。然而,是否有必要全文数字化?数字化内容及形式的选择?这些都值得我们认真商榷,反观NARA,根据用户点击率来决定数字化内容,无疑可以给我们很大的启发。当然,这种数据科学范式的建立绝非易事,需要大数据意识的不断提升,更需要数据科学家的成长。服务思维:从供给导向到需求导向长期以来,我国档案馆采取的是“供给导向”的发展模式,往往从自身业务供给的角度出发,有什么样的内容就提供什么样的服务,用户常常面临着“提供的服务不需要,需要的服务找不到”的尴尬。随着大数据在其他领域应用优势的不断凸显,用户对档案馆精品化、多元化、个性化的服务需求越来越强烈,如果继续采取无所作为、固守原状的鸵鸟政策,那么档案馆将会失去未来的发展机会,甚至会失去存在的意义。因此,档案馆服务理念要实现从供给导向到需求导向的转变,“以用户的需求为导向,充分挖掘和利用各方面的资源和能力来满足用户的需求,天下之材尽为我用,心中无馆天地更宽”[18]。为此,档案馆要确立用户在其服务体系中的主体地位,以用户为中心,以需求为导向,利用大数据对用户行为中的信息进行挖掘,寻找其隐性需求,实现资源密集型向服务主导型的转变。业务思维:从因果关系到相互关系在以往的档案馆业务工作中,一般的服务思维都是出现问题—逻辑分析—找出因果关系—提出解决方案,从而实现问题求解,可称之为逆向思维模式。大数据时代最大的转变是,放弃对因果关系的渴求,取而代之关注相互关系,只要知道“是什么”,而不需要知道“为什么”,[19]也就是从追寻“因果律”走向审视“相关性”,这一转变将使我们以一种崭新的视角去理解档案馆的业务工作,即收集数据—量化分析—找出相互关系—提出优化方案,使用户问题解决方案从成功跃至卓越,可称之为正向思维模式。[20]这种相互关系的运用,一方面使得数据内在关联得到深入挖掘,促进资源的集成创新,从而实现档案数据资源的增值开发,另一方面使得档案馆“捕捉现在,预测未来”成为可能,通过开展跟踪服务、知识关联服务从而提升个性化服务的水平。档案馆工作是主体—过程—客体的综合,从不同的视角切入将会产生完全不同的发展路径。大数据时代的到来,强烈地冲击着档案馆的生存模式与发展空间,如何避免在数字化时代被边缘化,将是档案馆不得不正视的一个问题。对大数据时代的档案馆进行多维解读,有助于阐明大数据对档案工作的价值,厘清档案馆未来的发展策略。毫无疑问,无论是资源维度、技术维度抑或思维维度,大数据都将在档案馆发展中有着巨大的用武之地,然而,惟有坚持资源、技术、思维三位一体同步发展,大数据的价值才能得到最大的发挥,用户的需求也才能得到最大的满足。(本文系“2013-2014年上海地方高校大文科研究生学术新人培育计划”和“上海大学图情档学科建设与培育项目”阶段性成果之一,课题名称:基于大数据的数字档案馆信息服务研究。)注释:Bigdata:Thenextfrontierforinnovation,competition,andproductivity[R/OL].[2013-01-11]./insights/mgi/research/technology_and_innovation/big_data_the_next_frontier_for_innovation.TheNewYorkTimes.TheAgeofBigData[EB/OL].[2013-01-18]./2012/02/12/sunday-review/big-datas-impact-in-the-world.html?pagewanted=all.TheWallStreetJournal.Big-DataSuccessStories:Splunk[EB/OL].[2013-01-18]./venturecapital/2011/10/21/big-data-success-stories-splunk/.[14]TheWhiteHouse.BigDataAcrosstheFederalGovernment[R/OL].[2013-01-11]./sites/default/files/microsites/ostp/big_data_fact_sheet.pdf.郭晓科•大数据[M].北京:清

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论