版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
“大数据”时代新闻业面临的新震荡
今天的新闻业正在受到前所未有的挑战。一方面,社会化媒体的兴起使得公民新闻在一定程度上侵蚀着过去专业媒体的领地;另一方面,在大数据技术等的支持下,计算机这样一种“机器”,也在对媒体人形成直接的冲击。关于社会化媒体的影响,学界和业界已有很多关注,但对于大数据时代技术对媒体的影响,我们的关注还远远不够。而在未来,它的影响将超乎我们的想象。一、从“计算机辅助报道”到大数据时代计算机数据分析技术与新闻报道的结缘并非新鲜事。20世纪50年代,美国就有媒体记者利用大型计算机对政府提供的数据库中的信息进行分析,以发现和调查新闻事实。[1]之后,在西方,计算机辅助报道(ComputerAidedReporting,简称CAR)逐渐兴起,在这样一个新的领域内,人们不断探讨着以数据为基础挖掘新闻、解释新闻的方法。那些或公开或隐蔽的数据,成为记者发现新闻选题、拓展新闻深度的重要资源。但在计算机辅助报道技术启动之初,媒体能利用的资源是有限的,来源主要是政府机构、企业等发布的数据。而互联网、手机等新媒体的发展,使得计算机辅助报道能获得的数据日益丰富。今天的时代已经被称为“大数据”时代。“大数据”(BigData)这一概念,首先是指信息或数据量的巨大。数据的单位,已经从G和T发展到P、E、Z、Y等为计量单位。计算机中存储信息的基本单位是字节(Byte)。一个西文字符用一个字节存储,一个汉字需要两个字节存储。其他单位及其相互间的关系分别为:1K=1024Byte,1M=1024K,1G=1024M,1T=1024G,1P=1024T,1E=1024P,1Z=1024E,1Y=1024Z。有资料称,2011年全球的数据量达到1.8Z。[2]大数据时代的出现,与很多因素相关,除了政府机构、媒体、企业等提供了更多的数据外,用户数据、社会化媒体平台上的UGC、移动终端的地理信息、物联网技术的发展等,也使信息的数量急剧增长,而后者是大数据时代更重要的数据来源。这样的新环境,对大型数据的挖掘、处理、分析、分享等能力提出了全新的要求,此外,“大数据”时代也意味着不同行业、不同领域的数据之间的交换和相互利用也变得十分频繁。大数据时代,强调的是对大规模数据的综合处理能力。提到大数据特点,业界通常会将其归纳为四个“V”,即多样性(Variety)、体量(Volume)、速度(Velocity)和价值(Value)。IBM网站关于大数据四个特点的界定中,则用真实性(Veracity)替代了“价值”。(参见/software/data/bigdata/)总体来看,大数据意味着多样化的数据来源、巨大的数据量、快速的处理。而对于大数据的价值,人们的解释角度不尽相同。虽然对大数据进行有效加工会产生巨大的价值,但大数据本身却有着价值密度低的特点,也就是说单位数据的价值并不高,要在大量的数据中发现有价值的数据或者将低价值的微小数据集聚成有价值的大数据,也是大数据技术要解决的一个主要问题。目前,“大数据”的概念及其价值更多的是被IT业和企业营销领域所关注,但事实上,传媒业也将是受到大数据时代冲击的主要行业之一。二、大数据技术对新闻生产模式与机制的影响大数据技术不仅使数据成为新闻报道的更重要的资源,而且在全面地影响现有的新闻生产模式与机制。(一)大数据技术渗透到新闻生产的核心环节。在大数据及相关技术的影响下,过去只有受过专业训练的人才能承担的新闻报道工作,开始部分地转移到了计算机身上。Narrative是一家拥有大约30名员工的美国公司,它运用NarrativeScience算法,大约每30秒就能够撰写出一篇新闻报道。2011年该软件通过收集相关信息写出了大约40万则关于少年棒球联盟的新闻报道。2012年这一数字预计将达到150万。Narrative的新闻撰写的基本模式为:首先,通过系统的搜索引擎收集大量高质量的数据;其次根据报道题材决定文章的风格模式,再按照元作者提供的词汇来组成句子。所谓元作者是由资深记者组成的团队,他们负责创建一系列报道题材的模板,他们同Narrative技术工程师密切合作,使计算机能够从不同“角度”来识别相应数据。[3]Narrative联合创始人兼首席技术官(CTO)克里斯蒂安·哈蒙德(KristianHammond)认为,未来机器生成的新闻将占到媒体新闻的90%,并且在未来5年之内,这样的新闻有可能获得普利策新闻奖。[4]尽管目前我们还无法判断哈蒙德的说法是虚妄的豪言,还是有远见的预测,但是,Narrative公司的实践至少说明,新闻采访写作这样一个过去被“人”垄断的领域,开始受到机器的“入侵”。当然,机器进行新闻的采集与撰写,目前还局限于特定的领域,在Narrative,机器生产的新闻目前仅限于金融业和体育产业。这两个产业都涉及大量波动性很强的数据,新数据总是源源不断。另一方面,体育和金融题材,在新闻写作中已经有若干固定模式,建立相应文章模板,也就比较简单。事实上,2004年开始,谷歌、百度的新闻(或资讯)频道,就已经依赖搜索技术和计算机算法来进行新闻的整合以及在网页上的呈现。它们可以说是计算机技术用于新闻生产的更早的探索。无论未来技术如何发达,计算机也不会完全取代人完成一切新闻报道,但两者之间的结合一定会更加紧密,正如哈蒙德指出的,计算机的优势在于记忆无差错,并能够快速访问各类数据。而人工记者在进行采访过程中,能够做到“直奔主题”,在获得相关材料后,再将撰写文章的任务交给计算机。随着计算机处理此类任务次数的增长并能够获得更多数据,计算机的“叙事”技巧也将越来越高。[5]Narrative生成新闻报道的很多数据来自于社会化媒体,这也反映了未来一个主要趋势,大数据技术与社会化媒体的结合,是未来新闻生产的一种重要方式,它们将成为专业媒体的人工式新闻生产的一种重要补充。普通用户在社会化媒体中生产的内容,是专业媒体需要充分利用的一种重要的资源,但目前媒体和受众面临的一个共同困境是,来自于个体的内容往往是碎片式的。尽管这些碎片中存在着很多具有重要价值的内容,它们一旦被发掘出来并且与专业媒体的内容整合在一起,将能发挥重要的作用,但是,由于信息量的巨大,碎片的筛选、挖掘和整合,也变成一件难事。大数据技术,也许可以在一定程度上解决这一问题。大数据时代的发展,与物联网技术也密切相关。作为物物相连的网络,物联网技术意味着,在未来,只要需要,任何物体的状态数据可以由它们自身所携带的装置向互联网传送,这些数据也将成为未来新闻报道的重要来源——无论是从新闻线索的提供还是新闻要素的揭示角度来看。与记者的个人观察得出的判断相比,这些直接的采集自物体本身的数据,将更为精确。因此,在社会化媒体、物联网以及其他相关技术的共同作用下,新闻生产的几个基础环节,都可能会发生一定的变化。从新闻线索与选题的发现的角度看,记者与编辑需要更多地利用媒体自身或合作机构的数据库,来发现重要的新闻。也有些情况下,新闻的发现,甚至可能是由“机器”来完成的。专业媒体人需要的是在计算机提供的线索基础上,进行更深层次的采访与数据挖掘。从新闻信息的采集、新闻要素的发现角度看,对于那些具有持续的数据形成机制的行业或领域(如上文提到的体育、金融业等以及未来物联网技术广泛运用的那些行业),信息(包括核心要素信息)的采集将在较大程度上实现自动化,媒体人的职责,需要从梳理事实更多地转向解释事实发生的原因及分析影响方面。从新闻作品的角度看,机器写作的稿件将在常态的新闻报道中占据越来越大的比重,而重大题材的报道中,媒体人仍扮演主要角色。对于图片、音视频类的新闻报道来说,媒体人的角色可能在短期内难以被计算机替代。从新闻编辑的角度看,对日常的新闻稿件的筛选与整合,类似谷歌新闻、百度新闻这样的自动整合模式,具有一定的价值,当然,它们不会取代人工编辑。但是一部分受众会逐步接受这样一种新闻整合模式。(二)大数据技术重树新闻质量标杆。在专业媒体垄断传媒业的时代,人们对媒体的要求往往是能作出报道就行,至于报道的客观性、全面性、深刻性等,由于缺乏相应的参照系,受众往往难以作出评价,所以相应的要求也相对较低。而今天,专业媒体的周围已经出现了多个参照物,其中最主要的一个是社会化媒体。社会化媒体在某些事件的反应速度、内容的丰富度等方面甚至会超过专业媒体。专业媒体虽然总是声称自己可以做得更专业,但是,仅靠豪言壮语并不能真正解决问题。媒体要在社会化媒体的包围下突围,需要在报道模式、报道手段方面找到突破。大数据技术是检验专业媒体质量的另一个参照物,在大数据技术面前,无论是在反映全局性事实还是趋势性规律方面,媒体现有报道方式与报道成果的缺陷都日渐暴露。但大数据技术既是参照物,又可以成为专业媒体未来的方法与工具,利用大数据技术,专业媒体的报道水准将得到有效的提升。无论多么优秀的记者,他对于事物的观察都只能是受制于个人的视野与立场,即使是相对深入的,也未必是全面的、充分的。而与记者在某一个视野有限的观察点上对事物进行的观察与分析不同的是,有效加工的大规模数据可以揭示更大范围内的或更接近事实的情状,从而也为报道的深入提供了基础。2011年夏天英国的骚乱发生后,Twitter等社会化媒体被认为是导致骚乱的“罪魁祸首”之一。但英国《卫报》进行的一项调查结果显示,实际上在此期间Twitter在应对骚乱事件方面也扮演了重要角色。《卫报》对250多万条Twitter消息进行了分析,发现有20.6万条消息是市民呼吁清理骚乱后的大街上的杂物,占所发送消息总量的8%。[6]虽然这一分析并不能排除Twitter在骚乱中的负面影响,但至少它推动人们更全面地认识Twitter在骚乱中扮演的角色。大数据不仅在某种程度上比媒体的个别角度、个别层面的观察更为有效,也在一定意义上比传统的问卷调查更为客观。例如,基于社会化媒体数据的分析,是以人们自发的信息与情绪披露为基础的,尽管这些信息与情绪未必百分之百真实,但是,相对人们被动接受调查的情形,人们自发的披露,通常还是更能反映他们的状态与意愿。对于趋势的预测,也是大数据技术的价值所在。科学家的研究,已经越来越清晰地揭示出,人类行为多数是可以预测的,正如《爆发——大数据时代预见未来的新思维》书中所指出的:各种各样的记录人类行为的数据库,虽然给人类带来了前所未有的风险,但“同时也创造了一个历史性机遇——它第一次毫无偏见地为我们提供了成千上万人,而不是少数人的详细行为记录。在过去几年里,这些数据库为各大实验室提供了不少帮助,使很多计算机学家、物理学家、数学家、社会学家、心理学家以及经济学家得以在强大的计算机和新技术的支持下,对某些问题进行仔细研究。实验的结果令人振奋。他们有充分的证据证明,人类的大部分行为都受制于规律、模型以及原理法则,而且它们的可重现性和可预测性与自然科学不相上下”。[7]同时,在人类行为与社会的变化之间,也存在着密切的关联。大数据分析有可能将那些隐藏着的深层关联揭示出来。社交媒体监测平台DataSift监测了FacebookIPO当天Twitter上的情感倾向与Facebook股价波动的关联。例如,在Facebook开盘前Twitter上的情感逐渐转向负面,25分钟之后,Facebook的股价便开始下跌。而当Twitter上的情感转向正面时,Facebook股价在8分钟之后也开始了回弹。最终,当股市接近收盘时,Twitter上的情感转向负面,10分钟后Facebook的股价又开始下跌。最终的结论是:Twitter上每一次情感倾向的转向都会影响Facebook股价的波动,延迟情况只有几分钟到20多分钟。[8]联合国推出了一个名为“全球脉动”(GlobalPulse)的项目,希望利用数据分析来了解人们的生存状况,对可能发生的危机进行预警。这个项目着重对实时的数字化的信息进行分析,用来了解某些地区人们的境遇,有关政策或项目的执行情况,并以相关信息指导援助项目。(参见/)其中一个尝试是,项目组与技术公司SAS进行合作,SAS用软件自动提取了2009年6月至2011年6月间含有“失业、被解雇”等关键词的博客、论坛和新闻网站内容,过滤精选后归入“住房”“交通”“教育”等多个类别中,再借助语言分析工具对每一条目表达的“情绪”定性,比如“焦虑”“疑惑”“快乐”等,然后将人们情绪和讨论话题的逐月变化趋势与官方失业率统计数字进行比较。SAS发布的研究结果显示,在美国失业率出现上升趋势的4个月之前,网民的“郁闷”情绪就开始上升;在爱尔兰,“焦虑”情绪和“疑惑”情绪上升分别出现在失业率出现上升的5个月和3个月之前。另外,在美国,失业率出现上升2个月和3个月后,网民讨论住房不保和汽车置换开始增多;在爱尔兰,失业率出现上升的同时,网民讨论改换交通方式开始增多,3个月和8个月之后则取消旅行和置换住房的讨论开始增多。[9]目前媒体报道中关于某一事物走向的判断主要来自于个别专家的分析,但这种方法的局限性显而易见。如果媒体能广泛借助大数据技术来进行重大趋势的预测与分析,那么,它的预测的准确程度可能得到有效提升,它对社会的影响力就能得到提升。(三)大数据技术进一步提升受众反馈的价值。对于媒体内容的受众反馈,在很多时候,也是以大规模数据的形式体现的。对于这些数据的挖掘,可以使受众的意见、态度得到更充分的呈现,也可以使得这些反馈的价值得到更好的发挥与利用。在印度,有一个非常受欢迎的电视节目——SatyamevJayate(《真相访谈》)。该节目谈论的都是印度当地比较受关注的社会话题,每期播出之后都会在网络上引发激烈讨论。为了让节目产生更大的社会影响力,节目组找到了一家名为PersistentSystem的IT咨询公司来帮助管理和分析“大数据”。该公司设计了一个系统,帮助搜集网络上与每期节目话题相关的信息,并对其进行分类、贴标签,以及根据兴趣水平和情感指数评分,这些数据都会以信息图的形式公布在节目的官网上。这些数据并不只是揭示了受众的整体情绪与意见,还作为社会舆论的反映被政府所关注。在以女性堕胎(将未出生的女婴作流产处理)为话题的第一期节目播出后,有99.8%的观众认为执行这类手术的医生应该受到惩处。这一结果被提交给印度政府之后,据节目组的人称,政府“几乎立即就同意了改善审判系统”。[10]大数据技术有可能使受众反馈直接转化为民意,这将使媒体在反映与传达民意方面的功能进一步增强。(四)大数据技术拓展用户分析广度与深度。虽然受众分析早就成为媒体的基本工作,但以往的受众分析是以传统的抽样调查手段为主,由于调查对象的有限性,这样得出的研究结论,未必能全面反映受众市场,且它们更多地关注的是“受众”语境下的孤立的媒介使用习惯(如阅读、收看、点击等),而忽略了用户的综合行为习惯以及这些习惯对他们的媒介使用的影响,例如人们的社交关系圈子或者人们的网上购物行为对于他们在新闻内容消费方面的影响等。而大数据技术基础上的用户分析,将不仅关注媒介行为习惯本身,还会关注用户的整体行为,并从中寻找影响他们内容消费行为的相关因素。同样,这样的研究不是强迫用户对他们的行为习惯以问卷的方式作出回答,而是对他们日常的自发行为本身进行分析,因此,能更真实地反映用户的需求、偏好以及行为模式。大数据也不仅仅将注意力放在用户整体分析上,它同样注重对于每一个用户的个性化需求的分析,未来媒体所要提供的个性化服务,也需要对用户在各种平台各种行为中产生的数据进行整体连接并在此基础上进行挖掘与分析。2012年,腾讯发布了面向营销的大数据战略,它将调动腾讯7亿活跃账户数据去服务门户,来打造基于用户社交关系链的“下一代腾讯网”。腾讯将从这些海量数据中挖掘、分辨出用户的行为模式、兴趣偏好等,更准确地向用户推荐合适内容。[11]在这样一个战略中,我们看到的是,社会化媒体中的用户活动等看上去与门户平台上内容消费相对分离的行为数据,已成为影响门户网站的发展模式的重要依据,以数据分析为基础的个性化的信息服务也成为门户网站发展的目标。腾讯的做法也将被越来越多的媒体借鉴。三、大数据时代的新闻业务发展趋向在大数据技术以及社会化媒体的共同作用下,专业媒体需要重新寻找自身的定位,谋求新的价值。而新的定位与新的价值,必将通过业务形态的变革体现。在未来,新闻业务的主要调整方向也许会体现在如下方面:(一)趋势预测性新闻和数据驱动型深度报道分量的增加。以往媒体的选题更多地来源于正在发生或已经发生的事实,但公民新闻已在这个方面对专业媒体形成强有力的冲击。如果媒体能够利用大数据技术,把更多的注意力放在对未来趋势的预测上,那么,就有可能在公民新闻难以达到的高度上,来实现媒体价值的重塑。此外,深度报道仍然会是媒体的主要追求,但与以往建立在个体记者的调查、采访能力基础上的调查性报道不同的是,未来越来越多的深度报道将是数据驱动的,是基于大型数据的挖掘与分析实现的对新闻事实的深度揭示与解析。这意味着,媒体要成立专门的部门,或者依靠与外部的合作,建立起一个数据积累与分析的常规机制。数据分析师或数据挖掘师这样的职位,也应该成为媒体的一个常设岗位,当然他们的职责不仅仅是对已经形成的数据进行分析解读,更需要提出选题方向和数据采集、处理的方案。无论是对于只习惯文字、图像等思维的传统新闻人,还是只习惯于数据思维的技术人,这都会是新的挑战。进行跨学科的人才培养,是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 年产xxx成型地毯项目可行性研究报告(投资方案)
- 年产xx消防控制设备项目建议书
- 年产xxx破碎机项目建议书
- 2024年LED工业照明产品项目投资申请报告代可行性研究报告
- 第二章地球上的大气复习课件高中地理人教版(2019)必修一
- 肾穿活检术后护理
- 大班科学教案:区分葱和蒜
- 大班语言公开课教案《捉迷藏》
- 二年级上册数学教案-4.8 6的乘法口诀 ︳人教新课标
- 科室冰箱安全管理
- 上海大众汽车物流管理
- 广西职业技术学院教师招聘考试真题2022
- 铁路建设工程质量安全专项整治活动总结(完整版)
- UbuntuLinu操作系统上机实践实验题题库期末考试试卷24
- 《畜牧兽医》考试复习题库(160题)
- 邻菲罗啉安全技术说明书MSDS
- 部编版五年级道德与法治上册第三单元《我们的国土我们的家园-我们神圣的国土》第一课时
- GB/T 7284-2016框架木箱
- 脑与认知科学国家重点实验室开放课题申请书
- 国家自然科学基金申请经验汇总课件
- 电视画面编辑(本科)王晓红课件
评论
0/150
提交评论