《算法新闻》课件第十二章 人工智能与推荐系统_第1页
《算法新闻》课件第十二章 人工智能与推荐系统_第2页
《算法新闻》课件第十二章 人工智能与推荐系统_第3页
《算法新闻》课件第十二章 人工智能与推荐系统_第4页
《算法新闻》课件第十二章 人工智能与推荐系统_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1节人工智能简介

1.1人工智能的概念1.1.1从AlphaGo到AlphaGoZero·AlphaGo是一个人工智能围棋程序,由谷歌旗下的DeepMind公司开发,其技术原理是深度学习。AlphaGo结合了数百万围棋专家的棋谱,使用监督学习进行自我训练。2016年AlphaGo以总分4:1胜围棋九段选手李世石,2017年以总分3:1胜柯洁。·2017年10月DeepMind团队公布了最强版阿尔法围棋,代号为AlphaGoZero,其特点是“自学成才”。AlphaGoZero则不需要事前训练。其原理是从单一神经网络开始,通过神经网络强大的搜索算法,进行自我对弈。神经网络通过逐渐调整,提升预测下一步的能力,最终赢得比赛。·强化学习主要有三部分内容:①决策过程——决定落子动作②奖励系统——判断落子动作是否对赢得棋局有帮助,若有,则会给模型加分③系列动作的学习——用以在比赛中获胜

1.1人工智能的概念1.1.2人工智能概念的界定有人认为……·像人一样思考、行动的系统就是人工智能系统。·人工智能是机器展现出某种“智能”特征。·如果数字计算机及其控制的机器人能执行智能生物的某些任务即可认为其具备了人工智能。·人工智能是计算机学科的一个分支,机器人、专家系统、语音和图像识别以及自然语言处理等均属于人工智能研究的领域。“人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统”。——中国电子技术标准化研究院《人工智能标准化白皮书》(2018年1月)→此解释将理论、方法、概念、技术和应用系统整合在一起表述人工智能,完整地界定了人工智能的范畴。

1.1人工智能的概念1.1.3人工智能概念的解读·从学科划分的角度来理解,目前一般认为人工智能归属于计算机科学的范畴。人工智能企图了解智能的实质,尝试理解人类是如何思考和行动的,并生产出一种新的能够以与人类智能相似方式做出反应的智能机器。

·当前,人工智能所覆盖和服务的领域不断扩大,其发展离不开计算科学、语言学、心理学、自动化学乃至哲学等多种学科的交叉融合。目前人工智能领域比较成熟的机器人、图像识别、自然语言处理以及专家系统等均需要其他学科理论的支撑。(e.g.聊天机器人、足式机器人)

·人工智能的愿景是让机器胜任以往具有人类智能才能完成的复杂工作,而不是诸如工厂流水线机器生产那样的“简单”工作。我们的期许是它模拟人类智能,延伸智力范围,甚至响应人类情感,目前这一领域仍然处于探索的初级阶段。第1节人工智能简介

1.2人工智能的起源与发展·奠基:1950年,计算机科学家图灵在《心智》期刊发表论文《计算机器与智能》(ComputingMachineryandIntelligence)图灵在该文中,提出“图灵测试”(如果被试者无法判断人类与人工智能机器反应的差别,即可认定该机器具备人工智能),为后来的人工智能科学提供了开创性的构思。·确立:1956年美国达特茅斯人工智能夏季研讨会“人工智能”这一术语的定义第一次被确立——人工智能就是要让机器的行为看起来像是人所表现出来的智能行为一样。同时,它也标志着人工智能学科的诞生。

1.2人工智能的起源与发展从人工智能概念提出至今已历经60多年,其发展经历了三个主要阶段:·第一阶段:1950s人工智能概念提出—1980s人工智能的第一个瓶颈期·由于计算机科技自身的发展,基于抽象数学推理的可编程数字计算机出现。此时的计算机完全按照编程逻辑执行命令,科学家建立推理模型解决问题。·使用机械的符号模型难以对现实世界许多事情和过程完成建模。随着计算任务的复杂性不断加大,模型的复杂性也不断加大,当时的计算能力和理论水平无法支撑。·第二阶段:1980s—1990s,人工智能的发展又经历了一次起落过程“起”:专家系统快速发展,数学模型有重大突破,可以把各领域专家的知识放到系统里提供决策支持。“落”:1990s末,因专家系统存在若干缺点(知识获取、推理能力等不足;开发成本高,需要多位相关领域专家的支持;计算机系统建模、建设门槛高),人工智能的发展又一次进入低谷期。·第三阶段:21世纪初至今,迎来了又一个繁荣时期随着大数据的积聚、理论算法的革新、计算和存储能力的提升,人工智能在很多应用领域取得了突破性进展。第1节人工智能简介

1.3人工智能的发展层次1.3.1弱人工智能“弱人工智能”指不能真正实现推理和解决问题的智能机器,这些机器表现出一定的智能,但是并不真正拥有智能,也不会有自主意识。迄今为止的人工智能系统都是实现特定功能的专用智能,而不是像人类智能那样能够不断适应复杂的新环境并不断涌现出新的功能,因此都属于弱人工智能。

·运算智能运算智能主要是机器快速运算和记忆存储的能力。从与人的对比来看,运算能力和存储能力是机器的优势。(例:国际象棋程序“深蓝”、围棋程序AlphaGo)·感知智能感知智能侧重视觉、听觉、触觉等感知能力,目的是使机器可以像人一样具有这些感知能力,实现人机的交互。从感知智能这个角度,人工智能越来越接近人类。(例:语音对话机器人、四足机器人、自动驾驶机器人)

1.3人工智能的发展层次1.3.2强人工智能“强人工智能”也称“通用人工智能”“强人工智能”或“类人智能”,是指真正能思维的智能机器,并且这样的机器是有知觉和自我意识的。强人工智能机器可分为两大类:·类人:机器的思考和推理与人的思维类似。·非类人:机器产生了和人完全不一样的知觉和意识,使用和人完全不一样的推理方式。

·认知智能认知智能是指机器能理解,并且会思考。概念、意识、观念等都是人类认知智能的表现,如果机器自己能形成观点,那么就认为其上升到了认知智能的层次。目前机器在认知智能这个层次与人类相比还有差距。

·创造智能在认知智能之上的层次是创造智能。人与机器的区别恰恰在于人具有主动创造的能力。如果想让人工智能程序具有创造能力,技术上是极具挑战性的。其技术上的突破点目前还尚未接近。

1.3.2强人工智能

·方法:图灵测试采用问答模式,观察者与两个测试对象对话(例如以打字的方式),测试对象中一个是人,另一个是机器。要求观察者不断提出各种问题,从而判断回答者是人还是机器。如果机器与观察者的对话使得观察者认为他自己是与人对话,则认为机器通过了图灵测试。案例:判别聊天机器人的人工智能水平·实例展示问:你住在哪个国家?答:法国。

问:你们国家的首都是哪里?

答:北京。

问:你多大了?

答:32岁。

问:你的妈妈多大了?

答:35岁。第2节人工智能与智能媒体

2.1智能媒体的概念

·概念“智能媒体”是一种基于人工智能、大数据、云计算等技术手段实现的更为深入的新一代媒介融合产物。·特点智能媒体集“单向广播+双向交互+智能引擎”三种特点于一体,可以帮助人们更好地搜集、整理数量庞大的信息,用户在轻松接受媒体信息的同时可以参与到媒体中并与其进行交互。(时效性强、数据精准、交互体验新颖)第2节人工智能与智能媒体

2.2智能化媒体传播模式的核心逻辑人工智能给媒体行业带来了从宏观到微观全方位的改变。

从信息采集环节、新闻编辑制作环节、新闻认知体验环节到内容推送环节均发生行业生态环境的变化。人工智能与媒体结合,智能媒体的基本运作范式也会从这四个方面进行变革。

2.2智能化媒体传播模式的核心逻辑2.2.1信息采集:扩充渠道和数据量

·传统媒体·新闻生产的主要模式路径:“单一渠道采集、封闭式生产、点对面单向传播”·在传统媒体中,选题策划筛选、大量的前期文案工作、实地调研、选择并联系采访对象等烦琐工作都与信息采集环节相关。·传统媒体中人工收集数据的体量偏小,来源渠道较为单一,而且时间成本较高,但是数据来源和质量相对有保证。

·智能媒体·在智能媒体中,数据来源渠道的广度可以大幅扩充,可采集的数据量较之传统媒体也有若干量级的提升。·各种新设备层出不穷(如物联网的设备、传感器、全球定位系统、无人机以及智能手环等),都可以不断采集数据并汇入新闻系统,提供新闻制作的数据原料。

2.2智能化媒体传播模式的核心逻辑2.2.2内容生产:发现规律和线索

·传统媒体·在传统媒体中,内容的优势显著。一份尼尔森评级数据报告中显示,在研究的上百万份社会化媒体样本案例中,其中有近八成的内容来源于传统媒体公司。·在一些简短的财经简报中,传统媒体的内容生产优势可能还不太明显,当涉及一些深度报道、调查性新闻以及人文情怀的文章时,传统媒体在内容上的优势就显示出来了。·智能媒体·现阶段智能媒体的内容生产在一定程度上还是要依赖于传统媒体。·针对海量数据,我们从经验上无法直接了解和发现线索时,就可以使用多维数据的可视化工具,通过数据可视化,从数据展现出来的特点,去挖掘数据背后的关系,整理故事线索。因此智能媒体能够辅助发现数据的规律和价值。

2.2智能化媒体传播模式的核心逻辑2.2.3认知体验

在认知体验环节,智能媒体支持多媒体内容的展现,比如智能视频剪辑和生成。·应用尝试:自动进行视频编辑的产品实验(斯坦福大学)·功能:自动编辑视频+控制剪辑风格·具体内容:①程序可以准确地识别出需要剪辑的内容。系统会利用面部识别和情绪识别系统,对每一帧画面进行分析,将所有镜头(包括多个角度拍摄的画面)按照设定的脚本进行组织;还能根据需求找到指定的内容,比如会标注某个镜头是广角或特写镜头,以及这些镜头中包含了哪些人物和角色。②在所有的元素都可以被组织之后,系统会按照不同的风格和习惯对视频进行剪辑和处理。

2.2智能化媒体传播模式的核心逻辑2.2.4内容分发

·传统媒体·传统媒体由于面向新闻的大量生产,依靠人工编辑传播,导致其受众细分或者个性化定制意识偏弱。·其结果一方面使得传统媒体用户要额外花时间去筛选出自己感兴趣的文章,另一方面却有利于信息传播的均衡。·面向“受众”:规模较小,低频静态,呈松散型联系,商业价值较低。·智能媒体·现阶段通过智能筛选的智能媒体新闻,在根据用户喜好量身定制的同时,也消除了用户对其他新闻产生兴趣的可能。·在智能媒体推送的过程中,具体内容推送的算法也会受到算法本身设定的干扰,其推送的内容是否真的完美契合用户喜好还有待探究。(曾在脸书工作过的人员透露:“脸书在推送时会适当压制保守倾向的内容,推送较为自由倾向的内容。”)·面向“用户”:规模较大,高频动态,呈紧密型联系,商业价值较高。第2节人工智能与智能媒体

2.3人工智能与媒体的融合2.3.1人工智能辅助媒介生产·随着相关应用的逐渐发展,智能媒体融合越来越紧密:人工智能技术可以对海量数据进行采集、整理和价值挖掘,发掘线索,优化选题,以及辅助视频编辑、实现投递分发环节的个性化推荐。

2.3人工智能与媒体的融合2.3.2新闻自动化

·通过人工智能、大数据、智能写稿等技术,可以帮助实现新闻的自动化生产,也可以对新闻内容的真实性进行有效核查,帮助确立新闻数据的权威性,从而利用自动化新闻数据为信息来源渠道进行把关。·对于一些模式性比较强的新闻,如金融和体育类新闻,智能媒体已经可以实现稿件的自动化撰写。例如腾讯公司开发的写作机器人Dreamwriter可以根据算法自动生成稿件,一分钟内完成资讯整合并送达用户。图2.1写作机器人Dreamwriter自动撰写的稿件摘录第2节人工智能与智能媒体

2.4人工智能在媒体平台中的应用

·内容生产平台内容生产平台是人工智能时代智能媒体的基础,以机器人新闻最具代表性。通过自动化进行内容生产,可以将记者从烦琐而简单的工作中解救出来。·智能推送平台智能推送平台得益于大数据和智能推荐算法的有效结合,可以个性化匹配用户的新闻需求,力求新闻投递更加精准、有效、合理。·用户聚合平台用户聚合平台是基于内容生产平台和智能推送平台,例如推特、微博等社会化媒体平台,运用有效的内容和个性化的新闻分发,对用户进行数据的深入发掘和分析,整理出更深度的用户习惯,进一步增加用户黏性,让用户对产品产生依赖性的消费习惯,从而进行内容的再生产。

第2节人工智能与智能媒体

2.5人工智能的技术表现“这一波人工智能的爆发首先横扫了自然语言处理和计算机视觉这两个领域。”——斯坦福大学人工智能实验室主任李飞飞这两个领域也是智能媒体的主要技术体现。

·自然语言处理·在这一领域最为常见的就是语音识别技术,它是一个基础性的技术。·今后,随着语音识别技术的提高和广泛应用,或许能改变人类与所有设备之间的交互方式。·在智能媒体中,语音识别技术和传感器的结合,可以更为有效快速地搜集和捕捉信息数据,提高信息准确度。·语音识别技术也可以为记者提高写作效率。例如,科大讯飞公司旗下产品“讯飞听见”可以实现长时间录音内容的转文字处理,其精准度也在不断地提高。

2.5人工智能的技术表现

·计算机视觉领域·在这一领域最为常见的就是各项智能识别技术,例如人脸识别、指纹识别、虹膜识别等,除此之外还有各项视觉支持技术。·在智能媒体中,计算机视觉领域的技术可以得到广泛应用。例如在参会人员众多的会议中,利用人脸识别技术去锁定被采访对象,帮助记者采集新闻素材。·在新闻体验环节,利用虚拟现实(VR)、增强现实(AR)等技术,可以为用户打造全新的新闻体验场所,营造出身临其境的效果,更为有效地还原新闻现场。第3节自动化新闻和写稿机器人新闻写作机器人(写稿机器人)是人工智能技术在媒体实际应用中的代表,也是最为直观、广泛的人工智能技术产品。新闻写作机器人在国外的应用要早于国内:·早在2010年一家名为NarrativeScience的公司就研发出一款名为Quill的新闻自动写作程序·

《洛杉矶时报》最早将这一技术引入实际的新闻生产中去·2014年,人工智能编辑WordSmith在美联社正式上线·在国内,最早应用新闻写作机器人的机构是腾讯财经。2015年9月,腾讯财经Dreamwriter写作机器人生产了第一篇国内自动化新闻稿件。应用:现阶段,无论国内还是国外,新闻写作机器人主要应用于财经新闻、体育新闻等领域的新闻生产中,这类新闻的共性是以数据信息为主、对时效性要求高、字数少。第3节自动化新闻和写稿机器人

3.1自动化新闻及其原理3.1.1自动化新闻的相关要素

·技术储备大数据(数据来源、原材料)算法(拟人化写作)·相关人群记者(深度报道、专业报道)编辑(记者稿件VS机器人稿件)读者·发展出口应用(写稿机器人)理论(学界进行理论研究)图3.1自动化新闻的相关要素

3.1自动化新闻及其原理3.1.2自动化新闻的概念

·自动化新闻·“自动化新闻”(automatedjournalism)也被称为“算法新闻”(algorithmicjournalism)或“机器人新闻”(robotjournalism),是建立在算法和人工智能程序平台和自然语言处理技术的基础上的新型新闻生产模式。·写稿机器人·自动化新闻中用来生产内容的程序叫作写稿机器人。

·自动化新闻VS写稿机器人(同一过程,侧重角度不同)·自动化新闻——过程和产品的角度新闻是自动化新闻生产的最终产品,自动化则指整个生产过程涉及的人力较少、计算力比较多·写稿机器人——算法和生产的逻辑角度机器人则是具体的生产者

3.1自动化新闻及其原理3.1.3自动化新闻的特征

·最主要的特征:从数据源自动获取数据,使用算法来进行内容整合,并完成拟人化的内容生产,即新闻的文字及部分视觉内容可以由算法直接、自动生成。

·写稿机器人可以和记者做的深度报道、情感沟通等方面进行互补。图3.2自动化新闻案例

3.1自动化新闻及其原理3.1.4自动化新闻的生产过程①在数据库及其他数据来源处检索并锁定与报道主题相关的数据。数据来源可能是生产者系统内部的,也可能是外部数据源(如股票交易所、体育比赛主办方等)。

②对原始数据进行整理和分类。原始数据往往并不是直接可用的,一般需要对原始数据进行清洗、整理和分类,舍去无用数据。

③通过排序、比较和聚合数据来明确新闻故事的关键事实。

④按照某种叙事的语义结构对关键事实进行组织。不同产业、行业的文章,有不同的叙事结构,称为“模板”,例如体育类新闻和财经类新闻的叙事模板就大不相同。

⑤对最终形成的文本内容进行审核,完成分发和出版,同时可以按照需要提供不同风格、语言和语法复杂程度的产品。

3.1.4自动化新闻的生产过程

图3.3自动化新闻的生产第3节自动化新闻和写稿机器人

3.2自动化新闻的发展和应用3.2.1发展现状:欧美美国的自动化新闻发展较早。截至2018年初,欧美几乎所有的主流新闻机构都已经建立起了一定程度的自动化新闻生产平台。·美联社与WordSmith·自动捕捉最新财经数据→运用美联社预设的新闻框架→数据内容填充→财经简报

“人工写一篇类似自动化新闻的简单财报大约需要记者和编辑耗费30分钟,在使用自动化写作软件前,我的65位员工每季度大约只能写300篇报道,现在我们却能完成3700篇。”——美联社全球商业总编丽莎·吉布斯

美联社副总裁吉姆·肯尼迪曾表示,让写稿机器人不再需要人工的最终审核而达到直接发稿的水平是他们的终极目标。

3.2.1发展现状:欧美

·里程碑事件·事件:2014年3月7日《洛杉矶时报》对当天早晨一场4.7级地震的自动化报道。·成果:此文稿完全由计算机程序Quakebot生成,在这次地震发生后仅三分钟内就实现了全文的发布,且在形式上与人类记者撰写的报道几乎没有任何差别。Quakebot使得《洛杉矶时报》成为最早报道此次地震的媒体。·原理:Quakebot从GeologicalSurvey获取关于地震的原始数据,只要地震的级别大于某一个阈值,就会把相应的数据抽出来,把它放在预置好的模板中去,然后送到《洛杉矶时报》的系统里,经过人工审核后即可进行发布。

3.2自动化新闻的发展和应用3.2.2发展现状:中国·新华社与“快笔小新”·工作流程和特点:①采集清洗。依托大数据技术对数据进行实时采集、清洗和标准化处理,不同来源的数据格式往往不同。②计算分析。根据业务需求定制相应的算法模型,对数据进行实时计算和分析。

③模板匹配。“快笔小新”会根据计算和分析结果选取合适的模板,生成中文新闻置标语言标准(CNML)的稿件自动进入待编稿库,供编辑审核后签发。

·“快笔小新”如何避免稿件的千篇一律?①进行模板的定制。不同事件有不同写法,可以根据事件本身的情况来选择一个相应的稿件模板,进行内容创作。(不同事件有不同的模板权重)②为了支持模板,可建立更加完善的历史数据库。(财经类的季报、年报、历史报价等数据库,体育类的赛事、运动员基本资料等数据库)③针对业务报道需求,研发计算同比、环比、指数、累计进球数、积分排名等各种指标的历史统计模型、趋势分析模型等,提高报道内容的丰富性。

3.2.2发展现状:中国

·《光明日报》与“光明小明”·亮点:自然语言处理技术的应用(人机对话、人性化沟通)·交互方式突破:传统方式:用户阅读新闻(单向传播,被支配地位)小明:沟通、对话、交流(双向传播,平等)·更多功能:“光明小明”还可以通过图片识别出相关内容的背景资料。比如当用户把一名NBA球星的照片发给小明,它可以很快地告诉用户他是谁,以及相关的其他资料信息。“小明你好!我想查询今天北京的空气质量指数。”小明:回答√“那么深圳呢?”小明:回答√程序预设×自主学习√第3节自动化新闻和写稿机器人

3.3自动化新闻的技术难点自动化新闻的核心技术是自然语言理解,同时会涉及机器学习、数据挖掘、深度学习、知识图谱等多项技术。·技术难点·学习和模拟文字这种相比语音、视频等更抽象的交流方式并用于内容生产。(文法和语法正确、不生硬、与时俱进、通俗易懂)

·语言具有复杂性,同一句话可能代表不同含义,例如反讽、暗喻等方式。正确理解人类语言还要有足够的背景知识,比如对成语和歇后语的理解。“他的成绩不能更好了”赞美?嘲笑?第3节自动化新闻和写稿机器人

3.4自动化新闻的发展前景·添加语境资料。为了让写稿机器人制作的稿件更加生动、拟人化,支持的场景和领域更多,需要考虑为自动化新闻添加语境资料,方便其得出较为复杂的结论。

·核查与修正数据自身的偏向性。与记者相比,由于写稿机器人的技术门槛较高,算法对数据的使用是否有偏向性、是否是透明的,往往受到公众质疑。·提高数据本身的可解释性。通常,人工的稿件往往需要注明所引数据的来源,但是对于一些自动化新闻来说,由于其数据来源比较多,精确地标出每一个数据源也存在一定的技术挑战。·其它。算法甚至有望实现对图像数据的读取和结构化,利用多媒体素材,更好地组织内容生产,提高语言的丰富程度,并且进一步提升拟人化水平。第4节自动事实核查

4.1自动事实核查的概念和发展现状

·事实的含义事实应该与客观现实一致并且可以被证据证明。·人工核查的不足当前,假新闻和谣言在互联网上传播和扩散,正是由于其与事实不符或者故意混淆事实,导致了受众的误解、困惑甚至恐慌。而人工核查的方式在面对大量假新闻和谣言时又显得力不从心。·自动事实核查·是指将人工智能技术应用于自动事实核查。同时,也与人工信息核查流程相融合和交叉验证,以便实现更准确的核查效果。·关于自动事实核查的研究得到了越来越多的资金支持。(事实核查慈善机构FullFact获得来自谷歌公司的5万欧元经费支持,杜克大学的杜克记者实验室获得来自奈特基金会等机构120万美元的资金支持,用于启动“科技与核查合作”项目)第4节自动事实核查

4.2自动事实核查的目标、路径和研究发现4.2.1自动事实核查的目标·【识别】尝试发现网络上流传的虚假或可疑信息·该目标的作用是从网络上海量的信息中筛选出可能的不实消息,缩小核查范围,否则后续的自动事实核查将面临数据量过大、对计算资源要求太高的困境。·数据在现有的海量体量基础上仍迅速增长,逐条核查互联网上的全部数据不可行,需要设计合理算法和规则来快速发现虚假信息。·由于人工核查准确率高,通常会实行人工核查与机器核查相结合的方式。·【检验】核实有疑问的信息,为记者和公众成员的信息核实提供便利·当公众或专业记者对现有消息存疑,可寻求事实核查系统的帮助,核对存疑消息。·因此,自动事实核查系统需要保证较高的准确性和有效性,保证公众得到的是权威回答。·【纠正】通过不同的媒体平台将

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论