大数据认知_李德毅院士_第1页
大数据认知_李德毅院士_第2页
大数据认知_李德毅院士_第3页
大数据认知_李德毅院士_第4页
大数据认知_李德毅院士_第5页
已阅读5页,还剩122页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据时代的认知计算大数据时代的认知计算Cognitive Computing in the Petabyte Era一、人类的认知可以一、人类的认知可以“计算计算”吗?吗?认知就是认识智慧依据现有知识,计算、分析、联想、推导或归纳,产生新知。通过意象、直觉、想象、情感、顿悟等,进行直观、综合的思考,在创新中起着至关重要的作用。成功成功 = 40% IQ = 40% IQ & & 60% EQ 60% EQ 一元论?二元论?相互作用论? 1956 1956年达特茅斯会议正式使用年达特茅斯会议正式使用“人工智能人工智能”术语,目标是开发像人那样思维的人工系统。术语,目标是开发像人那样思维的人工系

2、统。半个世纪以来,人工智能成为认知计算的智力半个世纪以来,人工智能成为认知计算的智力内核,取得的重要成果已经深刻地改变了我们内核,取得的重要成果已经深刻地改变了我们的日常生活。的日常生活。认知是可以认知是可以“计算计算”的的n图灵机是可计算的,任何形式系统可以是图灵机是可计算的,任何形式系统可以是图灵机准确刻画的机械程序。图灵机准确刻画的机械程序。n认知计算是信息处理的过程,存在有符号认知计算是信息处理的过程,存在有符号主义、联结主义和行为主义等范式,有着主义、联结主义和行为主义等范式,有着强大的生命力,并走向计算主义。强大的生命力,并走向计算主义。认知是可以认知是可以“计算计算”的的电脑可以

3、具备人脑的智能吗?电脑可以具备人脑的智能吗?n半个世纪的人机大战表明,在与国际象棋领半个世纪的人机大战表明,在与国际象棋领域具有类似复杂性的问题上,电脑可具有人域具有类似复杂性的问题上,电脑可具有人脑的智能。脑的智能。n5050年人机大战实质是年人机大战实质是“人机人机- -机人机人”大战,大战,千方百计把人的认知能力放到机器里去和人千方百计把人的认知能力放到机器里去和人对抗。从这个意义上,认知是可以计算的。对抗。从这个意义上,认知是可以计算的。认知不可以认知不可以“计算计算”停机问题、程序验证问题等都是不可计算的停机问题、程序验证问题等都是不可计算的数学自身是机器程序不可穷尽的数学自身是机器

4、程序不可穷尽的人脑是否能被物化为电脑的首要问题在于人脑人脑是否能被物化为电脑的首要问题在于人脑能不能够被形式化能不能够被形式化可计算性是不依赖于形式系统的选择的可计算性是不依赖于形式系统的选择的认知科学的困境用什么方法研究思维和意识用什么方法研究思维和意识人的意识和精神活动是由大脑不同区域共同作用人的意识和精神活动是由大脑不同区域共同作用产生的吗产生的吗是由物理和化学规律支配的吗是由物理和化学规律支配的吗是由神经元细胞的行为和构成方式、以及影响它是由神经元细胞的行为和构成方式、以及影响它们的原子、离子和分子性质所决定的吗们的原子、离子和分子性质所决定的吗?有人甚至认为,人是不可能自己把自己搞清

5、楚的! Nature专刊(2008年9月3日)大数据来源:大数据来源:PB时代对科学的挑战也是对认知科学的挑战 !l 自然大数据自然大数据l 生命大数据生命大数据l 社交大数据社交大数据11看病那些事儿看病那些事儿诊查就是治疗!诊查就是治疗!DNA测序测序核磁核磁CTX光光心电图心电图化验化验B超超内镜内镜医学必须越跑越快才能跟上技术发展的步伐!医学必须越跑越快才能跟上技术发展的步伐!知道知道“是什么是什么”,就知道,就知道“怎么做怎么做”!医学诺贝尔奖给了谁?医学诺贝尔奖给了谁?心电图的发明人心电图的发明人 :威廉威廉. . 埃因托芬埃因托芬X X射线辐射治疗发明人射线辐射治疗发明人 :赫尔

6、曼赫尔曼. . 约瑟夫约瑟夫. . 马勒马勒核磁共振成像发明人核磁共振成像发明人 :保罗保罗. . 劳特布尔劳特布尔更多的奖给了器械发明人,以及能够从医疗数据发现价值的人!更多的奖给了器械发明人,以及能够从医疗数据发现价值的人!因果关联先导?是什么?是什么?大数据大数据为什么?为什么?怎么做?怎么做?研究对象研究对象科学科学技术技术形而上形而上?形而下形而下大数据大数据 大数据时代认知计算的实大数据时代认知计算的实践,正在践,正在倒逼倒逼认知科学前认知科学前行!行!对人类认知而言,欧盟的对人类认知而言,欧盟的“脑科学十年脑科学十年”和和“人类大脑计划人类大脑计划”,以及奥巴马的,以及奥巴马的“

7、脑脑计划计划”可能可能错错在哪里?在哪里?大脑细胞类型及统计大脑结构图大规模神经网络技术操作神经回路的工具神经细胞与个体行为关系大脑成像技术神经模型和统计的整合人脑数据搜集知识传播与培训认知科学难道就是研究生物脑的自然属性吗?认知科学难道就是研究生物脑的自然属性吗?要研究人类认知的特殊性!要研究人类认知的特殊性! 文字、文明和传承文字、文明和传承 人类认知的社会属性人类认知的社会属性倒逼什么?倒逼什么?把这两点作为人类认知科学的切入点!把这两点作为人类认知科学的切入点! 要研究脑认知的后天属性。认知还是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人类认知的成长机制

8、。倒逼什么?倒逼什么?二、大数据时代的自然语言处理 技术正在改变我们的生活 语言是思想的直接现实,是人类思维的载体,是认知科学和认知计算要应对的首要问题。语言和文字在人类走向文明的四个重大里程碑中,语在人类走向文明的四个重大里程碑中,语言和文字占了两个位置言和文字占了两个位置语言是外部对象的语言是外部对象的“声音符号声音符号”,传达的,传达的是是信息信息文字是信息的文字是信息的编码编码,有文字才有传承,有文字才有传承人类运用自然语言进行交流获得的效果中:l 讲话内容 7%l 强度和语调 38%l 面部表情和肢体动作 55%认知心理学告诉我们认知心理学告诉我们在半个世纪的自然语言理解的研究中,我

9、们对在半个世纪的自然语言理解的研究中,我们对此关注了多少?此关注了多少?自然语言在人类思维中具有不可替代性人们在表达、思考和解决任何问题时,人们在表达、思考和解决任何问题时,通常是定性的,对量的规定性往往是非通常是定性的,对量的规定性往往是非数值的数值的科学研究中,即使人们用对象语言(如:科学研究中,即使人们用对象语言(如:物理、数学、物理、数学、C C语言等)来表述一个特定语言等)来表述一个特定的精确学科,解释对象语言的的精确学科,解释对象语言的元语言元语言仍仍然是自然语言然是自然语言自然语言是不可以计算的!自然语言可以计算吗?自然语言可以计算吗?在特定语境和语用场合,自然语言理解是可以被形

10、式化表达并进行计算的!脑科学认为:脑科学认为:计算语言学认为:计算语言学认为:如果一个问题不能够全部形式化,那么,其中的局部问题可不可以形式化?如何让这个局部问题尽可能地普遍一些?自然语言可以在什么程度上被形式化,取决于能否把不确定性形式化。紧紧抓住自然语言中的概念,研究不确定性。25清华大学 电子工程系 ,吴及4:06:11v以中国移动一个中等规模省级客服中心客服坐席500个平均日通话30万平均通话时间100秒平均坐席日通话时间16.7小时日通话累计时长约为8333小时月客服数据总量:25万小时年客服数据总量:300万小时4kbps压缩存储:5.4TB一个人不停说话说上1年如采用人工测听需1

11、000人引自科大迅飞公司数据引自科大迅飞公司数据是雇用500位客服人员,还是启用一台话音机器人?人类如何理解自然语音的? 您好亲情话务员,很高兴为您服务。我问一下我那个包月的上网套餐现在还能恢复吗?先生您好您这个套餐是您目前使用的就是一个神州行。免费的,那是赠送流量吗?免费赠送您三十兆流量的,怎么了您说。我不是把那个GPRS关了嘛。您是说您的功能关闭了是吗?嗯,开通还要不要扣费啊。需要扣费,有密码吗?有密码,我能开通那个GPRS吗?是的,您稍后听到语音提示后输入一下您的密码请稍等。噢行。先生您好您的密码。在半个世纪的自然语言理解的研究中,我们对在半个世纪的自然语言理解的研究中,我们对此关注了多

12、少?此关注了多少?人类如何理解自然语言的? 研表究明,汉字的序顺并不定一能影响阅读,比如当你看完这句话后,才发这现里的字全是都乱的!再回头仔看细看,真这是样的。在半个世纪的自然语言理解的研究中,我们对在半个世纪的自然语言理解的研究中,我们对此关注了多少?此关注了多少?区分计算机和人的全自动公共图灵测试(CAPTCHA)还能维持多久?在半个世纪的语言文本理解的研究中,我们对在半个世纪的语言文本理解的研究中,我们对此关注了多少?此关注了多少?全自动区分计算机和人类的图灵测试Completely Automated Public Turing test to tell Computers and H

13、umans Apart (CAPTCHA)reCAPTCHA,利用大众对验证码的识别,完成扫描仪、OCR软件,甚至古籍整理者都难以辨识的古老文献中的字符,精度可以超过99%!群体智能:社会计算的精髓!群体智能:社会计算的精髓!网络应用网络应用通讯平台通讯平台数字媒体数字媒体机器人能听会说正在改变我们的生活!在线服务机器人 智能耳机?在线翻译:文字在线翻译:文字 文字文字语音合成:文字语音合成:文字 语音语音话者识别:话者识别:语音语音 说话人说话人语音识别:语音语音识别:语音 文字文字不知天高地厚的豪言壮语?“先干掉短信,下一个目标是语音通话!先干掉短信,下一个目标是语音通话!”高级认知活动:

14、创作对联l唐诗宋词三百首唐诗宋词三百首41850首,8万句,近35万字l微软对联微软对联微软亚洲研究院自然语言计算组研发的计算机自动对联系统。利用从唐诗宋词大数据中学习到的概率利用从唐诗宋词大数据中学习到的概率模型模型,当用户给定上联,能自动提供若干下联; 当用户确定一副对联,能生成若干四字横批。http:/ 李白一生写诗1010首,把他所有诗句进行“机械切割”,在“悲情”意境下,分别按照平仄规律 仄仄 仄平平仄平平 平平平平 仄仄平平 平平 平仄仄平仄仄 仄仄 仄平平仄平平 把这些切割后的字串构成数据集,并要求仄平平 、仄平 、仄平平 这3类串的韵相同 。表表1 1:(仄起)五绝(首韵):(

15、仄起)五绝(首韵)第一句第一句第二句第二句第三句第三句第四句第四句X1X1X2X2X3X3X4X4X5X5X6X6X7X7X8X81羞玉 2流泪 3窈窕 4雪满 5月色 6愁空 7浮云 8伤别 9哀苦 0回首1未曾看2斩楼兰3寄燕然4水生烟5凤楼酣6暗无边7绕林间8竟不还9贵乡还0泪遥传1燕然2芙蓉3鸳鸯4梅花5江南6春风7佳人8斜阳9西湖0微霜1水月牵2寻岳仙3哀苦寒4觉夜寒5嬉笑牵6独去闲7上酒船8流泪泉9不可攀0走百川1凤楼2故情3染香4雾花5水晶6雪恨7落花8卷珠9相思0当年1人不见 2留不住 3追往事 4空怅望 5谁念我 6肠断处 7多少恨 8空相忆 9凝望久 0都莫问1白玉2夜郎3

16、多苦4一笑5憔悴6无限7寂寞8惟有9疑是0远忆1晚妆残 2莫留连 3憩言欢 4望长安 5老红颜 6醉不眠 7见苍山 8蔽青天 9涕衣沾 0齿开难仄仄平平平平仄平平平仄仄(非韵)仄仄平平第一句第二句第三句第四句X1X2X3X4X5X6X7X81羞玉 2流泪 3窈窕 4雪满 5月色 6愁空 7浮云 8伤别 9哀苦 0回首1未曾看2斩楼兰3寄燕然4水生烟5凤楼酣6暗无边7绕林间8竟不还9贵乡还0泪遥传1燕然2芙蓉3鸳鸯4梅花5江南6春风7佳人8斜阳9西湖0微霜1水月牵2寻岳仙3哀苦寒4觉夜寒5嬉笑牵6独去闲7上酒船8流泪泉9不可攀0走百川1凤楼2故情3染香4雾花5水晶6雪恨7落花8卷珠9相思0当年1

17、人不见 2留不住 3追往事 4空怅望 5谁念我 6肠断处 7多少恨 8空相忆 9凝望久 0都莫问1白玉2夜郎3多苦4一笑5憔悴6无限7寂寞8惟有9疑是0远忆1晚妆残 2莫留连 3憩言欢 4望长安 5老红颜 6醉不眠 7见苍山 8蔽青天 9涕衣沾 0齿开难仄仄平平平平仄平平平仄仄(非韵)仄仄平平第一句第一句X1X21 1羞玉羞玉 2流泪 3窈窕 4雪满 5月色 6愁空 7浮云 8伤别 9哀苦 0回首1未曾看2斩楼兰3寄燕然4水生烟5凤楼酣6暗无边7绕林间8 8竟不还竟不还9贵乡还0泪遥传仄仄平平第二句第二句X3X41燕然2芙蓉3鸳鸯4梅花5江南6春风7佳人8斜阳9 9西湖西湖0微霜1水月牵2寻岳

18、仙3 3哀苦寒哀苦寒4觉夜寒5嬉笑牵6独去闲7上酒船8流泪泉9不可攀0走百川平平仄平第三句第三句X5X61 1凤楼凤楼2故情3染香4雾花5水晶6雪恨7落花8卷珠9相思0当年1人不见 2 2留不住留不住 3追往事 4空怅望 5谁念我 6肠断处 7多少恨 8空相忆 9凝望久 0都莫问平平仄仄(非韵)第四句第四句X7X81白玉2 2夜郎夜郎3多苦4一笑5憔悴6无限7寂寞8惟有9疑是0远忆1晚妆残 2莫留连 3憩言欢 4望长安 5老红颜 6 6醉不醉不眠眠 7见苍山 8蔽青天 9涕衣沾 0齿开难仄仄平平秀玉竟不还,秀玉竟不还, 西湖哀苦寒。西湖哀苦寒。凤楼留不住,凤楼留不住,夜郎醉不眠。夜郎醉不眠。

19、如,毛泽东的生日18931226 所作的诗是:自然语言理解50年变迁从五笔字型输入到搜狗拼音输入从五笔字型输入到搜狗拼音输入从千人一面的搜索引擎到个性化搜索从千人一面的搜索引擎到个性化搜索从规则学习到统计学习从规则学习到统计学习从智能计算到情感计算从智能计算到情感计算从形式语言学到野蛮翻译从形式语言学到野蛮翻译从确定性认知到不确定性认知从确定性认知到不确定性认知自然语言理解:期待中的舞台机器人文本、歌曲剧本等 以大数据形态反映的语言、交互和理解,是带毛的、鲜活的、有情感的原生态数据,体现了认知过程中在语境、语构、语用和语义方面的不确定性,这正是大数据的魅力所在。三、视听觉认知中的大数据:智能驾

20、驶初步实践 智能驾驶为什么会火起来? 云计算、移动互联网、物联网、大数据和智慧城市建设背景下,人们迫切需要提高移动生活的品质。智能车成为众目睽睽下的交集!视听觉认知计算视听觉认知计算国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划视听觉认知计算视听觉认知计算的科学任务的科学任务 在正常的环境下,标准的城市和城际公路上,从北京到天津/深圳,智能车混迹在正常交通流中,表现出驾驶员的驾驶智能驾驶员的视听觉认知计算能力。国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划视听觉认知计算视听觉认知计算(2008 20152008 2015) 耗

21、资1.9亿元,历时8年,资助近百个培育项目、重点项目、集成项目,在原始创新和任务载体(轮式机器人)上取得重大成果。国家自然科学基金委员会十一五重大研究计划国家自然科学基金委员会十一五重大研究计划人类的视听觉人类的视听觉认知是不可以认知是不可以计算的!计算的!人类的视听觉认知可以计算吗?人类的视听觉认知可以计算吗?特定情境下,人类的视听觉认知导致特定的行为,是可以被形式化表达并进行计算的!脑科学认为:机器人学认为:智能驾驶试验三步走策略智能驾驶试验三步走策略第一步:第一步:城际道路低智商试验(城际道路低智商试验( 2015年)年)第二步:第二步:市区道路中智商试验(市区道路中智商试验( 2020

22、年)年)第三步:第三步:特殊道路高智商试验(特殊道路高智商试验( 2030年)年)自主驾驶!自主驾驶!360o旋转的传旋转的传感器扫描百米感器扫描百米范围高精度立范围高精度立体景象体景象左后轮上方左后轮上方的传感器检的传感器检测小位移测小位移安装在后视镜部位的摄像头检测交通灯,帮安装在后视镜部位的摄像头检测交通灯,帮助机载计算机识别自行车和行人助机载计算机识别自行车和行人4个测距雷达,个测距雷达,3个在前,一个在后,个在前,一个在后,确定障碍物的位置与距离确定障碍物的位置与距离轮式机器人传感器大数据轮式机器人传感器大数据l车载陀螺:车载陀螺:感知车辆自身姿态和位置感知车辆自身姿态和位置l雷达(

23、激光雷达、毫米波雷达、超声雷达(激光雷达、毫米波雷达、超声雷达、红外雷达等)和摄像头雷达、红外雷达等)和摄像头:感知:感知周边环境周边环境l传感器数据常常是海量流数据传感器数据常常是海量流数据工作工作1小时,一部小时,一部64线激光雷达可产生线激光雷达可产生137GB数据量,数据量,一个高清摄像头可产生一个高清摄像头可产生50GB数据量。数据量。驾驶环境地理信息大数据驾驶环境地理信息大数据l数字地图数据数字地图数据l定位和导航数据定位和导航数据l云计算:基于位置的服务云计算:基于位置的服务l围绕位置服务的大量衍生信息围绕位置服务的大量衍生信息驾驶人行为大数据驾驶人行为大数据l飙车手飙车手l菜鸟

24、菜鸟l正常驾驶员正常驾驶员l驾驶行为人人都不同驾驶行为人人都不同 需不需要研制人造的生需不需要研制人造的生物眼(仿生眼)?物眼(仿生眼)? 重要抉择:重要抉择: 需不需要在车上安装三需不需要在车上安装三维高精度激光成像雷达维高精度激光成像雷达再现周边立体场景?再现周边立体场景? 重要抉择:重要抉择:路边的美女看不看?路边的美女看不看? 智能驾驶难点:智能驾驶难点: 当汽车在高速行驶时当汽车在高速行驶时需不需要理解所有周边需不需要理解所有周边的地理位置信息和交通的地理位置信息和交通指示牌信息?指示牌信息? 智能驾驶难点:智能驾驶难点: 轮式机器人能不能模拟车主轮式机器人能不能模拟车主的驾驶行为,

25、具有个性,具有自的驾驶行为,具有个性,具有自学习功能?学习功能? 智能驾驶难点:智能驾驶难点:l 驾驶员必须在车辆导航、危险检测、速度驾驶员必须在车辆导航、危险检测、速度 控制和车道保持之间分配注意力控制和车道保持之间分配注意力l 当驾驶员没有将注意力在正确的时间分配当驾驶员没有将注意力在正确的时间分配给正确的对象时,安全受到影响。统计表明,给正确的对象时,安全受到影响。统计表明,注意力疲劳、分散和粗心导致撞车事故注意力疲劳、分散和粗心导致撞车事故l 移动互联网将使驾驶员的移动生活更丰富移动互联网将使驾驶员的移动生活更丰富多彩,也更可能分散注意力多彩,也更可能分散注意力 选择性注意和注意分配选

26、择性注意和注意分配认知计算中的基础科学问题:认知计算中的基础科学问题:遗忘:选择性记忆遗忘:选择性记忆l选择性注意的后续认知是残留,即记忆。选择性注意的后续认知是残留,即记忆。l没有遗忘,就没有选择性记忆。没有遗忘,就没有选择性记忆。l在驾驶员的认知过程中,对已经成为过去的在驾驶员的认知过程中,对已经成为过去的驾驶活动,时间越长,遗忘越快;对刻骨铭驾驶活动,时间越长,遗忘越快;对刻骨铭心的瞬间,长期积累为先验知识。心的瞬间,长期积累为先验知识。l对刚刚过去的周边态势的记忆,如何表现?对刚刚过去的周边态势的记忆,如何表现?认知计算中的基础科学问题认知计算中的基础科学问题注意的调节注意的调节认知计

27、算中的基础科学问题认知计算中的基础科学问题l 先验知识优先先验知识优先l 动目标优先动目标优先l 全局(大尺度)优先全局(大尺度)优先l 差异优先差异优先l 前景优先前景优先l 注意跟踪和聚焦注意跟踪和聚焦京津高速公路试验轮式机器人:双工双控智能车 驾驶是快乐的享受,只要车内有人,就不存在绝对的无人驾驶。自动驾驶和人工驾驶可以商量,相互学习,自然转换,长期并存。 车内乘员和轮式机器人之间的视觉、语音、触摸、踩踏等多种自然交互形态、以及交互界面的设计,甚至是智能车成功与否的关键!自动驾驶和人工驾驶不是简单的非此即彼!要考虑自自动驾驶和人工驾驶不是简单的非此即彼!要考虑自动驾驶过程中人工如何自然干

28、预?人工驾驶过程中自动驾驶过程中人工如何自然干预?人工驾驶过程中自动监视如何悄悄地工作?动监视如何悄悄地工作? 人人 工工 驾驾 驶驶 自自 动动 驾驾 驶驶 如何切换?双如何切换?双控?控?双工:人工驾驶和自动驾驶两种工作方式长期并存双工:人工驾驶和自动驾驶两种工作方式长期并存2021-10-2071人和轮式机器人双工:双工:互为热备份,不是冷切换双控:双控:时刻准备着,实时弥补对方认知中的不智 如果有一天,北京城区出现了如果有一天,北京城区出现了飙车机器人,那灵动的身影、敏捷飙车机器人,那灵动的身影、敏捷的姿态、尽兴的奔跑,跑出了自己的姿态、尽兴的奔跑,跑出了自己的风格和智能,你还要问:认

29、知可的风格和智能,你还要问:认知可以计算吗?以计算吗?四、不确定性认知的物理学方法: 云模型和数据场云 模 型人类思维的载体是自然语言,认知计算人类思维的载体是自然语言,认知计算最基本的任务是自然语言的形式化最基本的任务是自然语言的形式化自然语言的形式化首先是概念的形式化自然语言的形式化首先是概念的形式化概念的形式化要解决不确定性:软计算概念的形式化要解决不确定性:软计算和词计算和词计算认知计算要解决概念的形式化概念处理单元2011年度图灵奖得主Judea Pearl教授 加州大学洛杉矶分校的计算机加州大学洛杉矶分校的计算机科学家,将科学家,将贝叶斯网络和概率方法贝叶斯网络和概率方法引入人工智

30、能,引入人工智能,为为 iPhone 的的Siri 语音识别和语音识别和 Google无人驾驶汽车无人驾驶汽车奠定了基础。奠定了基础。 著作著作 Causality: Models, Reasoning,and Inference创立了因果推理演算法,奠定了处理不确定性信息的计算基创立了因果推理演算法,奠定了处理不确定性信息的计算基础。础。Judea Pearl (1936 )美国工程院院士美国工程院院士Lotfi Zadeh1921.2 波兰科学院院士波兰科学院院士Zdzislaw Pawlak1926.11.10 2006.4.7模糊集合模糊集合粗糙集合粗糙集合二型模糊集合二型模糊集合美国

31、南加州大学教授美国南加州大学教授Jerry M. Mendel1938.5 l模糊集合模糊集合l模糊逻辑模糊逻辑l模糊规则模糊规则l模糊推理模糊推理l模糊控制模糊控制l模糊信息处理模糊信息处理l模糊问题求解模糊问题求解经典论文:经典论文:Zadeh L A. Fuzzy sets J. Information and Control, 1965,(8):338-353粒化和粒度粒空间粒逻辑粒推理粒分析粒处理粒问题求解概率图模型(PGM)以图的方式表达变量间不确定因果关系的模型,从动态、复杂、不确定的信息中提取结构化知识,并进行推理计算。常见的概率图模型包括:贝叶斯网络、马尔科夫随机场、高斯图模

32、型、动态不确定因果图、隐树模型等。“年轻人年轻人”隶属区间函数隶属区间函数“年轻人年轻人”的云模型的云模型一型模糊集合一型模糊集合用用一个精确的一个精确的隶属函数隶属函数表达表达变量与定性概变量与定性概念之间的隶属念之间的隶属关系的模糊性关系的模糊性“年轻人年轻人”的隶属函数的隶属函数二型模糊集合二型模糊集合利用利用上、下隶上、下隶属函数曲线属函数曲线限限定模糊范围,定模糊范围,表示隶属度的表示隶属度的不确定性不确定性云模型云模型利用利用正正向云发生器算向云发生器算法,基于概率法,基于概率测度空间自动测度空间自动生成隶属度生成隶属度 22)(2)(EnExxeyFCG(Ex, En, He,

33、n)FCGFCG(20; 3; 0.1; 1,000)在论域U上定义均值为En、标准差为He的高斯随机变量 , 即的概率密度函数为l在在= 的条件下,定义在论域的条件下,定义在论域U上的随机变上的随机变量量X的条件概率密度函数为:的条件概率密度函数为: 随机变量X的概率密度为称称X的概率分布为高斯云分布的概率分布为高斯云分布 。期望l方差(二阶中心距)方差(二阶中心距)三阶中心距l四阶中心距四阶中心距四阶中心矩具有峰度(kurtosis)的含义,峰度是统计中描述分布状态的一个重要特征值,用以判断分布曲线相比于正态分布的尖平程度。如果将正态分布视为常峰态,分布曲线的形状比正态分布更高更瘦的称为高

34、峰态,否则称为低峰态。 定义: 随机变量X称为是重尾的,如果 ,其中,分别为X的期望和标准差。正态分布的峰度为3,因此该性质被称为超过或大于峰度。 高斯云是重尾分布,幂律分布也是重尾分布。 高斯云随着熵的增大,或者阶数的增加,云滴的分布更加趋向重尾分布。高阶云模型可以在高斯分布和幂律分布之间游走。云模型的数学基础是概率理论,刻画的问题是人类认知中概念与数据之间的双向转换,实现的手段是计算机算法。云模型给出了定性概念的量的数学表述及其数学性质,用概率和统计的方法解释了曾经用隶属度表示的种种模糊概念和模糊理论,但不要求主观不要求主观给定确定的隶属度值,并指出语义不同的概念的确定给定确定的隶属度值,

35、并指出语义不同的概念的确定度分布,依然具有轮廓的一致性。度分布,依然具有轮廓的一致性。 l 傅里叶变换傅里叶变换l 高斯变换高斯变换l 高斯云变换高斯云变换:依据数据样本的统计特性,通过高斯变换形成多个概念的期望,通过减少概念含混度确定各个概念的熵和超熵,形成多个不同粒度的概念。l 稀疏高斯云变换稀疏高斯云变换高斯云变换40506070809010000.010.020.030.040.050.060.07年 龄人数分布776名中国工程院院士年龄分布名中国工程院院士年龄分布(2012.4) 40506070809010000.010.020.030.040.050.060.07agefrequ

36、ence分成分成5个概念?个概念?40506070809010000.010.020.030.040.050.060.07agefrequence分成分成3个概念?个概念? 根据根据“类内关系强、类间关系弱类内关系强、类间关系弱”的聚的聚类原则,用高斯云变换实现聚类,可减少概类原则,用高斯云变换实现聚类,可减少概念之间的含混度,并念之间的含混度,并体现人类认知中概念的层次和粒度的不确定性。 天空中大量云滴构成的云,远观天空中大量云滴构成的云,远观有形,近观无边,千姿百态,飘逸不有形,近观无边,千姿百态,飘逸不定,有时如朵朵棉花,有时一泻千里,定,有时如朵朵棉花,有时一泻千里,或淡或浓,或卷或舒

37、,自在洒脱,在或淡或浓,或卷或舒,自在洒脱,在长空中漂浮着,聚散着,变幻着,引长空中漂浮着,聚散着,变幻着,引发人类诸多遐想,造就多少不朽诗句。发人类诸多遐想,造就多少不朽诗句。数 据 场物理场和数据场数据场中的势 nixxiniiDiemxxx121)()( 空间空间 中的数据对象集中的数据对象集 及其产生的数据场,任一场点及其产生的数据场,任一场点x 处的势值处的势值可计算为:可计算为: 为影响因子。为影响因子。12,.,PniDxxxxR 人脸图像数据场 minjxxijijex112)(人脸图像数据场 下图为表情数据库的一幅标准化人脸图像及其产生的数据势场分布(=0.05),可以发现,人脸图像数据场的高势区位于脸颊、额头和鼻梁等灰度值较大的面部区域。 a) 128 128像素像素人脸图像人脸图像 b) 数据场等势线分布数据场等势线分布 c) 势场分布的势场分布的三维视图三维视图 场的局

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论