




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模块❶人工智能:开启智慧新时代1-1人工智能的缘起目录CONTENTS什么是人工智能01人工智能的发展历程02人工智能的特征及典型应用03人工智能的缘起1.什么是人工智能场景导入Deepseek为啥引起国内外轰动?1、训练成本低;2、性能上比肩顶尖模型;3、开源、算法优化;4、用户体验和使用成本优势;Other本地部署……Deepseek的横空出世意味着什么?人工智能的缘起1.什么是人工智能场景导入春晚机器人为什么有如此惊艳的表现?例如:-周围感知--决策选择--身体平衡--与人协作-……请大家结合机器人表现和你的认知,说说你对人工智能概念的理解?人工智能的缘起1.什么是人工智能场景导入上图中的商品推荐和AI文生图意味着什么?这其中有没有智能的成分在里面?人工智能的缘起1.什么是人工智能人工智能的定义马文·明斯基的观点:“人工智能是一门科学,是使机器做那些人需要通过智能来做的事情”尼尔斯·尼尔森提出:“人工智能是一门关于研究知识的表示、知识的获取和知识的运用的学科”目前学术主流观点:“人工智能是研究、开发用于模拟、延伸和扩展人的智能行为的理论、方法、技术及应用系统的一门综合性科学”人工智能的缘起2.人工智能的发展历程人工智能发展的阶段1人工智能的萌芽期人工智能的缘起2.人工智能的发展历程人工智能发展的阶段2人工智能的启动期参加达特茅斯会议的部分大佬ELIZA对话程序界面人工智能的缘起2.人工智能的发展历程人工智能发展的阶段3人工智能的消沉期AI新技术难突破,表现不佳经济不景气、政府对AI资助减少计算机算力和存力有限AIWinter(AI之冬)人工智能的缘起2.人工智能的发展历程人工智能发展的阶段4人工智能的突破期基于xcon系统的商业计算机BP算法奠定了多层神经网络发展的基础,开创了人工智能的数据驱动时代。人工智能的缘起2.人工智能的发展历程人工智能发展的阶段5人工智能的高速发展期“深蓝”挑战卡斯帕罗夫ChatGPT对话界面AlphaGo挑战李世石人工智能的缘起2.人工智能的发展历程人工智能发展的阶段人工智能大致发展历程人工智能的缘起3.人工智能的特征及典型应用人工智能的特征像人一样思考像人一样行动具体表现具有学习能力具有感知能力具有决策能力具有行动能力人工智能的缘起3.人工智能的特征及典型应用人工智能的典型应用智能驾驶人脸识别智慧医疗智能家居媒体娱乐军事无人机仿生机器人(索菲亚)Thankyouverymuch!人工智能基础与应用模块❶人工智能:开启智慧新时代1-2机器学习与深度学习目录CONTENTS机器学习的含义01深度学习的崛起02神经网络的魅力031-2机器学习与深度学习1.机器学习的含义专门研究计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习主要特点利用算法从数据中学习规律和模式,如垃圾分类、线性回归房价预测等模型所需的数据规模可大可小,通常通过特征选择、降维等技术来处理大规模数据集模型一般较为简单,主要是线性模型和统计模型等优点是预测准度较高,适用于各种类型的数据和任务;缺点是需要足够的数据和特征工程,对于复杂任务的建模能力有限1-2机器学习与深度学习2.深度学习的崛起深度学习(DeepLearning)属于机器学习的子类,是利用深度神经网络来解决特征表达并处理任务的一种学习方法。深度学习主要特点使用神经网络模型,通过反向传播算法和梯度下降优化技术来调整网络权重和参数尤其对于复杂的任务和模型,需要大量的数据集模型通常非常复杂,具有大量的神经元和层数,能自动提取和抽象出有用的特征优点是有强大的表征能力和泛化能力,能够处理复杂的非线性问题;缺点是计算量大、训练时间长,对大规模数据集的需求较高1-2机器学习与深度学习2.深度学习的崛起场景导入冷扑大师动物识别文生视频车牌识别1-2机器学习与深度学习3.神经网络的魅力感知机(单层神经网络)单层神经网络MarkI感知机(美国国家历史博物馆)1-2机器学习与深度学习3.神经网络的魅力人工神经网络的模型单层神经网络1-2机器学习与深度学习3.神经网络的魅力神经网络模拟大脑的功能单层神经网络1-2机器学习与深度学习3.神经网络的魅力场景导入神经网络的工作过程单层神经网络Thankyouverymuch!人工智能基础与应用模块❶人工智能:开启智慧新时代1-3生成式人工智能目录CONTENTS生成式人工智能的概念01AIGC的特征及核心技术02大模型的应用举例031-3生成式人工智能1.生成式人工智能的概念是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,经历训练、微调与生成,以及评估和调整等阶段,最后以适当的泛化能力生成相关内容的技术。
AIGC五个方面的生成内容1-3生成式人工智能2.AIGC的特征及核心技术(1)AIGC的特征1-3生成式人工智能2.AIGC的特征及核心技术(2)AIGC的核心技术1-3生成式人工智能2.AIGC的特征及核心技术(2)AIGC的核心技术基础模型包括深度变分自编码、生成对抗神经网络、扩散模型、Transformer和VisionTransformer等技术。1-3生成式人工智能2.AIGC的特征及核心技术(2)AIGC的核心技术经典的预训练大模型1-3生成式人工智能3.大模型及应用举例ChatGPT-3OpenAI于2020年5月发布的GPT-3受到了大量新闻报道和公众关注。在两年内,GPT-3已经积累了100万订阅用户。ChatGPT为用户提供了一个与人工智能对话的直观界面,也许可以满足人类与生俱来的与他人沟通和联系的愿望。ChatGPT-3是ChatGPT系列的第三个版本,它拥有1750亿个参数,是当时全球最大的预训练语言模型,在自然语言理解、生成和对话能力方面都取得了重大突破。1-3生成式人工智能3.大模型及应用举例清华ChatDD2023年9月21日,水木分子发布新一代对话式药物研发助手ChatDD(DrugDesign)和全球首个千亿参数多模态生物医药对话大模型ChatDD-FM100B,其在C-Eval评测中达到全部医学4项专业第一,是唯一在该4项评测中平均分超过90分的模型ChatDD能够对多模态数据进行融合理解,与专家自然交互人机协作,将人类专家知识与大模型知识联结,重新定义药物研发模式。1-3生成式人工智能3.大模型及应用举例谷歌Gemini2023年12月Gooqle发布了全新多模态大模型Gemini,能够实现多源多模态数据的输入和输出,包括文本、代码、视频、音频和图像,并拥有较好的跨模态识别、推理能力。2024年2月,Google推出Gemini1.5系列模型,提升了多模态大模型的计算效率,能够从规模庞大的上下文(如多个长文档、数小时的视频等)中调用细粒度信息并进行推理。2024年9月,Google对Gemini1.5模型进行更新,提升性能、加快响应速度。1-3生成式人工智能3.大模型及应用举例谷歌DeepMind—AlphaFold32024年5月8日,DeepMind与lsomorphicLabs共同推出Transformer+Diffusion架构的生成式A模型--AlphaFold3。AlphaFold3以前所未有的精确度成功预测所有生命分子的结构及其相互作用方式;传统生物学需要人类用显微镜从不同的角度观察,耗时久目精度低。AlphaFold3的问世意味着将对更多变革性的科学研究起到推动作用,包括基因组学研究、加速药物设计、新材料开发、培育作物等等。1-3生成式人工智能3.大模型及应用举例OpenAI—GPT-42024年6月1日,谷歌DeepMind、约翰斯·霍普金斯大学和牛津大学等机构的学者发布的研究证实:GPT-4在心智理论任务上的表现完全达到成年人类的水平;在第6阶推理上的表现大幅超过人类。自然子刊NatureHumanBehavioui已证实:得益于庞大的数据库,GPT-4比人类更能理解对话中的讽刺和暗示。来自阿肯色大学的研究团队发现ChatGPT-4在创造性思维测试中的表现已经超越人类。1-3生成式人工智能3.大模型及应用举例deepseek强化学习技术:采用大规模强化学习,仅需少量标注数据即可显著提升模型性能。智能训练场:构建了智能训练场,提升推理能力,在推理任务上可与OpenAIO1媲美。开源共享:完全开源,降低了AI应用门槛,赋能开源社区发展。部署广泛:上线后迅速与众多平台和企业达成合作,展示出强大的市场适应性和技术兼容性。应用登顶:DeepSeek7天突破1亿用户,具有强大的市场吸引力和用户基础。Thankyouverymuch!人工智能基础与应用模块❶人工智能:开启智慧新时代项目1—智作演示文稿目录CONTENTS提出问题01解决方案02预备知识03完成任务04一、提出问题如何自动生成PPT?场景导入提供工作效率便捷自动生成应对多个场景内容丰富契合AIGC技术助力问题解决二、解决方案选择AIGC工具讯飞星火文心一言华为盘古KIMI+…三、预备知识
星火认知大模型的服务三、预备知识
星火认知大模型的服务四、完成任务任务1—拟定一个主题任务描述确定一个能准确概括你PPT内容的主题,建议你从演示文稿的中心思想、你要表述的目的性、主要观点等方面综合研判PPT的主题。此处是要制作一个关于人工智能简要发展历史的PPT。/?from=sparkHome四、完成任务任务1—拟定一个主题任务目标确定一个关于人工智能发展历史进程的鲜明主题,有助于大模型的理解,以便生成一份高质量的演示文稿。四、完成任务任务1—拟定一个主题完成步骤1:进入图1-27所示的讯飞智文操作界面,选择“主题创建”方式来生成演示文稿四、完成任务任务1—拟定一个主题完成步骤2:单击“开始创作”按钮,出现图1-28所示的操作窗口四、完成任务任务1—拟定一个主题完成步骤3:在文本框输入主题,以完成主题输入任务四、完成任务任务2—生成和保存演示文稿任务描述让大模型按拟定好的演示文稿的主题,自动生成大纲和内容,用户可以根据具体需求对大纲进行编辑和修改,并选择适配的模板进行配色,最终生成一份演示文稿。四、完成任务任务2—生成和保存演示文稿任务目标自动生成一份与主题契合的演示文稿,并将演示文稿下载到本地以方便随时使用和修改。四、完成任务任务2—生成和保存演示文稿完成步骤1生成大纲进入演示文稿的大纲编辑界面。四、完成任务任务2—生成和保存演示文稿完成步骤2选择模板进入下图所示的模板配色界面。四、完成任务任务2—生成和保存演示文稿完成步骤3保存演示文稿经过片刻的内容生成过程,如下图所示,一个科技蓝样式、目录清晰、图文并茂的演示文稿就已生成。人工智能基础与应用Thankyouverymuch!模块❷Python:人工智能开发语言2-1初识Python目录CONTENTSPython简介01Python的特点及应用领域02一.Python简介发明人:吉多·范罗苏姆一.Python简介最受欢迎的计算机语言二.Python的特点及应用领域1Python特点Python为人工智能首选语言二.Python的特点及应用领域2Python应用领域数据挖掘机器学习、深度学习二.Python的特点及应用领域2Python应用领域云计算与运维Web应用开发人工智能基础与应用Thankyouverymuch!2-2Python开发环境搭建模块❷Python:人工智能开发语言目录CONTENTS安装Python01安装Anaconda02浅尝Python03一.安装Python1.下载Python安装文件一.安装Python1.下载Python安装文件一.安装Python2.安装Python安装设置界面安装成功提示界面一.安装Python2.安装PythonPython快捷菜单安装成功提示界面Python3.10ModuleDocs(64-bit):内置服务式的Python模块帮助文档。IDLE(Python3.1064-bit):Python自带的集成开发环境(IntegratedDevelopmentandLearningEnvironment,IDLE)。Python3.10Manuals(64-bit):Python帮助文档。Python3.10(64-bit):Python解释器。二.安装Anaconda1.安装AnacondaAnaconda是一个可以便捷安装开发包且对包能够进行统一管理的工具,它包含了conda、numpy、scipy、pandas、notebook在内的超过180多个科学包及其依赖项。官网下载界面二.安装Anaconda1.安装AnacondaAnaconda安装完成勾选安装选项二.安装Anaconda2.启动JupyterNotebook启动JupyternotebookAnaconda的快捷菜单二.安装Anaconda2.启动JupyterNotebookJupyterNotebook主页二.安装Anaconda3.浅尝Python新建case2-1的脚本源程序编写源代码人工智能基础与应用Thankyouverymuch!2-3Python编程基础模块❷Python:人工智能开发语言目录CONTENTS变量01分支结构02循环结构03组合数据类型04一.变量1.变量定义程序需要将数据存储到变量中,变量是计算机内存的存储位置的表示,也叫内存变量。变量用标识符来命名,也就是每个变量都有自己的名字,但命名变量的时候不能让变量名字与Python保留的关键字冲突。Python的关键字一.变量2.变量命名规则定义变量在Python内部是有类型的,如int、float、str等类型,但是在编程时无须关注变量类型,所有的变量都无须提前声明,赋值后就能使用。另外,可以将不同类型的数据赋值给同一个变量,所以变量的类型是可以随时改变的,可以用函数type来查看变量的类型。二.分支结构1.执行流程语法表示ifcondition_1:
statement_block_1elifcondition_2:
statement_block_2else:
statement_block_3二.分支结构2.例子【引例2-2】判断狗对应于人类的年龄。(1)引例描述输入狗的实际年龄,按下列公式计算狗对应于人类的年龄。
上式中x表示狗的实际年龄,y表示狗对应于人类的年龄。源代码三.循环结构1.while循环语法表示while循环条件(condition):
执行语句(statements)…三.循环结构2.例子源代码【引例2-3】多次反复计算狗对应于人类的年龄。(1)引例描述多次反复计算不同狗的年龄对应于人类的年龄,直到用户按“Q”键退出。四.组合数据类型1.列表列表用方括号“[]”来表示,里面的各元素用逗号分开,列表的各元素可以是不同的数据类型。创建一个列表,只要把用逗号分开的所有的元素使用方括号括起来即可。示例代码二.安装Anaconda1.安装AnacondaAnaconda是一个可以便捷安装开发包且对包能够进行统一管理的工具,它包含了conda、numpy、scipy、pandas、notebook在内的超过180多个科学包及其依赖项。官网下载界面二.安装Anaconda1.安装AnacondaAnaconda安装完成勾选安装选项二.安装Anaconda2.启动JupyterNotebook启动JupyternotebookAnaconda的快捷菜单二.安装Anaconda2.启动JupyterNotebookJupyterNotebook主页二.安装Anaconda3.浅尝Python新建case2-1的脚本源程序编写源代码人工智能基础与应用Thankyouverymuch!2-4NumPy基础应用模块❷Python:人工智能开发语言目录CONTENTS求解三元一次方程01数组计算02向量化处理03一.求解三元一次方程1.NumPy安装在Anaconda中已包含NumPy等基础库,如果其中没有找到NumPy,说明它还没有安装或已被卸载,需要执行以下命令来安装NumPy。
pip3installnumpyNumpy安装界面一.求解三元一次方程2.引例执行结果:二.数组计算1.数组定义数组是NumPy中最基础的数据结构,N维数组对象是ndarray,它是一系列同类型元素的集合,以0开始表示集合中元素的索引。在深度学习中,神经元之间的连接关系往往采用数组形式的参数来表示,还有大数据的统计也常常采用数组特性进行排序、去重和统计计算等。使用NumPy提供的数组操作,比使用常规的Python数组操作有更高的效率和更简洁的编程代码。ndarray0开始索引表示处理高校编程简洁二.数组计算2.引例1 importnumpyasnp2 iris_data=np.loadtxt("./data/iris.csv",delimiter=",",skiprows=1)3 print(type(iris_data))4 print(iris_data.shape)5 print('花萼长度的最大值:',np.max(iris_data[:,1]))6 print('花萼长度的最小值:',np.min(iris_data[:,1]))7 print('花萼长度的平均值:',np.mean(iris_data[:,1]))8 print('花萼长度的标准差:',np.std(iris_data[:,1]))9 print('花萼长度的方差:',np.var(iris_data[:,1]))二.数组计算2.引例执行结果:数组计算方便代码简洁高效三.向量化处理1.概念三.向量化处理2.引例读数据三.向量化处理2.引例VS结果对比:人工智能基础与应用Thankyouverymuch!2-5Matplotlib基础应用模块❷Python:人工智能开发语言目录CONTENTS绘制直方图01绘制散点图02一.绘制直方图1.Matplotlib简介Python的第三方库Matplotlib提供了丰富的绘图功能,是一个非常好用的数据可视化工具。Anaconda中已包含该工具,可以直接调用该第三方库。matplotlib官网一.绘制直方图2.引例一.绘制直方图2.引例运行结果:二.绘制散点图1.概念散点图利用一系列的散点将两个变量的联合分布情况描绘出来,可以从图形分布中推断一些信息,如两个变量间是否存在某种有意义的关系,当数据以恰当的方式在散点图中展示出来时,就可以非常直观地观察到某些趋势或者模式,也就可以揭示变量之间的关系。下面,以鸢尾花数据集为例,利用seaborn库的散点图尝试揭示鸢尾花花瓣的宽度和长度之间的关系。二.绘制散点图2.引例二.绘制散点图2.引例执行结果:人工智能基础与应用Thankyouverymuch!2-6项目1—精准扶贫计划模块❷Python:人工智能开发语言目录CONTENTS提出问题01解决方案02预备知识03任务1—从键盘输入方程的系数04任务2—调用roots函数求解方程05一.提出问题问题描述某县城当年有约12000个贫困人口,为合理利于扶贫资源、保持可持续减贫目标,计划3年后将贫困人口控制在2000左右,你认为将年平均贫困人口下降率定为多少比较合适?如何利用numpy求解该问题二.解决方案方案分析数学描述:解决流程:三.预备知识求根函数rootsnumpy.roots([多项式系数])Polynomial([多项式系数]).roots()用法1:用法2:四.任务1——从键盘输入方程的系数1.两种实现代码方法1方法2四.任务1——从键盘输入方程的系数2.运行结果方法1结果:方法2结果:五.任务2——调用roots函数求解方程1.任务描述用两种方法实现!五.任务2——调用roots函数求解方程2.实现代码方法1:方法2:五.任务2——调用roots函数求解方程2.运行结果方法1:方法2:人工智能基础与应用Thankyouverymuch!2-7项目2—解读第二产业的GDP发展趋势模块❷Python:人工智能开发语言目录CONTENTS提出问题01解决方案02预备知识03任务1—读取GDP数据并观察数据结构04任务2—绘制GDP数据的折线图05一.提出问题问题描述当拿到大量有关GDP的数据时,如何从这些表面看起来杂乱无章的数据中解读出一些有价值的信息呢?显然,如果能将这些数据以图形的方式展现出来,如将这些数据以随时间(或另一个变量)而变化的关系在图上绘制出来,是否能直观地帮助人们更深入洞悉数据背后可能隐藏的一些有用信息呢?如何用图形展示数据规律二.解决方案方案分析使用工具:解决方案示意图:数据处理绘制图形三.预备知识Lineplot函数四.任务1——读取GDP数据并观察数据结构1.读数据用Pandas读数据数据排序四.任务1——从键盘输入方程的系数2.观察数据12行、4列数据,每列数据有列名五.任务2——绘制GDP数据的折线图1.现实代码为什么类型转换五.任务2——绘制GDP数据的折线图2.运行结果你能解读出哪些结论?人工智能基础与应用Thankyouverymuch!3-1认识机器学习模块❸线性回归:预测未来趋势目录CONTENTS机器如何学习01机器学习算法02一.机器如何学习1.机器学习的一般流程机器通过学习,就具备了可以自主获得事物规律或解决问题的能力一.机器如何学习2.机器学习的三要素经验数据从哪学?算法怎么学?模型学到什么?以算力作为支撑二.机器学习算法1.监督学习所谓监督学习:是指机器在有已知输入值xi和输出值y的经验数据(样本)的情况下开展的学习。学习方法特点:(1)训练的数据有标签(label)。(2)样本的特征和标签已知。(3)学习的目的就是建立一个将输入准确映射到输出的模型。基于动物特征的猫鼠分类的监督学习二.机器学习算法2.无监督学习无监督学习:就是指机器在学习过程中不受监督,学习模型不断提高自我认知和不断巩固,最后进行自我归纳来达到学习目的。学习方法特点:(1)无需大量的标注数据。(2)以更接近人类的学习方式不断自我发现、学习和调整。不同分类结果的无监督学习人工智能基础与应用Thankyouverymuch!3-2认识线性回归模块❸线性回归:预测未来趋势目录CONTENTS线性回归的数学表达式01梯度下降法03线性回归的几个概念02一.线性回归的数学表达式定义及表达式线性回归(linearregression)是一种通过拟合自变量xi与因变量y之间的最佳线性关系,来预测目标变量的方法。如果上式中只包括一个自变量x和一个因变量y,且二者的关系可用一条直线近似表示,则这种回归分析被称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量xi,且因变量y和自变量xi之间是线性关系,则称其为多元线性回归分析。二.线性回归的几个概念1.方差衡量误差真实值:预测值:y二.线性回归的几个概念2.总平方和SST:衡量了所有观测值相对于整体均值的离散程度。其值越大,说明原始的样本本身具有越大的波动,这种波动反映了因变量的整体偏差。如何评价上述直线对真实值拟合的好坏程度二.线性回归的几个概念3.拟合优度R2:称为判断系数或拟合优度。由右式可知,线性回归方程以外的其他因素引起的误差SSE越小,R2就越接近1,表示此线性回归方程可以很好地解释因变量的变化;反之,如果SSE越大,接近总体偏差SST,R2就越接近0,说明此问题可能不适合采用线性回归模型解决。尽可能最小y=+三.梯度下降法1.定义梯度下降法:是一种用于求解函数最小值的优化算法。其基本思想是通过迭代的方式,沿着函数的负梯度方向逐步减小函数值,直到达到局部最小值。梯度下降法适用于求解无约束优化问题,常用于机器学习中的参数优化。损失函数L可以理解为系数b和w的函数,记为寻找损失函数L(b,w)的最小值的过程,实际就是按照某种方向,不断去微调b和w的值,一步一步尝试找到这个最小值。Min()三.梯度下降法2.求解过程三.梯度下降法3.线性回归解决问题一般步骤01根据问题构建一个线性回归模型,即构建一个函数。02用样本训练模型,使用梯度下降法调整模型参数,目标使损失函数最小。03重复步骤(2),直至找到损失函数的最小值。04用验证集测试模型的精度,评价指标常为均方误差MSE。05如预测结果不满意,则需要改进模型(如加大训练集、改变学习率等)。06回到步骤(2),重新训练模型,直至获得满意的模型。07利用自变量xi和满意的模型去计算预测值y,从而解决预测问题。人工智能基础与应用Thankyouverymuch!3-3项目1—预测二手车价格模块❸线性回归:预测未来趋势目录CONTENTS提出问题01预备知识03解决方案02任务1—准备训练集和测试集04任务3—模型的测试及评估06任务2—模型的构建与训练05一.提出问题问题描述
市面上二手车种类繁多,又涉及到汽车的诸多专业知识,对于多数人而言,购买一辆与实际价格相符、车型适中的二手车,并不是一件轻松的事情。如果能从二手车交易的历史记录中发现某种规律,如何合理评估一台二手车的预交易价格呢?让机器帮你找到这个问题的答案二.解决方案1.问题本质二手车价格预测问题,其实是寻找二手车的基本特征(如汽车品牌、变速箱类型、已使用年限等)与价格之间的关系多元线性回归的机器学习问题二.解决方案2.解决方案三.预备知识1.数据归一化(1)min-max标准化(2)零均值标准化三.预备知识2.线性回归模型如何训练1)定义模型:假设有9个自变量x(品牌、车身类型等)影响二手车的价格,模型的输出值是价格y。因此,模型的假设函数表达式如下。2)构造损失函数:
3)开始训练:初始化参数,包括参数φ、学习率和迭代次数n。将样本数据输入模型,计算损失函数。利用学习算法如梯度下降法寻找损失函数的最小值,并依次更新模型的参数。不断重复步骤(2)、(3),直到模型收敛于或训练迭代次数达到设定阈值n即停止。四.任务1——准备训练集和测试集1.样本数据结构四.任务1——准备训练集和测试集2.数据集归一化处理切分数据切分数据四.任务1——准备训练集和测试集2.数据集归一化处理归一化后的样本数据四.任务1——准备训练集和测试集3.数据集分成训练集和测试集训练集测试集五.任务2——模型的构建与训练1.了解模型参数五.任务2——模型的构建与训练2.代码实现构建模型五.任务2——模型的构建与训练2.代码实现模型训练后的结果为啥模型得分不高?六.任务3——模型的测试及评估1.计算均方误差代码执行后的结果六.任务3——模型的测试及评估2.绘制预测效果图实现代码六.任务3——模型的测试及评估2.绘制预测效果图运行结果六.任务3——模型的测试及评估3.误差原因分析01异常值对预测结果的影响。02样本集特征值个数过少对预测结果的影响。03样本的规模对预测结果的影响。04其它,如模型类型等。人工智能基础与应用Thankyouverymuch!3-4项目2—预测投保人医疗费用模块❸线性回归:预测未来趋势目录CONTENTS提出问题01预备知识03解决方案02任务1—加载数据并进行数据预处理04任务3—进一步改善模型性能06任务2—训练和测试医疗费用预测模型05一.提出问题问题描述我国农村医疗保险和全民医保制度的全面实施,缓解了广大人民群众“看病贵”的问题,提高了人民群众的生活质量,也改变了人们对保险的认识,越来越多人的接受和认可商业保险。与此同时,医疗保险公司作为一种商业经营实体,对投保人在未来可能发生的医疗费用进行预测,这是医疗保险公司回避风险、提高经营利润的一种保障措施。如何能得到一个较为精准的医疗费用预测模型呢机器如何去学习预测?二.解决方案1.问题本质医疗费用预测问题,就是试图从投保人的特征变量入手,通过机器学习提供的某种模型,如线性回归等,来寻找一个医疗费用与投保人特征相关的函数表达式。仍然采用多元线性回归来求解问题二.解决方案2.解决方案三.预备知识1.DataFrame数据的检索用途:从数据集中切分出需要的数据loc方法使用名称检索iloc方法使用索引号检索三.预备知识1.DataFrame数据的检索示例:运行结果三.预备知识2.DataFrame数据的更改1)按索引条件直接更改:结果三.预备知识2.DataFrame数据的更改2)用apply方法更改:结果四.任务1——加载数据并进行数据预处理1.导入相关库并加载数据读取的数据四.任务1——加载数据并进行数据预处理2.数据清洗和转换对数据进行转换,以方便机器学习四.任务1——加载数据并进行数据预处理3.数据的归一化处理归一化后的样本数据五.任务2——训练和测试医疗费用预测模型1.构建线性回归模型构建线性回归模型五.任务2——训练和测试医疗费用预测模型2.准备训练集和测试集按7∶3的比例分为训练集和测试集五.任务2——训练和测试医疗费用预测模型3.模型训练和测试运行结果五.任务2——训练和测试医疗费用预测模型4.预测结果可视化可视化结果六.任务3——进一步改善模型性能1.改进方向01分析样本特征的相关性。Age与bmi强相关六.任务3——进一步改善模型性能1.改进方向02考虑模型中是否存在非线性变量。处理办法六.任务3——进一步改善模型性能1.改进方向03评估连续性变量的影响是否也是连续的。处理办法六.任务3——进一步改善模型性能1.改进方向改进举例:消除bmi和smoker的共同作用六.任务3——进一步改善模型性能1.改进方向改进后的效果:相对于前一个模型,改进后的模型得分一下子提高到0.869,说明此模型能更好地解释医疗费用的变化,这可能提示肥胖吸烟者对医疗费用的影响是巨大的。六.任务3——进一步改善模型性能2.预测费用预测费用:人工智能基础与应用Thankyouverymuch!4-1分类器模块❹分门别类:帮你“分而治之”目录CONTENTS什么是分类器01分类器如何工作02一.什么是分类器1.概念分类器:分类是人工智能的一种重要方法,是在已有数据的基础上学习出一个分类函数或构造出一个分类模型,该函数或者模型就是一个能完成分类任务的人工智能系统,即人们通常所说的分类器。。数据集分类器给定的某个类型二.分类器如何工作1.一般工作过程三个关键要素:1样本特征2正负样本3分类器类型二.分类器如何工作2.三个概念(1)样本特征。样本特征提取是分类器工作的首要任务,如果待分类对象没有提取特征,也就没有分类的依据,就无从辨别对象的种类。综合考虑关联对象的差异,提取出有效的特征,让分类器准确工作。(2)正、负样本。针对分类问题,正样本是指想要正确分类出的类别所对应的样本,负样本是指不属于这一类别的样本。既要考虑正样本,又要根据实际工作场景,合理选取足够多的负样本,保证模型训练效果。(3)分类器。分类器通过学习得到一个目标函数或模型(以下统称为模型),它能把样本的特征集X映射到一个预先定义的类别号y。二.分类器如何工作2.三个概念那么,机器学习中,常见的分类器有哪些呢人工智能基础与应用Thankyouverymuch!4-2几种主要的分类器模块❹分门别类:帮你“分而治之”目录CONTENTS决策树01k近邻分类器03贝叶斯分类器02神经网络05支持向量机04一.决策树概念决策树(decisiontree):用于决策的一棵“树”,它从根节点出发,通过决策节点对样本的不同特征进行划分,按照结果进入不同的选择分支,最终到达某一叶子节点,获得分类结果。垃圾邮件分类决策树:二.贝叶斯分类器1.概念贝叶斯分类器(bayesclassifier):就是对于给定的分类项,利用贝叶斯定理,求解该分类项在预先给定条件下各类别中出现的概率,哪个概率最大,就将其划分为哪个类别。贝叶斯定理公式:二.贝叶斯分类器2.举例用贝叶斯分类器来判定垃圾邮件:
x=[1,0]分别表示正常邮件和垃圾邮件E:由n个关键词组成的邮件三.k近邻分类器概念k近邻(k-NearestNeighbor,KNN)分类器:把每个具有n个特征的样本看作n维空间的一个点,对于给定的新样本,先计算该点与其他点的距离(相似度),然后将新样本指派为周围k个最近邻的多数类。什么形状的物体四.支持向量机1.概念支持向量机(SupportVectorMachine,SVM):基本思想是通过非线性映射,把样本空间映射到一个高维的特征空间,将原本样本空间线性不可分的问题,转化成在高维空间通过线性超平面将样本完全划分开的问题。不可分:可分:四.支持向量机1.原理超平面离直线两边的数据的间隔越大,对训练集的数据的局限性或噪声有最大的容忍能力,也就是所谓的鲁棒性。支持向量机就是要找到使这个间隔最大的决策超平面。五.神经网络1.概念神经网络(NeuralNetwork)是一种模仿动物神经网络行为特征进行分布式并行信息处理的算法数学模型。权重值w激活函数φ加权求和及函数sgn处理神经网络基本结构:人工智能基础与应用Thankyouverymuch!4-3项目1—识别猫狗模块❹分门别类:帮你“分而治之”目录CONTENTS提出问题01预备知识03解决方案02任务1—样本数据预处理04任务3—评估模型效果06任务2—构建及训练KNN模型05一.提出问题问题描述
对于人类来说,可以很容易识别身边的猫和狗,这是人类视觉经千万年演变进化的结果。但对于计算机而言,想让它识别一个图像上的猫和狗就不那么容易了。如何能让计算机识别出下图中的猫和狗呢?二.解决方案1.选择分类器选用KNN其核心思想是:如果一个样本在特征空间中的k个最近邻中的多数属于某个类别,则该样本也属于这个类别。通常采用欧氏距离来计算两样本之间的距离大小,并据此找到某样本的k个最近邻。猫或狗?K个最近邻中,多数是猫K个最近邻中,多数是狗二.解决方案2.解决方案三.预备知识1.图像灰度化灰度化实现代码:三.预备知识2.欧氏距离点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根用KNN算法计算两个样本之间的距离,以此来判定某个样本周围哪些邻居离它是最近的或者是最相似的。欧氏距离是常用的一种计算公式。样本X与样本Y之间的欧氏距离等于各特征值之差的平方和的平方根三.预备知识3.
KNN算法的主要参数点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根三.预备知识4.分类性能度量指标(1)真正(TruePositive,TP):被模型预测为正的正样本。(2)假正(FalsePositive,FP):被模型预测为正的负样本。(3)假负(FalseNegative,FN):被模型预测为负的正样本。(4)真负(TrueNegative,TN):被模型预测为负的负样本。(1)真正(TruePositive,TP):被模型预测为正的正样本。(2)假正(FalsePositive,FP):被模型预测为正的负样本。(3)假负(FalseNegative,FN):被模型预测为负的正样本。(4)真负(TrueNegative,TN):被模型预测为负的负样本。三.预备知识4.分类性能度量指标(1)精确率(2)正确率(3)召回率(4)F1值四.任务1——样本数据预处理1.将图像信息转存为向量(1)导入相关的库(2)定义转换函数img2array将图像数据转换成一维向量四.任务1——样本数据预处理1.将图像信息转存为向量(3)调用函数生成向量保存灰度图像信息的向量内容四.任务1——样本数据预处理2.批量生成样本数据(1)生成所有样本的特征值和标签值四.任务1——样本数据预处理2.批量生成样本数据(2)样本数据的归一化处理归一化数据生成训练集和测试集四.任务2——构建及训练KNN模型1.构建KNN模型上述代码定义一个KNN模型knn,模型中参数n_neighbors=13(采用训练样本数量的平方根的一半)、p=2表示使用欧氏距离来计算样本相似度大小,weights='distance'表示权重与距离成反比,即更近的近邻有更高的权重。四.任务2——构建及训练KNN模型2.训练模型(1)用训练集x_train、y_train来训练模型(2)观察模型训练效果训练效果不错,在测试集上是否任然有很好的表现?四.任务3——评估模型效果1.
测试模型性能模型性能测试报告评价精度为63%狗的召回率62%猫的召回率64%什么原因导致模型不理想?四.任务3——评估模型效果2.通过交叉表了解模型的错分情况(1)直观分析:四.任务3——评估模型效果2.通过交叉表了解模型的错分情况(2)交叉表分析:正确识别36个错误划分34个四.任务3——评估模型效果2.通过交叉表了解模型的错分情况如何去改善模型的性能例如尝试改变模型参数K人工智能基础与应用Thankyouverymuch!3-4项目2—辅助诊断乳腺癌模块❹分门别类:帮你“分而治之”目录CONTENTS提出问题01预备知识03解决方案02任务1—准备训练集和测试集04任务3—评估模型诊断效果06任务2—构建和训练模型05一.提出问题问题描述随着医疗AI在医疗领域的投入使用,如今智慧医疗科技的新纪元已经开启,如图4-17所示,借助“人工智能大脑”,AI辅助诊疗新时代正在到来。而现在AI辅助诊断技术的应用,能够很大程度地提高医疗机构、医生的工作效率,降低医生的工作强度,降低漏诊率。那么,AI是如何辅助医生进行病情诊断的呢二.解决方案1.问题本质从活检数据中判断患者是有病还是没病,本身是一个二分类问题,另外,活检数据稀有、获取成本高,符合SVM的适用条件,为此,采用SVM进行分类。采用SVM求解问题二.解决方案2.解决方案三.预备知识1.SVM的最优分界面H0则是最优分界面,因为它到两边临界分界面的距离最大,具有较强的抗噪声能力和较小的泛化误差。三.预备知识2.SVM模型参数核函数K(x,y)变换线性不可分线性可分SVM模型的常用参数三.预备知识3.解读数据集其中id列是编号,无实际意义。诊断列diagnosis取值[M|B],分别表示诊断为恶性或良性。其他30个列由细胞核的10个不同特征的平均值、标准差、最差值等构成。四.任务1——准备训练集和测试集1.按比例生成训练集和测试集8:2比例降为1维四.任务1——准备训练集和测试集2.观察测试集的分布情况用数据预测是否患病五.任务2——构建和训练模型1.用训练样本训练SVM模型训练模型构建模型用支持向量机svm构建预测模型,核函数为rbf,惩罚参数C取值为1五.任务2——构建和训练模型1.查看模型训练效果训练得分不理想什么原因五.任务3——评估模型诊断效果1.用测试样本测试SVM模型运行结果如何改善五.任务3——评估模型诊断效果2.改善模型的性能1归一化:2调整模型参数C:改善前改善后五.任务3——评估模型诊断效果2.改善模型的性能还有哪些改进模型的办法人工智能基础与应用Thankyouverymuch!5-1聚类分析模块❺物以类聚:发现新簇群目录CONTENTS何为聚类分析01常见聚类方法02聚类性能度量03一.何为聚类分析1.定义聚类分析:他是一种典型的无监督学习,也就是在事先不知道每个样本的类别、没有对应标签值的情况下,将未知类别的样本按照一定的规则划分成若干个相对独立的簇。簇的特点:同一个簇中的样本尽可能相似不同的簇中的样本尽可能不相似一.何为聚类分析2.典型应用领域领域销售领域医学领域生物领域安全领域一.何为聚类分析3.几个概念如何去描述簇?簇质心簇大小簇密度簇号…二.常见聚类方法1.基于划分的聚类二.常见聚类方法2.基于层次的聚类二.常见聚类方法3.基于密度的聚类三.聚类性能度量2.三个概念无论使用什么聚类方法对样本进行分簇,都会涉及如何对聚类后的结果进行评估,以度量聚类模型的性能的问题。聚类性能度量指标用于对聚类后的结果进行评估,分为内部指标和外部指标两大类。外部指标要事先指定聚类模型作为参考来评估聚类结果的好坏,称为有标签的评估;而内部指标是指不借助任何外部参考,只用参与聚类的样本本身评估聚类结果的好坏。内部指标惯性值轮廓系数CH分数该值越小越好,越小证明样本在类间的分布越集中值越大,说明同类样本相距越近,不同样本相距越远。当簇密集且分离较好时,CH分数更高,因此CH值越大越好。人工智能基础与应用Thankyouverymuch!5-2k均值聚类模块❺物以类聚:发现新簇群目录CONTENTSk均值算法01k均值算法应用提示02一.k均值算法1.概念k均值(k-means)算法是一种基于距离划分的聚类算法,由于其具有算法简单、灵活性高、运行效果足够好等特点,因此较常用。该算法计算样本与簇质心的距离,与簇质心相近的样本被划分为同一簇。重用欧式距离计算样本之间的相似度一.k均值算法2.算法流程一.k均值算法2.算法流程“×”为质心,第一轮迭代后用分别标记为星形和圆形来表示两个类别,此时新的质心的位置已经发生了改变。图5-5(e)和图5-5(f)重复了图5-5(c)和图5-5(d)所示的过程。××二.k均值算法应用提示1.k的初值k的初值。k是一个提前定义好的数,其目标是最小化每个簇内部的差异,最大化簇之间的差异。那k取什么值合适呢?它取决于具体的业务需求或分析动机。例如,营销部门只有3种不同的客户资源来支撑拓展市场,那么设定k=3以聚类3种不同的客户可能是一个不错的决定。k=没有先验知识,建议令然后在附近值搜索。二.k均值算法应用提示2.初始质心的选择k均值算法对初始质心是比较敏感的,这意味着随机的初始质心可能会对最终的聚类结果产生较大的影响。选择初始质心的方法有3种:一是如果事先知道某几个样本彼此之间完全不同,就选择它们作为初始质心;二是跳出样本范围,在特征空间的任意地方取随机值为初始质心;三是分段选择初始质心,第一个初始质心随机选择,其他初始质心按距离已定初始质心最远的样本点来选择。建议:通过多次运行,以聚类性能最优的聚类结果为最优解。二.k均值算法应用提示3.聚类完毕后有簇号聚类后所有样本都是有簇号的。原来没有标签号(簇号)的样本经过聚类会拥有一个簇号。相同簇号的样本的特征平均值就是该簇质心的坐标,这也是k均值算法名称的由来。提示:簇号默认从0开始,相同簇号的样本属于一类。二.k均值算法应用提示4.聚类结束条件尽管聚类能产生新的信息,但人们不应该在新信息的准确性上花费太多时间,因为聚类是无监督学习,所以更应该关注对新信息的洞察和理解。当样本数量很大,或者定义的聚类误差很严苛时,为避免聚类陷入迟迟不出结果的尴尬局面,必须设定最大迭代次数和误差阈值,满足其一即可停止聚类。提示:迭代达到最大值,停止;或相邻两次聚类后质心移动的距离小于误差阈值,停止。人工智能基础与应用Thankyouverymuch!5-3项目1—探究企鹅物种的分类模块❺物以类聚:发现新簇群目录CONTENTS提出问题01预备知识03解决方案02任务1—样本数据的预处理04任务3—绘制企鹅聚类后的散点图06任务2—确定企鹅物种数量k的最佳值05一.提出问题问题描述由于全球气候变暖和人类活动的影响,企鹅的生存状况并不乐观。因此,我们应该采取行动来保护这些迷人的生物,以确保它们能够正常繁衍、继续生存。为此,一项必要的工作就是研究如何区分企鹅的种类、哪些特征决定了它们的差异。一眼看企鹅都很相似,如何区分不用物种的企鹅呢?弄清这些问题就能更好地保护不同的企鹅,使它们成为人类永远的朋友。二.解决方案1.选择聚类法k均值算法解决问题基本思想:基于企鹅的一些形态特征(如嘴的大小、体重等)反映了企鹅的独特之处和一些重要信息,然后用聚类算法K-Means对样本进行聚类,最后得到各样本的类别。聚类0类1类0类二.解决方案2.具体方案三.预备知识1.企鹅常识已知地球上现存的企鹅共有20余种,它们的头部颜色、个体大小、体型等不尽相同。其中喙的长度、深度,鳍肢的长度和重量等特征对企鹅的生存影响较大。这些特征之间是否存在强相关关系,这样的关系是否会对企鹅的分类造成影响?可以通过后期的数据分析找到该问题的答案。三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根什么是降维?为什么要降维?前文已经谈到,在衡量采用什么方法来分析数据之前最好能对数据的全貌有一个可视化的了解,能从中发现一些内在规律或启示,以便更好地指导人们选择相对合理的方法来解决问题。通常只在二维或三维的空间可视化数据,但原始数据的实际维度可能是四维甚至更高维度。采用数据降维的方法将原始数据的维度降为二维或三维,以便进行可视化处理,从而直观了解数据的分布。除此之外,数据降维还有提高计算速度、提高模型拟合度等好处。三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根【引例5-1】分析企鹅数据集中可能存在的强相关特征,选取合适的特征集,采用PCA对企鹅数据集penguins进行降维,并绘制降维后的数据散点图。(1)绘制出热力图,了解各特征之间的相关度。三.预备知识2.数据降维点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根【引例5-1】分析企鹅数据集中可能存在的强相关特征,选取合适的特征集,采用PCA对企鹅数据集penguins进行降维,并绘制降维后的数据散点图。(1)绘制出热力图,了解各特征之间的相关度。运行结果三.预备知识2.数据降维(2)绘制散点图,观察数据样本在三维空间中的分布情况。运行结果三.预备知识2.数据降维(2)绘制散点图,观察数据样本在三维空间中的分布情况。运行结果企鹅是否划分为4个物种比较合适三.预备知识3.认识k均值聚类点X与点Y之间的欧氏距离等于各特征值之差的平方和的平方根四.任务1——样本数据的预处理1.查看数据的异常情况(1)观察数据空值情况数据集空值分布统计:四.任务1——样本数据的预处理1.查看数据的异常情况(2)异常值的统计四.任务1——样本数据的预处理2.对数据进行预处理对数据进行空值删除、异常值剔除和数据的标准化处理四.任务2——确定企鹅物种数量k的最佳值1.导入相关的第三方库及模块要对企鹅样本数据进行聚类,在读取样本数据的基础上,除进行聚类操作外,还要计算轮廓系数和惯性值,所以要通过以下代码导入相关的第三方库及模块。四.任务2——构建及训练KNN模型2.绘制k值与轮廓系数、惯性值的变化关系图四.任务2——构建及训练KNN模型2.绘制k值与轮廓系数、惯性值的变化关系图代码的运行结果四.任务3——绘制企鹅聚类后的散点图1.按k=4对企鹅样本数据进行聚类(1)算法训练(2)观察标签值及质心四.任务3——绘制企鹅聚类后的散点图1.按k=4对企鹅样本数据进行聚类(1)算法训练(2)观察标签值及质心四组质心四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图(1)实现代码:四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图运行结果四.任务3——绘制企鹅聚类后的散点图2.绘制聚类后样本的散点图(2)分析结论:企鹅分为4类比较合适,同时不难看出:企鹅的喙深度、重量和性别3个指标可能是区分企鹅物种的主要因素。人工智能基础与应用Thankyouverymuch!5-4项目2—电商客户分类模块❺物以类聚:发现新簇群目录CONTENTS提出问题01预备知识03解决方案02任务1—选择最佳的客户群分数目k04任务3—为3类客户提出营销建议06任务2—计算3类客户的RFM平均值05一.提出问题问题描述随着电商市场的快速发展,众多的企业将营销重点从产品转向客户,维持良好的客户关系逐渐成为企业发展的核心。充分了解客户群体,知道哪些客户是重要保持客户、哪些客户是重要发展客户、哪些客户是一般挽留客户等,事实现企业利润最大化的重要保证。哪如何精准区分电商系统中客户的群体类别,并根据客户群分结果采取不同的营销措施呢二.解决方案2.解决方案(1)先验知识消费间隔消费频率消费总额客户群分营销策略二.解决方案2.解决方案(2)具体方案三.预备知识1.RFM模型介绍利用消费间隔R、消费频率F和消费总额M这3个指标,采用k均值算法对客户进行聚类。三.预备知识2.k均值模型主要属性【引例5-2】对比聚类后4种企鹅的质心数据。(1)导入相关三方库三.预备知识2.k均值模型主要属性(2)数据处理及获取聚类后的质心三.预备知识2.k均值模型主要属性(3)绘制4类企鹅在6个维度上的雷达图四.任务1——选择最佳的客户群分数目k1.清洗掉无关的数据kfm_datas数据四.任务1——选择最佳的客户群分数目k2.对数据进行标准化处理X部分值:四.任务1——选择最佳的客户群分数目k3.求不同k值下客户群分的聚类性能指标CH分数轮廓系数惯性值四.任务1——选择最佳的客户群分数目k4.绘制3个内部聚类性能指标的变化图四.任务1——选择最佳的客户群分数目k4.绘制3个内部聚类性能指标的变化图运行结果五.任务2——计算3类客户的RFM平均值1.重新聚类最后得到聚类后的各样本标签五.任务2——计算3类客户的RFM平均值2.求质心数据各客户类型统计数据五.任务3——为3类客户提出营销建议1.绘制客户群体的R、F、M指标折线图五.任务3——为3类客户提出营销建议1.绘制客户群体的R、F、M指标折线图运行结果五.任务3——为3类客户提出营销建议2.提供营销建议五.任务3——为3类客户提出营销建议2.提供营销建议对3类客户进行了价值排名,并随后分别给出了营销建议!人工智能基础与应用Thankyouverymuch!6-1认识个性化推荐模块❻个性化推荐:主动满足你的需求目录CONTENTS个性化推荐的思路01推荐算法分类02推荐效果评估03一.个性化推荐的思路1.基于的事实认知人们更喜欢那些与自己喜欢的东西相似的物品、倾向于与和自己趣味相投的人有相似的爱好,或者不同的客户群体有固定的购物习惯等。个性化推荐的实现过程:一.个性化推荐的思路2.推荐系统的两个特性特征主动化个性化推荐系统应用领域二.推荐算法分类1.协同过滤推荐算法基本思想:给用户推荐和他兴趣相似的用户感兴趣的物品。当需要为用户A推荐时,首先找到和A兴趣相似的用户集合(用U表示),然后把集合U中所有用户感兴趣而A没有听说过(未进行过操作)的物品推荐给A。1.基于用户的协同过滤推荐算法:算法步骤:1.计算用户之间的相似度,选取最相似的N个用户构成用户集合。2.找到集合中用户喜欢但目标用户没有用过的物品,将其推荐给目标用户。二.推荐算法分类1.协同过滤推荐算法皮尔逊相关系数:P余弦向量相似度:相似度计算:二.推荐算法分类1.协同过滤推荐算法基于用户协同过滤推荐示例:二.推荐算法分类1.协同过滤推荐算法2.基于物品的协同过滤推荐算法:基本思想:给用户推荐与他们以前喜欢的物品相似的物品。这里所说的相似并非从物品的角度出发,而是基于一种假设:喜欢物品A的用户大多也喜欢物品B,代表着物品A和物品B相似。算法步骤:1.计算物品之间的相似度。2.针对目标用户u,找到和用户感兴趣的物品最相似的物品集合,然后根据其感兴趣程度由高到低确定N个物品并推荐给用户u。二.推荐算法分类1.协同过滤推荐算法2.基于物品的协同过滤推荐算法:物品相似度计算用户u对可能感兴趣的物品j的兴趣度二.推荐算法分类1.协同过滤推荐算法2.基于物品的协同过滤推荐算法:基于物品的协同过滤推荐示例二.推荐算法分类2.
基于内容推荐算法基本思想:向用户推荐与其感兴趣的内容相似的物品,如用户喜欢励志类电影,那么系统会直接他推荐《阿甘正传》这部电影。这个过程综合考虑了用户兴趣和电影内容,因此不需要提供用户的历史行为数据,这能够很好地解决新用户的“冷启动”问题。算法步骤:1.为每个物品(Item)构建一个物品的特征。2.为每个用户(User)构建一个用户的喜好特征。3.计算用户喜好特征与物品特征的相似度,向用户推荐相似度最高的物品。二.推荐算法分类3.关联规则推荐算法基本原理:基于物品之间的关联性,通过对用户的购买记录进行规则挖掘,发现不同用户群体之间共同的购买习惯,从而实现用户群体的兴趣建模和物品推荐。概念:项集而项集是指总项集中所有不同项目分别组合形成的集合,如{牛奶}、{牛奶,面包}、{牛奶,尿不湿,啤酒}等。项目数为k的项集称为k-项集,因此,上述项集分别是1-项集、2-项集、3-项集。二.推荐算法分类3.关联规则推荐算法关联规则3个统计量二.推荐算法分类3.关联规则推荐算法关联规则3个统计量关联规则的提取即找出所有支持度大于等于最小支持度,且置信度大于等于最小置信度以及提升度靠前(大于1)的关联规则。像{牛奶}→{面包}这样的关联规则称为强关联规则,因为它们同时具有高支持度和高置信度。二.推荐算法分类3.关联规则推荐算法Apriori算法简介算法步骤:1.通过迭代计算所有事务中的频繁项集,即支持度不低于用户设定的阈值的项集。2.利用频繁项集构造出满足用户最小置信度的关联规则。二.推荐算法分类3.关联规则推荐算法Apriori算法应用示例求最小支持度是50%,最小置信度是50%的关联规则二.推荐算法分类3.关联规则推荐算法Apriori算法应用示例使用Apriori
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 路基灰土施工方案
- 2025年护理要解剖学试题及答案
- 基于涉入理论的高尔夫球手地方依恋研究
- 5年级上册第5单元
- 4年级下册人教版要写的字第七课
- 4大发明英语简短50字左右
- 矿用管路安装施工方案
- 站台墙施工方案
- 【HR必看】房地产公司三级管控体系优化案例
- 2025年湖北省荆门市单招职业倾向性测试题库及参考答案1套
- (综合治理)修复工程指南(试行) - 贵州省重金属污染防治与土壤修复网
- 员工就餐签到表
- A-level项目介绍(课堂PPT)
- 证明银行账户公户转个人户
- 航海计算软件---ETA计算器
- 光伏电站运维手册
- 南京连续运行卫星定位综合服务系统
- 半导体及集成电路领域的撰写及常见问题
- 2000年考研英语真题及答案
- 设计成果接收单确认单及付款申请表
- 水保及环保管理体系与措施
评论
0/150
提交评论