版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
必修基本概念必修一一、数据与信息数据是对客观事物的符号表示,在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号总称,其表现形式可以是文字(数字)、图形、图像、音频、视频等。信息的一般定义是数据所包含的意义。在信息论中,香农给出的定义是用来消除随机不确定的东西。信息的特征:(1)载体依附性:即信息必须依附于载体存在,不存没有载体的信息。(2)时效性:信息(的内容或价值)会随着时间的推移发生变化。(3)共享性:信息可以共享,且在传播的过程中不产生损耗。(4)可加工处理性、真伪性:信息是可以进行加工的,加工后的信息具有真伪性。(5)价值性:信息的价值包括显性价值和隐形价值两个方面,同时价值的高低具有相对性。二、数字化数字化的定义:将模拟信号转换为数字信号的过程称为数字化。其中用到的主要设备是模数转换器(ADC)。模拟量:模拟信号以连续变化的物理量存在,自然界中大多数信号都以模拟量形式存在。数字量:数字信号在取值上是离散的、不连续的信号。将模拟信号转换成数字信号一般需要经过采样、量化与编码三个步骤。(1)采样的参数是采样频率,单位是赫兹(Hz)。根据采样定理:当采样频率大于或等于被采样信号最高频率的两倍时,得到的离散信号可以完整的保留原始信号的所有信息。(2)量化指将信号的连续取值近似为有限个离散值的过程。量化主要参数是量化位数,单位是比特(bit);量化位数越多,划分的越精细,量化结果与实际数据也越接近。三、数制四、编码UltraEdit软件字符内码ASCII码通常用来对拉丁字母进行编码(半角符号)。该编码使用1个字节中的低7位编码,由128个代码组成(每个字节的开头0~7,即00~7F)。1个ASCII码字符储存时占用1个字节的空间。GB2312通常用来对汉字进行编码(全角符号)。2个GB2312编码的字符存储时占用2个字节的空间,每个字节的开头均为8~F。注:(1)”10”的内码是3130。(2)小写字母的编码比对应的大写字母大32D。如“A”的ASCII码为65,“a”的ASCII码为97(均为十进制),十六进制相差20H。(3)i为69H,j为6AH。(4)做题中关注点在字符的内码,内码的每个字节开头是0~7,还是8~F。五、图形编码条形码:常见的条形码是由反差率相差很大的黑条和白条排成的平行图案。我国普遍采用的条形码是EAN13条形码二维码:用某种特定的几何图形按一定规律在平面上分布黑白相间的图形记录数据符号信息。相对条形码,二维码存储信息量更大。对条形码和二维码的识别过程中虽然用到了摄像头,但信息是直接从图形编码中获取的,所以不涉及数字化的过程。六、多媒体编码1.图像存储容量:总像素×颜色位深度(位)(单位:bit)总像素=宽像素×高像素(单位:个)颜色位深度:用来表示每个像素颜色的二进制数的长度。如256种颜色的图像,它的位深度为8位(28=256)。RGB/8是24位。数据存储容量单位(1)b:bit(比特),存放一位二进制数,是最小的储存容量单位。(2)B:Byte(字节),8bit为1Byte,为一个基本单位(3)常用储存单位间的关系:1Byte(B)=8bit;1KB=1024B;1MB=1024KB;1GB=1024MB2.音频的容量:采样频率*量化位数*声道数*时间/8(Byte)3.视频容量:帧图像大小*总帧数七、数据保存与数据安全1.计算机数据的管理已经经历了人工管理、文件管理、数据库管理三个阶段。2.结构化、半结构化、非结构化数据(1)结构化数据:也成为行数据,可以由二维表来进行逻辑表达和实现的数据(2)非结构化数据:数据结构不规范,不完整,无法用二维表来进行逻辑呈现。(3)半结构化数据:介于结构化和非结构化之间,具有一定的结构性3.通过保护介质实现数据安全的方法:磁盘阵列、数据备份、异地容灾4.通过加密数据实现数据安全的方法:凯撒加密、换位密码、简单异或5.通过数据校验保证数据完整的方法:MD5、CRC(奇偶校验)、SHA-1八、数据处理常见的数据问题及其处理方法:(1)数据缺失:数据集中普遍存在的问题,一般可能是数据丢失或数据本身不完整处理方法:忽略或采用平均值、中间值或概率统计值填充。(2)数据重复:在多数据源合并时经常出现,导致资源冗余和浪费。处理方法:进一步审核的基础上进行合并或删除。(3)异常数据:数据集中的某些数据不符合一般规律,例:健康系统显示体温到达50摄氏度。处理方法:这些有可能是要去掉的噪声,也有可能是含有重要信息的数据对象。(4)逻辑错误:属性与实际不符,违背业务规则或逻辑,例:某人的生日为13月40日处理方法:对应的字段需要设置取值范围判断。(5)格式不一致:多出现在数据来源多样的系统中处理方法:将不同格式的数据转换成统一格式后再进行处理。常用的数据处理和统计分析工具有Excel、SPSS、SAS、MATLAB等软件,也可以通过R、Python、Java等计算机语言编程进行数据处理。常见的图表类型有:柱形图、折线图、饼图、雷达图、散点图、气泡图等。九、大数据1.大数据的特征(1)数据体量大 (2)速度快:包括产生速度和处理速度。(3)数据类型多 (4)价值密度低2.大数据思维(1)大数据分析全体数据而不是抽样数据(2)对数据不再追求精确性(3)不强调因果性而强调相关性。十、大数据处理大数据处理的基本思想:“分治思想”,即将一个复杂的问题拆分成两个或多个相同或相似的子问题,找到求这几个问题的解法之后,再找出合适的方法把它们组合成求整个问题的解法。大数据处理的数据类型:(1)静态数据:在处理时已经收集完成、在计算时不会发生改变的数据处理方法:批处理(2)流数据:不间断地、持续地到达的实时数据。流数据的价值会随着时间的流逝降低。处理方法:流计算或实时分析计算(3)图数据:现实世界中以图形式展现的数据。如社交网络、道路交通等处理方法:图计算批处理Hadoop是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批量计算。Hadoop计算平台主要包括Common公共库、分布式文件系统HDFS、分布式数据库HBase、分布式并行计算模型MapReduce等多个模块。(1)分布式文件系统(HDFS):将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中,并用分布式系统管理。HDFS是一个高度容错性的文件系统,云盘、网盘的底层一般采用HDFS实现。(2)分布式数据库(HBase):HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要存储非结构化和半结构化的数据,具有良好的横向扩展能力。(3)分布式并行计算模型(MapReduce):MapReduce是一种分布式并行编程模型,能够进行大规模的并行计算。其核心处理思想是将任务分解并分发到多个节点上进行并行处理,最后汇总输出。流计算流计算主要用于处理流数据,如大型购物网络的广告推荐、社交网络的个性化推荐等。处理流数据的软件主要有TwitterStorm、Heron、Yahoo!S4等。Storm和S4是目前较为流行的开源分布式实时计算系统。图计算现实世界中的很多数据以图的形式呈现,或者是需要转换为图后才能分析。目前图处理的软件主要分为两类:图数据库和并行图处理系统。十一、文本数据处理文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、论文查重、文本分类、垃圾邮件过滤、机器翻译、自动应答等方面。典型的文本处理过程主要包括分词、特征提取、数据分析、结果呈现等。中文分词方法(1)基于词典的分词方法:用词典中的词语进行比对。案例:Python中的jieba库(2)基于统计的分词方法:根据上下文相邻字出现的频率统计。(3)基于规则的分词方法:根据现有资料和规律学习实现分词。特征提取方法(1)根据专家知识挑选有价值的特征。(约等于人工分析)(2)用数学建模的方法构造评估函数自动选取特征。(目前大多采用)结果呈现方式:(1)标签云:用文字大小形式表现词语的重要性(2)文本情感分析:根据分析颗粒度可以分为词语级、语句级、整篇文章级三类。十二、数据可视化数据可视化是将数据以图形、图像等形式表示、直接呈现数据中蕴含信息的处理过程。可视化的作用:快速观察与追踪数据、实时分析数据、增强数据的解释力和吸引力等。可视化的基本方法(1)有关时间趋势的可视化:展示随时间的推移而变化的数据,可采用柱形图、折线图等。(2)有关比例的可视化:展示各部分的大小及其占总体比例关系的数据,可以采用饼图、环形图(也称面包圈图)等。(3)有关关系的可视化:探究具有关联性数据的分布关系,可以使用散点图、气泡图等。(4)有关差异的可视化:包含多种变量的对象与同类之间的差异和联系,可以采用雷达图。(5)有关空间关系的可视化:地理数据或者基于地理数据的分析结果可以运用不同颜色或图表直接在地图上进行展示。十三、大数据的典型应用大数据应用领域:随着大数据在各行业的应用,数据成为核心资产。目前,大数据广泛应用于金融、交通、环境、医疗、能源、农业等领域,极大地促进了各行业的发展。大数据在电子商务方面的应用;精准营销基于用户购买行为挖掘用户偏好;仓储管理实现商品自动补货;供应链管理实现最优配送路径;智能网站分析用户后向用户智能推荐商品。十四、人工智能人工智能的概念:人工智能是指以机器(计算机)为载体,模仿、延伸和扩展人类智能、其与人类或其他动物所呈现的生物智能有着重要区别。人工智能的主要方法(1)符号主义:认为学习或者其他的智能特征原则上均可以被符号精确地描述,从而被机器仿真。符号主义方法包含知识库和推理引擎两个部分。它先将所有知识以逻辑形式表达,然后依靠推理引擎,去验证命题或谓语正确与否,或者学习推导出新规则、新知识。案例:“鸵鸟会飞”、专家系统(2)联结主义:通过模仿人类大脑中神经元之间的复杂交互来进行认知推理。多层神经网络(包含输入端、隐藏层和输出端)是一种典型的深度学习模型。(3)行为主义:认为智能体可以在与环境的交互中不断学习,从而提升自己的智能水平。案例:扫地机器人,阿尔法狗人工智能的应用分类(1)领域人工智能:依赖于领域知识和数据的人工智能。(2)跨领域人工智能:智能系统从一个领域快速跨越到另一个领域。(3)混合增强人工智能:多种智能体的混合形式,他将人的作用或人的认知模型引入人工智能系统,形成“混合增强智能”的形态。需要注意的是,在智能叠加协调的回路中,人类智能是智能回路的开关。人工智能对社会的影响(1)人工智能改善人类生活:智能家居、智慧城市、智能出行、智能购物等。(2)人工智能促进经济发展:提供虚拟劳动力、提高生产力、加快实体经济转型升级。(3)人工智能带来的社会担忧:人工智能取代人类岗位,威胁人类安全。十五、基础算法一、算法概念广义的讲,“算法”指的是解决问题或完成任务的一系列步骤。在计算机科学领域内,“算法”指的是计算机解决问题的步骤,是为了解决问题而需要让计算机有序执行的,无歧义的,有限步骤的集合。算法的特征:(1)有穷性:一个算法的处理步骤必须是有限的。(2)可行性:每一步的操作与要求都是可行的,并且能够在有限时间内完成。(3)确定性:每一步的执行描述必须是明确的(4)0个或多个输入(5)1个或多个输出描述算法的方法:1-自然语言描述;2-流程图描述;3-伪代码描述;4-用程序设计语言描述。编程解决问题的一般过程:1-抽象与建模;2-设计算法;3-编写程序;4-调试运行程序。二、流程图基本图形及功能三、解析算法和枚举算法#鸡兔同笼问题:今有雉兔同笼,上有三十五头,下有九十四足,问雉兔各几何?解析算法:用数学公式或解题步骤计算结果head,foot=eval(input("请输入头和足的数量,格式是:头,足"))rabbit=(foot-head*2)/2chick=head-rabbitprint("兔子有{}只,鸡有{}只".format(rabbit,chick)枚举算法:按一定的顺序一一列举所有可能解head,foot=eval(input("请输入头和足的数量,格式是:头,足"))forrabbitinrange(foot//4):ifrabbit*4+(head-rabbit)*2==foot:print("兔子有{}只,鸡有{}只".format(rabbit,head-rabbit))四、程序组成分析注释:在代码中添加注释,可以对代码功能进行解释说明。注释在代码运行过程中不参与执行。Python中有两种注释方式:1.用’#’开头的单行注释;2.用三引号开头和结尾的多行注释,这种注释本质是创建了一个多行字符串。变量和赋值:程序中有些数据是未知或是可变的,为了零活的使用这些数据,可以使用变量进行存储。示例第二行就创建了一个名为TempStr的变量,用于存储外部输入值。(1)变量命名时需要遵循一些基本规则:1-变量名只能由数字,字母和下划线(英文)三种字符构成;2-变量名不能用数字开头;3-变量名区分大小写;4-变量名不能和保留字相同;这里特别需要指出两点:1-Python变量名支持中文字符,但考虑兼容性一般不建议使用;2-Python共有35个保留字(见下图),这些不可以被作为变量名使用。(2)赋值语句:变量名=值;变量名=表达式;a,b=b,a(3)赋值运算符:”=”、”+=”、”-=”、”*=”、”/=”、”%=”等数据类型:Python共有四种数据类型:整型、浮点型(实型)、字符串型和布尔型(1)整数类型(int):Python不带小数点的值都是整数类型。例:10;除此之外整数类型可以用多种进制表示,二进制前缀0b或0B(10=0b1010);八进制0o或0O(10=0o12);十六进制前缀0x或0X(10=0xA)(2)浮点类型(float):带小数点的数值类型。例10.0、1.0e1(3)字符串型(str):字符串可以用单引号、双引号、三引号表示。(4)布尔类型(Bool):只有True和False两个值。运算符和优先级运算符功能和作用示例优先级()小括号略0(最高)**幂运算略2~按位取反~n=-n-11*、/、//、%乘,除,整除,取余整除:不大于除法结果的最大整数;取余:x%y=x-y(x//y)3+、-加法、减法略4&按位与0b1111&0b1010=0b10105^按位异或0b1111^0b1010=0b01016|按位或0b1111|0b1010=0b11117<、>、==、<=、>=、!=关系运算符结果为布尔类型8in、notin存在性判断结果为布尔类型9not非结果为布尔类型10and与结果为布尔类型11or或结果为布尔类型12表达式:变量、常量、运算符按一定规则组合构成的式子(1)表达式中存在多种运算符时,按优先级运算,优先级相同则从左到右(2)Python中认为”0”(数值0)、””(空字符串)和False等价,非零数和非空字符串和True等价(3)字符串比较时,比较的是两者的ASCII码值,从左到右逐位比较。例”123”<”23”=True(4)数值类型的运算结果保留更精确的值。例1+2.0=3.0常用内建函数(1)input([prompt]):获取输入,函数的参数为输出提示字符,返回值为字符串类型(2)int(object[,base]):将数值字符串转为整数类型,base声明进制类型,默认base=10。返回值为十进制整数类型。例int(“FF”,16)=255(3)float(object):将数值字符串转为浮点数类型(4)abs(x):返回x的绝对值(5)len(seq):返回列表或字符串的长度,整数类型(6)str(x):将x转为字符串类型(7)chr(x):x为ASCII码值,返回x对应的字符(8)str(x):x为字符串,返回x对应的ACSII码值,整数类型(9)round(x[,n]):对x四舍五入,保留n位小数。round(6,-1)=10(10)max(),min():返回列表中的最大值和最小值(11)print():输出内容到控制台。当参数只有一个,会自动将非字符类型转为字符类型后输出。当参数有多个,可以用逗号连接后转换位字符串输出。例:print(10);print(10,”全”,10,”美”)(12)eval():删除字符两边的双引号。格式化字符串(1)”%”例1:print(‘转换后的温度是:%d℃’%22.5)运行结果:转换后的温度是:22℃注:%d为整数,%f为实数,%s为字符串例2:print("转换后的温度%.2f℃,湿度%.2f"%(22.345,5.677))运行结果:转换后的温度22.34℃,湿度5.67f注:”.2”表示小数点后保留两位例3:print(“%40s”%”今天的温度是十摄氏度”)运行结果:'今天的温度是十摄氏度'注:”40”表示占位宽度为40且默认右对齐(2)format方法例1:print(“圆周率可以近似为:{}".format(3.1415926))运行结果:”圆周率可以近似为:3.1415926”注:format方法以{}为占位符例2:print("转换后温度{:.2f}℃,湿度{:.2f}".format(23.456,5.678))运行结果:"转换后的温度23.45℃,湿度5.67"例3:print("转换后温度{1:5.2f}℃,湿度{0:-^20.2f}".format(23.456,,5.678))运行结果:'转换后的温度5.68℃,湿度-------23.46--------'注:冒号前为参数序号,故两个值的替换位置变化;根据对应规则”-”为填充字符,”^”为居中对齐,”20”为替换槽宽度。字符串类型(str)(1)字符串一旦创建就无法更改(2)字符串的索引方式有正负两种(3)字符串切片:字符串名[start:stop:step],结果含头不含尾,step可以为负。(4)常用字符串操作方法s.upper() #全部小写转大写s.lower() #全部大写转小写s.split(sep) #根据sep分割字符串ss.find(y) #返回y第一次出现在s中的索引值,若未出现则为-1s.replace(old,new[,max]) #将old用new替换,max为最大替换次数。s.count(sub) #统计sub在s中出现的次数s.join(iter) #用s对iter做分隔符注意:由于字符串是不可变对象,所以以上方法不会改变s的值,只是将改变后的结果进行返回。列表类型(list)(1)列表类型为可变对象,列表中的每个元素数据类型可以相同也可以不同,甚至可以嵌套列表类型;(2)列表的访问和切片和字符串基本相同;(3)列表的常用操作方法:l.append(x)#在列表的最后添加一个元素xl.clear()#清空列表s中的所有元素l.insert(i,x)#在s的第i位置增加元素xl.pop(i)#将s第i位置的元素删除l.remove(x)#将列表中第一次出现的x字符删除l.sort(reverse)#对序列排序reverse=True(降序)/False(升序,默认)l.reverse()#将s的内容反转注意:以上方法会直接改变列表l的值。字典类型(dic)例:d={"姓名":"小明","年龄":13,"性别":"男"}(1)字典类型的特点是用花括号将各种元素放在一起
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版企业人力资源总监职责与权益合同3篇
- 武汉体育学院《地下水数值模拟基础与应用》2023-2024学年第一学期期末试卷
- 武汉传媒学院《现代分析检验技术应用》2023-2024学年第一学期期末试卷
- 二零二五年度建筑工地安全文明施工评估合同3篇
- 二零二五版儿童乐园开业庆典承包合同范本3篇
- 2024陶瓷厂劳务外派工作合同模板3篇
- 2025版大型工程船舶租赁合同6篇
- 威海职业学院《数值计算与仿真》2023-2024学年第一学期期末试卷
- 二零二五年度酒店会议场地预订与策划服务合同3篇
- 天津城市职业学院《工程光学》2023-2024学年第一学期期末试卷
- 专题24 短文填空 选词填空 2024年中考英语真题分类汇编
- JT∕T 794-2011 道路运输车辆卫星定位系统 车载终端技术要求
- 西南师大版五年级上册小数乘除法竖式计算题200道及答案
- 再生障碍性贫血课件
- AQ/T 2061-2018 金属非金属地下矿山防治水安全技术规范(正式版)
- 2024年湖北三江航天江河化工科技有限公司招聘笔试冲刺题(带答案解析)
- 采购人员管理制度
- 矿卡司机安全教育考试卷(带答案)
- SYT 6963-2013 大位移井钻井设计指南
- 合同增项补充协议书范本
- 产后抑郁症的护理查房
评论
0/150
提交评论