基于大数据及网络信息提取对空气质量进行分析及预测_第1页
基于大数据及网络信息提取对空气质量进行分析及预测_第2页
基于大数据及网络信息提取对空气质量进行分析及预测_第3页
基于大数据及网络信息提取对空气质量进行分析及预测_第4页
基于大数据及网络信息提取对空气质量进行分析及预测_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要□□在当前我国城市化进程的快速推进下,我国的交通规模、能源消耗也在不断扩大,一氧化碳等有毒气体及固体污染物大量增加,严重影响了人们的正常生活,如何减少空气污染、打好污染防治攻坚战,对推动生态文明建设有很强的指导性。所以我从国内某的空气质量记录网站上记录的384个城市通过网络信息爬取获得了从2014年至今的空气质量记录数据,包括一氧化碳浓度、二氧化硫浓度等参数,然后对数据中的缺失值、异常值进行处理,数据可视化、分析数据特征、接着对每个城市先按照省份进行分组,并将数据保存到数据库中,同时对每个城市采用时间序列分析,在使时序数据变得稳定后,对时序数据进行预测,用户可以通过输入城市和起止日期来预测这段时间的空气质量指数。□关键词:□空气质量预测□ARIMA模型□网络信息爬取□时序分析Abstract□Withtherapidpromotionofourcountriesurbanizationrate、theurbantrafficscaleandenergyconsumptionarealsoenlargingrapidly、whichraiseaplentyoftoxicgasandsolidgraincontamination、suchassulfurdioxideandfineparticulatematter、respirablesolidpollutantsandcarbonmonoxide.Thesepollutantmakeaseriousinfluencetohumans’normallife.So、reducetheairpollutionandwinningthePollutepreventionandmanagementbattlewouldhaveagreatinstructiveforpromotingtheEcologicalCivilizationConstruction.Therefore、Igotthreehundredandeightyfourcitiesairqualityindexdata、includingcarbonmonoxideconcentration、sulfurdioxideconcentrationandsoonsince2014tonowthroughtheNetworkinformationcrawlingtechnologyrecordedontheairqualityrecordsmonitoron-linewebsite.Thenprocessingtheairqualityindexdatabydealingthemissingandabnormalvalues.Afterthat、dealingthedatabymakingdatavisualizationandanalysesdatacharacterization.Thenextstepistoclassifythecitybyitsprovince、andsavethedatainthedatabase.Atthesametime、maketimeseriesanalysistotheeachcity、aftermakethetimeseriesstationary、forecasttothetimeseries.Andtheusercanforecasttheairqualityindexbyinputthecity’snameandthestartandenddate.Keywords:AirqualityforecastARIMAmodelNetworkinformationcrawlingTimeseriesanalyze广东东软学院本科生毕业设计(论文)目录摘要IAbstractII1.绪论11.1研究背景11.2研究现状41.3研究内容61.4研究意义62.网络信息爬取82.1获取城市访问链接82.2爬取各个城市的空气质量数据102.3将数据导入到数据库中123.数据处理143.1缺失值和异常值的处理143.2数据转换153.3数据可视化163.4分析数据特征164.时序分析与预测204.1建立ARIMA时间序列模型214.2ARIMA时间序列模型的参数选择224.3安装ARIMA时间序列模型234.4验证预测254.5生成可视化预测26参考文献27.绪论1.1研究背景自改革开放四十年以来,我国的工业化和城市化进程的快速发展,经济得到了飞速的发展,并给我国人民带来了巨大的物质财富和更舒适的生活,然而这一切却对我国的生态环境造成了严重的破坏,从早期的乱砍乱伐造成黄河流域和西部地区的荒漠化,到现在沿海地区的雾霾的严重超标,无一不对我们的正常生活造成了严重的影响,甚至对我们的身体健康造成危害,如一系列的呼吸道、消化道疾病等。尤其是在2000年到2010年期间,当时我国由于在大气污染防治方面的经验不足,当时许多的雾霾天气都被误报成大雾天气。就在2004年,新华网发出来一篇报道,标题是《背景首都机场因雾出现近年最严重的航班延误》,当时所谓的“大雾”天发生后不久,北京居民的短时间内的呼吸道发病率大幅增加,并引起政府和民众的广泛关注。区域性大气污染问题已经对经济和社会的可持续发展以及人类的正常工作和生活造成了严重的影响,一下子成为了尤为突出的社会问题摆在了政府和监管者面前。目前,我国的大气监测的污染物包括臭氧(O3)、二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)等有害气体及PM10、PM2.5两种可吸入颗粒,且这些污染物污染分布广泛,主要分布在一些工业化水平和城市化水平较高的区域。城市空气污染主要表现为以下几个方面:(1)悬浮的颗粒物总浓度在城市的范围内普遍超标,这一现象在以工业为主要产业的城市尤为明显,特别是PM2.5和PM10的浓度过高。PM2.5和PM10是指大气中直径分别小于2.5微米和10微米并可以在空气中悬浮较长的时间的细小颗粒物,这些细颗粒物在空气中的单位体积内的平均浓度越高,就代表此时的空气污染越严重,并且这些细颗粒物对能见度有严重的影响。这些细颗粒物的成分主要包括有机碳(OC)、元素碳(EC)、硝酸盐(NO3-)、硫酸盐(SO42-)、铵盐(NH4+)、钠盐(Na⁺)等无机盐以及一些有机物的细小颗粒。这些悬浮的细颗粒物会首先通过呼吸作用由呼吸道进入肺部,然后通过支气管和肺泡进入到血液中,导致混合在其中的如无机物、重金属等有害物质溶解在血液中,这些物质对人体的伤害巨大,甚至可能诱发如哮喘等慢性疾病。(2)二氧化硫浓度普遍较高二氧化硫(SO2)是一种主要存在于火山爆发、化石燃料燃烧、含硫矿石的冶炼时产生的无色有刺激性气体,是大气中的主要污染物之一。由于煤炭和石油等化石燃料都含有硫元素,其中的硫元素化合物在化石燃料燃烧时与氧气反应生成二氧化硫,且由于二氧化硫易溶于水,其溶于水时会形成亚硫酸(H2SO3),当亚硫酸在PM2.5存在的条件下,其会被进一步氧化成硫酸,当硫酸与云层中的水混合,并在达到一定的温度和湿度的条件下形成降水,这就是酸雨的来源。而在我国陕西省盛产煤炭,且在我国的能源消费中,煤炭的消费占据了相当大的一部分(见图1),因此我国华北平原地区的二氧化硫浓度比我国其他地区都要高(见图2)。且从图1中可以看到,从2014年起,每年我国的能源消费总量也在不断上升,尽管煤炭和石油的消费总量变化不大,但由化石燃料燃烧所造成的污染仍十分严重。且我国的主要产煤地区主要在山西、陕西、河南,这些地区发电主要也是以煤炭作为燃料,因此这些地区的二氧化硫排放量普遍要比其他地区高。图1我国的能源消费总量柱状统计图(来源:国家统计局)图2我国的二氧化硫浓度分布(来源:)(3)一氧化碳浓度较高一氧化碳(CO)是一种主要出现在汽车尾气、火力发电、金属提炼所的无色无味的气体。一氧化碳在化学性质上既有氧化性也有还原性,同时还具有毒性,一氧化碳与氧气相比,前者与血红蛋白的亲和力远大于后者,且一氧化碳会主动和血液的血红蛋白结合,从而阻止血红蛋白结合并运算氧气。它不仅会使血液的载氧能力降低,还使血液对人体组织的供氧量明显减少,从而使人产生缺氧的现象。吸入少量一氧化碳会导致人出现头痛、头昏、恶心等症状的出现;吸入大量的一氧化碳会使人昏迷,严重的会使人缺氧死亡,甚至产生如神经衰弱、智力障碍等后遗症。(4)二氧化氮浓度呈增加趋势,有些城市出现光化学烟雾现象。二氧化氮(NO2)是一种主要出现在汽车尾气、锅炉废气等高温燃烧过程所释放的在室温下呈红棕色且有强烈刺激性的气体。二氧化氮在被人体吸入后,会对人的呼吸道、眼睛及肺部造成巨大的刺激作用,使人出现胸闷、咳嗽、咯泡沫痰等症状,吸入后几小时或间隔更长时间可能会出现迟发性肺水肿、呼吸窘迫综合征等呼吸道症状,在迟发性肺水肿消退后两周左右甚至可出现迟发性阻塞性细支气管炎;二氧化氮在慢性影响上主要表现为神经衰弱综合征及慢性呼吸道炎症。同时,它也是形成光化学烟雾的罪魁祸首,会严重降低大气能见度,从而引发交通事故;还能使地表水酸化,水体富营养化(由于氮、磷元素的营养物使藻类大量繁殖),并增加水体中的有害物质,使水中的鱼类因缺氧或有毒物质而大量死亡。(5)臭氧污染严重臭氧(O3)是一种有鱼腥味的具有强氧化性淡蓝色气体,但在大气底层的臭氧并不是天然的,它是受环境污染的产物,这些近地臭氧主要在汽车尾气、锅炉排放的氮氧化物以及挥发性的有机物通过太阳光照辐射催化生成的,甚至连复印件的墨盒在打印时也会排放臭氧。它会使植物叶子变黄甚至枯萎,对植物造成损害;对人体的免疫机能也具有破坏性,使长时间直接接触高浓度臭氧的人出现疲乏、咳嗽、胸闷胸痛等症状。目前我国正处于全面建成小康社会的决胜阶段,打好污染防治攻坚战,提升国家的生态文明水平,不仅可以满足人民群众美好生活的内在需要,也是落实中华民族永续发展前年打击的关键一步。而且我国地域辽阔,各地区的气候差异明显,因此形成了我国气候的多样化,同时各地区的经济发展也存在明显的不同,各地区的侧重产业也不一样。因此,综合以上因素,可以得出:我国各个地区的空气质量存在明显差异。对于空气质量的预报,是需要非常先进的技术以及各种先进设备的,而随着计算机技术的发展和各种新设备的出现,使得这种工作得以实现。随着人们对空气质量的重视和要求不断提升,人们的需求也从最开始的空气质量报告到现在的空气质量预测,而这种预测工作,也在成为环境科学以及计算机科学的一个重要的研究。[12]1.2研究现状自从空气污染问题产生以来,对污染进行预测一直是空气污染防治的重要话题。科研人员对空气污染预测方法进行了许多的探索和研究,在发展过程中出现了许多可以预测空气污染的方法,主要分为三大类,分别为:数值预测法、统计预测法以及潜势预测法。其中,潜势预报方法依据气象条件对空气污染物扩散稀释作用,预报未来一段时间的空气污染情况,由于过于依赖对气象条件的判断,因此预报结果往往比较粗糙。而数值预报方法深入探索了污染数据和其他在大气环境中的一系列复制变化,预测结果准确率最高。但是涉及数学、物理、化学、气象等多领域交叉,同时需要丰富的气象数据资料和高性能的计算设备,在普通实验中很难实现。统计预测方法是基于大量现有的监测数据,采用先关的统计方法建立预测模型,模型构造简单易行,通过对相关数据的分析计算可以得出准确的较高的预测结果因此统计预测方法在大多数情况下更具有实用性。在刚开始研究问题时,时序分析的主要方法是单一的预测模型,但由于各个模型的精度和应用范围都存在差异,所以目前预测领域研究的焦点主要是在如何通过结合各模型的优点对单一模型的局限性进行处理。而组合模型却能扬长避短,从多个角度挖掘信息,并系统全面地进行结论分析,因此组合模型更受青睐[13]。组合预测模型是将不同的模型组合后按照一定的比例来平均权重,以此吸收各模型的优点,使单一预测模型的不足得到了有效的规避,减少由于精度和应用范围所造成的差异,使预测结果更理想。最初,离差或误差是作为组合预测模型的主要的衡量指标,但是由于量纲和各个特征之间存在一定的差异,因此不同序列的离差及误差直接可比性较弱;即使以某种方式消除了量纲和各特征之间的差异所造成的影响,但由于序列本身之间以及数据的波动幅度也会导致出现一定的误差,因此预测方法的有效性也难以统一衡量。而在我国生态环境部的官网上,可以看到各城市的AQI实时发布、AQI指数日报,以及最长120小时的空气质量预报,无法对更长的时间跨度进行预测。因此,较长的时间跨度预测空气质量在国内尚存在一定的空白。国外的空气质量预测普遍选择人工神经网络来预报空气质量,并根据结果表明MLP模型(Multi-layerPerceptron)要比回归模型更准确,但对于峰值却无法准确的预测。由于我国的经济发展程度相对较为落后,导致我国在研究空气污染的分析和评价方面与世界发达国家相比都落后了不少,但在近几年,我国的经济发展速度迅速提高,并推动了一系列的科研发展,使得我国在该研究领域范围内取得了很高的成就,随着大数据、机器学习等技术的广泛推广及应用,国内的环境信息系统也已经逐渐完善成熟,并开始向国际领先水平看齐。目前,国内的一些城市开始将环境信息系统加入到城市的管理作业中,并将其作为城市管理中不亏或缺的一部分。国内的研究主要是在BP模型的基础上,对NNs(神经网络)加入主成分分析,或者是将BP模型与灰色理论相结合,还有就是在BP模型中加入遗传算法。这些算法在一定程度上都使得BP模型的不足之处得到了一定程度的解决,但也存在着一定的缺陷。其中有一种是通过将算法相互混合,形成弥补的状态来解决遗传算法原本的缺陷。对于这一设想,许多人尝试去设计混合算法,其中主要将遗传算法和贝叶斯正规化算法混合从而使算法更为合理,尽管在改进的过程中成功使遗传算法的一些缺陷得到了较好的解决,但是仍然还需要对其进行不断的改进。1.3研究内容当今社会已经属于信息化时代,许多的信息都可以通过访问互联网来获取,当然也包括各地的空气质量记录,这是时代发展的必然结果,也是社会进步的重要指标。本设计通过研究分析,主要是通过计算机运算为了空气质量预测提供另一种科学可行的办法。毕竟单凭人工无法处理大量的数据,所以必须依靠计算机来对数据进行处理。然而,空气质量的预测需要大量准确的数据来进行支撑,如果数据不完整或者错误较多,会导致对空气质量的预测不完整和不准确,某种程度对空气质量预测的发展造成了影响。因此,为了对大气污染的动态变化作出及时的反应,并掌握变化规律,使训练模型时使模型更有效,从而提高空气质量预测大师准确性,为空气质量的预测提供另一种更科学合理的可行方法,本设计研究的内容为:(1)首先通过网络信息爬取技术获取将网站上各城市的空气质量记录的链接爬取下来,并将重复的链接删除。(2)将链接以文本的形式保存在本地硬盘文本文件中。(3)读取文件中记录的城市所对应的链接,并逐一进行访问。(4)将网站上每个城市所记录的空气质量爬取下来,并以表格文件的格式保存在本地硬盘中,以便日后使用。(5)读取表格文件,对文件中的缺失值和异常值进行处理,并对文字类型的数据进行数据转换。(6)对处理后的空气质量数据分析特征,并进行时序分析与预测,最后对预测进行验证,并生成可视化结果。1.4研究意义大气环境质量与人们的健康和生活息息相关。在社会以及经济快速发展的同时,人们生活所造成的排放污染对环境产生了很大的影响和破坏,使生态环境持续恶化,空气污染甚至威胁到了人类自身的安全和健康,这将直接导致可持续发展受到破坏。我国作为一个发展中的大国、世界上第二大经济体,一直面临着来自环境问题的种种考验,如何能准确预测大气质量,为各地区的大气防治提供更多可参考的资料,以便提前做好部署和准备,为重大污染事件的发生做好充足的准备,并作出更长远的监测和预防,尽可能将污染事件的所造成的影响降到最低,并将萌芽扼杀在源头,已成为社会和政府所广泛关注的重要问题。我国政府在对控制大气污染以及污染物的变化方面,正在提升污染物监测的整体强度,并从中探索出各地的大气污染物的变化规律,从而可以通过更好的方法来预测空气质量和污染物的扩散,对大气污染加强监督监管,将各生产企业的空气排放控制在指标允许的范围内,确保排放出的气体经过无害化处理,务必减少对周边的生态环境及居民的正常生活和身体健康造成影响对空气质量进行预测的研究,有两方面的意义:对于市民来说,可以通过各种渠道得知的空气质量预测提前做好个人防护,减少由于不知情的原因暴露在空气质量较差的环境下而诱发或感染疾病的可能;二是可以为环保部门提供有关空气质量的各种有关数据,从而对污染物和空气污染之间的关系和影响得出更为准确的判断和分析。同时,城市的空气质量在经过空气质量预测后可以更好地作出评价,使各城市环保部门的治理方案更加具有针对性和独特性,为城市的可持续发展提高评价水平,成为城市发展的重要监督指标。在空气质量的预测方面,使用更加科学的技术,就是利用针对时间序列产生可靠的预测方法之一,称为ARIMA,这种技术对空气质量数据所产生的时间序列进行非线性的检测和处理,使预测的效率得到了提高,并且在一定程度上提高了预测的可靠性和准确性。所以利用ARIMA模型对空气质量进行预测,具有较高且科学可行的价值及较好的应用前景。与传统的预测方法相比,作为一种对实践更具有针对性的分析预测模型,ARIMA模型对空气质量的预测效果更为准确,并有望成为未来空气质量预测的主要方法。2.网络信息爬取网络信息爬取技术(网络爬虫)主要是将需要的网页通过网页下载器下载下来然后转换成字符串数据,字符串数据通过网页解析器解析成树形对象,将需要的数据通过网页解析器进行提取,如:文字、链接、图片等。网页下载器可以将制定的URL网页下载到本地存储成本地文件或字符串格式,以便进行后续的数据分析,所以网页下载器是整个爬取程序的核心模块。[14]在本章中主要用到requests,它是一个python的第三方库,支持网页下载、登录、文件上传等功能。网页解析器是一个能从网页字符串文件中解析出价值数据的处理器,python中使用最广泛的是BeautifulSoup这个第三方库,BeautifulSoup最主要的功能是将网页下载器所下载的网页进行解析,BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,它首先进行网页字符的结构化解析,利用DOM和HTML之间的映射关系,将HTML文档转换成DOM树,通过基于语义及基于结果的过滤来进行剪枝操作,通过树形结构能精确地定位到某个节点、属性、文本内容,然后使用find或find_all方法查询相应的节点,访问节点的属性、名称、文字等信息,从而提取出信息进行分析。在经过BeautifulSoup解析后,整个HTML文档会被转换成一个复杂的树形结构,且每个节点都是一个对象,所有对象可以归纳为4种:NavigableString、BeautifulSoup、Tag、Comment。BeautifulSoup()主要用来遍历文档树及其属性,并为此提供了多种方法,比如获取父子节点、兄弟节点等。在本章节中主要是从BeautifulSoup树对象中搜索出所需的目标,通过使用find_all()方法在BeautifulSoup树对象中按照标签名称(name)、文本(text)、属性(attrs)等参数对所有tag的子节点进行搜索,并判断是否符合过滤条件,将所有符合条件的节点保存并输出。2.1获取城市访问链接首先,打开浏览器,访问所需对其进行爬取的网站,本次是对中国空气质量在线监测分析平台进行爬取,这是一个公益性的软件平台,收录了367个格式的空气质量信息(如图3),且在经过对比后可得,他与国家生态环境部上公布的数据是一致的,而且,相较于生态环境部的访问限制,以及限定时间范围的下载及查询,该网站爬取信息的难度更低,仅是对访问的user-agent作出限制,并没有其他限制措施。图3中国空气质量在线监测分析平台主页使用检查功能查看网页源代码观察各城市的标签中所包含的地址,网站中所有的链接地址都被保存在<a>标签中(如图4),在导入所需要的requests库和BeautifulSoup库后,就可以开始编写程序来爬取城市的空气质量记录访问链接了。图4中国空气质量在线监测分析平台主页网页源代码(1)首先创建字典UA,用于在访问页面时伪装成正常的浏览器访问,绕开检测。(2)编写函数get_cityurl()用于爬取各个城市空气质量记录的访问链接。过程:函数get_cityurl():1.填入空气质量记录主页地址url2.创建用于保存各城市及其访问链接的列表city_url_list3.访问网站主页并使用字典UA进行伪装4.获取网页的源代码5.使用网页解析器对网页源代码进行解析6.使用bs4库中的find_all()函数搜索网页源代码中所有包含<a>标签的子节点,7.并返回列表类型的url_list8.Forurl_list的每一个值i:9.获取i中所包含的链接10.Ifi中包含只有各城市的访问链接特有的字段11.将访问链接的前缀补充到i中并转换成字符串得到city_url12.将city_url添加到列表city_url_list中13.Endif14.Endfor15.将city_url_list转换成集合city_url_set16.创建文本文件city_url.txt并以写入方式打开17.Forcity_url_set的每一个值url18.将url写入到文件中,并且每输入一个换行一次,以便后续使用19.Endfor输出:一个命名为city_url.txt的文本文件在运行完这段代码后,将会得到一个命名为city_url.txt的文本文件,里面是网站主页上记录的各城市的空气质量记录的链接,在接下来的步骤会用到这个文件。2.2爬取城市的空气质量数据接下来,开始对city_url.txt文本文件里面记录的各城市的空气质量记录的链接下的空气质量记录进行爬取,由于每个城市的空气质量记录是按每个月份一个页面进行展示,并且都是在网页中的<td>标签中,而且网站的空气质量数据需要经过动态加载才会显示在页面中,所以我选择使用selenium库并结合webdriver调用浏览器进行网络信息爬取,并且由于是使用真正的浏览器进行操作,所以并不需要添加特殊字段对爬取操作进行伪装。这次主要用到BeautifulSoup库和selenium库,在从网上下载webdriver.exe并安装到正确的目录后就可以开始编写程序来爬取编写函数get_city_aqi()用于爬取各个城市的空气质量数据。输入:path=文本文件city_url.txt的绝对路径过程:函数get_city_aqi(path):创建参数设置对象chrome_opt将无界面化参数添加到chrome_opt中,使浏览器无界面化运行创建driver对象来启动浏览器并使参数对象Chrome_option=chrome_opt以只读的形式打开city_url.txt对应的path从而获得file对象使用file对象下的readlines方法获得文件所有行的内容并返回列表url_list关闭文件fileForurl_list的每一个值url:输出url以便记录已经进行过爬取操作的城市并用driver.get访问url程序休眠2秒等待页面完成动态加载使用网页解析器对浏览器获得的网页源代码进行解析使用bs4库中的find_all()函数搜索网页源代码中所有包含<td>标签的子节点,并返回列表类型的tds创建列表month_url_list和city_aqi_list分别用于储存当前城市每个月的访问链接和城市的空气质量数据。Fortds中的每一个值td:Iftd中包含只有月份的访问链接特有的字段将td转换成str类型,去除td中的<td>标签的内容,得到month_url将month_url添加到列表month_url_list中EndifEndforFormonth_url_list中的每一个值month_url:用driver.get访问month_url程序休眠2秒等待页面完成动态加载使用网页解析器对浏览器获得的网页源代码进行解析Forfind函数搜索<tbody>标签后该标签下的所有子节点tr:Iftr与所需的数据类型相同:生成列表tds=<tr>标签中的<td>标签If列表tds不为空:将列表中的元素用.text转换成str类型并以列表的形式添加到列表city_aqi_list中EndifEndifEndforIfcity_aqi_list为空orcity_aqi_list长度小于365:输出文本信息提示爬取的城市无法爬取到数据或数据长度过短Else:输出文本信息提示当前爬取的城市已完成爬取操作创建以当前爬取的城市命名的csv格式的文件并以写入的方式打开向文件写入列标题并换行Forcity_aqi_list里的每一行line:Forline里的每一个元素element:向文件写入element和写入逗号隔开Endfor向文件写入换行符Endfor关闭文件输出文本提示完成文件写入Endfor输出:全国27省及4个直辖市共计353个城市自2014年1月1日至今的空气质量记录的csv表格文件。2.3将数据导入到数据库中在获得上述的空气质量数据文件后,因为数据量较大,且不利于管理,需要将其导入到数据库中,使开发效率得到明显的提升,令数据的调用更为方便,程序规模得到简化,减少了程序的维护和修改的频率,对数据进行了集中化的管理,使冗余得到有效的控制,从而使数据的利用率和一致性得到了提高,对应用程序的开发和维护起到了积极的作业。Navicat作为一款为降低系统管理成本及简化数据库的管理流程及操作的专业数据库管理软件,用户可以创建、组织、访问并共用信息以安全简单的方式,无需通过冗长复杂的指令来对数据库进行操作,并且可以对本机或远程的MySQL、SQLServer、SQLite、Oracle及PostgreSQL数据库进行管理及开发。首先,打开Navicat,并输入本地数据库正确的用户名及密码,连接到数据库后新建一个数据库并命名为air_quality_data,用于存放城市的空气质量数据,然后选择导入数据,将本地的csv文件导入到数据库中,数据库设计如下:字段名称类型字段说明备注DateVarchar日期主键AQIIntAQI指数air_quality_levelVarchar质量等级PM2.5FloatPM2.5浓度PM10FloatPM10浓度SO2Float二氧化硫浓度COFloat一氧化碳浓度NO2Float二氧化氮浓度O3_8hFloat臭氧浓度然后开始将数据进行导入。导入完成后,Navicat将会输出信息表明完成导入(如图5)。图5最后再随机打开几个表进行核查,检验是否有出现错误或空缺。可以看到,表中数据(如图6),与原数据表格式一致,且和原数据表对比并没有存在缺失值或异常值。图63.数据处理本章节是对已经保存在本地的空气质量记录数据进行数据清洗,包括缺失值和异常值处理、数据转换以及数据归一化,以便训练模型时提高模型准确度,减少误差,以及对数据进行可视化处理,观察数据特征,找出各个城市变化规律和差别。由于原始数据集的情况并不清楚,所以需要对原始数据先进行了解然后再进行数据处理。以下以七台河市的空气质量记录为例,首先打开记录七台河市的空气质量的文件,使用代码对数据进行描述,可得:七台河的空气质量记录共有1779行9列数据,列名称分别为:日期、AQI、质量等级、PM2.5浓度、PM10浓度、SO2浓度、CO浓度、NO2浓度、O3_8h浓度。每一列的数据类型分别为:日期和质量等级为object类型,其他均为数值类型。在对数据使用统计分析函数时发现若干个数据列都存在最小值等于0的情况,说明数据存在异常值。因此要对数据进行缺失值和异常值检测和处理。AQI(AirQualityIndex)是环境空气质量指数的缩写,用于描述该环境的空气受污染程度的以及对健康的影响的一个参数。环境空气质量指数的重点是判断暴露在数小时或数日受到污染的空气对人体所造成的生理影响。环保局通过以下几个主要污染标准来计算空气质量指数:地面臭氧(O3),颗粒物污染(也称颗粒物),一氧化碳(CO),二氧化硫(SO2),二氧化氮(NO2)。我国环保局为保障人民的身体健康在2012年均已对上述污染物成立了新的空气质量评价标准。我国空气质量取24小时平均值作为发布标准;同时,由于我国与美国采用的空气质量指数及污染物浓度指标不同,导致存在污染物浓度相同而空气质量指数的计算结果也可能存在一定的差异,因此在查阅实时数据经常与会与媒体公布的结果不一致。3.1缺失值和异常值的处理首先对数据进行缺失值检测,发现数据并没有缺失,因此不需要对数据进行缺失值处理。然后对数据进行异常值的检测,获取数据集中AQI为0或质量等级为无的行并将整行输出。在七台河的空气质量数据集中,一共有4行数据是AQI为0或质量等级为无,以及有部分数据经过核算后发现AQI指数是和污染物浓度不匹配的,因此需要对异常值进行处理,通过AQI的计算公式:I=Ih并结合空气污染物浓度限值表(如表1)计算得出各项污染物对应的AQI指数,最后取数值最大的为最终的AQI值。其中I为空气质量指数,即AQI指数;Cl、Ch为该污染物浓度限值,Il、Ih为AQI限值;C为该污染物浓度,即输入值。AQISO2浓度PM10浓度O3浓度NO2浓度PM2.5浓度0000005050501604035100150150200807515047525030018011520080035040028015030016004208005652504002100500100075035050026206001200940500表1空气污染物浓度限值表在计算完AQI指数并填入数据集中后,再对异常的质量等级进行处理,将AQI指数所对应的质量等级填入后,这样对数据的缺失值和异常值的处理就完成了。3.2数据转换在对数据集进行缺失值和异常值处理后,便可以开始对数据集进行数据转换了,由于计算机无法对字符串类型的数据进行数据处理,因此我们需要将数据转换成计算机可以识别的数据类型,因此需要对质量等级一列进行数据转换,因为质量等级的取值没有大小意义,所以这里使用pd.get_dummies()函数以独热编码方式对数据进行转换,将质量等级一列拆分成6列,每列分别对应一个等级,对应的列为1,其他列为0,以便计算各特征的关联度。在对数据集进行数据转换后整个数据集有14列1779行(如图7)图7在完成数据转换后,开始对空气质量数据进行规范化(归一化)处理,这是数据转换的一项基本工作。由于不同的参数或指标存在各自的计算单位及量纲,数据间的差异性较大,如果不对数据进行处理有可能会对数据的分析结果造成影响。为了消除这一影响,需要对各项数据进行归一化处理使各项参数之间的量纲不受影响。在对数据进行标准化处理时,需要对数据按比例缩放后分布在指定的范围内,以便对空气质量数据进行综合分析。由于数据集的各项参数不存在负值,所以选择对数据集进行离差标准化,将结果值映射到[0-1]之间:X*=其中max为样本最大值,min为样本最小值。在对数据进行归一化处理后,获得七列数据分别对应AQI指数和六种污染物归一化后的结果。3.3数据可视化在对数据完成缺失值和异常值处理以及数据转换后,就可以开始对数据进行可视化处理。数据可视化就是将信息的各种属性和变量通过图像、表格等方法进行处理,包括数据的各属性及变量,然后用建模、表达等对其进行可视化解释。因为原始数据是比较杂乱的,对观察效果较为影响,无法进行较为直观的观察,因此数据在经过可视化处理会有更好的观察效果,更利于后续分析数据特征。所以我对所有城市的空气质量记录数据进行了可视化处理,生成了各城市的AQI的变化趋势图(如图8),质量等级分布图(如图9)以及质量等级占比图(如图10)。图8七台河的AQI指数变化趋势图图9七台河的质量等级分布图图10七台河市的质量等级占比分布图3.4分析数据特征从图4中可以看到,七台河的AQI指数具有一定的规律性,在每年九月到第二年一月时呈升高趋势,从一月到六月呈下降趋势,变化趋势均较为明显,每年的高峰主要在每年的十一月到十二月之间,具有季节性变化的特征。而从图8和图9中可以看到,七台河市的空气质量较为良好,其中优和良天数一共占比超过85%。将七台河市的空气质量和其临近的牡丹江市及双鸭山市作对比(如图11和图12),他们的AQI指数变化趋势十分相似,而且指数也十分接近,而相距较远的大庆(如图13)却具有较明显的差别,说明空气质量的影响范围具有一定的区域性。图11牡丹江的AQI指数变化趋势图图12双鸭山的AQI指数变化趋势图图13大庆的AQI指数变化趋势而经度相近的城市相比,如北京、保定、聊城、六安、上饶以及汕头(如图14),六个城市自北向南AQI指数均值和峰值都逐渐降低,且季节性影响也逐渐减弱,说明AQI指数与各地所属的气候有关。北京位于华北平原,属暖温带半湿润大陆性季风气候,夏季高温多雨,冬季寒冷干燥,春、秋短促,全年降水的80%集中在夏季,所以可以看到北京夏季的AQI指数并不算高,但冬季AQI指数升幅明显、且持续时间长。六安属亚热带湿润季风气候,季风显著,雨量适中;冬冷夏热,四季分明。由于六安的季风显著,因此与北京相比,六安的AQI指数的峰值和均值更低,高峰期持续时间也比北京短。汕头属亚热带季风气候,冬季常吹偏北风,夏季常吹偏南风或东南风,具有明显的季风气候特征,春季由于季风并不显著且十分潮湿,不利于空气污染物的扩散,所以AQI指数相对较高,冬季吹偏北风,AQI指数有一定的回落。图14经度相近的六个地区的AQI指数变化趋势图而纬度相近的城市相比,如烟台、德州、吕梁、中卫和海西蒙古族藏族自治州(如图15),这五个城市或地区自西向东逐渐向内陆深入,但AQI指数却是先增加后减少,其中德州的均值和峰值均是五个城市之中最高的,德州属于温带季风气候,季风影响显著,四季分明、冷热干湿界限明显,但由于相对烟台来说位置更靠近内陆,不利于污染物的扩散,从而导致每年的秋冬季的AQI指数高峰期较长。但海西蒙古族藏族自治州属于高原大陆性气候,冬寒夏凉,暖季短暂,冷季漫长,春季多大风和沙暴;雨量偏少,雨热同季,干湿季分明,但无论是均值还是高峰期的持续时间都比德州要低得多,而导致这一现象的原因不是气候条件,而是因为地区的经济发展差异造成的,普遍来说,我国沿海地区的城市化和工业化发展都要比内陆地区发展迅速,因此沿海地区向大气所排放的污染物也更多,从而出现了图中的变化规律。图15纬度相近的五个城市或地区的AQI指数变化趋势图因此,影响空气质量的因素除了地区所属的气候条件,还有地区自身的发展情况,甚至可以通过大气治理来对空气质量造成影响,就比如2014年,北京为迎接亚太经合组织第二十次领导人非正式会议,我国政府用超常规的手段,对北京及周边地区实施应急减排措施,使空气质量明显转好。2014年11月3日上午8点,北京市城六区PM2.5浓度为37微克每立方米,各污染物浓度减少从33.6%到66.6%,接近一级优水平。北京的天空也看到了久违的蓝色,被市民称为“APEC蓝”。由于每个地区的主要污染物都有可能不尽相同,这一特征可以通过数据之间的关联度得出。所以,可以得出结论:人为地在固定或流动的污染源排放污染物是影响空气质量的最主要原因,如车辆排放、工厂废气、垃圾焚烧等;建筑密度、地形地貌、天气条件等因素是影响空气质量的重要原因。内因是污染物的浓度越大,对环境的空气质量影响也越大,外因则是如相对湿度增大、大气压力降低、逆温天气等气象条件影响了污染物的扩散,使得污染物不断积累,导致空气变差。根据结论,减少大气污染的方法有:控制污染物排放,对不同时期的排放量进行控制,尽可能在气象条件不利的天气减少排放;工厂布局、尾气处理、城区与工业区距离及规划要合理,以方便于污染物的扩散,不要过度集中,否则会造成重复迭加污染。4.时序分析与预测时间序列是各时间点上形成的数值序列,时间序列分析是通过曲线拟合和参数估计以及对时间序列数据进行系统化的观察,建立数学模型的理论。需要明确的是,时间序列分析主要是对自身的变化规律进行研究,而不是对时间的回归。可以利用时间序列分析来对数据的未来趋势进行预测、如金融市场、客流控制、市场供需等。由于时间序列数据的特殊性,通常意味着需要使用专门统计方法来对其进行分析。在本章,主要是对ARIMA组件进行关注,ARIMA组件可以对时间序列进行更深层的了解和预测,非平稳序列在经过差分后会具有平稳的特征,然后用ARIMA模型对平稳的时间序列进行拟合。而AQI指数的变化规律具有较强的季节性,因此选择ARIMA对AQI指数进行预测。相较于LSTM,ARIMA的预测值更接近历史值和平均值,并且对峰值的预测效果更接近。可以通过时间序列的散点图、偏自相关函数图以及自相关函数图来判断平稳性,如果平稳性较差则需要对其进行平稳化处理,直到时间序列的均值和方差均为常数,并且在一个常数值附近随机波动,在对非平稳的时间序列数据进行平稳化处理后,ACF拖尾,PACFp阶截尾则选择建立AR模型;若ACFq阶截尾,PACF拖尾,则建立MA模型;若ACF和PACF拖尾,则建立ARMA模型。为检验所建立的模型是否具有意义,接下来需要对参数进行估计,然后对检验进行假设,判断残差序列是否为为白噪声序列。最后对已通过检验的模型进行预测。在ARIMA(p,d,q)(AutoregressiveIntergratedMovingAverage)中,AR是“自回归”,I是差分,MA为“滑动平均”,p是自回归系数,d为差分次数(阶数);q为滑动平均数。ARIMA原理就是对进行了平稳化处理后的时间序列将随机误差项的现值和滞后值以及因变量自身的滞后值进行回归。ARIMA模型的优点是它不需要借助其他外生变量;但要求时间序列数据必须是平稳的或是经差分后稳定的且ARIMA模型本质上无法对非线性关系进行捕捉。其中自回归模型(AR)的基本解释是:对历史值与当前值的关系进行描述,通过自身的历史值对未来值进行预测只能对于自身历史时期相关的现象进行预测必须满足平稳性的要求并具有自相关性自相关系数必须大于0.5公式定义:yt=μ+i=1其中yt是当前值,μ是常数项,p是阶数,γi被假设为对于任何的t都不变,yt-i为前几条的值,ϵt移动平均模型(MA)是关注自回归模型中误差项的累计,当AR(p)的假设条件不满足时可以考虑使用此模型,通过历史时期的随机干扰或预测误差的线性组合来表达当前预测值,q阶自回归过程的公式定义:yt=μ+ARMA是自回归模型和移动平均模型的结合,公式定义如下:yt=μ+i=1ACF,自相关函数(决定q值),反映了同一序列在不同时间的取值之间关联度。同时中间(k-1)个随机变量xt-1……x(t-k+1)还会对x(t)造成影响,而x(t-k)又和k-1个随机变量互相相关,所以p(k)ACFk=ARIMA(p,d,q)阶数确定:模型ACFPACFAR(p)衰减趋近于零(几何型或震荡型)p阶后截尾MA(q)q阶后截尾衰减趋近于零(几何型或震荡型)ARMA(p,q)q阶后衰减趋近于零(几何型或震荡型)p阶后衰减趋近于零(几何型或震荡型)平稳性要求:样本时间序列所得到的拟合曲线在未来一定时间内仍可以按照现有的形态趋势继续延续。由于空气质量数据属于弱平稳数据,因此需要对数据进行差分,提升数据的平稳性,从而保证ARIMA模型的要求得到满足。在将所需的库安装好并导入后,就可以开始对数据进行时序分析和预测了。4.1建立ARIMA时间序列模型时间序列预测中最常用的方法之一就是被称为ARIMA模型,它代表了AutoRegessive综合MovingAverage版本。时间序列可以通过ARIMA模型对数据拟合后按照目前的形态和趋势去对未来时间点的数据进行更深入的了解和预测。其中,有三个不同的参数p、d、q用于对ARIMA模型进行参数化调整。这三个参数共计数据集中的趋势变化、平稳性和季节性:(1)p是模型的自回归部分,代表预测模型中采用的时序数据本身的滞后数(lags),也叫做AR/Auto-Regressive项。它允许将过去价值观的影响纳入模型。直观地说,如果过去的一段时间AQI指数呈升高趋势,则明天的AQI指数可能也会升高。(2)d是模型的集成部分,代表时序数据需要进行多少次差分,才会由原本的非平稳序列转换成平稳序列,也叫Integrated项。其中包括模型中包含的差异量(当前时间值与历史时间值距离)以适用于时间序列。通过ADF检验原时间序列的平稳性,如果原时间序列是平稳的,那么d=0;否则对时间序列进行差分直到ADF检验证明序列是平稳的但序列一般差分次数不超过2次。直观地说,如果过去一段时间的AQI指数变化幅度较小,明天的AQI指数变化幅度可能也不大。(3)q是模型的移动平均部分,代表预测模型中由于预测的平滑性造成的滞后,也叫做MA/MovingAverage项。可以将历史时间点设置为模型的误差来对误差的线性组合进行观察。通过利用季节性ARIMA模型对空气质量数据的季节性影响进行处理时,,即SARIMAX,表示为ARIMA(p,d,q)x(P,D,Q)s。其中(p,d,q)描述的是前面所提到的非季节性参数,而(P,D,Q)遵循相同的定义,用于描述季节性参数。S是指每个时间序列的周期。由于所涉及的多个调整参数,下一节中,将进一步解释如何对季节性ARIMA模型的最优参数集进行自动化识别。4.2ARIMA时间序列模型的参数选择要使用季节性ARIMA模型来对时间序列数据进行拟合,首先需要找出优化感兴趣度量的ARIMA(p,d,q)(P,D,Q)s的值,可以通过多种方法来实现这一步骤,但ARIMA模型的正确参数化设置是一个较为漫长的过程。而其他统计编程语言则可以通过自动化来解决这个问题。在本节中,可以通过手动编写Python代码来寻找季节性ARIMA模型的最优参数值。首先需要先对周期S进行确定,由于从前一章的变化趋势图可以看出,空气质量的变化规律是一年作为一个周期,所以首先可以确定周期s=12。接下来通过使用“网格搜索”对不同的参数组合进行迭代探索。通过使用ARIMA(p,d,q)(P,D,Q)s函数对每个参数组合进行拟合并在经过整体质量评估后得到新的季节性ARIMA模型。最佳参数组合将在探索完参数范围后得到,其将会是感兴趣的标准产生的最佳性能的参数。因此需要对参数的取值范围先进行确认,在确定好参数的取值范围并生成参数三元组后,然后使用该三元组来对ARIMA模型结合编写的代码完成的训练和评估的过程。在对不同参数的模型进行评估和比较配备时,可以根据每个参数组合对应模型的契合度和对未来数据的预测能力进行排序。因此选择以AIC值(Akaike信息标准)作为排序参考标准。AIC同时考虑了模型的复杂度以及模型对数据的契合度。在使用大量功能的情况下,AIC值越低,意味着适合数据的模型以使用的特征较少的方式来获取相同的适合度。因此,可以通过寻找AIC值最低来找到最有兴趣的模型。下面通过编写函数get_best_AIC来遍历参数范围内的所有参数组合,并使用SARIMAX函数对相应的季节性ARIMA模型进行适应。其中,pdq指定非季节性参数,而seasonal_pdq指定季节性参数。对每一个模型进行安装后,输出其对应的输入:data=城市的空气质量数据中AQI指数一列过程:函数get_best_AIC(data):对非季节性参数和季节性参数的取值范围进行定义利用duct()生成笛卡尔积的元组然后将其转换成列表形式生成非季节性参数列表pdq和季节性参数列表seasonal_pdq禁用警告消息,因为某些组合可能导致数字错误指定并导致引发异常Forpdq中每一个元素param:Forseasonal_pdq中每一个元素param_seasonal:Try:使用函数SARIMAX(data,order=param,seasonal_order=param_seasonal,enforce_stationarity=False,enforce_invertibility=False)并生成模型mod安装模型mod并得到结果result按格式输出param、param_seasonal以及AIC得分Except:ContinueEndforEndfor通过最终的结果表明:当非季节性参数(p,d,q)分别等于1、0、2,季节性参数(P,D,Q)均等于0时,对应的AIC4.3安装ARIMA时间序列模型通过上一节的网络搜索,已经得到了参数范围内生成拟合时间序列数据的模型对应AIC值最低的参数组合,可以通过该参数组合对模型进行更深入的分析。首先将得出的参数组合插入到新的SARIMAX模型中,并使用result.summary()函数将模型计算参数表全部打印出来。从返回的系数表中,coef列将对每个特征如何影响时间序列以及每个特征的权重进行展示。P>|z|描述的是每个特征权重的意义。而返回的p值均为0(如图16),说明模型中权重的设置和保留是合理的。图16SHARIMAX模型计算参数表在对季节性ARIMA函数使用fit()函数时,需要对模型进行诊断来确保没有违反模型的假设。可以通过plot_diagnostics对象快速生成模型诊断检查首先确保模型的残差不存在相关性且平均分布为0,如果无法满足以上特性,则需要进一步的改善(如图17)。图17SARIMAX模型诊断模型诊断在数理统计中,估计值(拟合值)与实际值与之间的差被称为残差。回归模型基本假设的信息被包含在“残差”中。如果模型正确,残差可被看作误差的观测值。残差应具有误差的一些性质并符合模型假设条件。通过残差分析,将残差中包含的信息对模型假设的合理性及数据的可靠性进行检测。通过残差分析对模型进行诊断,诊断结果如下:(1)随着时间的变化(左上图),残差并未出现较明显的季节性特征,图中的部分峰值似乎是白噪声点,但无法准确判断,通过自相关图(右下图)证明可得时间序列的滞后值与自身的残差之间的相关性较低。(2)在右上图中,我们看到橙色KDE线与N(0,1)呈正态分布,即标准偏差为1且平均值为0,意味着残留物分布正常。(3)左下角图显示,残差(蓝点)分布呈遵循N(0,1)的标准正态分布采样的线性趋势,这一特征同样意味着通过上述结果可以证实该模型的效果较为满意,能够为预测未来值以及了解空气质量数据起到积极的作用。尽管结果较为满意,但是可以通过改变模型的一些参数来提高模型的拟合效果,如通过拓宽网格搜索范围来找到拟合效果更好的参数组合。4.4验证预测在上一节,我们已经获得了我们时间序列的模型,并对模型的假设的合理性及数据的可靠性进行考察,现在可以用来产生预测。首先需要对实际值和预测值进行比较,从而提高预测的准确性。可以通过get_prediction()和conf_int()属性来获得时间序列预测的值和相关的置信区间。然后绘制AQI指数时间序列的实际值和预测值,折线的对比进行较为直观的评估(如图18)。使用pred.predicted_mean得到预测均值,而函数间区域可以使用fill_between用法。图18季节性ARIMA算法对七台河AQI指数的实际值和预测值对比图总体而言,我们的实际值与预测值基本保持一致。然后通过使用MSE(方差)总结得出预测的平均误差。这个值在每个城市的结果都不一样,并且最大值和最小值差距较大,尽管无法非常接近0,但是在实际情况中通常都不可能。而与同样具有时间序列分析的LSTM算法相比,尽管LSTM算法的MSE值比季节性ARIMA的更小,但是LSTM对峰值的预测效果并不如季节性ARIMA(如图19),且两种算法的MSE值之差在七台河数据集中只有10左右,在其他空气质量变化幅度更小的城市这个差值可能会更低。所以总的来说,LSTM算法可能更适用于空气质量数据较为平稳的城市,而季节性ARIMA算法对空气质量数据变化较大的城市预测效果更好。图19LSTM算法对七台河AQI指数的预测值和实际值的对比图4.5生成可视化预测最后,通过利用季节性ARIMA时间序列模型对未来的AQI指数进行预测。时间序列对象的get_forecast()函数可以对已指定数量的步骤计算其预测值,并通过此代码的输出未来值的时间序列和预测,我预测了未来30天AQI指数,并将其绘制出来(如图19)。再将预测值与实际值进行对比,整体趋势与实际值基本符合。随着对未来值的进一步检验,MSE值约等于21,在可接受的范围内,说明整个预测是比较成功的。图19七台河未来30天AQI指数的预测图参考文献[1]谢骁,董利民.城市空气污染、区域联系与经济发展——基于环境库兹涅茨曲线形成机制的视角[J]生态经济EcologicalEconomy2019年02期[2]陈婕.我国环境库兹涅茨曲线研究述评[J]金融经济FinanceEconomy2019年18期[3]洛平.确保大气污染防治更有实效[N]洛阳日报2019-10-24[4]杜灵.环保大数据在环境污染防治管理中应用探究[J]现代营销(信息版)2019年11期[5]王飞.塔城市大气污染物的时间变化特征分析[A]第34届中国气象学会年会气候环境与人体健康分会场论文集[6]伍潘,黄小娟,张军科,张建强,宋宏艺,罗进奇.香港地区不同类型站点大气污染变化特征对比研究[J]四川环境SichuanEnvironment2018年05期[7]郭庆春,袁悦,刘芳芳,高芮,张淑文,姜洪瑞.聊城市大气污染变化特征研究[J]陕西广播电视大学学报JournalofShaanxiRadio&TVUniversity2017年03期[8]张雷光,王君平.我国大气污染及气象因素对人体健康影响的探讨[J/OL]临床医药文献电子杂志JournalofClinicalMedicalLiterature2016年06期[9]王成祥,陈永金,刘加珍,徐梦辰,王丹,刘亚琦.聊城市大气污染现状与治理对策研究[J]环境工程EnvironmentalEngineering2016年06期[10]刘华琦.浅淡大气污染的原因和防治措施[J]黑龙江环境通报HeilongjiangEnvironmentalJournal2016年01期[11]林发照.珠三角城市群经济增长与环境污染关系研究[J]中国环境管理干部学院学报JournalofEnvironmentalManagementCollegeofChina[12]赵李明基于遗传算法和BP神经网络的广州市空气质量预测与时空分布研究[D][13]徐兰芹基于ARIMA组合模型的济南空气质量指数(AQI)研究[D][14]刘顺程,岳思颖大数据时代下基于Python的网络信息爬取技术[J]电子技术与软件工程ElectronicTechnology&SoftwareEngineering2017年21期

HYPERLINK如何给电脑重做系统给电脑重做系统,自己学学,可少花钱,哈哈[图]

一、准备工作:

如何重装电脑系统

首先,在启动电脑的时候按住DELETE键进入BIOS,选择AdvancedBIOSFeatures选项,按Enter键进入设置程序。选择FirstBootDevice选项,然后按键盘上的PageUp或PageDown键将该项设置为CD-ROM,这样就可以把系统改为光盘启动。

其次,退回到主菜单,保存BIOS设置。(保存方法是按下F10,然后再按Y键即可)

1.准备好WindowsXPProfessional简体中文版安装光盘,并检查光驱是否支持自启动。

2.可能的情况下,在运行安装程序前用磁盘扫描程序扫描所有硬盘检查硬盘错误并进行修复,否则安装程序运行时如检查到有硬盘错误即会很麻烦。

3.用纸张记录安装文件的产品密匙(安装序列号)。

4.可能的情况下,用驱动程序备份工具(如:驱动精灵2004V1.9Beta.exe)将原WindowsXP下的所有驱动程序备份到硬盘上(如∶F:Drive)。最好能记下主板、网卡、显卡等主要硬件的型号及生产厂家,预先下载驱动程序备用。

5.如果你想在安装过程中格式化C盘或D盘(建议安装过程中格式化C盘),请备份C盘或D盘有用的数据。

二、用光盘启动系统:

(如果你已经知道方法请转到下一步),重新启动系统并把光驱设为第一启动盘,保存设置并重启。将XP安装光盘放入光驱,重新启动电脑。刚启动时,当出现如下图所示时快速按下回车键,否则不能启动XP系统光盘安装。如果你不知道具体做法请参考与这相同的-->如何进入纯DOS系统:

光盘自启动后,如无意外即可见到安装界面,将出现如下图1所示

查看原图

全中文提示,“要现在安装WindowsXP,请按ENTER”,按回车键后,出现如下图2所示

查看原图

许可协议,这里没有选择的余地,按“F8”后如下图3

HYPERLINK

查看原图

这里用“向下或向上”方向键选择安装系统所用的分区,如果你已格式化C盘请选择C分区,选择好分区后按“Enter”键回车,出现下图4所示

查看原图

这里对所选分区可以进行格式化,从而转换文件系统格,或保存现有文件系统,有多种选择的余地,但要注意的是NTFS格式可节约磁盘空间提高安全性和减小磁盘碎片但同时存在很多问题MacOS和98/Me下看不到NTFS格式的分区,在这里选“用FAT文件系统格式化磁盘分区(快),按“Enter”键回车,出现下图5所示

查看原图

格式化C盘的警告,按F键将准备格式化c盘,出现下图6所示

HYPERLINK

查看原图

由于所选分区C的空间大于2048M(即2G),FAT文件系统不支持大于2048M的磁盘分区,所以安装程序会用FAT32文件系统格式对C盘进行格式化,按“Enter”键回车,出现下图7所示

查看原图图7中正在格式化C分区;只有用光盘启动或安装启动软盘启动XP安装程序,才能在安装过程中提供格式化分区选项;如果用MS-DOS启动盘启动进入DOS下,运行i386\winnt进行安装XP时,安装XP时没有格式化分区选项。格式化C分区完成后,出现下图8所示

被过滤广告

查看原图

图8中开始复制文件,文件复制完后,安装程序开始初始化Windows配置。然后系统将会自动在15秒后重新启动。重新启动后,出现下图9所示

HYPERLINK

查看原图

9

查看原图

过5分钟后,当提示还需33分钟时将出现如下图10

HYPERLINK

查看原图

区域和语言设置选用默认值就可以了,直接点“下一步”按钮,出现如下图11

查看原图

这里输入你想好的姓名和单位,这里的姓名是你以后注册的用户名,点“下一步”按钮,出现如下图12

HYPERLINK

查看原图

如果你没有预先记下产品密钥(安装序列号)就大件事啦!这里输入安装序列号,点“下一步”按钮,出现如下图13

HYPERLINK

查看原图

安装程序自动为你创建又长又难看的计算机名称,自己可任意更改,输入两次系统管理员密码,请记住这个密码,Administrator系统管理员在系统中具有最高权限,平时登陆系统不需要这个帐号。接着点“下一步”出现如下图14

查看原图

日期和时间设置不用讲,选北京时间,点“下一步”出现如下图15

HYPERLINK

查看原图

开始安装,复制系统文件、安装网络系统,很快出现如下图16

查看原图

让你选择网络安装所用的方式,选典型设置点“下一步”出现如下图17

HYPERLINK

查看原图

点“下一步”出现如下图18

HYPERLINK

查看原图

继续安装,到这里后就不用你参与了,安装程序会自动完成全过程。安装完成后自动重新启动,出现启动画面,如下图19

HYPERLINK

查看原图

第一次启动需要较长时间,请耐心等候,接下来是欢迎使用画面,提示设置系统,如下图20

查看原图

点击右下角的“下一步”按钮,出现设置上网连接画面,如下图21所示

HYPERLINK

查看原图

点击右下角的“下一步”按钮,出现设置上网连接画面,如下图21所示

查看原图

这里建立的宽带拨号连接,不会在桌面上建立拨号连接快捷方式,且默认的拨号连接名称为“我的ISP”(自定义除外);进入桌面后通过连接向导建立的宽带拨号连接,在桌面上会建立拨号连接快捷方式,且默认的拨号连接名称为“宽带连接”(自定义除外)。如果你不想在这里建立宽带拨号连接,请点击“跳过”按钮。

在这里我先创建一个宽带连接,选第一项“数字用户线(ADSL)或电缆调制解调器”,点击“下一步”按钮,如下图22所示

HYPERLINK

查看原图

目前使用的电信或联通(ADSL)住宅用户都有帐号和密码的,所以我选“是,我使用用户名和密码连接”,点击“下一步”按钮,如下图23所示

查看原图

输入电信或联通提供的帐号和密码,在“你的ISP的服务名”处输入你喜欢的名称,该名称作为拨号连接快捷菜单的名称,如果留空系统会自动创建名为“我的ISP”作为该连接的名称,点击“下一步”按钮,如下图24所示

查看原图

已经建立了拨号连接,微软当然想你现在就激活XP啦,不过即使不激活也有30天的试用期,又何必急呢?选择“否,请等候几天提醒我”,点击“下一步”按钮,如下图25所示

HYPERLINK

查看原图

输入一个你平时用来登陆计算机的用户名,点下一步出现如下图26

HYPERLINK

查看原图

点击完成,就结束安装。系统将注销并重新以新用户身份登陆。登陆桌面后如下图27

HYPERLINK

查看原图

六、找回常见的图标

在桌面上点开始-->连接到-->宽带连接,如下图32

查看原图

左键点“宽带连接”不放手,将其拖到桌面空白处,可见到桌面上多了一个“宽带连接”快捷方式。结果如下图33

HYPERLINK

查看原图

然后,右键在桌面空白处点击,在弹出的菜单中选“属性”,即打开显示“属性窗口”如下图34

查看原图

在图中单击“桌面”选项卡,出现如下图35

HYPERLINK

查看原图

在图中的左下部点击“自定义桌面”按钮,出现如下图36

查看原图

在图中的上部,将“我的文档”、“我的电脑”、“网上邻居”和“InternetExplorer”四个项目前面的空格上打钩,然后点“确定”,再“确定”,你将会看到桌面上多了你想要的图标。如下图37

键盘上每个键作用!!!

F1帮助

F2改名

F3搜索

F4地址

F5刷新

F6切换

F10菜单

CTRL+A全选

CTRL+C复制

CTRL+X剪切

CTRL+V粘贴

CTRL+Z撤消

CTRL+O打开

SHIFT+DELETE永久删除

DELETE删除

ALT+ENTER属性

ALT+F4关闭

CTRL+F4关闭

ALT+TAB切换

ALT+ESC切换

ALT+空格键窗口菜单

CTRL+ESC开始菜单

拖动某一项时按CTRL复制所选项目

拖动某一项时按CTRL+SHIFT创建快捷方式

将光盘插入到CD-ROM驱动器时按SHIFT键阻止光盘自动播放

Ctrl+1,2,3...切换到从左边数起第1,2,3...个标签

Ctrl+A全部选中当前页面内容

Ctrl+C复制当前选中内容

Ctrl+D打开“添加收藏”面版(把当前页面添加到收藏夹中)

Ctrl+E打开或关闭“搜索”侧边栏(各种搜索引擎可选)

Ctrl+F打开“查找”面版

Ctrl+G打开或关闭“简易收集”面板

Ctrl+H打开“历史”侧边栏

Ctrl+I打开“收藏夹”侧边栏/另:将所有垂直平铺或水平平铺或层叠的窗口恢复

Ctrl+K关闭除当前和锁定标签外的所有标签

Ctrl+L打开“打开”面版(可以在当前页面打开Iternet地址或其他文件...)

Ctrl+N新建一个空白窗口(可更改,Maxthon选项→标签→新建)

Ctrl+O打开“打开”面版(可以在当前页面打开Iternet地址或其他文件...)

Ctrl+P打开“打印”面板(可以打印网页,图片什么的...)

Ctrl+Q打开“添加到过滤列表”面板(将当前页面地址发送到过滤列表)

Ctrl+R刷新当前页面

Ctrl+S打开“保存网页”面板(可以将当前页面所有内容保存下来)

Ctrl+T垂直平铺所有窗口

Ctrl+V粘贴当前剪贴板内的内容

Ctrl+W关闭当前标签(窗口)

Ctrl+X剪切当前选中内容(一般只用于文本操作)

Ctrl+Y重做刚才动作(一般只用于文本操作)

Ctrl+Z撤消刚才动作(一般只用于文本操作)

Ctrl+F4关闭当前标签(窗口)

Ctrl+F5刷新当前页面

Ctrl+F6按页面打开的先后时间顺序向前切换标签(窗口)

Ctrl+F11隐藏或显示菜单栏

Ctrl+Tab以小菜单方式向下切换标签(窗口)

Ctrl+Enter域名自动完成[url=].**.com[/url](内容可更改,Maxthon选项→地址栏→常规)/另:当输入焦点在搜索栏中时,为高亮关键字

Ctrl+拖曳保存该链接的地址或已选中的文本或指定的图片到一个文件夹中(保存目录可更改,Maxthon选项→保存)

Ctrl+小键盘'+'当前页面放大20%

Ctrl+小键盘'-'当前页面缩小20%

Ctrl+小键盘'*'恢复当前页面的缩放为原始大小

Ctrl+Alt+S自动保存当前页面所有内容到指定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论