版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据应用基础项目四
Python应用基础04Python编程语言简介
网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息。
网络爬虫工具分类主要包括:Java网络爬虫工具和Python爬虫工具。Python编程语言简介
Python是一门开源免费的脚本编程语言,它不仅简单易用,而且功能强大。
随着大数据和人工智能的兴起,在2020年12月份世界编程语言排行榜中,Python排名第三,仅次于C和Java语言。
Python编程语言简介
可以移植。可以被移植到大多数平台下面。
解释性。Python语言写的程序不需要编译成二进制代码。。面向对象。Python既支持面向过程,又支持面向对象。可扩展。可以混合使用像C语言、Java语言等编写。丰富的第三方库。由于Python的开源特性,第三方库也非常多。
简单。“极简主义”,阅读Python程序像是在读英语。
易学。入手非常快,直接通过命令行交互环境来学习。免费/开源。Python的所有内容都是免费开源的。
自动内存管理。Python内存管理是自动完成的。Python优点Python编程语言简介
除了上面提到的各种优点,Python也是有缺点的。
运行速度慢。Python速度慢不仅仅是因为一边运行一边“翻译”源代码,还因为Python是高级语言,屏蔽了很多底层细节。
代码加密困难。Python直接运行源代码,因此对源代码加密比较困难。Python编程语言简介
Python是大数据技术和数据科学职业领域不可或缺的技能之一。
Python的火热,也带动了工程师们的就业热。
就业方向:Python开发人员、机器学习工程师、数据科学家、数据分析师、BI分析师、数据工程师、数据架构师。
实训一Python开发环境准备1.Python软件安装。步骤1:下载Python软件。
步骤2:安装Python软件。
安装时建议不采用默认安装路径,这样不占用系统盘空间。
步骤3:Python安装测试。
安装完成后一定要测试是否安装成功,出现提示符、能够运行,则表示Python软件安装配置成功。实训一Python开发环境准备2.PyCharm软件安装。步骤1:下载PyCharm软件。
步骤2:安装PyCharm软件。
安装时建议不采用默认安装路径,这样不占用系统盘空间。
步骤3:PyCharm开发环境配置。
实训一Python开发环境准备12341.引进国外先进技术,认真消化吸收并开拓创新。2.培养尊重和保护知识产权,遵纪守法的道德法律意识。3.培养具有严谨的科学态度、严密的逻辑思维。4.培养良好的职业素质,优秀的团队协作精神。下次课见!大数据应用基础Python应用基础01软件工程师晋升软件从业人员成长路径,需要我们在所属领域中深耕职业技能,要求我们具备工匠精神和敬业精神。软件工程师的进化历程初级软件工程师中级软件工程师高级软件工程师资深软件工程师项目一
软件工程师等级Python编程知识基础语法01条件判断和循环语句02文件读写031、Python基础语法Python程序的开发需要遵守规范才能编写出整洁的代码,整洁的代码是软件工程师之间良好的沟通语言,代码编程过程中要遵守软件开发的规范性和职业素质。2.1条件判断语句2.2循环语句练一练item=1foriinrange(365):item=item*(1+0.01)print(item)37.7834343328努力和不努力的鲜明对比——每天进步1%,一年后就进步38倍(3800%)。——每天懈怠1%,一年后就只剩2%了。业精于勤,荒于嬉。不负青春、不负韶华、不负时代、自律自强。“好好学习,天天向上”,养成每天多学、多练习一点的主动学习习惯。item=1foriinrange(365):item=item*(1-0.01)print(item)0.02551796443文件读写文件的两个操作:(1)写文件:写入、修改文件操作步骤:打开文件写内容关闭文件(2)读文件:读取文件操作步骤:打开文件读内容关闭文件销售数据筛选02实训二销售数据筛选背景:智信广告有限公司成立于2011年08月成立,是一家以广告营销为主营业务的公司。最近公司准备开展一项低端手机销售广告相关的业务,业务经理要求小明从公司以前的历史数据中筛选出低端手机的销售情况统计,为公司的广告业务决策提供数据支撑。公司的手机销售数据已被导出为文本文件,文件存放于D:/phone_list.txt中,该文件中存储了历史的所有手机销售数据,需要小明使用Python语言编写一段程序,从文件中筛选出售价小于1000的手机销售数据,并保存到D:/new_phone_list.txt中。实训二销售数据筛选步骤一:使用Python打开销售数据文件步骤二:逐行读取销售数据文件步骤三:筛选手机售价小于1000的销售数据步骤四:保存筛选出的手机销售数据步骤五:关闭已打开的销售数据文件vivoX60;3999.00;系列新品上市天语;259.00;大屏大字大声中兴ZTEV2022;698.00;新机发布购机无忧华为nova7se;2799.00;华为直供原装正品AppleiPhone12;5199.00;加99元得20W快充头红米9A;599.00;大声量扬声器,人脸解锁红米K40;2299.00;4800万高清三摄相机天语;259.00;大屏大字大声中兴ZTEV2022;698.00;新机发布购机无忧红米9A;599.00;大声量扬声器,人脸解锁下次课见!大数据应用基础Python应用基础01项目一
爬虫与反爬虫反爬手段:反爬手段通过User-Agent校验反爬通过访问频度反爬通过验证码校验反爬通过账号权限反爬通过变换网页结构反爬看起来很复杂有木有?往下翻试试项目一
爬虫与反爬虫无反爬措施验证码反爬虫……访问频率UA反爬虫登录反爬虫网页爬取识别验证码……代理ip设置UA模拟登录项目二
网页数据采集流程我们思考一下网页数据爬取的流程!!!分析网页结构爬取网页内容解析网页内容浏览器开发者模式(F12)requests库BeautifulSoup库一、分析网页结构浏览器——F12——进入开发者模式数据采集需要对html层次进行认真分析,而网页往往非常复杂,需要我们具有吃苦耐劳的品质与认真细致的钻研精神。一、分析网页结构标头(Headers)请求URL:请求访问的链接请求方法:getorpost状态代码:200OK,表示请求成功远程地址(IP地址)User-Agent:用户代理(请回到PPT13页是,何时需要用到它)二、使用requests库请求网站请求访问的URL请求的方法:get三、使用BeautifulSoup解析网页函数先定义,再调用!从bs4中调用BeautifulSoup库1、定义一个函数,解析htmlContent;2、html.parser为解析器,解析html内容,并赋值给bs;3、我们要解析的“新闻”标签在哪里呢?如何找到它?在开发者模式中使用定位功能查找,再使用find命令进行提取,将提取内容赋值给divTag;4、输出divTag的内容此处为函数调用,调用parseBaidu函数财务数据采集02实训三财务数据采集背景:资产负债表是反映公司某一特定日期(月末、年末)全部资产、负债和所有者权益情况的会计报表。本节利用资产负债表的资料,可以看出公司资产的分布状态、负债和所有者权益的构成情况,据以评价公司资金营运、财务结构是否正常、合理;分析公司的流动性或变现能力,以及长、短期债务数量及偿债能力,评价公司承担风险的能力;利用该表提供的资料还有助于计算公司的获利能力,评价公司的经营绩效。上市公司财务报表的作用首先在于提供决策有用的会计信息。编制财务报告不是最终目的,而是为上市公司现在和潜在的投资者、债权人以及其他财务报告的使用者提供决策有用的财务信息。实训三财务数据采集网页的内容是网站的数据资源,数据采集需要尊重和保护他人的隐私,严禁违法使用采集的数据,应遵守《中华人民共和国数据安全法》!实训三财务数据采集任务一:财务报表数据采集指标分析1、分析财务报表网页数据;2、明确数据采集指标;任务二:财务指标网页结构分析1、分析财务指标和财务数据的网页结构;
2、分析财务数据的每行数据;3、分析财务指标的每列数据;任务三:财务指标数据采集程序编写。
1、使用Requests下载网页数据;2、查找财务数据采集指标;
3、分别解析财务数据;4、以文件方式保存解析的财务数据;下次课见!大数据应用基础Python应用基础01项目一
Robots协议爬虫的合法性:当使用爬虫爬取一个网站的数据时,需要遵守网站所有者针对所有爬虫所制定的协议,这便是robots.txt协议。几乎每一个网站都有一个名为robots.txt的文档,当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站,可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有robots.txt文档,就要判断是否有禁止访客获取的数据。
我叫robots.txt协议项目一
Robots协议百度诉360不正当竞争和商标侵权案百度诉360不正当竞争和商标侵权案项目一
爬虫与反爬虫无反爬措施验证码反爬虫……访问频率UA反爬虫登录反爬虫网页爬取识别验证码……代理ip设置UA模拟登录项目二
分页数据网页辨析项目二
分页数据网页辨析项目二
分页数据网页辨析项目三
京东网页结构分析项目三
京东网页结构分析商品数据采集02实训四商品数据采集背景:市场部需要分析当前市场上的手机销售情况,以进行明年的营销方案的制定,要求对京东商城的手机销售数据进行采集,为了数据分析师能全方位的分析当前手机销售情况,要求能采集手机的名称、手机配置、销售单价、描述信息和手机图片等信息。实训四商品数据采集任务一:商品页面区域分析1、京
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 服务业沟通培训
- 物业小区虫害防制案例客户表
- 课件背景图教学课件
- 网络课件教学课件
- 颈枕融合术及护理
- 激素药膏与皮肤病
- 鄂教版小学科学五年级上册《谁吃谁》课件
- 附肢骨骼课件
- 广东省事企业单位选调人员呈报表
- 2024年税务师《财务与会计》核心备考题库(含典型题、重点题)
- 学校矛盾纠纷排查化解工作方案(3篇)
- 6人小品《没有学习的人不伤心》台词完整版
- 《王戎不取道旁李》课件完美版
- 氯化钠溶液的配置实验报告(共6页)
- 收音机FM指标测试方法3页
- 人教版六年级数学上册总复习教案
- 英格索兰空压机控制器操作说明书
- (完整版)高压开关柜技术协议(10KV配电所10KV高压成套开关柜设备供货)最新(精华版)
- 量子力学公式
- GB∕T 40150-2021 粮油储藏 储粮机械通风均匀性评价方法
- 新苏教版2021-2022四年级科学上册《15生活中的电》教案
评论
0/150
提交评论