python菜鸟入门教程2023_第1页
python菜鸟入门教程2023_第2页
python菜鸟入门教程2023_第3页
python菜鸟入门教程2023_第4页
python菜鸟入门教程2023_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第python菜鸟入门教程2023

python菜鸟入门教程

环境配置:下载Python并安装,安装完成后,配置windows的环境变量:打开高级系统设置,将Python的安装目录添加到系统变量path中。配置完成后,在cmd命令行,输入命令Python,出现Python版本号,即配置成功

教程学习:上网百度下载一份Python教程,进行学习。初学者入门的话,没必要整份教程看一遍,只需要将基础的语法及模块挑出学习,如:字符串、列表、字典、元组、文件及数据库的操作

上机实践:单纯地学习教程绝对是没法学好编程语言的,我们需要通过实践将理论知识转为实打实的技能。在学习的过程中,可以在Ulipad上尝试编写脚本,也可以将教程上的代码自己敲一遍。总之,一定要“多敲”

下载安装步骤

趁着在家有个干净的windows环境,我自己尝试从头配置Python+webdriver,公司的配置是前辈已经帮忙配好的。本文档在于帮助菜鸟扫盲。有些内容是引用虫师的

1.下载python,好吧官网有,直接exe安装吧少年,推荐下载py2.7,3.3不太稳定(说错别砍我,我很菜)

2.下载setuptools(python的基础包工具),同样是exe文件,默认会找到python的安装路径,将安装到C:Python27Libsite-packages目录下

3.下载pip,(python安装包管理工具),我默认解压在了C:pip-1.3.1目录下

4.打开命令提示符(开始---cmd回车)进入C:pip-1.3.1目录下输入:

C:pip-1.3.1pythonsetup.pyinstall

(如果提示python不是内部或外部命令!别急,去配置一下环境变量吧)

5.再切换到C:Python27Scripts目录下输入:

C:Python27Scriptseasy_installpip

6、安装selenium,(下载地址:/pypi/selenium)

如果是联网状态的话,可以直接在C:Python27Scripts下输入命令安装:

C:Python27Scriptspipinstall-Uselenium

如果没联网(这个一般不太可能),下载selenium2.33.0(目前的本)

并解压把整个目录放到C:Python27Libsite-packages目录下。

7、下载selenium的服务端(/p/selenium/)在页面的左侧

列表中找到

selenium-server-standalone-_X.jar

对!就是这个东西,把它下载下来并解压;

在selenium-server-standalone-_x.jar目录下使用命令java-jar

selenium-server-standalone-_x.jar启动(如果打不开,查看是否端口被占用:

netstat-aon|findstr4444)。

至此步骤完毕

接下来是一些注意事项,是我配置想启动的过程中遇到的问题,希望对你们有所帮助:

1.我写了个入门的python+webdriver脚本:

出现error:

Traceback(mostrecentcalllast):FileC:Python27Libaa.py,line1,infromseleniumimportwebdriverImportError:Nomodulenamedselenium

解决方案:没有找到selenium,好吧他说selenium没装,但是我真的安装的啊。我勒个去。于是我把我之前selenium-2.35.0.tar删了,在线用pip命令操作安装selenium,发现用fromseleniumimportwebdriver还是报错,于是找啊找,参见该博客/s/blog_416544cb0101kzua.html

重启电脑,这里如果不重启,不生效,OK,这个重启电脑搞定这个问题

2.我相信很多人会去手写python脚本

请大家注意调用浏览器首字母要大写。。。(今天差点弄死我),如:Firefox,Chrome,Ie

3.注意得把IEDriverServer跟chromedriver放到对应浏览器的安装目录下

配置浏览器的环境变量Path:如

Chrome:C:UserswyxAppDataLocalGoogleChromeApplication

4.在python的安装目录下也放IEDriverServer,chromedriver

Python入门

第一步:Python入门

这一阶段,你需要学习的知识点:

如果学习能力还不错的话,这一阶段,只需要一个多月的时间

教程如下:

Python入门教程完整版(懂中文就能学会)/s/1miwZ1WW

第二步:熟悉Scrapy各模块

教程简介:

(1)Scrapy的简介。

主要知识点:Scrapy的架构和运作流程。

(2)搭建开发环境:

主要知识点:Windows及Linux环境下Scrapy的安装。

(3)ScrapyShell以及ScrapySelectors的使用。

(4)使用Scrapy完成网站信息的爬取。

主要知识点:创建Scrapy项目(scrapystartproject)、定义提取的结构化数据(Item)、编写爬取网站的Spider并提取出结构化数据(Item)、编写ItemPipelines来存储提取到的Item(即结构化数据)。

教程下载地址:Scrapy教程/s/1dF3qhFV

第三步:Django教程

教程简介:

(1)Django的简介。

主要知识点:MVC设计模式以及Django的MVT。

(2)搭建开发环境:

主要知识点:Linux的虚拟环境搭建和应用、Django的安装。

(3)利用Django框架完成简单的图书项目:

主要知识点:编写模型,使用API与数据库交互、使用Django的后台管理管理数据、通过视图接收请求,通过模型获

教程下载地址:Django教程/s/1nvFlfU5

第四部:Python全栈教程

教程简介:

(1)HTTP协议的分析:

HTTP格式。

包含知识点:HTTPGET请求的格式、HTTPPOST请求的格式、HTTP响应的格式。

(2)HTTP协议的使用(实现Web静态服务器):

利用HTTP协议实现Web静态服务器。

包含知识点:浏览器首先向服务器发送HTTP请求、服务器向浏览器返回HTTP响应、使用类。

(3)服务器动态资源请求(实现Web动态服务器):

利用WSGI实现Web动态服务器。

包含知识点:浏览器请求动态页面的过程介绍、WSGI的介绍、定义WSGI接口。

教程下载地址:

Python全栈教程/s/1nvFlfU

掌握分布式爬虫技术与数据去重技术

有一些站点,通过常规的爬虫很难去进行爬取,这个时候,你需要借助一些工具模块进行,比如PhantomJS、Selenium等,所以,你还需要掌握PhantomJS、Selenium等工具的常规使用方法。

如果你已经学习或者研究到到了这里,那么恭喜你,相信现在你爬任何网站都已经不是问题了,反爬对你来说也只是一道形同虚设的墙而已了。

但是,如果要爬取的资源非常非常多,靠一个单机爬虫去跑,仍然无法达到你的目的,因为太慢了。

所以,这个时候,你还应当掌握一种技术,就是分布式爬虫技术,分布式爬虫的架构手段有很多,你可以依据真实的服务器集群进行,也可以依据虚拟化的多台服务器进行,你

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论