python爬虫

python爬虫之旅

什么是爬虫？

所谓爬虫，就是指程序员利用代码模拟用户正常使用浏览器访问服务器，快速高效地获取信息。通俗点，因为网页上的有用信息太多，用户单个页面操作花费的时间成本太高，因此爬虫即是帮助人们获取网页上的指定信息的工具。

需要注意的是，由于使用代码爬虫爬网站数据时，会给网站增加许多负荷，容易造成网站瘫痪，因此很多网站都会进行反爬虫设置。例如同一ip很短时间内访问太多次数，有可能会被该网站的服务器封掉ip，即本机网络无法再访问该站点。因此在进行网络爬虫时，应尽力模仿用户使用浏览器，让站点的服务器认为这是正常的用户使用网页，而不是爬虫。

爬虫的种类

根据使用场景，网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.

通用爬虫

通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫

聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于： 聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

而我们今后要学习的，就是聚焦爬虫。

原理

前面也说过，所谓的爬虫本质上就是程序员通过编程语言模拟用户正常访问浏览器来获取数据。因此学习爬虫务必需要掌握浏览器的相关知识。

HTTP和HTTPS

HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。

HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP下加入SSL层。

SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全。

HTTP的端口号为80，
HTTPS的端口号为443

HTTP工作原理

网络爬虫抓取过程可以理解为模拟浏览器操作的过程。

浏览器的主要功能是向服务器发出请求，在浏览器窗口中展示您选择的网络资源，HTTP是一套计算机通过网络进行通信的规则。

HTTP的请求与响应

HTTP通信由两部分组成： 客户端请求消息 与 服务器响应消息

浏览器发送HTTP请求的过程：

当用户在浏览器的地址栏中输入一个URL并按回车键之后，浏览器会向HTTP服务器发送HTTP请求。HTTP请求主要分为“Get”和“Post”两种方法。
当我们在浏览器输入URL http://www.baidu.com 的时候，浏览器发送一个Request请求去获取 http://www.baidu.com 的html文件，服务器把Response文件对象发送回给浏览器。
浏览器分析Response中的 HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。
当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

URL（Uniform / Universal Resource Locator的缩写）：统一资源定位符，是用于完整地描述Internet上网页和其他资源的地址的一种标识方法。

基本格式：scheme://host[:port#]/path/…/[?query-string][#anchor]

scheme：协议(例如：http, https, ftp)
host：服务器的IP地址或者域名
port#：服务器的端口（如果是走协议默认端口，缺省端口80）
path：访问资源的路径
query-string：参数，发送给http服务器的数据
anchor：锚（跳转到网页的指定锚点位置）

例如：

HTTP请求主要分为`Get`和`Post`两种方法

GET是从服务器上获取数据，POST是向服务器传送数据
GET请求参数显示，都显示在浏览器网址上，HTTP服务器根据该请求所包含URL中的参数来产生响应内容，即“Get”请求的参数是URL的一部分。例如： http://www.baidu.com/s?wd=Chinese
POST请求参数在请求体当中，消息长度没有限制而且以隐式的方式进行发送，通常用来向HTTP服务器提交量比较大的数据（比如请求中包含许多参数或者文件上传操作等），请求的参数包含在“Content-Type”消息头里，指明该消息体的媒体类型和编码，

注意：避免使用Get方式提交表单，因为有可能会导致安全问题。比如说在登陆表单中用Get方式，用户输入的用户名和密码将在地址栏中暴露无遗。

常用的请求报头

1. Host (主机和端口号)

Host：对应网址URL中的Web名称和端口号，用于指定被请求资源的Internet主机和端口号，通常属于URL的一部分。

2. Connection (链接类型)

Connection：表示客户端与服务连接类型

Client 发起一个包含 Connection:keep-alive 的请求，HTTP/1.1使用 keep-alive 为默认值。
Server收到请求后：
- 如果 Server 支持 keep-alive，回复一个包含 Connection:keep-alive 的响应，不关闭连接；
- 如果 Server 不支持 keep-alive，回复一个包含 Connection:close 的响应，关闭连接。
如果client收到包含 Connection:keep-alive 的响应，向同一个连接发送下一个请求，直到一方主动关闭连接。

keep-alive在很多情况下能够重用连接，减少资源消耗，缩短响应时间，比如当浏览器需要多个文件时(比如一个HTML文件和相关的图形文件)，不需要每次都去请求建立连接。

3. Upgrade-Insecure-Requests (升级为HTTPS请求)

Upgrade-Insecure-Requests：升级不安全的请求，意思是会在加载 http 资源时自动替换成 https 请求，让浏览器不再显示https页面中的http请求警报。

HTTPS 是以安全为目标的 HTTP 通道，所以在 HTTPS 承载的页面上不允许出现 HTTP 请求，一旦出现就是提示或报错。

4. User-Agent (浏览器名称)

User-Agent：是客户浏览器的名称，以后会详细讲。

5. Accept (传输文件类型)

Accept：指浏览器或其他客户端可以接受的MIME（Multipurpose Internet Mail Extensions（多用途互联网邮件扩展））文件类型，服务器可以根据它判断并返回适当的文件格式。

举例：

Accept: */*：表示什么都可以接收。
Accept：image/gif：表明客户端希望接受GIF图像格式的资源；
Accept：text/html：表明客户端希望接受html文本。
Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8：表示浏览器支持的 MIME 类型分别是 html文本、xhtml和xml文档、所有的图像格式资源。
q是权重系数，范围 0 =< q <= 1，q 值越大，请求越倾向于获得其“;”之前的类型表示的内容。若没有指定q值，则默认为1，按从左到右排序顺序；若被赋值为0，则用于表示浏览器不接受此内容类型。
Text：用于标准化地表示的文本信息，文本消息可以是多种字符集和或者多种格式的；Application：用于传输应用程序数据或者二进制数据。详细请点击

6. Referer (页面跳转处)

Referer：表明产生请求的网页来自于哪个URL，用户是从该 Referer页面访问到当前请求的页面。这个属性可以用来跟踪Web请求来自哪个页面，是从什么网站来的等。

有时候遇到下载某网站图片，需要对应的referer，否则无法下载图片，那是因为人家做了防盗链，原理就是根据referer去判断是否是本网站的地址，如果不是，则拒绝，如果是，就可以下载；

7. Accept-Encoding（文件编解码格式）

Accept-Encoding：指出浏览器可以接受的编码方式。编码方式不同于文件格式，它是为了压缩文件并加速文件传递速度。浏览器在接收到Web响应之后先解码，然后再检查文件格式，许多情形下这可以减少大量的下载时间。

举例：Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0
如果有多个Encoding同时匹配, 按照q值顺序排列，本例中按顺序支持 gzip, identity压缩编码，支持gzip的浏览器会返回经过gzip编码的HTML页面。 如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。

8. Accept-Language（语言种类）

Accept-Langeuage：指出浏览器可以接受的语言种类，如en或en-us指英语，zh或者zh-cn指中文，当服务器能够提供一种以上的语言版本时要用到。

9. Accept-Charset（字符编码）

Accept-Charset：指出浏览器可以接受的字符编码。

举例：Accept-Charset:iso-8859-1,gb2312,utf-8
ISO8859-1：通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符，英文浏览器的默认值是ISO-8859-1.
gb2312：标准简体中文字符集;
utf-8：UNICODE 的一种变长字符编码，可以解决多种语言文本显示问题，从而实现应用国际化和本地化。
如果在请求消息中没有设置这个域，缺省是任何字符集都可以接受。

10. Cookie （Cookie）

Cookie：浏览器用这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的小型数据体，它可以记载和服务器相关的用户信息，也可以用来实现会话功能，以后会详细讲。

11. Content-Type (POST数据类型)

Content-Type：POST请求里用来表示的内容类型。

举例：Content-Type = Text/XML; charset=gb2312：
指明该请求的消息体中包含的是纯文本的XML类型的数据，字符编码采用“gb2312”

urllib2库的基本使用

所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。

urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用)
urllib2 官方文档：https://docs.python.org/2/library/urllib2.html
urllib2 源码：https://hg.python.org/cpython/file/2.7/Lib/urllib2.py

urllib2 在 python3.x 中被改为urllib.request

urlopen

我们先来段代码：


x
1
# urllib_urlopen.py
2
3
# 导入urllib.request 库
4
import urllib.request
5
6
# 向指定的url发送请求，并返回服务器响应的类文件对象
7
response = urllib.request.urlopen("http://www.baidu.com")
8
9
# 类文件对象支持 文件对象的操作方法，如read()方法读取文件全部内容，返回字符串
10
html = response.read()
11
12
# 打印字符串
13
print(html)

执行写的python代码，将打印结果


1
1
Power@PowerMac ~$: python urllib_urlopen.py

实际上，如果我们在浏览器上打开百度主页，右键选择“查看源代码”，你会发现，跟我们刚才打印出来的是一模一样。也就是说，上面的4行代码就已经帮我们把百度的首页的全部代码爬了下来。

一个基本的url请求对应的python代码真的非常简单。

Request

在我们第一个例子里，urlopen()的参数就是一个url地址；

但是如果需要执行更复杂的操作，比如增加HTTP报头，必须创建一个 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数。

我们编辑urllib_request.py


13
1
# urllib_request.py
2
3
import urllib.request
4
5
# url 作为Request()方法的参数，构造并返回一个Request对象
6
request = urllib.request.Request("http://www.baidu.com")
7
8
# Request对象作为urlopen()方法的参数，发送给服务器并接收响应
9
response = urllib.request.urlopen(request)
10
11
html = response.read()
12
13
print(html)

运行结果是完全一样的：

新建Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：
data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从 "GET"方式改为 "POST"方式。
headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。
这两个参数下面会说到。

User-Agent

但是这样直接用urllib给一个网站发送请求的话，确实略有些唐突了，就好比，人家每家都有门，你以一个路人的身份直接闯进去显然不是很礼貌。而且有一些站点不喜欢被程序（非人为访问）访问，有可能会拒绝你的访问请求。

但是如果我们用一个合法的身份去请求别人网站，显然人家就是欢迎的，所以我们就应该给我们的这个代码加上一个身份，就是所谓的User-Agent头。

浏览器就是互联网世界上公认被允许的身份，如果我们希望我们的爬虫程序更像一个真实用户，那我们第一步，就是需要伪装成一个被公认的浏览器。用不同的浏览器在发送请求的时候，会有不同的User-Agent头。 urllib默认的User-Agent头为：Python-urllib/x.y（x和y是Python主版本和次版本号,例如 Python-urllib/2.7）


17
1
#urllib_useragent.py
2
3
import urllib.request
4
5
url = "http://www.itcast.cn"
6
7
#IE 9.0 的 User-Agent，包含在 ua_header里
8
ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
9
10
#  url 连同 headers，一起构造Request请求，这个请求将附带 IE9.0 浏览器的User-Agent
11
request = urllib.request.Request(url, headers = ua_header)
12
13
# 向服务器发送这个请求
14
response = urllib.request.urlopen(request)
15
16
html = response.read()
17
print(html)

添加更多的Header信息

在 HTTP Request 中加入特定的 Header，来构造一个完整的HTTP请求消息。

可以通过调用Request.add_header() 添加/修改一个特定的header 也可以通过调用Request.get_header()来查看已有的header。

添加一个特定的header


22
1
# urllib_headers.py
2
3
import urllib.request
4
5
url = "http://www.itcast.cn"
6
7
#IE 9.0 的 User-Agent
8
header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} 
9
request = urllib.request.Request(url, headers = header)
10
11
#也可以通过调用Request.add_header() 添加/修改一个特定的header
12
request.add_header("Connection", "keep-alive")
13
14
# 也可以通过调用Request.get_header()来查看header信息
15
# request.get_header(header_name="Connection")
16
17
response = urllib.request.urlopen(request)
18
19
print(response.code)     #可以查看响应状态码
20
html = response.read()
21
22
print(html)

随机添加/修改User-Agent（为了防止被封ip——即该本机网络地址无法再访问该网站）


28
1
# urllib2_add_headers.py
2
3
import urllib.request
4
import random
5
6
url = "http://www.itcast.cn"
7
8
ua_list = [
9
    "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
10
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
11
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
12
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
13
]
14
15
user_agent = random.choice(ua_list)
16
17
request = urllib.request.Request(url)
18
19
#也可以通过调用Request.add_header() 添加/修改一个特定的header
20
request.add_header("User-Agent", user_agent)
21
22
# 第一个字母大写，后面的全部小写
23
request.get_header("User-agent")
24
25
response = urllib.request.urlopen(request)
26
27
html = response.read()
28
print(html)

GET和POST方法

urllib2默认只支持HTTP/HTTPS的GET和POST方法。

在浏览器中，我们搜索东西的时候，在浏览器的地址栏通常都会显示成下面样子：

但是实际上，当我们将地址栏的内容复制粘贴的时候，会发现粘贴出来的内容并非如此：


1
1
http://www.baidu.com/s?ie=UTF-8&wd=%E5%91%A8%E6%9D%B0%E4%BC%A6

其中，http是前面说的请求方式，在浏览器中可以省略，www同理也可以省略。会发现“周杰伦”三个字已经变成了一串字符串。

其实原理很简单，因为汉字在计算机传输过程中不是很方便，于是浏览器会将汉字进行转码，然后在传输。我们可以通过在线URL转码工具进行解码和转码：在线URL编码解码工具。然而在python中，为了方便爬虫，python自带的库里，是可以直接调用模块进行转码解码的。该模块就是urllib.urlencode()。注意，这个模块在不同python使用是不同的方式。

urllib.urlencode()


14
1
# Python3 中的测试结果
2
import urllib.parse
3
4
word = "周杰伦"
5
6
# 通过urllib.parse.quote方法，将字典键值对按URL编码转换，从而能被web服务器接受。
7
url = urllib.parse.quote(word)  
8
print(url)
9
# 输出结果：%E5%91%A8%E6%9D%B0%E4%BC%A6
10
11
# 通过urllib.parse.unquote()方法，把 URL编码字符串，转换回原先字符串。
12
word = urllib.parse.unquote(url)  
13
print(word)
14
# 输出结果：周杰伦

一般HTTP请求提交数据，需要编码成 URL编码格式，然后做为url的一部分，或者作为参数传到Request对象中。

Get方式

GET请求一般用于我们向服务器获取数据，比如说，我们用百度搜索周杰伦：https://www.baidu.com/s?wd=周杰伦

浏览器的url会跳转成如图所示:

http://www.baidu.com/s?ie=UTF-8&wd=%E5%91%A8%E6%9D%B0%E4%BC%A6

在其中我们可以看到在请求部分里，http://www.baidu.com/s? 之后出现一个长长的字符串，其中就包含我们要查询的关键词周杰伦，于是我们可以尝试用默认的Get方式来发送请求。


17
1
# urllib_get.py
2
3
import urllib.parse     
4
import urllib.request   #负责url编码处理
5
6
url = "http://www.baidu.com/s"
7
word = "周杰伦"
8
word = urllib.parse.quote(word) #转换成url编码格式（字符串）
9
newurl = url + "?" + word    # url首个分隔符就是 ?
10
11
headers={ "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}
12
13
request = urllib.request.Request(newurl, headers=headers)
14
15
response = urllib.request.urlopen(request)
16
17
print(response.read())

批量爬取贴吧页面数据

首先我们创建一个python文件, tiebaSpider.py，我们要完成的是，输入一个百度贴吧的地址，比如：

百度贴吧LOL吧第一页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三页： http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

发现规律了吧，贴吧中每个页面不同之处，就是url最后的pn的值，其余的都是一样的，我们可以抓住这个规律。

简单写一个小爬虫程序，来爬取百度LOL吧的所有网页。

需要先导入模块


2
1
import urllib.request
2
import urllib.parse

先写一个main，提示用户输入要爬取的贴吧名，并用urllib.parse.quote()进行转码，然后组合url，假设是lol吧，那么组合后的url就是：http://tieba.baidu.com/f?kw=lol


14
1
# 模拟 main 函数
2
if __name__ == "__main__":
3
4
    kw = input("请输入需要爬取的贴吧:")
5
    # 输入起始页和终止页，str转成int类型
6
    beginPage = int(input("请输入起始页："))
7
    endPage = int(input("请输入终止页："))
8
9
    url = "http://tieba.baidu.com/f?kw="
10
    key = urllib.parse.quote(kw)
11
12
    # 组合后的url示例：http://tieba.baidu.com/f?kw=lol
13
    url = url + key
14
    tiebaSpider(url, beginPage, endPage)

接下来，我们写一个百度贴吧爬虫接口，我们需要传递3个参数给这个接口，一个是main里组合的url地址，以及起始页码和终止页码，表示要爬取页码的范围。


21
1
def tiebaSpider(url, beginPage, endPage):
2
    """
3
        作用：负责处理url，分配每个url去发送请求
4
        url：需要处理的第一个url
5
        beginPage: 爬虫执行的起始页面
6
        endPage: 爬虫执行的截止页面
7
    """
8
9
10
    for page in range(beginPage, endPage + 1):
11
        pn = (page - 1) * 50
12
13
        filename = "第" + str(page) + "页.html"
14
        # 组合为完整的 url，并且pn值每次增加50
15
        fullurl = url + "&pn=" + str(pn)
16
        #print fullurl
17
18
        # 调用loadPage()发送请求获取HTML页面
19
        html = loadPage(fullurl, filename)
20
        # 将获取到的HTML页面写入本地磁盘文件
21
        writeFile(html, filename)

我们已经之前写出一个爬取一个网页的代码。现在，我们可以将它封装成一个小函数loadPage，供我们使用。


13
1
def loadPage(url, filename):
2
    '''
3
        作用：根据url发送请求，获取服务器响应文件
4
        url：需要爬取的url地址
5
        filename: 文件名
6
    '''
7
    print("正在下载" + filename)
8
9
    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
10
11
    request = urllib.request.Request(url, headers = headers)
12
    response = urllib.request.urlopen(request)
13
    return response.read()

最后如果我们希望将爬取到了每页的信息存储在本地磁盘上，我们可以简单写一个存储文件的接口。


10
1
def writeFile(html, filename):
2
    """
3
        作用：保存服务器响应文件到本地磁盘文件里
4
        html: 服务器响应文件
5
        filename: 本地磁盘文件名
6
    """
7
    print("正在存储" + filename)
8
    with open(filename, 'w') as f:
9
        f.write(str(html))
10
    print("-" * 20)

其实很多网站都是这样的，同类网站下的html页面编号，分别对应网址后的网页序号，只要发现规律就可以批量爬取页面了。

POST方式：

上面我们说了Request请求对象的里有data参数，它就是用在POST里的，我们要传送的数据就是这个参数data，data是一个字典，里面要匹配键值对。

欧陆词典翻译网站：

输入测试数据，再通过使用浏览器开发工具观察，其中有一条是POST请求，而向服务器发送的请求数据并不是在url里，那么我们可以试着模拟这个POST请求。

chrome浏览器查看方法：鼠标右键-检查-network。然后输入测试数据，回车之后，就会加载请求，在请求中找到post请求。

于是，我们可以尝试用POST方式发送请求。


45
1
#!/usr/bin/env python
2
# -*- coding:utf-8 -*-
3
4
import urllib.request, urllib.parse, urllib.error
5
6
# import urllib.request, urllib.error, urllib.parse
7
8
# 通过抓包的方式获取的url，并不是浏览器上显示的url
9
url = "http://dict.eudic.net/"
10
11
# 完整的headers
12
headers = {
13
    "Cache-Control ": " private ",
14
    "CF-Cache-Status ": " DYNAMIC ",
15
    "CF-RAY ": " 5465acc996206274-SHE ",
16
    "Connection ": " keep-alive ",
17
    "Content-Length ": " 132 ",
18
    "Content-Type ": " text/html; charset=utf-8 ",
19
    "Date ": " Tue, 17 Dec 2019 03:05:22 GMT ",
20
    "Location ": " /dicts/en/hello ",
21
    "Server ": " yunjiasu-nginx ",
22
    "X-Powered-By ": " ASP.NET "
23
}
24
25
# 用户接口输入
26
key = input("请输入需要翻译的文字:")
27
28
# 发送到web服务器的表单数据
29
formdata = {
30
    "inputword ": key,
31
    "searchtype ": " search_dict ",
32
    "recordid ": "  ",
33
    "forcecg ": " false ",
34
    "cgformidx ": " 0 "
35
}
36
37
# 经过urlencode转码
38
data = urllib.parse.urlencode(formdata).encode("utf-8")
39
40
# 如果Request()方法里的data参数有值，那么这个请求就是POST
41
# 如果没有，就是Get
42
request = urllib.request.Request(url, data=data, headers=headers)
43
44
print(urllib.request.urlopen(request).read().decode("utf-8"))
45

发送POST请求时，需要特别注意headers的一些属性：

Content-Length: 132：是指发送的表单数据长度为132，也就是字符个数是132个。
X-Powered-By: ASP.NET ：表示Ajax异步请求。
Content-Type: text/html; charset=utf-8 ：表示浏览器提交 Web 表单时使用，表单数据会按照 name1=value1&name2=value2 键值对形式进行编码。

Get 和 Post请求的区别：

Get : 请求的url会附带查询参数， POST：请求的url不带参数

对于Get请求：查询参数在QueryString里保存对于Post请求：查询参数在Form表单里保存

练习

自己任意选择网站，一个使用post请求爬出页面数据，一个使用Get请求爬出数据。