python爬虫怎样入门？

0 457 2021-05-27 02:00:02

本文目录

1. 爬虫三要素
2. 基础的爬虫抓取操作
3. 需要登录的情况
4. 大数据量的爬虫爬取

互联网的本质，就是一个巨大的蜘蛛网。我们的爬虫就是上面的一个蜘蛛，通过用蜘蛛模拟人工操作，不断的去抓取我们需要的信息。爬虫软件很多，支持爬虫功能的语言也很多，而用python做爬虫，辅以包罗万象的python库，功能十分强大，操作也并不难。本文就python爬虫入门做一个简单的介绍。

python爬虫怎样入门？

爬虫三要素

我们按照爬虫的整个流程去归纳，可以将爬虫爬取网站数据的操作归纳为三个要素，分别是：
抓取
分析
存储

基础的爬虫抓取操作

1、urllib
在Python2.x中我们可以通过urllib 或者urllib2 进行网页抓取，但是再Python3.x 移除了urllib2。只能通过urllib进行操作

import urllib.request
response = urllib.request.urlopen('https://blog.csdn.net/weixin_43499626')
print(response.read().decode('utf-8'))

带参数的urllib

url = 'https://blog.csdn.net/weixin_43499626'
url = url + '?' + key + '=' + value1 + '&' + key2 + '=' + value2

2、requests
requests库是一个非常实用的HTPP客户端库，是抓取操作最常用的一个库。Requests库满足很多需求

import requests
# get请求
response = requests.get(url='https://blog.csdn.net/weixin_43499626') 
print(response.text)   #打印解码后的返回数据
# 带参数的requests get请求
response = requests.get(url='https://blog.csdn.net/weixin_43499626', params={'key1':'value1', 'key2':'value2'})

需要登录的情况

1、表单提交登录
向服务器发送一个post请求并携带相关参数，将服务器返回的cookie保存在本地,cookie是服务器在客户端上的“监视器”，记录了登录信息等。客户端通过识别请求携带的cookie，确定是否登录

params = {'username': 'root', 'passwd': 'root'}
response = requests.post("http:xxx.com/login", data=params)
for key,value in response.cookies.items():
    print('key = ', key + ' ||| value :'+ value)

2、cookie登录
我们可以将登录的cookie存储在文件中，

import urllib.request
import http.cookiejar
"""
保存登录的cookie
"""
"""
MozillaCookieJar ： cookiejar的子类
从FileCookieJar派生而来，创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。
"""
cookie = http.cookiejar.MozillaCookieJar('cookie.txt')
# 构建一个cookie的处理器
handler = urllib.request.HTTPCookieProcessor(cookie)
# 获取一个opener对象
opener = urllib.request.build_opener(handler)
# # 获取一个请求对象
request = urllib.request.Request('http://flights.ctrip.com/',headers={"Connection": "keep-alive"})
# 请求服务器，获取响应对象。cookie会在response里一起响应
response = opener.open(request)
# 保存cookie到文件
cookie.save(ignore_discard=True, ignore_expires=True)
 
 
"""
请求携带文件中的cookie
"""
 
import urllib.request
import http.cookiejar
cookie = http.cookiejar.MozillaCookieJar()
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
request = urllib.request.Request('http://flights.ctrip.com/')
html = opener.open(request).read().decode('gbk')
 
print(html)

大数据量的爬虫爬取

如果涉及到比较大的数据量，如数万甚至数百万的数据爬取，这个时候，我们就要了解多线程、ip池的概念。一方面可以提升爬取效率，另一方面可以防范被封禁ip。

以上就是python爬虫入门的一个简单介绍，当然如果需要将爬虫在实战上用起来，也可以参考一下这篇简单的爬虫爬取百度图片的教程，内含完整的源码：怎样用python爬虫爬取百度搜索图片

本文地址：https://xzo.com.cn/develop/python/989.html