python解决网站爬虫限制的解决办法

内容摘要
这篇文章主要为大家详细介绍了python解决网站爬虫限制的简单示例,具有一定的参考价值,可以用来参考一下。

感兴趣python解决网站爬虫限制的简单示例的小伙伴,下面一起跟随php
文章正文

这篇文章主要为大家详细介绍了python解决网站爬虫限制的简单示例,具有一定的参考价值,可以用来参考一下。

感兴趣python解决网站爬虫限制的简单示例的小伙伴,下面一起跟随php教程的小编罗X来看看吧。<br>有些网站限制了网络请求的来源,来阻止爬虫。一般是通过’user-agent’属性来区分。通过print r.request.headers来查看user-agent属性。requests库写的代码默认user-agent是’python-requests/x.xx.x’(x表示版本号)。如果访问不成功,可尝试修改’user-agent’属性。方法如下:1. 先构建一个字典ua={"user-agent":"Mozilla/5.0"}其中”Mozilla/5.0”是浏览器的普遍标识。2. 在get方法里面加一个参数r=requests.get(url,headers=ua)这时就可以模仿浏览器访问了。完整代码:
import requests
url="http://www.177347.com"
ua={"user-agent":"Mozilla/5.0"}
r=requests.get(url)
print r.request.headers
r=requests.get(url,headers=ua)
print r.request.headers

注:关于python解决网站爬虫限制的简单示例的内容就先介绍到这里,更多相关文章的可以留意

代码注释

作者:喵哥笔记

IDC笔记

学的不仅是技术,更是梦想!