python爬虫协议_Python教程

内容摘要

当我们真正接触了爬虫之后会发现爬虫的功能十分强大，但是我们并不能为所欲为的使用爬虫，爬虫需要遵循robots协议，该协议是国际互联网界通行的道德规范，每一个爬虫都应该

文章正文

当我们真正接触了爬虫之后会发现爬虫的功能十分强大，但是我们并不能为所欲为的使用爬虫，爬虫需要遵循robots协议，该协议是国际互联网界通行的道德规范，每一个爬虫都应该遵守，本节我们就来介绍一下爬虫协议。

1. 违规案例（1）——BE违规抓取eBay

十二年前，BE公司利用爬虫抓取了eBay等多个大型拍卖网站的商业信息，并把这些信息放置在自己的网站上供用户浏览，获得了客观的网站流量，对于eBay来说，BE的爬虫每天超过十万次的访问自家的服务器，造成了很大的压力，因此向BE提出禁止抓取，但是BE因为利益的原因而无视这个要求，之后eBay便把BE告上法庭，经过联邦法官的取证后，认定BE侵权，禁止了BE的行为。

2. 违规案例（2）——360搜索无视robots协议

2012年8月29日，上线十日便轻松登顶国内第二大搜索引擎的奇虎360搜索遭到百度的起诉，百度认为360公司违反Robots协议抓取百度知道、百度百科等数据，而法庭也尊重Robots协议，因此360赔偿百度70万元，由此可见，Robots协议在互联网业界和司法界都是得到认可的，我们在使用的时候也要严格遵循此协议。

3. 爬虫协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，该协议属于一个规范，并不能保证网站的隐私。

Robots协议是国际互联网界通行的道德规范，基于以下原则：
1. 搜索技术应服务于人类，同时尊重信息提供者的意愿，并维护其隐私权。

2. 网站有义务保证其使用者的个人信息和隐私不被侵犯。

在使用爬虫的时候我们应当注意一下几点：

1. 拒绝访问和抓取有关不良信息的网站。

2. 注意版权意识，对于原创内容，未经允许不要将信息用于其他用途，特别是商业方面。

3. 严格遵循robots.txt协议。

4. 爬虫协议查看方式

大部分网站都会提供自己的robots.txt文件，这个文件会告诉我们该网站的爬取准则，查看方式是在域名加"/robots.txt"并回车。

我们来看一下百度的爬虫协议：