urllib.robotparser
源代码: Lib/urllib/robotparser.py
此模块提供一个类, RobotFileParser
,它回答有关特定用户代理是否可以在发布 robots.txt
文件。有关 robots.txt
文件,请参见http://www.robotstxt.org/orig.html。
- class urllib.robotparser.RobotFileParser(url='')
这个类提供了阅读、分析和回答有关
robots.txt
文件在 url .- crawl_delay(useragent)
返回的值
Crawl-delay
参数从robots.txt
对于 字符串 有问题。如果没有此类参数或它不适用于 字符串 指定的或robots.txt
此参数的条目语法无效,返回None
.3.6 新版功能.
- request_rate(useragent)
返回的内容
Request-rate
参数从robots.txt
作为一个 named tupleRequestRate(requests, seconds)
. 如果没有此类参数或它不适用于 字符串 指定的或robots.txt
此参数的条目语法无效,返回None
.3.6 新版功能.
- site_maps()
返回的内容
Sitemap
参数从robots.txt
以A的形式list()
. 如果没有此类参数或robots.txt
此参数的条目语法无效,返回None
.3.8 新版功能.
下面的示例演示了 RobotFileParser
类:
>>> import urllib.robotparser
>>> rp = urllib.robotparser.RobotFileParser()
>>> rp.set_url("http://www.musi-cal.com/robots.txt")
>>> rp.read()
>>> rrate = rp.request_rate("*")
>>> rrate.requests
3
>>> rrate.seconds
20
>>> rp.crawl_delay("*")
6
>>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
>>> rp.can_fetch("*", "http://www.musi-cal.com/")
True