Ctrl
+
D
一键收藏

Python爬虫抓取动态加载数据

本节讲解如何抓取豆瓣电影“分类排行榜”中的电影数据(https://movie.douban.com/chart),比如输入“犯罪”则会输出所有犯罪影片的电影名称、评分,效果如下所示:
剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影|
你想了解什么类型电影:犯罪
{'name': '肖申克的救赎', 'score': 9.7}
{'name': '控方证人', 'score': 9.6}
...
电影总数量:302部

确定网站类型

首先要明确豆瓣电影网站的类型,即是动态还是静态。检查方法:右键查看网页源码 —> 搜索“辛德勒的名单”关键字,如下图所示:

爬虫抓取动态网站
图1:分析网站类型

最终发现源码页中没有出现想要抓取的数据,只有一大堆的 JS 代码,由此确定该网站为动态网站。

影片详情信息

接下来,使用快捷键 F12 打开控制台进行抓包,点击NetWork选项卡 —>XHR选项 —> Preview选项卡 —> 刷新当前页面抓取数据包,如下图所示:

抓取动态网站数据包
图2:抓取动态网站数据包

从图 2 可知,我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时,左侧栏内的数据包会实现自动加载,这是使用 Ajax 异步加载技术实现的。

通过查看数据 Headers 选项可以明确 url 地址、查询参数等信息,如下所示:

抓取动态加载的数据包
图3:分析Headers信息
 
从上图可以得知请求的基准 URL (由于还未拼接查询参数,所以称之为基准 URL),如下所示:
'https://movie.douban.com/j/chart/top_list?'
继续滚动鼠标滑轮可知查询参数具有如下规律:
type: 4  # 电影类型
interval_id: 100:90  #代表网页上滑动条的百分比(好于100%-90%的历史片)
action: ''  # 空
start: 0  # 每次加载电影的起始索引值 0 20 40 60
limit: 20 # 每次加载的电影数量,1为初始值,后续加载时20固定不变
注意:寻找规律时,后加载出来的数据包会排在最前面,除去第一个数据包外,其余数据包如下所示:

抓取动态加载的数据
图4:寻找查询参数值的规律

影片总数量

注意:第一个数据包反映了每个类型中电影的总数量,其 url 与响应信息如下:
请求的URL地址 : https://movie.douban.com/j/chart/top_list_count?type=4&interval_id=100%3A90
Response信息:{"playable_count":41,"total":104,"unwatched_count":104}

影片类型与类型码

影片的类型与类型码包含在电影排行榜的主界面中,如下所示:

爬虫抓取动态加载数据
图5:影片类型与类型码
 
分析上述页面结构,然后使用正则表达式来提取想要的数据,并定义选择菜单“menu”,代码如下所示:
  1. import re
  2.  
  3. def get_all_type_films(self):
  4. # 获取影片类型和类型码
  5. url = 'https://movie.douban.com/chart'
  6. headers = self.get_headers()
  7. html = requests.get(url=url, headers=headers).text
  8. re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
  9. pattern = re.compile(re_bds, re.S)
  10. r_list = pattern.findall(html)
  11. # 存放所有类型和对应类型码大字典
  12. type_dict = {}
  13. # 定义一个选择电影类型的菜单
  14. menu = ''
  15. # r_list[{'剧情 , 11'},{},..]
  16. for r in r_list:
  17. type_dict[r[0].strip()] = r[1].strip()
  18. # 获取input的菜单,显示所有电影类型
  19. menu += r[0].strip() + '|'
  20. #返回类型字典以供后续函数调用,并返回输入菜单menu
  21. # {'剧情': '11', '喜剧': '24',...}
  22. return type_dict, menu

编写完整程序

完成上述分析后,下面开始编写 Python 爬虫程序,代码如下:
  1. #coding:utf8
  2. import requests
  3. import time
  4. import random
  5. import re
  6. import json
  7. from ua_info import ua_list
  8.  
  9.  
  10. class DoubanSpider(object):
  11. def __init__(self):
  12. self.url = 'https://movie.douban.com/j/chart/top_list?'
  13. self.i = 0
  14.  
  15. # 获取随机headers
  16. def get_headers(self):
  17. headers = {'User-Agent':random.choice(ua_list)}
  18. return headers
  19.  
  20. # 获取页面
  21. def get_page(self,params):
  22. # 将json转换为 python 数据类型,并返回
  23. html = requests.get(url=self.url,params=params,headers=self.get_headers()).text
  24. html=json.loads(html)
  25. self.parse_page(html)
  26.  
  27. # 解析并保存数据
  28. def parse_page(self,html):
  29. item = {}
  30. # html列表类型: [{电影1},{电影2},{电影3}...]
  31. for one in html:
  32. # 名称 + 评分
  33. item['name'] = one['title'].strip()
  34. item['score'] = float(one['score'].strip())
  35. print(item)
  36. self.i += 1
  37.  
  38. # 获取电影总数
  39. def total_number(self,type_number):
  40. # F12抓包抓到的地址,type表示电影类型
  41. url = 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(type_number)
  42. headers = self.get_headers()
  43. html = requests.get(url=url,headers=headers).json()
  44. total = int(html['total'])
  45. return total
  46.  
  47. # 获取所有电影的类型和对应type值
  48. def get_all_type_films(self):
  49. # 获取类型与类型码
  50. url = 'https://movie.douban.com/chart'
  51. headers = self.get_headers()
  52. html = requests.get(url=url,headers=headers).text
  53. re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
  54. pattern = re.compile(re_bds,re.S)
  55. r_list = pattern.findall(html)
  56. # 存放所有类型和对应类型码大字典
  57. type_dict = {}
  58. #定义一个选择电影类型的菜单
  59. menu = ''
  60. for r in r_list:
  61. type_dict[r[0].strip()] = r[1].strip()
  62. # 获取input的菜单,显示所有电影类型
  63. menu += r[0].strip() + '|'
  64.  
  65. return type_dict,menu
  66.  
  67. # 主程序入口函数
  68. def main(self):
  69. # 获取type的值
  70. type_dict,menu = self.get_all_type_films()
  71. menu = menu + '\n你想了解什么类型电影:'
  72. name = input(menu)
  73. type_number = type_dict[name]
  74. # 获取电影总数
  75. total = self.total_number(type_number)
  76. for start in range(0,(total+1),20):
  77. #构建查询参数
  78. params = {
  79. 'type' : type_number,
  80. 'interval_id' : '100:90',
  81. 'action' : '',
  82. 'start' : str(start),
  83. 'limit' : '20'
  84. }
  85. # 调用函数,传递params参数
  86. self.get_page(params)
  87. # 随机休眠1-3秒
  88. time.sleep(random.randint(1,3))
  89. print('电影总数量:%d部'%self.i )
  90.  
  91. if __name__ == '__main__':
  92. spider = DoubanSpider()
  93. spider.main()
输出示例:
剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史|战争|犯罪|西部|奇幻|冒险|灾难|武侠|古装|运动|黑色电影|
你想了解什么类型电影:科幻
{'name': '盗梦空间', 'score': 9.3}
{'name': '星际穿越', 'score': 9.3}
{'name': '楚门的世界', 'score': 9.3}
{'name': '机器人总动员', 'score': 9.3}
{'name': '蝙蝠侠:黑暗骑士', 'score': 9.2}
{'name': '超感猎杀:完结特别篇', 'score': 9.2}
{'name': '新世纪福音战士 第0:0话 诞生之始', 'score': 9.2}
{'name': '少年骇客:变身之谜', 'score': 9.2}
...
...
电影总数量:147部
最后我们对抓取动态网站数据做简单地总结:
  • 1. 确定网站是否为动态网站,通过查看源码搜索相应的关键字即可确定。
  • 2. 动态网站主要通过异步方式加载数据。触发数据加载的 JS 事件主要有滚动鼠标滑轮、鼠标点击、拉动滚动条等有关动作, 也有一些网站通过局部更新的方式加载数据,比如有道翻译案例。
Ctrl
+
D
一键收藏