🌠 采集猫眼电影 TOP100 榜
这个示例演示用浏览器采集数据。
✅️️ 采集目标
目标网址:https://www.maoyan.com/board/4
采集目标:排名、电影名称、演员、上映时间、分数
✅️️ 编码思路
按F12
,可以看到每个电影信息都包含在<dd>
元素中,因此可批量获取<dd>
元素,遍历它们并再从其中获取每个电影的信息。
✅️️ 示例代码
以下代码可直接运行。
须要注意的是,这里用到记录器对象,详见DataRecorder。
from DrissionPage import ChromiumPage
from DataRecorder import Recorder
# 创建页面对象
page = ChromiumPage()
# 创建记录器对象
recorder = Recorder('data.csv')
# 访问网页
page.get('https://www.maoyan.com/board/4')
while True:
# 遍历页面上所有 dd 元素
for mov in page.eles('t:dd'):
# 获取须要的信息
num = mov('t:i').text
score = mov('.score').text
title = mov('@data-act=boarditem-click').attr('title')
star = mov('.star').text
time = mov('.releasetime').text
# 写入到记录器
recorder.add_data((num, title, star, time, score))
# 获取下一页按钮,有就点击
btn = page('下一页', timeout=2)
if btn:
btn.click()
page.wait.load_start()
# 没有则退出程序
else:
break
recorder.record()
✅️️ 结果
程序生成一个结果文件 data.csv,内容如下: