🚄 获取网页信息
成功访问网页后,可使用SessionPage
自身属性和方法获取页面信息。
from DrissionPage import SessionPage
page = SessionPage()
page.get('http://www.baidu.com')
# 获取页面标题
print(page.title)
# 获取页面html
print(page.html)
输出:
✅️️ 页面信息
📌 url
此属性返回当前访问的 url。
类型:str
📌 url_available
此属性以布尔值返回当前链接是否可用。
类型:bool
📌 title
此属性返回当前页面title
文本。
类型:str
📌 html
此属性返回当前页面 html 文本。
类型:str
📌 json
此属性把返回内容解析成 json。
比如请求接口时,若返回内容是 json 格式,用html
属性获取的话会得到一个字符串,用此属性获取可将其解析成dict
。
类型:dict
✅️️ 运行参数信息
📌 timeout
此属性返回网络请求超时时间。默认为 10,可对其赋值设置。
类型:int
、float
📌 retry_times
此属性为网络连接失败时的重试次数。默认为 3,可对其赋值。
类型:int
📌 retry_interval
此属性为网络连接失败时的重试等待间隔秒数。默认为 2,可对其赋值。
类型:int
、float
✅️️ cookies 信息
📌 cookies
此属性以dict
方式返回当前页面所使用的 cookies。
须要注意的是,如果不同子域名使用相同的name
属性,此属性返回的 cookies 可能有缺失。
类型:dict
📌 get_cookies()
此方法获取 cookies 并以 cookie 组成的list
形式返回。
类型:dict
、list
参数名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
as_dict |
bool |
False |
是否以字典方式返回结果,为False 返回 cookie 组成的list ,且all_info 参数无效 |
all_domains |
bool |
False |
是否返回所有域的 cookies,为False 则指返回当前域名的 |
all_info |
bool |
False |
返回的 cookies 是否包含所有信息,False 时只包含name 、value 、domain 信息 |
返回类型 | 说明 |
---|---|
dict |
as_dict 为True 时,返回字典格式 cookies |
list |
as_dict 为False 时,返回 cookies 组成的列表 |
示例:
from DrissionPage import SessionPage
page = SessionPage()
page.get('http://www.baidu.com')
page.get('http://gitee.com')
for i in page.get_cookies(as_dict=False, all_domains=True):
print(i)
输出:
{'domain': '.baidu.com', 'domain_specified': True, ......}
......
{'domain': 'gitee.com', 'domain_specified': False, ......}
......
✅️️ 内嵌对象
📌 session
此属性返回当前页面对象使用的Session
对象。
类型:Session
📌 response
此属性为请求网页后生成的Response
对象,本库没实现的功能可直接获取此属性调用 requests 库的原生功能。
类型:Response