美文网首页
python爬虫之requests获取网页

python爬虫之requests获取网页

作者: 行走世间的狮子 | 来源:发表于2019-08-11 22:20 被阅读0次

requests函数及对象属性

  1. 基础函数之GET请求
    res = get(url, headers = {}, params = {},proxies={}, auth=(,),verify=True, timeout)

    • 功能 : 向网站发起GET请求,获取响应对象
    • 参数 :
      • url : 请求网站地址
      • headers : 请求头
      • params : url地址参数
      • proxies : 代理ip
      • auth : web客户端用户密码
      • verify : SSL安全认证
      • timeout : 超时时间
    • 返回值 :响应对象
  2. 基础函数之POST请求
    res = post(url, headers = {}, data = {}, timeout)

    • 功能 : 向网站发起POST请求,获取响应对象
    • 参数 :
      • url : 请求网站地址
      • headers : 请求头
      • data : 表单信息
      • timeout : 超时时间
    • 返回值 :响应对象
  3. 响应对象属性

    res.text
    # 功能:响应内容,返回字符串形式
    
    res.content
    # 功能:响应内容,返回字节流形式
    
    res.encoding
    # 功能:获取响应内容编码
    
    res.status_code
    # 功能:获取响应码
    
    res.url
    # 功能:获取实际返回数据的url地址
    

======================================================================

爬虫模块之基础请求

1、基础请求之GET请求

    import requests

    url = ''
    headers = {'User-Agent':''}
    res = requests.get(url, headers=headers)
    res.encoding = 'utf-8'
    print(res.text)

2、基础请求之POST请求

  ...
  data = {}
  res = requests.post(url, headers=headers, data=data)
  ...

======================================================================

爬虫模块之高级请求

1、cookie模拟登陆

    ...
    headers = {
        'User-Agent' : '',
        'Cookie'     : '',
    }
    res = request.get(url, headers=headers)
    ...

2、GET请求带参数

    ...
    params = {}
    res = request.get(url, headers=headers, params = params)
    ...

3、代理ip
获取代理ip网站:西刺代理、快代理、全网代理
高匿代理: 服务器只能看到代理ip
透明代理: 服务器能看到两个ip,代理ip和用户真实ip

    ...
    proxies = {'协议' : '协议://ip地址:端口号'}
    proxies = {'协议' : '协议://用户名:密码@ip地址:端口号'}
    res = request.get(url, headers=headers, proxies=proxies)
    ... 

4、web客户端验证

    ...
    auth = ('用户名', '密码')
    res = request.get(url, headers=headers, auth=auth)
    ...

5、SSL证书认证

    ...
    # 不做认证,默认verfiy=True,进行SSL证书认证
    res = request.get(url, headers=headers, verify=False)
    ...

相关文章

网友评论

      本文标题:python爬虫之requests获取网页

      本文链接:https://www.haomeiwen.com/subject/mqrejctx.html