美文网首页
IP池爬取与建立

IP池爬取与建立

作者: 卜咦 | 来源:发表于2019-06-05 23:18 被阅读0次

为何要建IP池

由于各个网站反爬的措施不断更新,部分网站采用一段时间内同一个IP高频率访问就封禁IP的方式,所以需要建立一个可供爬虫时切换使用的IP池

如何建一个IP池

1.寻找免费ip代理网站,目前我选取的是西刺,如图:


image.png

2.爬取ip并保存到mysql数据库

(另:由于ip存在时效性,故只需要在爬取时判断可用性)

代码

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import requests
from bs4 import BeautifulSoup
import pymysql
import random

class xici(object):

    def __init__(self, page):
        self.page = page
        self.user_agent = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"]
        self.ip_list = []

    def get_ip(self):
        url = 'https://www.xicidaili.com/nt/{0}'.format(self.page)
        headers = {
            'User-Agent': '{0}'.format(random.choice(self.user_agent))
        }
        ip_data = requests.get(url, headers=headers)
        soup = BeautifulSoup(ip_data.content, 'xml')
        len_list = []
        for i in soup.find_all('tr'):
            len_list.append(i.text)

        for i in range(len(len_list) - 1):
            ip_d = {}
            ip_d['ip'] = len_list[i + 1].split('\n')[2]
            ip_d['port'] = len_list[i + 1].split('\n')[3]
            ip_d['type'] = len_list[i + 1].split('\n')[8]
            self.ip_list.append(ip_d)
        return self.ip_list

class with_mysql(object):
    def __init__(self, db):
        self.config = {
            'host': 'localhost',
            'port': 3306,
            'user': 'root',
            'password': 'HzH951126',
            'db': db,
            'charset': 'utf8mb4',
        }

    def save_dict(self, table, dic):
        db = pymysql.connect(**self.config)
        cursor = db.cursor()
        table = table
        keys = ', '.join(dic.keys())
        values = ', '.join(['%s'] * len(dic))
        sql = 'REPLACE INTO {table}({keys}) VALUES ({values})'.format(table=table, keys=keys, values=values)
        try:
            if cursor.execute(sql, tuple(dic.values())):
                print('Successful')
                db.commit()
        except Exception as e:
            print(e)
            db.rollback()
        db.close()


if __name__ == '__main__':
    xc = xici(1)
    mysql = with_mysql('spiders')
    print(xc.get_ip())
    for i in xc.get_ip():
        mysql.save_dict('ip', i)

运行结果:

image

mysql数据库:

image.png

结语

IP 池的建立, 对于之后的数据爬取与分析会提供必要的帮助,接下来开始正常的数据爬取与分析

相关文章

  • IP池爬取与建立

    为何要建IP池 由于各个网站反爬的措施不断更新,部分网站采用一段时间内同一个IP高频率访问就封禁IP的方式,所以需...

  • Python 学习记录1

    从豆瓣网下载整个相册的图片 从西祠代理网站爬取免费高匿ip 西祠代理 验证抓取的IP是否可用 建立代理IP池 抓...

  • 爬虫(2)--- 构建简单代理IP池

    目录 1. 何为代理IP池?2. 代理IP池构建2.1 浏览器伪装2.2 代理IP爬取2.3 代理IP验证2.4 ...

  • 爬取免费IP,建立自己的爬虫IP池

    建立一个自己的IP池还是有很多作用的,比如可以解决爬虫过程中的封IP的问题,当然对我来说,没爬过反爬很严重的网站,...

  • Python爬虫程序:实现妹子图网站多线程爬取

    写了一个爬取妹子图网站的爬虫,供大家参考交流使用 关于怎样建立IP代理池,使用代理进行爬虫,或者其他程序问题,关注...

  • day71-代理ip的使用

    1代理ip 在爬取网页过程中,经常遇到爬取次数过于频繁而被封ip地址,这个时候想要再次爬取就要使用代理ip来爬取网...

  • 用python爬虫建立免费ip代理池爬取免费ip代理

    用爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的爬虫代理ip免费的已经很难找了,那么现在就用python...

  • tor + PySocks 实现切换 IP

    爬虫爬取 IP 经常被封,所以一般都要使用 IP 代理池。tor 主要是用于匿名访问网络的,但也可以用于切换 IP...

  • js逆向之全网代理IP的爬取

    之前搭建IP代理池的时候爬取过全网代理IP,全网代理IP免费的代理虽然只有首页的20个代理,但是可用程度非常高,可...

  • Java线程池---基本运用到源码解析

    序言 近日后台需要一些数据,需要从网上爬取,但是爬取的过程中,由于访问速度太频繁,造成IP被封,最终通过线程池解决...

网友评论

      本文标题:IP池爬取与建立

      本文链接:https://www.haomeiwen.com/subject/yoeexctx.html