Python 爬虫第二步 -- 单线程爬虫

作者: PyChina | 来源:发表于2016-09-07 18:20 被阅读75次

Scrapy爬虫框架
Python 爬虫第二步 -- 单线程爬虫
Python 爬虫第二步 -- 单线程爬虫
Python实战爬虫：爬图片
爬虫入门基础
3分钟带你了解世界第一语言Python 入门上手也这么简单！
01-认识爬虫
爬虫入门
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni

文／千里追风

介绍

本篇文章主要介绍如何爬取麦子学院的课程信息（本爬虫仍是单线程爬虫），在开始介绍之前，先来看看结果示意图

怎么样，是不是已经跃跃欲试了？首先让我们打开麦子学院的网址，然后找到麦子学院的全部课程信息，像下面这样

这个时候进行翻页，观看网址的变化，首先，第一页的网址是http://www.maiziedu.com/course/list/, 第二页变成了http://www.maiziedu.com/course/list/all-all/0-2/, 第三页变成了http://www.maiziedu.com/course/list/all-all/0-3/，可以看到，每次翻一页，0后面的数字就会递增1，然后就有人会想到了，拿第一页呢？我们尝试着将http://www.maiziedu.com/course/list/all-all/0-1/放进浏览器的地址栏，发现可以打开第一栏，那就好办了，我们只需要使用re.sub()就可以很轻松的获取到任何一页的内容。获取到网址链接之后，下面要做的就是获取网页的源代码，首先右击查看审查或者是检查元素，就可以看到以下界面

找到课程所在的位置以后，就可以很轻松的利用正则表达式将我们需要的内容提取出来，至于怎么提取，那就要靠你自己了，尝试着自己去找规律才能有更大的收获。如果你实在不知道怎么提取，那么继续往下，看我的源代码吧

实战源代码

# coding=utf-8 
import re 
import requests
import sys 
reload(sys) 
sys.setdefaultencoding("utf8") 


class spider(): 
           def __init__(self): 
                 print "开始爬取内容。。。" 
             def changePage(self, url, total_page): 
                 nowpage = int(re.search('/0-(\d+)/', url, re.S).group(1))                     
                 pagegroup = [] 
                for i in range(nowpage, total_page + 1): 
                    link = re.sub('/0-(\d+)/', '/0-%s/' % i, url, re.S) 
                    pagegroup.append(link) 

                return page group
def getsource(self, url): 
        html = requests.get(url) 
        return html.text

def getclasses(self, source): 
        classes = re.search('<ul class="zy_course_list">(.*?)</ul>', source, re.S).group(1) 
        return classes

def geteach(self, classes): 
         eachclasses = re.findall('<li>(.*?)</li>', classes, re.S) 
         return each classes

def getinfo(self, eachclass): 
         info = {} 
         info['title'] = re.search('<a title="(.*?)"', eachclass, re.S).group(1) 
         info['people'] = re.search('<p class="color99">(.*?)</p>', eachclass, re.S).group(1) 
         return info

def saveinfo(self, classinfo): 
         f = open('info.txt', 'a') 

         for each in classinfo: 
               f.writelines('title : ' + each['title'] + '\n') 
               f.writelines('people : ' + each['people'] + '\n\n') 

       f.close()

if __name__ == '__main__': 
          classinfo = [] 
          url = 'http://www.maiziedu.com/course/list/all-all/0-1/' 
          maizispider = spider() 
          all_links = maizispider.changePage(url, 30) 
          for each in all_links: 
                htmlsources = maizispider.getsource(each) classes = maizispider.getclasses(htmlsources) 
                eachclasses = maizispider.geteach(classes) for each in eachclasses: info = maizispider.getinfo(each) 
                 classinfo.append(info) 

      maizispider.saveinfo(classinfo)

以上代码并不难懂，基本就是正则表达式的使用，然后直接运行就可以看到开头我们的截图内容了，由于这是单线程爬虫，所以运行速度感觉有点慢，接下来还会继续更新多线程爬虫。

今年第六届大会PyConChina2016，由PyChina.org发起，CPyUG/TopGeek 等社区协办，将在2016年9月10日（上海）9月23日（深圳）10月15日（北京）地举办的针对Python开发者所举办的最盛大和权威的Python相关技术会议，由PyChina社区主办，致力于推动各类Python相关的技术在互联网、企业应用等领域的研发和应用。

您可以点击此处
了解更多详情，或者扫描下图二维码：