美文网首页
(学习笔记) 爬虫入门(3)

(学习笔记) 爬虫入门(3)

作者: 半颗卷心菜 | 来源:发表于2018-12-21 00:57 被阅读0次

本次内容学自莫烦Python2.3

        这次要爬的是这个网站https://morvanzhou.github.io/static/scraping/table.html

        这一次的目的主要是简单的使用正则表达式(廖雪峰老师的官网(正则表达式),或者莫烦python官网(莫烦Python正则表达式))

网站首页

图1 网站首页

源码太长,截图截不下,就算了

读取网页

图2 读取网页

BeautifulSoup解析,用正则表达式筛选图片链接

图3 图片链接

正则表达式筛选非图片链接

图4 非图片链接

        这次例子中的网址不是太好,不用正则表达式,直接find_all(‘tag')结果是一样的,不好观测。不过知道这一点就好了。

然后附上一张正则表达式的使用方法的图(来自莫烦Python正则表达式):

图5 正则表达式使用方法

相关文章

  • (学习笔记) 爬虫入门(3)

    本次内容学自莫烦Python2.3 这次要爬的是这个网站https://morvanzhou.github.io/...

  • Python爬虫入门

    注:采转归档,自己学习查询使用 Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Pytho...

  • git 入门

    git 入门学习笔记----3个入门命令:git init、git add、git commit -v 学习场景(...

  • python3爬虫学习笔记(一)

    引言 学习笔记来源于崔庆才《python3网络爬虫开发实战》,算是简单的入门,其中需要用到的一些python基础,...

  • Python爬虫学习系列教程

    转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本:2.7 一、爬虫入门 ...

  • 爬虫学习笔记

    本篇笔记主要记录学习哔站up主:IT私塾的课程《Python爬虫基础5天速成(2021全新合集)Python入门+...

  • Python爬虫入门(urllib+Beautifulsoup)

    Python爬虫入门(urllib+Beautifulsoup) 本文包括:1、爬虫简单介绍2、爬虫架构三大模块3...

  • python之爬虫入门学习

    爬虫入门学习 一、爬虫基本流程 第一步,根据URL,获取网页的HTML信息。在Python3中,可以使用urlli...

  • Python爬虫笔记一 ——爬取网页题目

    爬虫是Python十分广泛的应用,有人说不会爬虫,就像没有学过Python。这个系列的文章就是爬虫入门笔记,面向的...

  • webpack4入门学习笔记(一)

    系列博客链接 webpack4入门学习笔记(一) webpack4入门学习笔记(二) webpack4入门学习笔记...

网友评论

      本文标题:(学习笔记) 爬虫入门(3)

      本文链接:https://www.haomeiwen.com/subject/svspkqtx.html