美文网首页
爬虫基本思路(以bf99为例)

爬虫基本思路(以bf99为例)

作者: CMASTER | 来源:发表于2017-08-10 10:48 被阅读0次
  • 页面分析

  1. 明确自己需要获取的信息:如个人年龄居住地联系方式,获取比较完善的信息,以备绘制用户画像。
  2. 以下图用户信息为例,假如我们需要获取年龄,其对应html元素为class = nav2-25下的第一个font元素的innerText,其他信息同理。
Paste_Image.png
  1. 以上个页面为例,其页面地址为:其地址是一个不规则散列,所以我们需要找到用户信息页入口。
Paste_Image.png
  1. 在网站首页,观察网页结构,我们可以以2步的形式获取到,每个用户名带有用户主页连接,其保存在class=photodbgtd标签下的a链接中。至此页面分析结束
Paste_Image.png
  • 爬虫思路

  1. 编写爬虫基本内容,伪造请求头
  2. 编写函数get_href(),其接受参数end_page,end_pages代表最大爬取页面,get_href会爬取从第一页到end_page的所有class为photodbg的td标签下的a的href,保存这些href
  3. 编写函数get_content(),其参数参数href,会爬取对应href下个人信息,并保存。

至此,基本功能完成

More...

此网站在不登陆情况下无法获取用户联系方式,所以需要模拟登录,并且保存cookie与session。模拟登录时需要填写表单,并且异步获取验证码,暂时打算用PIL解析验证码,手动输入,之后就能获取所有信息。

相关文章

  • 爬虫基本思路(以bf99为例)

    页面分析 明确自己需要获取的信息:如个人年龄、居住地、联系方式,获取比较完善的信息,以备绘制用户画像。 以下图用户...

  • 爬虫--R语言--基础知识

    爬虫--R语言--代码实战(以豆瓣网站为例) - 简书 (jianshu.com)[https://www.jia...

  • 分布式爬虫案例

    以麦田为例, 1.新建项目、爬虫应用 2.在redis中代码修改的地方,修改为如下 3.项目内各个文件编写 爬虫主...

  • 「爬虫」09图片爬虫(以千图网为例)

    1.图片爬虫 从互联网中自动把对方服务器上的图片爬下来的爬虫程序。 2.实例:爬取千图网电影海报专栏的图片 (1)...

  • 基于磁盘文件的布隆过滤器(FBF)

    以十万数据为例测试: 手动指定hash次数:14 机器:机械硬盘,7200转 可作为爬虫大数据ID filter。...

  • 异步爬虫-aiohttp库、Twisted库

    为什么要用异步爬虫?  爬虫本质上就是模拟客户端与服务端的通讯过程。以浏览器端的爬虫为例,我们在爬取不同网页过程中...

  • 01-网络爬虫的Headers须知

    网络爬虫的Headers须知 Headers讲解 以访问网页为例,我们在B站首页输入“夏目友人帐”点击搜索来到下方...

  • Scrapy框架--通用爬虫Broad Crawls(下,具体代

    通过前面两章的熟悉,这里开始实现具体的爬虫代码 广西人才网 以广西人才网为例,演示基础爬虫代码实现,逻辑: 配置R...

  • thinkphp3.2.3隐藏index.php入口文件

    说明:Mac(以 MAMP 为例) / Window (以 phpstudy 为例) 一、Mac(以 MAMP 为...

  • DFS与BFS

    以先序遍历打印链表为例: 以中序遍历打印链表为例: 以后序遍历打印链表为例: 以层序遍历打印链表为例:

网友评论

      本文标题:爬虫基本思路(以bf99为例)

      本文链接:https://www.haomeiwen.com/subject/sjacrxtx.html