爬虫软件

作者: 誰在花里胡哨 | 来源:发表于2021-06-22 15:24 被阅读0次
image.png
🔥 web scraper 官方地址
安装方法:

1.首先要在 Chrome 浏览器上
2.在应用商店搜索并下载 web scraper,安装成功后重启浏览器

image.png
3.打开 开发者工具 开始使用
image.png
如何使用:

👍 知乎:零基础用爬虫爬取网页内容(详细步骤+原理)
当然,还是推荐你先看上面的这篇文章,相信会对你有所帮助。
下面是对我的 简书 文章进行的爬虫
⚠️注意:有些地方的可能解释不到位,不懂的地方还是多百度咯~~

结构:
下面的步骤分解就是安装这个整体结构进行的,最后你会发现有 title,date,number3个分支,这里只用到了title,其它的可以忽略。
主要是为了方便大家理解~

image.png

步骤:
1.创建根目录文件,相当于给你这个爬虫程序命名

  • 你会发现我的 Start URL 是简书的域名,那是因为我将从这个页面开始爬虫
image.png
image.png

2.开始定义爬虫的执行过程

  • 点击 Add new selector 开始创建
  • 因为我要先模拟进入 写文章 的页面,所以Type切换成 Link类型,然后从 Select 依次执行
  • 最后保存,然后点击该行数据,进入该目录下,继续下一步操作
    image.png
    image.png
    image.png
    3.此时你要手动点击进入到 写文章 的页面,这个时候就不需要搞什么URL了,直接创建新的
  • 这里用到的是 Element click 属性,大概意思就是:
    个人理解,反正我也不是很明白,还望大家自行百度

蓝色部分属于一个父类,为其子类提供选项,因为我下一步将要在它框选的一部分内,进行 标题 的选择;
黄色部分属于定义的点击模块,程序会在执行过程中进行点击操作,不要忘了☑️ Multiple选项

*保存,点击进入该条目录下,进行上面提到的 标题 选择操作

image.png
image.png
image.png
4.我这边只取了 title 文章的标题,进行爬虫
*如果你想要爬更多的数据,你可以在 muLu-click目录下创建更多的选项
image.png
image.png
5.程序这样已经算完成了,接下来就开始执行
image.png
image.png
此时程序会自动打开一个窗口进行你的爬虫操作,然后会自动关闭 image.png
image.png
image.png
image.png

你可能会发现导出的数据是乱的,这是正常现象,你只需要对导出的数据进行排序就可以了~

image.png

相关文章

网友评论

    本文标题:爬虫软件

    本文链接:https://www.haomeiwen.com/subject/jczpyltx.html