
🔥 web scraper 官方地址
安装方法:
1.首先要在 Chrome 浏览器上
2.在应用商店搜索并下载 web scraper,安装成功后重启浏览器

3.打开 开发者工具 开始使用

如何使用:
👍 知乎:零基础用爬虫爬取网页内容(详细步骤+原理)
当然,还是推荐你先看上面的这篇文章,相信会对你有所帮助。
下面是对我的 简书 文章进行的爬虫
。
⚠️注意:有些地方的可能解释不到位,不懂的地方还是多百度咯~~
结构:
下面的步骤分解就是安装这个整体结构进行的,最后你会发现有 title,date,number
3个分支,这里只用到了title
,其它的可以忽略。
主要是为了方便大家理解~

步骤:
1.创建根目录文件,相当于给你这个爬虫
程序命名
- 你会发现我的
Start URL
是简书的域名,那是因为我将从这个页面开始爬虫


2.开始定义爬虫的执行过程
- 点击
Add new selector
开始创建 - 因为我要先模拟进入
写文章
的页面,所以Type
切换成Link
类型,然后从Select
依次执行 - 最后保存,然后点击该行数据,进入该目录下,继续下一步操作
image.png
image.png
image.png
3.此时你要手动点击进入到写文章
的页面,这个时候就不需要搞什么URL了,直接创建新的 - 这里用到的是
Element click
属性,大概意思就是:
个人理解,反正我也不是很明白,还望大家自行百度
蓝色部分属于一个父类,为其子类提供选项,因为我下一步将要在它框选的一部分内,进行
标题
的选择;
黄色部分属于定义的点击模块,程序会在执行过程中进行点击操作,不要忘了☑️Multiple
选项
*保存,点击进入该条目录下,进行上面提到的 标题
选择操作



4.我这边只取了
title
文章的标题,进行爬虫*如果你想要爬更多的数据,你可以在
muLu-click目录下
创建更多的选项

5.程序这样已经算完成了,接下来就开始执行


此时程序会自动打开一个窗口进行你的爬虫操作,然后会自动关闭




你可能会发现导出的数据是乱的,这是正常现象,你只需要对导出的数据进行排序就可以了~

网友评论