Web Scraper 是谷歌 Chrome 浏览器插件,可自动化提取网页数据,实现不敲代码,指哪爬哪的目标,属于居家出行杀人越货之必备神器。以下是官方文档中文翻译:
Link(链接)选择器 & Link popup (弹出链接)选择器
Image(图像)选择器简介、配置选项、应用案例以及图像下载脚本
Table(表格)、Element attribute(元素属性)、HTML 以及Grouped(集合)选择器
以下是第6部分:
4.9 Element(元素)选择器
Element 选择器用于选择包含多个数据元素的元素。比如,可以用 Element 选择器选择电子商务网站上的多项商品。选择器会返回每个选择元素作为子选择器的母元素。Element 选择器的子选择器只会在 Element 选择器选中的母元素范围内提取数据。
注意:如果页面需下拉或点击按钮加载新项目,你应当使用以下选择器
Element scroll down(元素下拉)选择器
Element click(元素点击)选择器
4.9.1 配置选项
1)selector - CSS 选择器,用于作为子选择器的母元素
2)multiple - 选中多项记录(默认应选中)。子选择器的 multiple 通常不选。
4.9.2 应用案例
从单页上选择多项
比如,一个电商网站某页有多个项目。使用 Element 选择器可选中单个项目,然后用 Element 选择器的子选择器从中提取数据。如下图:
引申:从表中提取数据
同电商网站案例类似,你也可以选择表行并为其添加子选择器用于数据提取。尽管使用 Table 选择器是更为合适的方案。
4.10 Element scroll down(元素下拉)选择器
此类 Element 选择器使用方式类似 Element 选择器,但它可将网页下拉多次至底部寻找新增加的元素。使用 delay(延迟)属性可配置在下拉及元素搜索之间的间隔。如未发现新元素下拉会暂停。如果页面可无限下拉则此选择器会陷于无限循环。
4.10.1 配置选项
1)selector - CSS 选择器,用于选择元素
2)multiple - 选中多项记录(默认应选中)。子选择器的 multiple 通常不选。
3)delay - 配置在下拉及元素搜索之间的间隔。此项需指定,因为网页下拉后数据未必能立刻加载。因为服务器响应没那么及时,要想不丢失数据,最好设为 2000ms 以上。
4.10.2 应用案例
参照 Element 选择器应用案例
4.11 Element click(元素点击)选择器
Element click 选择器使用方式类似 Element 选择器。主要目的也是元素选择,作为子选择器的母选择器。唯一差别在于, Element click 选择器可通过点击按钮同网站交互,以加载新元素。比如采用 JavaScript 以及 AJAX 技术进行导航或页面加载的网页。
4.11.1 配置选项
1)selector - CSS 选择器,用于选择元素,作为子选择器的母选择器。
2)click selector - CSS 选择器,用于点击按钮加载更多元素。
3)click type - 选择器类型,用于指示选择如何得知无新元素并停止点击。
4)click element uniqueness(点击元素独特性)- 选择器如何的是按钮已点击过。
5)multiple - 选中多项记录(默认应选中)。子选择器的 multiple 通常不选。
6)delay- 配置在点击及元素搜索之间的间隔。此项需指定,因为按钮点击后数据未必能立刻加载。因为服务器响应没那么及时,要想不丢失数据,最好设为 2000ms 以上。
7)Discard initial elements(忽略初始元素)- 选择器不会选中在第一次点击按钮前就已经存在的元素。这在去重时很有用。
4.11.2 Click type 点击类型
1)Click Once 点击一次
Click Once 只会点击按钮一次。如果符合条件的新按钮出现亦会点击。比如导航链接可能只会显示1~5,6~10随后才会显示。此选择器也会对它们(6~10)进行点击。
2)Click More 点击更多
Click More 会点击已有按钮直至无新元素出现。新元素按照有独有文本内容进行认定。
4.11.3 Click element uniqueness 点击元素独特性
当使用 Click Once 同一按钮只会被点击一次。当使用 Click More 会一直点击直到不产生新元素。
1)Unique Text - 有同样文本内容的按钮被视为同一按钮
2)Unique HTML+Text - 有同样 HTML 和文本内容的按钮被视为同一按钮
3)Unique HTML - 有同样 HTML 的按钮被视为同一按钮
4)Unique CSS Selector - 有同样 CSS 选择器的按钮被视为同一按钮
4.11.4 应用案例
1)使用 Click Once 选择器进行分页导航
比如一个网站页面展示了数个项目,页面下方有导航按钮动态加载这些项目(按钮点击后网页的 URL 不会改变,网址中“#”后的变动不算网址改变)。使用 Element click 选择器你可以选择这些项目及要点击的按钮。Scraper 会点击这些按钮进行数据提取。你需要为 Element click 选择器添加子选择器用于从每个项目提取数据。如下图可见具体配置方式。
2)通过点击 More(更多)按钮加载更多项目
此案例同上面示例类似。唯一差别在于在此网站是通过点击同一按钮加载更多项目。在此案例中 Element Click 选择器应当使用 “Click More(点击更多”点击类型。如下图你可以看到如何配置 Element click 选择器从此网站提取数据。
网友评论