美文网首页
XPath使用小结

XPath使用小结

作者: csr_yang | 来源:发表于2018-04-25 15:06 被阅读5次

使用scrapy爬虫,不可避免的需要对网页结构进行分析并提取,其中用到的一个重要的工具就是XPath。XPath可以帮助我们很方便的对html元素进行定位选择。

在Chrome中使用XPath

在chrome中使用XPath,只需要在开发者工具中点击控制台(Console)标签,然安徽使用$x功能就可以了。


1.png

比如获取所有的section标签,我们使用$x('//section'),控制台中就可以看到一个包含所有元素的Javascript数组。将光标移动到这个数组上,还可以看到被选择的元素被高亮显示。


2.png

至于这个表达式('//section')的规则是如何的,下面来粗略的介绍一下。

XPath表达式

/ 单斜杠

HTML文档的层级结构的最高级是<html>标签。可以使用元素名和斜杠线选择任意元素。
以这个html文档为例:


12.png

获取body标签使用/html/body
获取body下的section标签使用/html/body/section,因为有5个section元素,所以这个结果是有5个元素的JavaScript数组。
可以使用[index]来获取这个数组的元素。
例如要获取第一个section标签,使用/html/body/section[1]
注意:这个地方index是从1开始计算的,而不是0,这跟一般的数组获取元素有点不同。

4.png

// 双斜杠

// 可以访问所有的同名元素
例如,要找到html中所有的section元素,使用//section即可


5.png

@ 访问属性

比如获取head中的charset属性

6.png 7.png

也可以只通过text()函数选择文字。

在Chrome浏览器中获得XPath表达式

提前应对网页发生改变

. 避免使用数组序号
. 用class抓取效果不一定好
. 数据指向的class优于排版指向的class
. id通常是最可靠的

相关文章

  • XPath使用小结

    使用scrapy爬虫,不可避免的需要对网页结构进行分析并提取,其中用到的一个重要的工具就是XPath。XPath可...

  • Xpath使用小结

    parent 表示当前节点的父节点 preceding-sibling 表示当前节点的前一个兄弟节点 follow...

  • python爬虫之xpath

    一. python使用xpath 使用时先安装 lxml 包 二. xpath简介 XPath,全称 XML Pa...

  • lxml结合xpath注意事项

    1.使用Xpath语法,应该使用Element.xpath方法,来执行xpath选择 示例代码如下: 2.获取某个...

  • python爬虫之XPath解析

    XPath 简介: XPath 是一门在 XML 文档中查找信息的语言 什么是 XPath? XPath 使用路径...

  • Python爬虫(十三)_案例:使用XPath的爬虫

    本篇是使用XPath的案例,更多内容请参考:Python学习指南 案例:使用XPath的爬虫 现在我们用XPath...

  • xpath使用笔记

    xpath学习笔记 xpath简介 xpath 用于在XML文档中通过元素和属性进行导航xpath 使用路径表达式...

  • XPath

    XPath 简介 什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准...

  • 爬虫解析库XPath使用

    爬虫解析库XPath使用 1.XPath简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于...

  • xpath的使用

    xpath的使用

网友评论

      本文标题:XPath使用小结

      本文链接:https://www.haomeiwen.com/subject/wobelftx.html