美文网首页python爬虫学习
在Urllib中使用XPath

在Urllib中使用XPath

作者: 薛落花随泪绽放 | 来源:发表于2017-11-05 21:02 被阅读12次

在Urllib中,我们一样可以使用XPath进行信息提取,此时,需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式

#在Urllib模块下使用XPath表达式
import urllib.request
from lxml import etree
data=urllib.request.urlopen("http://www.baidu.com").read().decode("utf-8","ignore")
treedata=etree.HTML(data)
title=treedata.xpath("//title/text()")
if(str(type(title))=="<class 'list'>"):
    pass
else:
    title=[i for i in title]
print(title[0])

>>> len(data)
111240
>>> len(treedata)
2
>>> type(data)
<class 'str'>
>>> type(treedata)
<class 'lxml.etree._Element'>
>>> type(title)
<class 'list'>
>>> title
['百度一下,你就知道']

相关文章

网友评论

    本文标题:在Urllib中使用XPath

    本文链接:https://www.haomeiwen.com/subject/atmhmxtx.html