在Urllib中使用XPath
作者:
薛落花随泪绽放 | 来源:发表于
2017-11-05 21:02 被阅读12次在Urllib中,我们一样可以使用XPath进行信息提取,此时,需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式
#在Urllib模块下使用XPath表达式
import urllib.request
from lxml import etree
data=urllib.request.urlopen("http://www.baidu.com").read().decode("utf-8","ignore")
treedata=etree.HTML(data)
title=treedata.xpath("//title/text()")
if(str(type(title))=="<class 'list'>"):
pass
else:
title=[i for i in title]
print(title[0])
>>> len(data)
111240
>>> len(treedata)
2
>>> type(data)
<class 'str'>
>>> type(treedata)
<class 'lxml.etree._Element'>
>>> type(title)
<class 'list'>
>>> title
['百度一下,你就知道']
本文标题:在Urllib中使用XPath
本文链接:https://www.haomeiwen.com/subject/atmhmxtx.html
网友评论