课时10

作者: ooocoo | 来源:发表于2016-05-11 22:18 被阅读0次

课时10
德弦古琴成人小型集体课程——第一期初级班
德弦古琴成人小型集体课程——周日初级班
H5前端开发学习笔记——0x02认识HTML
历史&地理8月预备开课中
2017.5.23
6月份自然风花艺课程表
10-3周复盘|计划外的一周
培训
视唱练耳开课啦，399元钜惠抢购中！

用chrome 来获取cookies 在Network选项中。

1.jpg

为了筛选出这一类的标题，那么分析后市发现他们有共同属性的，就包括图片也一样。

titles = soup.select('div.property_title > a[target="_blank"]')
imgs = soup.select('img[width="160"]')

这里面标题就是都有相同的父级标签，而图片宽度都是160 的。

我们是不需要带有聚合性标签的标题，那么我们就要分析他和其他普通标签是有什么不一样的地方。

1.jpg

看一下两个具体链接有什么不一样的地方

1.jpg

我们想要的链接里面有单独的 target 标签所以我们的代码应该如下。

titles  = soup.select('div.property_title > a[target="_blank"]')

制造头信息

headers = { 'User-Agent':'',  'Cookie':''}
wb_data = requests.get(url,headers = headers)

1.jpg

自动化链接

urls =['http://www.tripadvisor.cn/Attractions-g60763-Activities-oa{}-New_York_City_New_York.html#ATTRACTION_LIST'.format(str(i)) for i in range(0,930,30)]

知识点，{} .format() str(i) for i in range(0,930,30) 并且把这些链接放入一个列表。
那么要访问里面的每一个链接，我们需要的是用for 循环来解决。

网友评论

本文标题：课时10

本文链接：https://www.haomeiwen.com/subject/houurttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

课时10

相关文章

课时10

德弦古琴成人小型集体课程——第一期初级班

德弦古琴成人小型集体课程——周日初级班

H5前端开发学习笔记——0x02认识HTML

历史&地理8月预备开课中

2017.5.23

6月份自然风花艺课程表

10-3周复盘|计划外的一周

培训

视唱练耳开课啦，399元钜惠抢购中！

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读