美文网首页Java 杂谈高级java
java写爬虫获取京东售价

java写爬虫获取京东售价

作者: 微笑的小小刀 | 来源:发表于2018-09-20 21:37 被阅读10次

在互联网这个圈子,每每说起爬虫,大家总是会说起python , 但是除了python , 我们用Java也是可以完成的。最近生活比较拮据,买东西总想买凑一波打折,在现在生活中, 我们可以一家超市一家超市的跑, 然后看哪家最便宜,但习惯网购的我们,可能更多的会选择打开淘宝或者京东看看。但并不是每次都凑巧想要的东西都在打折,那我们就会不停的去刷新页面,看看有没有打折,有没有降价。

如以前几篇文章所说,人力能在电脑上完成的,计算机也一定可以帮我们完成。今天就来试一下,用java程序来帮我们进行价格的监控。

思路:

我们是通过打开浏览器,然后输入京东的官网,找到自己想要的东西,然后看价格。发现不是自己想要的价格就先放那,过段时间再来刷新一次。

那用程序来做也是这么一个思路。 打开京东的网址,然后去找到价格,看看是不是我们想要的价格。

技术选型:承接上文的maven项目,我们用Jdk10自带的HttpClient去模拟浏览器的请求。用jsoup去分析html页面(需要引入jsoup的pom依赖)。

在页面上人工获取价格的方式如下图所示:

image.png

在pom.xml的 dependencies节点下添加:

<dependency>

 <groupId>org.jsoup</groupId>

 <artifactId>jsoup</artifactId>

 <version>1.11.3</version>

</dependency>

jdk10 HttpClient相关用法参考:

<u>https://developer.oracle.com/java/jdk-http-client</u>

实现代码如下:

public static void main(String[] args) {

 //我们想监控价格的商品url

 String url = "https://item.m.jd.com/product/5444550.html";

 HttpClient client = HttpClient.newHttpClient();

 //构造我们的请求

 HttpRequest request = HttpRequest.newBuilder()

 .uri(URI.create(url))

 .build();

 try {

 HttpResponse<byte[]> response = client.send(request, BodyHandler.asByteArray()); 

 byte[] responseStr = response.body();

 //对返回值进行解码

 String str = new String(responseStr,"gbk");

 //对页面的Html转换成java对象

 Document doc = Jsoup.parse(str);

 //通过id获取到对应的元素

 Elements eles =doc.select("#priceSale");

 String text = eles.get(0).text();

 //输出元素的值,即我们想要的价格

 System.out.println(text);

 } catch (Exception e) {

 e.printStackTrace();

 }

 }

注:因为使用到jdk10的实验室功能httpclient,所以需要在启动时加上jvm参数:

--add-modules=jdk.incubator.httpclient

程序的输出结果:

image.png

有兴趣的小伙伴可以自己试一试,以此程序为蓝本,可以扩展成一个全网比价的小程序,就可以便宜的买买买啦

欢迎大家关注公众号:java技术大本营, 质量内容号,专心写好每一篇技术文。欢迎留言一起讨论


qrcode_for_gh_cb04da16e26d_258.jpg

相关文章

  • java写爬虫获取京东售价

    在互联网这个圈子,每每说起爬虫,大家总是会说起python , 但是除了python , 我们用Java也是可以完...

  • Java获取网页内容

    以前都是用python写爬虫,这次使用java。代码虽然多了点,不过还是静态类型语言代码提示舒心点。获取网页源代码...

  • SCrapy爬虫大战京东商城

    SCrapy爬虫大战京东商城 引言 上一篇已经讲过怎样获取链接,怎样获得参数了,详情请看python爬取京东商城普...

  • java爬虫获取图片

    获取每个页面图片链接地址 package com.wxq.pachong; import com.alibaba....

  • Python爬虫--解析页面获取数据

    前言   在学了java的爬虫之后,我就有了一种更加想了解爬虫的想法,虽然用java搞爬虫很舒服,但是写的东西是真...

  • 爬虫:mitmproxy 获取 京东APP 数据

    配置 mitmproxy 参见本博另一篇文章:[爬虫]使用mitmproxy抓包手机APP的配置步骤 编辑 scr...

  • 学习网址

    Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据 scrapy_jingdong[9]- 京东爬虫。基...

  • QUANTAXIS.SPIDER 爬虫部分

    QUANTAXIS 爬虫部分 目前的QUANTAXIS爬虫是用python的scrapy框架写的,为了运行Java...

  • 【工具】echarts+kuno+分词

    数据: python爬虫:微博爬虫、借助'出书啦'爬微信知乎Java爬虫:Java微博爬虫 时间轴: JAVA时间...

  • 老司机带你学爬虫——Python爬虫技术分享

    什么是“爬虫”? 简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫; 爬虫理论上步骤很简单,第...

网友评论

    本文标题:java写爬虫获取京东售价

    本文链接:https://www.haomeiwen.com/subject/tqhonftx.html