反反爬虫之js加密参数获取

作者: icetong_k | 来源:发表于2018-07-05 23:07 被阅读183次

反爬虫与反反爬虫从爬虫诞生开始就已经存在,反爬策略层出不穷,反反爬也都应对有招。

就我目前碰到的反爬,从简单的user-agent,ajax,封ip,到限制账号访问频率,验证码,加密参数等。这些都是非常常见的反爬,相信大家基本上都碰到过,除此之外,也有一些调皮的网站会有一些有特色的反爬,比如某个招聘网站,网页元素审查看到的标签排版及一些属性与网页源码有点出入,通过js对网页标签进行了改动(这里并不是指的ajax加载新内容),对于一些接触爬虫不久的朋友,可能会死磕在这里,用bs/xpath怎么死都取不出对应的内容呢,因为他们一直在f12元素审查,那并不是源码的真实面目。以上这个例子,来自我的一个爬虫初学者朋友。还有很多有趣的反爬,比如以下这个。。。。

这是我今天在一个群里面看到的哈哈。

对反爬虫与反反爬虫的恩怨情仇感到有兴趣的,推荐看这篇文章,或许你已经看过了:干货 | 那些你不知道的爬虫反爬虫套路

在tg上一个python爬虫群里面,有个群友让我帮忙解密一个网站的加密参数,当时记着了,现在考完有时间就看了看。

这个网站是一个快手火山抖音小视频合集网站,网站链接在这:

https://kuaiyinshi.com/

这个网站有一个接口,可以获取随机一个(我也不知道是什么规则,姑且称为随机)小视频的内容包括评论等等:

https://kuaiyinshi.com/api/dou-yin/recommend/

可以从这个接口中获得一个视频的url,比如:

//aweme.snssdk.com/aweme/v1/play/?video_id=:117:150:176:161:188:157:125:184:137:98:176:123:117:102:131:159:122:99:128:161:141:203:128:137:190:147:130:166:163:152:134:203&line=0&ratio=720p&media_type=4&vr_type=0&test_cdn=None&improve_bitrate=0

但事实上,直接用这个链接是获取不到视频的,通过抓包发现,真正的视频链接是以下这个:

//aweme.snssdk.com/aweme/v1/play/?video_id=4fc7b70d02b7436593373e35ec4bbe9a&line=0&ratio=720p&media_type=4&vr_type=0&test_cdn=None&improve_bitrate=0

通过对比可以看出,video_id参数的值i发生了改变,由:117:150:176:161:188:157:125:184:137:98:176:123:117:102:131:159:122:99:128:161:141:203:128:137:190:147:130:166:163:152:134:203变为了4fc7b70d02b7436593373e35ec4bbe9a

需要找到这个加密方法。

以下讲讲步骤

首先,肯定是打开网页开发者工具,刷新网页,抓包,分析抓到的http包内容。

然后,肯定是,ctrl+shit+F,全局搜索,搜索关键字:video_id。

可以看到,由两个js文件中出现了video_id。

分别为:

https://kys.tqdn.cn/js/main.js?t=1530178376    

https://kys.tqdn.cn/js/public.js?t=1529140999    

其中main.js如下:

太乱了,js代码就和毛线球一样,愿意的话,可以把它扯乱成一团,然后让你去把它理清。很显然,为了反爬,这个网站就是这样做的。

但不管怎么说,还得继续。

把它们全部复制出来,然后找个在线格式化js代码的网页小工具。得到如下格式化代码:

另外一个js文件也是这样。

然后再定位video_id在这两个js文件中的位置,观察一下发现,public.js中的video_id和加密方法无关系

在一个judgeSource的函数里面,大概可以看出是判断视频为抖音还是快手抑或是火山的一个函数。

所以只需观察main.js文件,大概长这个样子:

是不是很崩溃。。。

先定位下video_id在这个文件中的位置:

看到这第一个变量 __Ox1169c就大概明白了,原来这个文件把一些关键字词全部让这个__Ox1169c数组元素代替了,所以这个js文件才看起来那么让人发慌。

到这里其实考验的就是耐心了,一缕缕的把代码过一遍就行。

我们先看这些函数名字,发现都很有规律的,比如说,我们看到一个creatplay函数,猜也能猜出它的作用吧。在控制台试一下就知道了:

发现一回车,视频便换了一个,ok这个函数肯定和加密video_id有关,我们以这个函数为入口开始看。

看第一个 var _ =  __Ox1169c[94];

我们可以在控制台输入 __Ox1169c[94] 回车,很方便的查看 __Ox1169c[94]的值

按照这个方法,一个个把它还原成成直观的js代码,大致理解。

最后定位到这里:

发现 ab3d7fc 这个函数就是加密方法,ok到此为止,继续看 ab3d7fc 这个函数。

这个函数的两个参数,一个是video_id,一个是ky,ky在控制台输入也可获得。

将 ab3d7fc 这个函数,还原成本来的js代码:

这个时候,可以选择用execjs来执行这段js,或者把它换成python方法。

到此,成功获取了这个网站js加密参数的加密方法。

想爬抖音视频,却不知道抖音的app内加密参数,又不会逆向,除了分享链接接口的方法,这个网站上的抖音视频也很好爬。

相关文章

  • 反反爬虫之js加密参数获取

    反爬虫与反反爬虫从爬虫诞生开始就已经存在,反爬策略层出不穷,反反爬也都应对有招。 就我目前碰到的反爬,从简单的us...

  • RSA加密方式

    RSA加密方式 获取RSA密钥 加密 解密 js库

  • 爬虫练习2

    主要练习目标:数据的获取、反反爬虫部署、数据识别、数据解析、数据读取输出深层目标:优化反反爬虫部署、增加判断浏览器...

  • python模拟登陆人人网

    人人网的登陆主要反扒机制就是前端js加密用户密码和rkey的参数 第一步:我们先把rkey这个参数获取到。 人人网...

  • js逆向爬虫:有道词典

    现在很多网站,我们进行网络请求时候,都会有自动生成的加密参数,这给我们进行爬虫数据获取工作造成了很多的困扰,遇到这...

  • vue实现rsa加密,数字签名,md5加密等

    一.使用jsencrypt进行rsa加密 原文链接:Js参数RSA加密传输,jsencrypt.js的使用 - C...

  • C#爬虫与反爬虫--字体加密篇

    爬虫和反爬虫是一条很长的路,遇到过js加密,flash加密、重点信息生成图片、css图片定位、请求头.....等手...

  • js获取url参数

    js获取url参数函数:

  • JS 获取url查询参数

    JS 获取url查询参数

  • 网易云音乐评论爬虫—js参数加密

    目标:生成网易云音乐评论请求中 params 和 encSecKey 两个参数(难度中等,更多的是熟练工具使用) ...

网友评论

  • NiceBlueChai:这个网站上的视频太老了,好久才更新一次。。还是直接爬抖音来的快
    NiceBlueChai:@伊恩陳 反编译就出来了
    f0842fb4c986:抖音的as参数加密可否赐教一二~
  • FanChen:很厉害!
    icetong_k:@FanChen 只是这个网站的js相对不多而已😁

本文标题:反反爬虫之js加密参数获取

本文链接:https://www.haomeiwen.com/subject/zjvmuftx.html