美文网首页
浅析python解析不规则json字符串

浅析python解析不规则json字符串

作者: 罗盘上的方向 | 来源:发表于2017-01-10 15:19 被阅读832次

最近在开发爬虫过程中,遇到一些python在解析不规则json字符串时出现解析不了的情况,特些记录一下:

正常情况下我们取到的json字符串应该都是像下面这种情况,用"包起来的

{"name":"test"}

而在爬取网站中会遇到很多不规则的json字符串,这些json字符串在javascript之中是可以正常解析的,但是在python中就会抛出ValueError异常。对于这种不是用双引号包起来的不规则json字符串可以使用一个第三方包demjson来解决,安装命令如下:

pip install demjson

安装好后直接在代码中调用就可以直接把不规则的json字符串转化为标准python字典

import demjson

str = '{name: "test"}'

print demjson.decode(str)

第二种情况是得到的json字符串是经过unicode转码的,这时拿到的json字符串会像下面这样:

{name:\u0027test\u0027}

这种解决办法可以使用字符串替换函数把\u0027转化为",再使用demjson.decode就可以转化成功。

import demjson

str = '{name: \u0027test\u0027}'

str = str.replace('\u0027', '\"')

print demjson.decode(str)

第三种情况是拿回来的json字符串的键是有"的,但是这时的json字符串是经过特殊字符转义的,如下

{\"name\":\"test\"}

这种情况在控制台是能够直接处理,但是在我的scrpay程序中会遇到一些问题,我的解决思路是把字符串转回去再处理

import demjson

str = {\"name\":\"test\"}

print demjson.decode(str.decode("string_escape"))

以上就是我遇到的这三种问题的处理思路供大家参考。

相关文章

网友评论

      本文标题:浅析python解析不规则json字符串

      本文链接:https://www.haomeiwen.com/subject/fnbkbttx.html