先解决上篇未完成事宜
未完成事宜:当前通过pipelines生成json文件中文章标题还未转换为中文字符,还未找到解决办法,接下来还需继续解决。
解决办法:python json.dumps 中的ensure_ascii 参数引起的中文编码问题
修改piplines代码如下:
#line = json.dumps(dict(item)) + '\n'
line = json.dumps(dict(item), ensure_ascii=False) + '\n'
修改piplines代码后效果如下:
{"article_name": ["<title>资料整理 - CSDN博客</title>"], "article_url": "https://blog.csdn.net/u012150179/article/details/38230295"}
{"article_name": ["<title>一淘搜索之网页抓取系统分析与实现(4)- 实现&总结 - CSDN博客</title>"], "article_url": "https://blog.csdn.net/u012150179/article/details/38305969"}
{"article_name": ["<title>程序员能力矩阵 - CSDN博客</title>"], "article_url": "https://blog.csdn.net/u012150179/article/details/38383745"}
{"article_name": ["<title>关于CSDN几点用户体验较差的功能(收藏夹和草稿箱) - CSDN博客</title>"], "article_url": "https://blog.csdn.net/u012150179/article/details/38644607"}
{"article_name": ["<title>关于提高效率的几点 - CSDN博客</title>"], "article_url": "https://blog.csdn.net/u012150179/article/details/38736269"}
{"article_name": ["<title>已将GitHub scrapy-redis库升级,使其兼容最新版本Scrapy - CSDN博客</title>"], "article_url": "https://blog.csdn.net/u012150179/article/details/39120265"}









网友评论