美文网首页
用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~

用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~

作者: 颜狗一只 | 来源:发表于2022-11-12 16:47 被阅读0次

前言

嗨喽,大家好呀~这里是爱看美女的茜茜呐

又到了学Python时刻~

我又来了!今天整个好玩的,你们肯定喜欢~

咱们上班累了,不得好好犒劳一下自己,是吧 !

于是我整了一手采集附近洗jio的店子,浴皇大帝们,冲鸭~

话不多说,冲!兄弟们,都是正规的 正规的!

使用环境

  • python 3.8 解释器

  • pycharm 编辑器

用的大多数的知识点 都是属于基础的知识点内容,以及pa chong基础入门一些知识点。

要用的模块

  • requests >>> pip install requests 第三方模块 需要大家去安装

  • csv

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

基本思路。

数据来源分析

我们不管是采集什么,都要先找到数据来源。有来源才有下一步的行动。

  1. 确定我们要采集得数据内容是什么?

    店铺基本数据信息

  2. 通过开发者工具进行抓包分析 分析数据从哪里可以获取

    从第一页数据进行分析的

代码流程步骤

有了来源目标之后,再请求获取数据,解析数据,最后创建文件夹保存到Excel表格。

当然,如果想采集更多的,肯定就得实现自动翻页

  • 发送请求, 对于店铺信息数据包url地址发送请求

  • 获取数据, 获取服务器返回的response响应数据

  • 解析数据, 提取我们想要的一些数据内容 (店铺信息)

  • 保存数据, 把相应的数据内容保存csv表格里面

  • 多页采集:多页采集数据内容

代码展示

不限正规足浴,其实想采集啥都行。

import requests
import pprint
import re
import csv
import time

f = open('按摩data.csv', mode='a', encoding='utf-8', newline='')

csv_writer = csv.DictWriter(f, fieldnames=[
    '店铺名称',
    '人均消费',
    '店铺评分',
    '评论人数',
    '所在商圈',
    '店铺类型',
    '店铺地址',
    '联系方式',
    '营业时间',
    '详情页',
])
csv_writer.writeheader()


def get_shop_info(html_url):
    headers = {
        'Cookie': '',
        'Host': '',
        'Referer': '',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36',
    }
    response = requests.get(url=html_url, headers=headers)
    # print(response.text)
    phone = re.findall('"phone":"(.*?)"', response.text)[0]
    openTime = re.findall('"openTime":"(.*?)"', response.text)[0].replace('\\n', '')
    address = re.findall('"address":"(.*?)"', response.text)[0]
    shop_info = [address, phone, openTime]
    # print(shop_info)
    return shop_info

for page in range(0, 1537, 32):
    time.sleep(2)
    url = ''
    data = {
        'uuid': '05f4abe326934bf19027.1634911815.1.0.0',
        'userid': '266252179',
        'limit': '32',
        'offset': page,
        'cateId': '-1',
        'q': '按摩',
        'token': 'knaBbvVTfN50cupoV5b87GJMXzkAAAAAAw8AAELrweWvhGhrM0fw6oTkLe5c6DGXJ6PCtxfyHgUPl3k-SVVR-Vs0LjzrGfewJhX8-g'
    }
    headers = {
        'Referer': '',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url=url, params=data, headers=headers)
    result = response.json()['data']['searchResult']
    for index in result:
        shop_id = index['id']
        index_url = f'https://www..com/meishi/{shop_id}/'
        shop_info = get_shop_info(index_url)
        dit = {
            '店铺名称': index['title'],
            '人均消费': index['avgprice'],
            '店铺评分': index['avgscore'],
            '评论人数': index['comments'],
            '所在商圈': index['areaname'],
            '店铺类型': index['backCateName'],
            '店铺地址': shop_info[0],
            '联系方式': shop_info[1],
            '营业时间': shop_info[2],
            '详情页': index_url,
        }
        csv_writer.writerow(dit)
        print(dit)

尾语 💝

今天的分享,差不多就结束了

可以先收藏 ⭐,再学习,毕竟一一下子学会,确实有点难为人~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

相关文章

  • 用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~

    前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 又到了学Python时刻~ 我又来了!今天整个好玩的,你们肯定喜欢~...

  • 针不戳

    现在,我深深感到,这是一个极其重要的苗头。 我们都知道, 只要有意义, 那么就必须慎重考虑. 可是,即使是这样,想...

  • 针不戳~

    相较于园区的生活,在学校的日子里可针不戳。在一个环境待久了难免会产生枯燥乏味之感、内耗加剧、这便是在园区后几周...

  • 我真棒!

    军事理论一次性过,针不戳;背会了课文,针不戳;梦到了老番茄和我一起上学考试,针不戳;没有出门微信步数只有19,针不...

  • “采耳”还是“采花”?披着养生外衣打擦边,实则“别有洞天”?

    大家有没有发现,除了足浴店,在我们身边出现了新的服务方式——采耳。 “采耳”,就是“掏耳朵”,俗话说: “人生三大...

  • 我把附近的道观都给抢了

    作者:温酒 链接:https://www.zhihu.com/question/40237308/answer/1...

  • 徐老师

    作者:大鹏展翅 我和女儿路过我家附近的小卖店时,女儿用身体一遍又一遍的往小买店挤我,见我没有反应,便用两只小手往小...

  • D42,洗脚

    早上锻炼回来,浑身酸痛,正巧楼下足浴店没人,赶紧进去舒服了一把。记得第一次去足浴店,热乎乎的玫瑰洗脚水闻起来...

  • 洗脚的困惑

    满街都是足浴城或者足浴店,这让我很纳闷,以前感觉足浴店是个很有暧昧色彩的地方,闪烁的霓虹灯,亮眼的招牌,门口站着几...

  • 2023-01-22

    针不戳 猫鼠黄金段位了。 这样联机时的猫咪也是黄金段位。 真不错 针不戳 泰菲新锐III了。 再来5局就新锐II ...

网友评论

      本文标题:用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~

      本文链接:https://www.haomeiwen.com/subject/flafxdtx.html