• 用Python把附近的足浴店都给采集了一遍,好兄弟:针不戳~


    前言

    嗨喽,大家好呀~这里是爱看美女的茜茜呐

    又到了学Python时刻~

    我又来了!今天整个好玩的,你们肯定喜欢~

    咱们上班累了,不得好好犒劳一下自己,是吧 !

    于是我整了一手采集附近洗jio的店子,浴皇大帝们,冲鸭~

    话不多说,冲!兄弟们,都是正规的 正规的!

    使用环境

    用的大多数的知识点 都是属于基础的知识点内容,以及pa chong基础入门一些知识点。

    要用的模块

    • requests >>> pip install requests 第三方模块 需要大家去安装

    • csv

    win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

    基本思路。

    数据来源分析

    我们不管是采集什么,都要先找到数据来源。有来源才有下一步的行动。

    1. 确定我们要采集得数据内容是什么?

      店铺基本数据信息

    2. 通过开发者工具进行抓包分析 分析数据从哪里可以获取

      从第一页数据进行分析的

    代码流程步骤

    有了来源目标之后,再请求获取数据,解析数据,最后创建文件夹保存到Excel表格。

    当然,如果想采集更多的,肯定就得实现自动翻页

    • 发送请求, 对于店铺信息数据包url地址发送请求

    • 获取数据, 获取服务器返回的response响应数据

    • 解析数据, 提取我们想要的一些数据内容 (店铺信息)

    • 保存数据, 把相应的数据内容保存csv表格里面

    • 多页采集:多页采集数据内容

    代码展示

    不限正规足浴,其实想采集啥都行。

    import requests
    import pprint
    import re
    import csv
    import time
    
    f = open('按摩data.csv', mode='a', encoding='utf-8', newline='')
    
    csv_writer = csv.DictWriter(f, fieldnames=[
        '店铺名称',
        '人均消费',
        '店铺评分',
        '评论人数',
        '所在商圈',
        '店铺类型',
        '店铺地址',
        '联系方式',
        '营业时间',
        '详情页',
    ])
    csv_writer.writeheader()
    
    
    def get_shop_info(html_url):
        headers = {
            'Cookie': '',
            'Host': '',
            'Referer': '',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36',
        }
        response = requests.get(url=html_url, headers=headers)
        # print(response.text)
        phone = re.findall('"phone":"(.*?)"', response.text)[0]
        openTime = re.findall('"openTime":"(.*?)"', response.text)[0].replace('\\n', '')
        address = re.findall('"address":"(.*?)"', response.text)[0]
        shop_info = [address, phone, openTime]
        # print(shop_info)
        return shop_info
    
    for page in range(0, 1537, 32):
        time.sleep(2)
        url = ''
        data = {
            'uuid': '05f4abe326934bf19027.1634911815.1.0.0',
            'userid': '266252179',
            'limit': '32',
            'offset': page,
            'cateId': '-1',
            'q': '按摩',
            'token': 'knaBbvVTfN50cupoV5b87GJMXzkAAAAAAw8AAELrweWvhGhrM0fw6oTkLe5c6DGXJ6PCtxfyHgUPl3k-SVVR-Vs0LjzrGfewJhX8-g'
        }
        headers = {
            'Referer': '',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
        }
        response = requests.get(url=url, params=data, headers=headers)
        result = response.json()['data']['searchResult']
        for index in result:
            shop_id = index['id']
            index_url = f'https://www..com/meishi/{shop_id}/'
            shop_info = get_shop_info(index_url)
            dit = {
                '店铺名称': index['title'],
                '人均消费': index['avgprice'],
                '店铺评分': index['avgscore'],
                '评论人数': index['comments'],
                '所在商圈': index['areaname'],
                '店铺类型': index['backCateName'],
                '店铺地址': shop_info[0],
                '联系方式': shop_info[1],
                '营业时间': shop_info[2],
                '详情页': index_url,
            }
            csv_writer.writerow(dit)
            print(dit)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74
    • 75

    因为代码里有链接,不给过的,所以我把代表性的网址那里删掉了一部分,你们可以自行添加


    👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~

    小伙伴们在学习Python的过程中,有时候不知道怎么学,从哪里开始学。

    那么对于这些大兄弟们,我准备了大量的免费视频教程,数百本PDF电子书籍,以及各种案例源代码!

    源码、资料点击 蓝色字体 自取 ,我都放在这里了。

    宁外给大家推荐一个好的教程:

    【48小时搞定全套教程!你和大佬只有一步之遥【python教程】


    尾语 💝

    今天的分享,差不多就结束了

    可以先收藏 ⭐,再学习,毕竟一一下子学会,确实有点难为人~

    躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

  • 相关阅读:
    Vue 下载本地文件夹和图片动态引入(解决无法从网站上提取文件)
    便捷解压Keka for Mac(压缩解压工具) v1.3.3中文版
    Oracle数据加载工具SQL* loader
    将SpringBOOT项目 打成 war 包 并 部署到 Tomcat
    基于Selenium+Python的web自动化测试框架
    【Linux基础】3.4 Linux的进程,服务,防火墙等
    信号补零对信号频谱的影响
    弄清数据库索引的来龙去脉
    Spark 弹性分布式数据集 RDD
    python 裁剪图片并保存
  • 原文地址:https://blog.csdn.net/m0_72282564/article/details/127821734