• python-爬虫-爬取中华人民共和国农业农村部网站公开的农产品批发价格中的蔬菜价格周数据


    中华人民共和国农业农村部 http://www.moa.gov.cn/

    在这里插入图片描述
    在这里插入图片描述

    分析

    • 抓包,发现getFrequencyData里面有我们想要的数据
      在这里插入图片描述

      在这里插入图片描述

    • 查看请求的提交参数
      在这里插入图片描述

    • 使用postman接口测试工具测试验证getFrequencyData里的url,发现测试返回的数据列表是空的

    在这里插入图片描述

    • 继续分析,发现需要先访问updateFrequencyConditions,再访问getFrequencyData

    爬取

    import requests
    import uuid
    import time
    
    • 1
    • 2
    • 3
    • 爬取第一页的数据
    url1 = 'http://zdscxx.moa.gov.cn:8080/nyb/updateFrequencyConditions'
    url2 = 'http://zdscxx.moa.gov.cn:8080/nyb/getFrequencyData'
    data = {
        'page':'1',
        'rows':'20',
        'type':'周度数据',
        'subType':'农产品批发价格',
        'level':'0',
        'time':'["2019-37","2023-38"]',
        'product':'蔬菜'
    }
    headers = {
        'Cookie':'JSESSIONID=9EDB9C447A01905C7893BDE4C220CF65; yfx_c_g_u_id_10002896=_ck23091319002016340778405571397; yfx_f_l_v_t_10002896=f_t_1694602820630__r_t_1694602820630__v_t_1694602820630__r_c_0; _trs_uv=lmhmrkth_299_3qsk; wdcid=5dbb601a9ccf2804; wdses=369f04c5d15e94ad; _va_ref=%5B%22%22%2C%22%22%2C1694602920%2C%22http%3A%2F%2Fzdscxx.moa.gov.cn%3A8080%2F%22%5D; _va_ses=*; _va_id=34f0e583bc02483c.1694602920.1.1694602960.1694602920.; wdlast=1694603152',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76',
        'Host':'zdscxx.moa.gov.cn:8080',
        'Origin':'http://zdscxx.moa.gov.cn:8080',
        'Referer':'http://zdscxx.moa.gov.cn:8080/nyb/pc/frequency.jsp',
        'X-Requested-With':'XMLHttpRequest'
    }
    
    
    s = requests.session()	# 
    r1 = s.post(url1,data=data,headers=headers)		# 
    r2 = s.post(url2,data=data,headers=headers)		# 
    content = r2.json()		# 得到json数据
    data_list = content['result']['pageInfo']['table']
    for item in data_list:
        v_data = {}
        v_data['时间'] = item['time']
        v_data['品类'] = item['product']
        v_data['指标'] = item['item']
        v_data['地区'] = item['area']
        v_data['单位'] = item['unit']
        v_data['数值'] = item['value']
        print(v_data)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 爬取所有页面的数据,只需要修改data里面的page
    for page in range(1,11):  	# 一共10页
        url1 = 'http://zdscxx.moa.gov.cn:8080/nyb/updateFrequencyConditions'
        url2 = 'http://zdscxx.moa.gov.cn:8080/nyb/getFrequencyData'
        data = {
            'page':page,
            'rows':'20',
            'type':'周度数据',
            'subType':'农产品批发价格',
            'level':'0',
            'time':'["2019-37","2023-38"]',
            'product':'蔬菜'
        }
        headers = {
            'Cookie':'JSESSIONID=9EDB9C447A01905C7893BDE4C220CF65; yfx_c_g_u_id_10002896=_ck23091319002016340778405571397; yfx_f_l_v_t_10002896=f_t_1694602820630__r_t_1694602820630__v_t_1694602820630__r_c_0; _trs_uv=lmhmrkth_299_3qsk; wdcid=5dbb601a9ccf2804; wdses=369f04c5d15e94ad; _va_ref=%5B%22%22%2C%22%22%2C1694602920%2C%22http%3A%2F%2Fzdscxx.moa.gov.cn%3A8080%2F%22%5D; _va_ses=*; _va_id=34f0e583bc02483c.1694602920.1.1694602960.1694602920.; wdlast=1694603152',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.76',
            'Host':'zdscxx.moa.gov.cn:8080',
            'Origin':'http://zdscxx.moa.gov.cn:8080',
            'Referer':'http://zdscxx.moa.gov.cn:8080/nyb/pc/frequency.jsp',
            'X-Requested-With':'XMLHttpRequest'
        }
    
    
        s = requests.session()	# 
        r1 = s.post(url1,data=data,headers=headers)	# 
        r2 = s.post(url2,data=data,headers=headers)	# 
        content = r2.json()		# 得到json数据
        data_list = content['result']['pageInfo']['table']
        for item in data_list:
            v_data = {}
            v_data['时间'] = item['time']
            v_data['品类'] = item['product']
            v_data['指标'] = item['item']
            v_data['地区'] = item['area']
            v_data['单位'] = item['unit']
            v_data['数值'] = item['value']
            print(v_data)
        time.sleep(5)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37

    在这里插入图片描述

  • 相关阅读:
    基于java+springmvc+mybatis+vue+mysql的非处方药物的查询与推荐系统
    MySQL-2-函数和约束
    SqlSugar安装使用和插入、更新、删除等基本操作
    【Python】jupyter notebook(学习笔记)
    代码随想录刷题|LeetCode 70. 爬楼梯(进阶) 322. 零钱兑换 279.完全平方数
    Shell 脚本变量使用和基本语法(待更新)
    社群运营的9个有效玩法 沈阳新媒体运营培训
    D. Anti-Sudoku
    使用Hexo从0到1搭建个人博客详细教程(超详细,超简单)
    JVM内存结构详解
  • 原文地址:https://blog.csdn.net/weixin_64729620/article/details/132862721