• python爬虫采集企查查数据


        企查查,一个查询企业信息的网站,这个网站也是网络爬虫选择采集的对象,这个网站反爬提别厉害,没有一定的爬虫技术,是无法采集成功的。
    网络爬虫从企查查采集企业信息,如果想要看到完成的企业信息就需要登录后点击详情才能看到信息,但是只能看到部分的信息,但是登录就会出现验证码,如果是爬虫行为就很容易被识别出来。这时候就需要使用爬虫代理IP 去解决,登陆之后获取企业信息的页面源码,解析所采集的数据,获取到企业的名称和数据代码,处理好验证码,避免爬虫行为被限制,大部分网站均限制了IP的访问量,对于爬虫频繁访问,导致被网站限制,我们还可以通过使用爬虫代理来解决。然后将采集的数据信息保存到文件中即可。
        简单来说采集企查查的步骤很简单:
        1、使用爬虫代理
        2、采集企业信息页面
        3、解析所采集的数据
        4、储存采集的数据信息
    以下是采集企查查的代码仅供参考:        
    1. #! -*- encoding:utf-8 -*-
    2. import requests
    3. import random
    4. import requests.adapters
    5. # 要访问的目标页面
    6. targetUrlList = [
    7. "https://httpbin.org/ip",
    8. "https://httpbin.org/headers",
    9. "https://httpbin.org/user-agent",
    10. ]
    11. # 代理服务器(产品官网 www.16yun.cn)
    12. proxyHost = "t.16yun.cn"
    13. proxyPort = "31111"
    14. # 代理隧道验证信息
    15. proxyUser = "username"
    16. proxyPass = "password"
    17. proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    18. "host": proxyHost,
    19. "port": proxyPort,
    20. "user": proxyUser,
    21. "pass": proxyPass,
    22. }
    23. # 设置 http和https访问都是用HTTP代理
    24. proxies = {
    25. "http": proxyMeta,
    26. "https": proxyMeta,
    27. }
    28. # 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP
    29. s = requests.session()
    30. # 设置cookie
    31. cookie_dict = {"JSESSION":"123456789"}
    32. cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)
    33. s.cookies = cookies
    34. for i in range(3):
    35. for url in targetUrlList:
    36. r = s.get(url, proxies=proxies)
    37. print r.text

  • 相关阅读:
    网络七层协议在windows中是如何实现的
    网络安全(黑客)自学
    【Pytorch实用教程】Pytorch中nn.Sequential的用法
    微电影拍摄制作的基本流程有哪些?
    Pinia学习-存储数据、修改数据以及持久化实现
    【软件测试】一位流水线工作者,从月4K到月12K的涅槃重生......
    21.3K star!推荐一款可视化自动化测试/爬虫/数据采集神器!功能免费且强大!
    JAVA面试题——初级
    【C++ Primer Plus】第4章 复合类型
    python import illegal instruction
  • 原文地址:https://blog.csdn.net/fyq158797/article/details/133902558