码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 网络爬虫实践小结


    背景

    近期工作中要解决两个问题,一个是数据组需要网爬一些图片数据,另外一个是要批量爬取公司用于文档协同的一个网站上的附件。于是乎,就写了两个脚本去完成任务。

    爬虫思路

    第一步:向确定的url发送请求,接收服务器的响应信息;如果是需要用户登录的网页,需要手动获取cookie信息放入header中,或者模拟登录自动获取cookie。

    第二步:对接收到的信息进行解析,找到需要的标签内容(通常是我们需要的图片或文件的url);

    第三步:向目标url发送请求,保存数据到本地。

    python在网络爬虫方面提供了一些框架,Scrapy、Pyspider等,由于我们要实现的都是小功能,用一些现成的库即可。

    爬取附件

    1、发送简单请求用urllib.request.urlopen(url)就可以了,但如果要加入headers则可用urllib.request.Request类构造一个request实例,再调用urlopen发送请求。如要用到cookie:

    (如果要实现模拟登录自动获取cookie,可参考爬虫实战学习笔记_2 网络请求urllib模块+设置请求头+Cookie+模拟登陆-CSDN博客)

    1. import urllib.request
    2. headers = {
    3. "Cookie": 'confluence.list.pages.cookie=list-content-tree;.......'
    4. }
    5. req = urllib.request.Request(url, headers=headers)
    6. response = urllib.request.urlopen(req)
    2、解析响应体,这里是要找到附件链接的图标,在html中是的标签元素。用到BeautifulSoup。
    1. from bs4 import BeautifulSoup
    2. html = response.read().decode("utf8")
    3. soup = BeautifulSoup(html, "lxml")
    4. a_list = soup.find_all("a")
    5. for a in a_list:
    6. if "class" in a.attrs:
    7. if "filename" in a["class"]:
    8. filename = a.text.strip()
    9. download_url = a['href']
    10. print(download_url)
    3、获得文件下载地址后,发送请求,将返回的响应保存到本地即可。这里发请求用的requests库,用urllib.request应该也可以。
    1. import requests
    2. file = requests.get(download_url, headers=headers)
    3. save_path = './download/'
    4. if not os.path.exists(save_path):
    5. os.mkdir(save_path)
    6. save_file = open(os.path.join(save_path, filename), 'wb')
    7. save_file.write(file.content)
    8. save_file.close()
    9. print('save ok')
    遗留问题:

    上述脚本可针对特定网页进行附件爬取,但多个网页如何先获取到所有网页地址是个棘手的问题。目前只能通过搜寻url规律,发现里面的pageId是9位数字字符,大概确定了范围,进行暴力遍历。

    爬取图片

    网上关于百度、google爬取关键字图片的开源代码很多,我也是找了一个开源代码进行稍微修改,目前满足实际需要。这里附上代码,供参考。

    1. # -*- coding: UTF-8 -*-"""
    2. import requests
    3. import tqdm
    4. import os
    5. import json
    6. def configs(search, page, number):
    7. url = 'https://image.baidu.com/search/acjson'
    8. params = {
    9. "tn": "resultjson_com",
    10. "logid": "11555092689241190059",
    11. "ipn": "rj",
    12. "ct": "201326592",
    13. "is": "",
    14. "fp": "result",
    15. "queryWord": search,
    16. "cl": "2",
    17. "lm": "-1",
    18. "ie": "utf-8",
    19. "oe": "utf-8",
    20. "adpicid": "",
    21. "st": "-1",
    22. "z": "",
    23. "ic": "0",
    24. "hd": "",
    25. "latest": "",
    26. "copyright": "",
    27. "word": search,
    28. "s": "",
    29. "se": "",
    30. "tab": "",
    31. "width": "",
    32. "height": "",
    33. "face": "0",
    34. "istype": "2",
    35. "qc": "",
    36. "nc": "1",
    37. "fr": "",
    38. "expermode": "",
    39. "force": "",
    40. "pn": str(60 * page),
    41. "rn": number,
    42. "gsm": "1e",
    43. "1617626956685": ""
    44. }
    45. return url, params
    46. def loadpic(number, page, path):
    47. while (True):
    48. if number == 0:
    49. break
    50. url, params = configs(search, page, number)
    51. try:
    52. response = requests.get(url, headers=header, params=params).content.decode('utf-8')
    53. result = json.loads(response)
    54. url_list = []
    55. for data in result['data'][:-1]:
    56. url_list.append(data['thumbURL'])
    57. for i in range(len(url_list)):
    58. getImg(url_list[i], 60 * page + i, path)
    59. bar.update(1)
    60. number -= 1
    61. if number == 0:
    62. break
    63. page += 1
    64. except Exception as e:
    65. print(e)
    66. continue
    67. print("\nfinish!")
    68. def getImg(url, idx, result_path):
    69. img = requests.get(url, headers=header)
    70. file = open(result_path + str(idx + 1) + '.jpg', 'wb')
    71. file.write(img.content)
    72. file.close()
    73. if __name__ == '__main__':
    74. search = "溜冰" # 爬取的关键词
    75. number = 100 #爬取的目标数量
    76. result_path = os.path.join(os.getcwd(), search)
    77. if not os.path.exists(result_path):
    78. os.mkdir(result_path)
    79. header = {
    80. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}
    81. bar = tqdm.tqdm(total=number)
    82. page = 0
    83. loadpic(number, page, result_path)

  • 相关阅读:
    Zigbee协议详解:低功耗无线通信的理想选择
    JS课程记录-黑马
    QT断点调试[通俗易懂]
    C++新经典 | C++ 查漏补缺(模板与泛型)
    Go语言的断点续传
    JUC - 多线程之同步辅助CountDownLatch,CyclicBarrier,Semaphore(三)
    FreeRTOS中断与任务之间同步(Error:..\..\FreeRTOS\portable\RVDS\ARM_CM4F\port.c,422 )
    VIO第5讲:后端优化实践
    论坛议程 | COSCon'23 开源治理(G)
    20220720学习反思
  • 原文地址:https://blog.csdn.net/jane_xing/article/details/133772478
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号