码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Python网络爬虫5-实战网页爬取


    1.需求背景

    在上一篇Python网络爬虫4-实战爬取pdf中,以松下品牌说明书为例说明了网页爬取PDF的分析流程。在实际的应用中,具体代码需要根据不同的网址情况和需求进行更改。
    明确要求:
    此次,想要爬取苏泊尔品牌下的说明书pdf,同时我们希望每个pdf都有相应的型号说明,并将对应关系存储在excel表格中。

    网站分析:
    苏泊尔产品说明书官网链接
    这里以智能电炖锅为例
    在这里插入图片描述
    非常幸运,这个网站的pdf链接直接暴露在开发者模式中,没有进行封装,所以我们可以直接使用BeautifulSoup和requests直接获取data-href属性的标签就可以得到pdf链接。

    第二个需求,保存pdf对应的产品型号,我们看到网站每个型号是有对应的文字说明的,所以我们要获取其中的文字。

    在这里插入图片描述
    如图所示,点击1,然后点击文字,就可以在下方定位出文字。可以看到,文字和链接都在一个bin中,


    所以可以先找到所有的class=words的div标签,再定位文字和链接。

    第三:电炖锅只有一页,如果多页如何实现,以及如何直接爬取所有类别。
    电饭煲为例,观察网站的规律
    https://www.supor.com.cn/other/manualgoodscategorysearch?ctype=2443---->第一页
    https://www.supor.com.cn/other/manualgoodscategorysearch/2.html?ctype=2443—>第二页
    https://www.supor.com.cn/other/manualgoodscategorysearch/17.html?ctype=2443—>第十七页
    for循环,页用变量代替

    不同类别又该如何统一实现:
    也是观察网站规律,不同类别是有对应ctype的。
    ctype=2443—>电饭煲
    ctype= 2441–>智能电炖锅

    (小白一个,这种办法对我来说是最高效的,如果模拟用户点击,获取每一个大类如电饭煲,获取完之后,切换窗口,再去点击第二个大类电炖锅,对我来说更为复杂,出错率也更高,欢迎大家尝试此种方法,可以在评论区告诉我哦~)

    2.代码具体实现

    首先实现某一页pdf和文本说明的功能,为了存储所有的文字信息,定义一个类或者全局变量

    class Subo():
    
        def __init__(self):
            self.res=[]
    
        def get_suboer_pdf(self,url,output_dir):
    
            # print(url)
    
            # # 发送HTTP请求获取页面内容
            response = requests.get(url)
            # 如果请求失败,则抛出HTTPError异常
            response.raise_for_status()
    
            # # 使用BeautifulSoup解析HTML内容
            soup = BeautifulSoup(response.text, 'html.parser')
    
            try:
    
                # 首先找到某一个类别,包括href和文字信息,class=word
                shang_pins = soup.find_all('div', {'class': 'words'})
    
                # 对每一个类别进行提取文字和对应的href链接
                for shang_pin in shang_pins:
                    one_mes = []  # 存储信息
    
                    # 查找class为"ft16 tits"的div元素的文本内容
                    tits = shang_pin.find('div', {'class': 'ft16 tits'}).get_text(strip=True)
    
                    # 查找class为"txts ft16"的div元素的文本内容
                    txt = shang_pin.find('div', {'class': 'txts ft16'}).get_text(strip=True)
                    con=tits+txt
                   
                    one_mes.append(con)
    
                    # pdf在data-href。查找所有带有data-href属性的标签
                    file_link = shang_pin.find('a', attrs={'data-href': True})['data-href']
    
                    one_mes.append(file_link)
    
                    filename = con+".pdf"
    
                    # 将文件保存到本地
                    response = requests.get(file_link, stream=True)
                    response.raise_for_status()
    
                    with open(os.path.join(output_dir, filename), 'wb') as f:
                        for chunk in response.iter_content(1024):
                            f.write(chunk)
    
                    print(f'Downloaded: {filename}')
    
    
                    one_mes.append(filename)
                    self.res.append(one_mes)
            except:
                pass
    

    因为采用了上述说明的方法,所以前期信息准备比较多,需要获取你要爬取的电器类别的网址(ctype)和页数。这里采用字典进行存储,如下形式:

    
    if __name__=="__main__":
        mapping = {
            2441: {'name': '智能电炖锅', 'page': 1},
            2442: {'name': '电压力锅', 'page': 12},
            2443: {'name': '电饭煲', 'page': 17},
           
        }
        suboer=Subo()
    
      
        out_path = './suboer'
        save_folder = './suboer.xlsx'
        for idx in mapping.keys():
          
            name = mapping[idx]['name']
            page = mapping[idx]['page']
            print('{}-{}-{}'.format(idx, name, page))
    		
    		# 不同类别分别进行存储到不同文件夹
            output_dir = os.path.join(out_path, name)
            if not os.path.exists(output_dir):
                os.makedirs(output_dir)
    
            for i in range(1, page+1):
                # 第一页和之后的格式不一样,这是一页
                if i==1:
                    url = 'https://www.supor.com.cn/other/manualgoodscategorysearch?ctype={}'.format(idx)
                    one_mes=suboer.get_suboer_pdf(url, output_dir)
                    print("finish page {}".format(i))
    
                else:
                    url = 'https://www.supor.com.cn/other/manualgoodscategorysearch/{}.html?ctype={}'.format(i, idx)
                    one_mes=suboer.get_suboer_pdf(url, output_dir)
                    print("finish page {}".format(i))
    
            print("--------------------{}结束-------------------------".format(name))
    
        data=suboer.res
        df = pd.DataFrame(data, columns=['电器类别', '说明书链接', '文件名称'])
        df.to_excel(save_folder, index=False, sheet_name='匹配结果')
        print("------------------保存完成------------------")
    
    

    程序运行结果:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    3.总结

    网站比较友好,直接暴露pdf链接,不需要模拟用户点击。同时也利用网址特点进行爬取,具体情况需要具体分析。学习到了提取更多信息文字,对应存储到excel中。存储链接之后,可以直接利用链接进行下载。

  • 相关阅读:
    第9章 登录页面的跳转实现
    掌握这个技巧,你也能成为资产管理高手!
    STM32创建工程步骤
    FormItem添加必填星号而不验证
    前端要懂的持续集成与持续部署 (CI CD)
    Smartforms 打印出现的问题
    Harbor镜像层膨胀,占用存储过大
    【无标题】
    22-9-16学习笔记
    python基础:廖雪峰的官方网站Python(部分)笔记
  • 原文地址:https://blog.csdn.net/qq_45584615/article/details/139662245
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号