• 百度百科数据爬取 python 词条数据获取


    最近需要补充一些电力名词的解释,尤其是文字相关内容。百度百科上的词条质量有差异,因此我们需要先手工选择一些高质量词条。

    假设我们选择了互感器页面中的仪用变压器词条,首先:

    import requests  
    from bs4 import BeautifulSoup  
    import time
    import re
    import random
    
    • 1
    • 2
    • 3
    • 4
    • 5

    接下来,解析获取到的response:

    # 百度百科会增加一些字段,例如para_df21d,para_fr44h,需要识别
    def has_para_content_mark(child_class):
        i=0
        for t in child_class:
            if t[0:5]=="para_": 
                i+=1
            if t[0:5]=="MARK_":
                i+=1
            if t[0:8]=="content_":
                i+=1
        return  i==3
    
    
    # 百度百科会增加一些字段,例如text_sd55g4,text_fw92g,需要识别    
    def has_text(child_class):
        i=0
        for t in child_class:
            if t[0:5]=="text_": 
                i+=1
        return  i==1
        
     # 爬取内容,并解析出开头的简介和正文内容   
    def get_response(url):
        random_sleep_time = random.randint(100, 2000) / 1000.0  # 将毫秒转换为秒
        # 随机睡眠
        time.sleep(random_sleep_time)   
        print(url)
        # 发送HTTP请求并获取响应  
        response = requests.get(url)  
        
        contents=[]
        # 检查响应状态码,确保请求成功  
        if response.status_code == 200:  
            # 解析HTML内容  
            soup = BeautifulSoup(response.text, "html.parser")  
    
            # 找到class属性为"lemmaSummary_M04mg", "J-summary"的div元素  
            div_with_class_summary  = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))
    
    
            # 找到class属性为"J-lemma-content"的div元素  
            div_with_class = soup.find("div", class_="J-lemma-content")  
            
            
            # 使用find_all查找所有class属性中包含"J-summary"的div
            j_summary_divs = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))
            
    
            # 打印结果
            for div in j_summary_divs:
                # 找到所有在div_container中的span元素
                span_elements = div.find_all("span")
                tmp=""
    
                # 遍历所有span元素并输出内容
                for span in span_elements:
                    
                    if span.get("class") and has_text(span.get("class")):
                        tmp+=span.text
                contents.append(tmp)
                contents.append("\n")
    
            if div_with_class:  
                # 遍历div中的所有子元素  
                for child in div_with_class.descendants: 
                    tmp_1=""
                    # 检查子元素是否是span标签且class属性为"text_wRvkv"  
                    if child.name == "div"  and child.get("class") and has_para_content_mark(child.get("class")):
                        # 打印span元素的文本内容  
                        for new_child in child.descendants: 
                            if new_child.name == "span" and new_child.get("class") and has_text(new_child.get("class")):
                                tmp_1+=new_child.text
                        contents.append(tmp_1)
                        contents.append("\n")    
    
                    #  检查子元素是否是h2标签  
                    elif child.name == "h2":  
                        # 打印h2标签的内容  
                        contents.append("####\n"+child.text+"\n")
                    elif child.name == "h3":  
                        # 打印h2标签的内容  
                        contents.append("##"+child.text+"\n")
            return "".join(contents)
        
        else:  
            return "Failed to retrieve the{}.".format(url)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74
    • 75
    • 76
    • 77
    • 78
    • 79
    • 80
    • 81
    • 82
    • 83
    • 84
    • 85
    • 86

    最后打印结果,发现可以复制词条中的主要内容,例如二级标题、三级标题和正文,以及每个百科最开始的概念介绍:

    # 发送HTTP请求并获取响应  
    url=r"https://baike.baidu.com/item/%E5%A4%AA%E9%98%B3%E8%83%BD%E5%85%89%E4%BC%8F%E5%8F%91%E7%94%B5/1158149?fromModule=lemma_inlink"
    response = get_response(url) 
    for content in contents:
        print(content)
    
    • 1
    • 2
    • 3
    • 4
    • 5

    解析效果如下(全文过长,这里只有部分):

    光伏发电是根据光生伏特效应原理,利用太阳电池将太阳光能直接转化为电能。不论是独立使用还是并网发电,光伏发电系统主要由太阳电池板(组件)、控制器和逆变器三大部分组成,它们主要由电子元器件构成,但不涉及机械部件。所以,光伏发电设备极为精炼,可靠稳定寿命长、安装维护简便。理论上讲,光伏发电技术可以用于任何需要电源的场合,上至航天器,下至家用电源,大到兆瓦级电站,小到玩具,光伏电源可以无处不在。20221215日,入选中国工程院院刊《Engineering》发布“2022全球十大工程成就”。
    ####
    分类
    ##发电模式
    太阳能发电分光热发电和光伏发电。不论产销量、发展速度和发展前景、光热发电都赶不上光伏发电。可能因光伏发电普及较广而接触光热发电较少,通常民间所说的太阳能发电往往指的就是太阳能光伏发电,简称光电。
    ##输送方式
    太阳能光伏发电分为独立光伏发电、并网光伏发电、分布式光伏发电
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8

    你也可以使用其他手段来避开反爬措施,但是我们的工作中,需要人工核验词条,因此采取了“把地址复制到excel中,爬虫批量爬取”的方法。你可以新建一个xlsx,然后新增两个列名“address”和“content”,然后运行:

    import csv  
    import pandas as pd  
      
    # 读取CSV文件  
    df = pd.read_excel(r'D:\data\百科词条2.xlsx')  
      
    # 对第一列应用f1函数  
    df["content"]= df.iloc[:, 0].apply(get_response)  
      
    # 将结果写回到原文件中  
    df.to_excel('D:\data\百科词条2.xlsx', index=False)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11

    为避免爬虫,也可以采用“手工保存网页,然后解析html”的方式

  • 相关阅读:
    JavaScript对象与内置对象
    关于异常不一样的解释
    Protocol Buffer 使用
    隔山打牛:金融大崩溃
    牛客网——verilog练习题思路汇总
    pytest接口自动化测试框架 | 为什么要做pytest插件的二次开发
    java计算机毕业设计科技项目在线评审系统源码+mysql数据库+系统+lw文档+部署
    LeetCode 2347. 最好的扑克手牌
    信息学奥赛一本通:1408:素数回文数的个数
    Java实现拼图游戏
  • 原文地址:https://blog.csdn.net/weixin_37763484/article/details/136375597