• 我用 Python 写了一个统计博客园文章信息的小工具


    前言#

    博客园在个人首页有一个简单的博客数据统计,以博客园官方的首页为例:

    image

    但是这些数据不足以分析更为细节的东西。所以从年后开始,就想着做一个类似 CSDN 里统计文章数据的工具:

    这样的统计功能可以更好的去分析读者对于内容的需求,了解文章内容的价值,以及从侧面认识自己在知识创作方面的能力。

    程序#

    这个程序是我昨天晚上一时兴起,看到了一位博主的文章 Python爬虫实战-统计博客园阅读量问题 ,正好检验自己对python的掌握,于是补充和修改了他的代码。因为想着要更为直观的展示文章数据,所以分了几个模块去写,以方便后续增加和修改功能。

    程序目前只有三个 .py 文件,爬取数据后解析并写入到 txt 中(后续会使用更规范的方法做持久化处理)。

    主程序 main.py#

    from spider import spider
    from store import write_data
    
    
    # 设置博客名,例如我的博客地址为:https://www.cnblogs.com/KoiC,此处则填入KoiC
    blog_name = 'KoiC'
    
    
    
    if __name__ == '__main__':
        post_info = spider(blog_name)
        # print(post_info)
        write_data(post_info, blog_name)
        print('执行完毕!')
    

    爬虫模块 spider.py#

    import time
    import requests
    import re
    from lxml import etree
    
    
    def spider(blog_name):
        """
            爬取相关数据
        """
        
        # 设置UA和目标博客url
        headers = {
            "User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.41"
        }
        url = "https://www.cnblogs.com/" + blog_name + "/default.html?page=%d"
        
        # 测试访问
        req = requests.get(url, headers)
        print('测试访问状态:%d'%req.status_code)
        
        
        print('开始爬取数据...')
        
        post_info = [] # 全部博文信息
        
        #分页爬取数据
        for page_num in range(1, 999):
            
            # 指向目标url
            new_url = format(url%page_num)
            
            # 获取页面
            req = requests.get(url=new_url, headers=headers)
            # print(req.status_code)
            
            tree = etree.HTML(req.text)
            
            # 获取目标数据(各博文名称和阅读量)
            count_list = tree.xpath('//div[@class="forFlow"]/div/div[@class="postDesc"]/span[1]/text()')        
            title_list = tree.xpath('//div[@class="postTitle"]/a/span/text()')
            
            # 获取该页博文数量
            post_count = len(count_list)
            # 如果该页没有博文,跳出循环
            if post_count == 0:
                break
            
            # 解析目标数据
            
            for i in range(post_count):
                # 对数据进行处理
                post_title = title_list[i].strip() # 处理前后多余的空格、换行等
                post_view_count = re.findall('\d+', count_list[i]) # 正则表达式获取阅读量数据
                
                single_post_info = [post_title, post_view_count[0]] # 单篇博文数据
                
                post_info.append(single_post_info)
            
            time.sleep(0.8)
            
        return post_info  
    

    持久化模块 store.py#

    import os
    import time
    
    
    def write_data(post_info, blog_name):
        """
            对数据进行持久化
        """
        
        print('开始写入数据...')
        
        # 获取时间
        now_time = time.localtime(time.time())
        select_date = time.strftime('%Y-%m-%d', now_time)
        select_time = time.strftime('%Y-%m-%d %H:%M:%S ', now_time)
        
        # 按日期创建文件路径
        file_path = './{:s}/{:s}'.format(str(now_time.tm_year), str(now_time.tm_mon))
        
        try: 
            os.makedirs(file_path) # 该方法创建路径时,若路径存在会报异常,使用 try catch 跳过异常
        except OSError:
            pass
        
        # 写入数据  
        try:
            fp = open('{:s}/{:s}.txt'.format(file_path, select_date), 'a+', encoding = 'utf-8')
    
            fp.write('阅读量\t\t 博文题目\n')
    
            view_count = 0 # 总阅读量
            for single_post_info in post_info:
                view_count += int(single_post_info[1])
                fp.write('{:<12s}{:s}\n'.format(single_post_info[1], single_post_info[0]))
            
            fp.write('------博客名:{:s} 博文数量:{:d} 总阅读量:{:d} 统计时间:{:s}\n\n'.format(blog_name, len(post_info), view_count, select_time))
            
            # 关闭资源
            fp.close()
        except FileNotFoundError:
            print('无法打开指定的文件')
        except LookupError:
            print('指定编码错误')
        except UnicodeDecodeError:
            print('读取文件时解码错误')
    

    执行结果#

    程序会在目录下按日期创建文件夹:

    image

    进入后可找到以日期命名的 txt 文件,以我自己的博客为例,得到以下统计信息:

    image

    可以将程序挂在服务器上,定时统计数据,观察阅读量的涨幅。

    后续我会逐渐完善功能,形成一个自动化的小工具,感兴趣的可以点个关注,谢谢阅读!

    参考#

    Python爬虫实战-统计博客园阅读量问题

    XPath 教程

    Python 正则表达式

    python正则表达式从字符串中提取数字

    Python os.makedirs() 方法

    Python File(文件) 方法

    Python异常捕获与处理

  • 相关阅读:
    typescript44-对象之间的类兼容器
    Gogs这款开源项目助你秒建Git服务!
    铁塔基站用能监控能效解决方案
    携职教育:【建议收藏】14个热门证书,最全考证时间表
    SAP中 查询采购订单已收货未开票信息 MB5S <转载>
    [附源码]Python计算机毕业设计Django4S店汽车售后服务管理系统
    【第34天】异或 ^ 的神奇 | 排除偶次重复
    K8s(kubernetes)介绍以及原理解析
    12个MySQL慢查询的原因分析
    vscode在资源管理器中进行查询 vscode 查找文件名 ctrl + P
  • 原文地址:https://www.cnblogs.com/KoiC/p/17119236.html