自从学会了分析热榜,就是CSDN热榜分析,每天都要爬下来分析一下热榜都在干什么。但脚本运行到底还是不方便,所以接下来就想办法将其做成一个带有界面的热榜爬虫
做一个热榜爬虫的交互式界面,只需要两个按钮外加两个信息框就足够了,所以布局极其简单
class TestSTL:
def __init__(self):
self.root = tk.Tk()
self.root.geometry("600x300+200+20")
self.root.title("CSDN分析")
self.initVars()
self.initWidgits()
self.root.mainloop()
def initVars(self):
self.heatBlogs = []
self.subHeats = {}
self.infoCSDN = tk.StringVar()
def initWidgits(self):
frmCtrl = ttk.LabelFrame(self.root, text="CSDN工具")
frmCtrl.pack(side=tk.TOP, fill=tk.X)
self.setFrmCtrl(frmCtrl)
frmInfo = ttk.LabelFrame(self.root, text="反馈信息")
frmInfo.pack(side=tk.TOP, fill=tk.BOTH, expand=True)
ttk.Label(frmInfo, textvariable=self.infoCSDN).pack(side = tk.TOP, fill=tk.X)
self.infoCSDN.set("无反馈")
self.setFrmInfo(frmInfo)
def setFrmCtrl(self, frm):
frmPack = dict(side=tk.TOP, fill=tk.X)
frmHeat = ttk.Frame(frm)
frmHeat.pack(**frmPack)
ttk.Label(frmHeat, width=10, text="热榜分析").pack(side=tk.LEFT)
ttk.Button(frmHeat, width=10, text="爬取热榜",
command=self.btnHeatCrawler).pack(side=tk.LEFT)
ttk.Button(frmHeat, width=10, text="导出热榜",
command=self.mbExportHeat).pack(side=tk.LEFT)
def setFrmInfo(self, frm):
scroll = ttk.Scrollbar(frm)
scroll.pack(side=tk.RIGHT,fill=tk.Y)
self.logTxt = tk.Text(frm)
self.logTxt.pack(side=tk.TOP, fill=tk.BOTH, padx=5, pady=5, expand=True)
self.logTxt.config(yscrollcommand=scroll.set)
scroll.config(command=self.logTxt.yview)
# 热榜
def btnHeatCrawler(self):
pass
def mbExportHeat(self):
pass
def addLogs(self, text):
self.logTxt.insert("end", f"{text}\n")
self.logTxt.see("end")
在setFrmCtrl中,除了热榜分期的标签外,设置了两个按钮,分别是爬取热榜和导出热榜,二者分别绑定了两个函数btnHeatCrawler和mbExportHeat,这两个函数暂时还没实现。
在CSDN工具Frame下面,是信息界面,信息界面封装了两个组件,一个用于返回实时信息,是个Label,绑定了名为self.infoCSDN的Label;另一个是多行文本组件Text,并为其设置了addLogs函数,用于快速添加内容。布局结果如下
尽管此前已经多少知道如何用selenium爬取热榜了,但所有代码都是以脚本的形式写出来的,并不适合调用。所以接下来就要把这些代码函数化,首先是打开Edge的函数
# 打开Edge
def openEdge(url):
op = webdriver.EdgeOptions()
op.add_argument('--headless')
driver = webdriver.Edge(options=op)
driver.get(url)
return driver
这里用到了EdgeOptions,其参数headless表示不必打开Edge,而可以后台运行,不然Edge总会跳出来,影响其他工作。
然后就是用于热榜爬取的主要函数,封装如下,其中callback是一个回调函数,方便将运行信息传给用户界面,后面的key,则考虑到以后会爬取各领域热榜,于是预留一个接口。
# 输入回调函数
def getHeatInfos(callback, key=None):
nBlogs = 100
driver = openEdge('https://blog.csdn.net/rank/list')
titleClass = "floor-rank-item"
ts= []
# 获取100篇热榜博客
while len(ts) < nBlogs:
script = "window.scrollTo(0,document.body.scrollHeight)"
driver.execute_script(script)
ts = driver.find_elements(By.CLASS_NAME, titleClass)
time.sleep(0.5)
info = f"已读取到{len(ts)}篇热榜博客"
if callback: callback([], info)
callback([], f"已读取到所有热榜博客,开始处理")
blogs = []
for t in ts:
ws = t.text.split('\n')
blogs.append([ws[i] for i in [0, 1, 10, 2, 4, 6, 8]])
b = blogs[-1]
callback(blogs, f"正在处理第{b[0]}篇博客,热度{b[-1]}")
callback(blogs, f"全部热榜博客处理完毕")
return blogs
这个函数的代码几乎都来自CSDN热榜分析。
最后,是导出CSV的函数
def saveAsCSV(path, infos, title=['id','name', 'date', '']):
with open(path, 'w', newline='', encoding='utf8') as f:
w = csv.writer(f)
w.writerow(title)
for i in infos:
try: w.writerow(i)
except : continue
最后,实现窗口程序对热榜爬取函数的调用逻辑。考虑到爬虫往往是个耗时的操作,所以必须使用多线程。
from threading import Thread
最终热榜爬取函数的内容如下,其实核心代码就只有一行,表示开启一个线程来执行getHeatInfo,并把self.backHeatCrawler作为参数输入了进去。
backHeatCrawler是用于反馈信息的回调函数,其功能如其参数一样,共有两个,一个是保存爬取到的博客信息,二则是展示爬虫进度。
# 热榜
def btnHeatCrawler(self):
Thread(target = getHeatInfos,
args=(self.backHeatCrawler,), daemon=True).start()
def backHeatCrawler(self, blogs, info):
self.heatBlogs = blogs
self.infoCSDN.set(info)
if info.endswith("完毕"):
self.addLogs(f"共读取了{len(self.heatBlogs)}热榜博客")
最后完成数据导出工作,其主要功能就是调用saveAsCSV函数,只不过其中加入了文件名对话框等交互方式。
def mbExportHeat(self):
heatHead = ["序号", "标题", "作者", "浏览", "评论", "收藏", "热度"]
self.mbExport(self.heatBlogs, heatHead, "热榜博客")
def mbExport(self, lst, title, info):
self.infoCSDN.set(f"正在保存{info}")
path = asksaveasfilename(filetypes=[("数据文件", "csv")],
defaultextension='.csv')
if path=="":
self.infoCSDN.set(f"未保存{info}")
return
saveAsCSV(path, lst, title=['id'])
self.infoCSDN.set(f"{info}保存成功")
self.addLogs(f"{info}保存成功")
最终演示效果如下