• Python 采集109个中国风风格PPT


    PPT下载链接:https://pan.baidu.com/s/1PJ671YEj6M9khtdhh6TSxA?pwd=g37t 
    提取码:g37t

    源码下载链接:ppt.rar - 蓝奏云

    采集的参数

    1. page_count = 1 # 每个栏目开始业务content="text/html; charset=gb2312"
    2. base_url = "https://sc.chinaz.com/" # 采集的网址 https://sc.chinaz.com/tag_ppt/zhongguofeng.html
    3. save_path = "D:\\Sprider\\ChinaZ\\"
    4. sprider_count = 110 # 采集数量
    5. haved_sprider_count = 0 # 已经采集的数量
    6. word_content_list = []
    7. folder_name = ""
    8. first_column_name = "ppt"
    9. sprider_start_count=800 # 从第几个序号开始 直接改数量即可 会做除法操作正 正在采集第32页的第16个资源 debug
    10. max_pager=20 #每页的数量

    采集主体代码

    1. def sprider(self, second_column_name):
    2. """
    3. 采集Coder代码
    4. :return:
    5. """
    6. if second_column_name == "zhongguofeng":
    7. self.folder_name = "中国风"
    8. self.first_column_name="tag_ppt"
    9. elif second_column_name == "xiaoqingxin":
    10. self.folder_name = "小清新"
    11. self.first_column_name = "tag_ppt"
    12. elif second_column_name == "kejian":
    13. self.folder_name = "课件"
    14. self.first_column_name = "ppt"
    15. merchant = int(self.sprider_start_count) // int(self.max_pager) + 1
    16. second_folder_name = str(self.sprider_count) + "个" + self.folder_name
    17. self.save_path = self.save_path+ os.sep + "PPT" + os.sep + second_folder_name
    18. BaseFrame().debug("开始采集ChinaZPPT...")
    19. sprider_url = (self.base_url + "/" + self.first_column_name + "/" + second_column_name + ".html")
    20. response = requests.get(sprider_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))
    21. response.encoding = 'UTF-8'
    22. soup = BeautifulSoup(response.text, "html5lib")
    23. #print(soup)
    24. div_list = soup.find('div', attrs={"class": 'ppt-list'})
    25. div_list =div_list.find_all('div', attrs={"class": 'item'})
    26. #print(div_list)
    27. laster_pager_url = soup.find('a', attrs={"class": 'nextpage'})
    28. laster_pager_url = laster_pager_url.previous_sibling
    29. #89
    30. page_end_number = int(laster_pager_url.find('b').string)
    31. #print(page_end_number)
    32. self.page_count = merchant
    33. while self.page_count <= int(page_end_number): # 翻完停止
    34. try:
    35. if self.page_count == 1:
    36. self.sprider_detail(div_list,self.page_count,page_end_number)
    37. else:
    38. if self.haved_sprider_count == self.sprider_count:
    39. BaseFrame().debug("采集到达数量采集停止...")
    40. BaseFrame().debug("开始写文章...")
    41. self.builder_word(self.folder_name, self.save_path, self.word_content_list)
    42. BaseFrame().debug("文件编写完毕,请到对应的磁盘查看word文件和下载文件!")
    43. break
    44. #https://www.a5xiazai.com/android/youxi/qipaiyouxi/list_913_1.html
    45. #https://www.a5xiazai.com/android/youxi/qipaiyouxi/list_913_2.html
    46. #next_url = sprider_url + "/list_{0}_{1}.html".format(str(url_index), self.page_count)
    47. # (self.base_url + "/" + first_column_name + "/" + second_column_name + "/"+three_column_name+"")
    48. next_url =(self.base_url + "/" + self.first_column_name + "/" + second_column_name + "_{0}.html").format(self.page_count)
    49. # (self.base_url + "/" + self.first_column_name + "/" + second_column_name + "")+"/list_{0}_{1}.html".format(str(self.url_index), self.page_count)
    50. response = requests.get(next_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))
    51. response.encoding = 'UTF-8'
    52. soup = BeautifulSoup(response.text, "html5lib")
    53. div_list = soup.find('div', attrs={"class": 'ppt-list'})
    54. div_list = div_list.find_all('div', attrs={"class": 'item'})
    55. self.sprider_detail(div_list, self.page_count,page_end_number)
    56. pass
    57. except Exception as e:
    58. print("sprider()执行过程出现错误" + str(e))
    59. pass
    60. self.page_count = self.page_count + 1 # 页码增加1
    61. def sprider_detail(self, element_list, page_count,max_page):
    62. try:
    63. element_length = len(element_list)
    64. self.sprider_start_index = int(self.sprider_start_count) % int(self.max_pager)
    65. index = self.sprider_start_index
    66. while index < element_length:
    67. a=element_list[index]
    68. if self.haved_sprider_count == self.sprider_count:
    69. BaseFrame().debug("采集到达数量采集停止...")
    70. break
    71. index = index + 1
    72. sprider_info = "正在采集第" + str(page_count) + "页的第" + str(index) + "个资源"
    73. BaseFrame().debug(sprider_info)
    74. title_image_obj = a.find('img', attrs={"class": 'lazy'})
    75. url_A_obj=a.find('a', attrs={"class": 'name'})
    76. next_url = self.base_url+url_A_obj.get("href")
    77. coder_title = title_image_obj.get("alt")
    78. response = requests.get(next_url, timeout=10, headers=UserAgent().get_random_header(self.base_url))
    79. response.encoding = 'UTF-8'
    80. soup = BeautifulSoup(response.text, "html5lib")
    81. #print(next_url)
    82. down_load_file_div = soup.find('div', attrs={"class": 'download-url'})
    83. if down_load_file_div is None:
    84. BaseFrame().debug("需要花钱无法下载因此跳过哦....")
    85. continue
    86. down_load_file_url = down_load_file_div.find('a').get("href")
    87. #print(down_load_file_url)
    88. image_obj = soup.find('div', attrs={"class": "one-img-box"}).find('img')
    89. image_src = "https:"+ image_obj.get("data-original")
    90. #print(image_src)
    91. if (DownLoad(self.save_path).__down_load_file__(down_load_file_url, coder_title, self.folder_name)):
    92. DownLoad(self.save_path).down_cover_image__(image_src, coder_title) # 资源的 封面
    93. sprider_content = [coder_title,
    94. self.save_path + os.sep + "image" + os.sep + coder_title + ".jpg"] # 采集成功的记录
    95. self.word_content_list.append(sprider_content) # 增加到最终的数组
    96. self.haved_sprider_count = self.haved_sprider_count + 1
    97. BaseFrame().debug("已经采集完成第" + str(self.haved_sprider_count) + "个")
    98. if (int(page_count) == int(max_page)):
    99. self.builder_word(self.folder_name, self.save_path, self.word_content_list)
    100. BaseFrame().debug("文件编写完毕,请到对应的磁盘查看word文件和下载文件!")
    101. except Exception as e:
    102. print("sprider_detail:" + str(e))
    103. pass

     采集的文件名

    2017恩师教师节快乐ppt模板
    2020中国风元旦商务PPT模板
    2021中国风新年快乐PPT模板
    2021中国风春节PPT模板
    2021福牛贺新春PPT模板
    ppt动态中国风模板下载
    中国风ppt模板
    中国风PPT模板免费下载
    中国风ppt模板图片下载
    中国风七夕情人节活动策划PPT模板
    中国风中国年春节拜年PPT模板
    中国风中秋传统节日ppt模板
    中国风京剧戏曲文化ppt模板下载
    中国风传统中秋节ppt模板
    中国风传统感恩重阳节ppt模板
    中国风传统文化教育ppt模板
    中国风传统节日绿色清明节ppt模板
    中国风传统鼠年新春PPT模板
    中国风信仰ppt模板下载
    中国风儒雅文化清明节PPT模板
    中国风儒雅茶文化ppt模板
    中国风党政民法典婚姻家庭编详细解读PPT模板
    中国风古典青花瓷ppt模板
    中国风国企政府党政工作汇报PPT模板
    中国风国庆水墨背景ppt模板
    中国风大气简约素雅墨荷ppt模板
    中国风年会贺岁风喜庆PPT模板
    中国风建筑项目ppt模板下载
    中国风形象展示ppt模板下载
    中国风时尚商务ppt模板下载
    中国风春节PPT模板下载
    中国风水墨怀旧ppt模板
    中国风水墨淡雅商务汇报PPT模板
    中国风水墨清明节PPT模板
    中国风水墨素雅ppt模板下载
    中国风水墨背景儒雅教师节ppt模板
    中国风水墨莲花ppt模板下载
    中国风水墨项目策划ppt模板
    中国风清廉竹林ppt模板下载
    中国风特色建筑ppt模板
    中国风猪年新春联欢晚会通用PPT模板
    中国风祥云喜庆ppt模板
    中国风素雅工作总结报告PPT模板
    中国风红色新春晚会PPT模板
    中国风茶艺ppt模板
    中秋节传统习俗ppt模板
    中秋节传统节日ppt模板
    企业年会策划书PPT模板
    传统中国风水墨ppt模板
    传统文化弘扬ppt模板下载
    传统文化春节PPT模板
    公司年会策划方案PPT模板
    典雅中国风策划书ppt模板下载
    创意2018狗年ppt模板
    创意中国风中秋赏月ppt模板
    创意中国风剪纸狗年新春快乐ppt模板
    创意古典风淡雅中国风工作汇总PPT模板
    创意时尚中国风工作总结ppt模板
    动态励志公司年会ppt模板
    古典中国风ppt动态模板下载
    古典中国风ppt模板
    古典中国风艺术ppt模板
    古典腊梅素雅ppt模板
    可爱玉兔中秋ppt模板
    吉祥好运仙鹤ppt模板
    唯美中国风水彩画ppt模板下载
    唯美中国风霜降节气ppt模板
    团团圆圆中秋节ppt模板
    复古中国风韵味国庆节PPT模板
    大气中国风八一建军节91周年通用ppt模板
    大气中国风欢度国庆PPT模板
    大气古典中国风ppt模板
    大红灯笼年味中国风商务PPT模板
    山水风格党政党务PPT模板
    年终总结春节喜庆PPT模板
    弘扬优良家风党员学习党课ppt模板
    恭喜发财大红色中国风商务汇报PPT模板
    新年贺新春ppt模板
    时尚极简中国风ppt模板下载
    春节PPT模板主题下载
    极简中国风九九重阳节ppt模板
    水墨中国风ppt模板
    水墨中国风ppt模板免费下载
    水墨中国风大学生入党答辩ppt模板
    水墨中国风工作总结PPT模板
    水墨中国风总结ppt模板
    水墨中国风意境ppt模板
    水墨中国风清明节祭祖ppt模板
    水墨中国风韵味清明节PPT模板
    水墨中国风餐饮行业调查ppt模板
    水墨元素中国风通用ppt模板
    水墨风山清水秀PPT模板
    沉稳黑灰水墨中国风工作报告PPT模板
    淡雅韵味创意中国风ppt模板
    清新简约廉政党政中国风PPT模板
    清新简约竹子ppt模板
    清明节祭奠PPT模板
    灰色简约素雅古典中国风ppt模板
    竹中国风ppt模板下载
    简洁清新陶瓷ppt模板
    素色清明节古风ppt制作模板
    素雅中国风情怀中秋佳节ppt模板
    素雅中国风茶道文化展示ppt模板
    素雅古典中国风端午节ppt模板
    红色中国风党政总结工作汇报PPT模板
    红色中国风新春企业商业计划书PPT模板
    绿色中国风浓情端午节PPT模板
    茶韵中国风ppt模板下载
    黑色个性极简ppt模板

  • 相关阅读:
    2023年中国功效护肤品市场发展概况分析:行业市场成熟度高[图]
    Lock锁
    1.5-18:鸡尾酒疗法
    labview 写入文本到word报表(标签方法)
    关于数据库优化你知道多少?
    springboot毕设项目大学生兼职平台系统的设计与实现376g2(java+VUE+Mybatis+Maven+Mysql)
    InnoDB多版本并发控制MVCC
    AP2400 DC-DC降压恒流驱动器 汽车摩托LED大灯电源驱动 全亮半亮瀑闪三功能循环
    使用UICollectionView制作轮播图(一)
    SpringMVC概述及入门案例
  • 原文地址:https://blog.csdn.net/zy0412326/article/details/128134458