• 【Python爬虫】过来人告诉你:为什么找工作抓住这个细节,能少踩很多坑哦~(招聘网站实战)


    前言

    最近发现一些朋友想要跳槽,疫情三年还没结束,也不知道现在市场的如何,同时目前的IT行

    业更是越来越难,技术革新越来越快,对新的岗位的需求也是不断的变化,因此就会想知道现在

    的应聘岗位对面试者的要求有哪些,各地的某个岗位薪资范围大概是多少等信息时候,我们就

    需要到某个招聘网站上不断的刷页面,看数据。

    所有文章完整的素材+源码都在👇👇

    粉丝白嫖源码福利,请移步至CSDN社区或文末公众hao即可免费。

    但是简单的想一下,可以通过Python来批量的分析招聘网站上各个岗位在不同城市的需

    求,高效的快捷的方便我们掌握大致的方向。所以今天小编带大家来分析一下好的岗位又那些

    叭~希望大家都能找到高薪满意的工作啦👇好啦我们开始叭~

    正文

    一、运行环境

    1)运行环境

    Python 3 、Pycharm、requests (爬虫当中 发送网络请求) 内置模块 你安装

    好python环境就可以了。(win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安

    装速度比较慢, 你可以切换国内镜像源))

     第三方库的安装:pip install + 模块名 或者 带镜像源 pip install -i https://pypi.douban.com/simple/ +模块名 

    2)模块安装问题: 

    如果安装python第三方模块:

     1. win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车 

     2. 在pycharm中点击Terminal(终端) 输入安装命令 。

    安装失败原因: 

    失败一: pip 不是内部命令 解决方法: 设置环境变量 。

    失败二: 出现大量报红 (read time out) 解决方法: 因为是网络链接超时, 需要切换镜像源 。

     清华:https://pypi.tuna.tsinghua.edu.cn/simple 

     阿里云:https://mirrors.aliyun.com/pypi/simple/ 

     中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 

     华中理工大学:https://pypi.hustunique.com/

     山东理工大学:https://pypi.sdutlinux.org/ 

     豆瓣:https://pypi.douban.com/simple/ 例如:pip3 install -i 

    https://pypi.doubanio.com/simple/ 模块名 - 

    失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入 解决

    方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好 或者

    你pycharm里面python解释器没有设置好。

    3)如何配置pycharm里面的python解释器? 

     1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解

    释器) 2. 点击齿轮, 选择add 3. 添加python安装路径。

    4)pycharm如何安装插件? 

     1. 选择file(文件) >>> setting(设置) >>> Plugins(插件) 2. 点击 Marketplace 输入想要安装

    的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese 3. 选择相应的插件点击 

    install(安装) 即可 4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效。

    二、代码展示

    1. """
    2. # 导入数据请求模块
    3. import requests
    4. # 导入正则
    5. import re
    6. # 导入json
    7. import json
    8. # 导入格式化输出模块
    9. from pprint import pprint
    10. # 导入csv模块
    11. import csv
    12. # 导入时间模块
    13. import time
    14. # 创建文件
    15. f = open('python多页.csv', mode='a', encoding='utf-8', newline='')
    16. csv_writer = csv.DictWriter(f, fieldnames=[
    17. '职位名',
    18. '公司名',
    19. '城市',
    20. '区域',
    21. '薪资',
    22. '经验',
    23. '学历',
    24. '公司规模',
    25. '公司领域',
    26. '详情页',
    27. ])
    28. # 写入表头
    29. csv_writer.writeheader()
    30. """
    31. 1. 发送请求, 模拟浏览器对于url地址发送请求
    32. - 需要请求工具 ---> requests
    33. - 老师, 我英语不好, 可以学习编程吗? 可以学习python吗?
    34. 单词不需要死记硬背, python常用关键单词词汇 135+左右
    35. python常用单词词汇文本
    36. pycharm 翻译插件 ---> 自己去安装
    37. - 模拟浏览器
    38. 爬虫模拟浏览器, 都是用请求头... headers
    39. - 如果你是VIP学员, 远程安装 解答辅导 都是可以
    40. """
    41. for page in range(1, 11):
    42. try:
    43. # 确定url地址
    44. time.sleep(1)
    45. url = f'https://www.lagou.com/wn/jobs?pn={page}&fromSearch=true&kd=python'
    46. # 模拟浏览器
    47. headers = {
    48. # cookie 用户信息, 常用于检测是否登陆账号
    49. # User-Agent 用户代理, 表示浏览器基本身份标识
    50. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    51. }
    52. # 发送请求 ---> 响应对象 200 状态码 表示请求成功
    53. response = requests.get(url=url, headers=headers)
    54. # 2. 获取数据 print(response.text)
    55. """
    56. 3. 解析数据 ---> re正则表达式 会用 1 不会用 0
    57. 简单的使用re ----> 详细re教学 在系统课程教授2.5个小时左右...
    58. re.findall('什据么数', 什么地方) re模块findall方法
    59. 从 什么地方 去找什么数据
    60. 说字典的同学, 说明你自学, 基础学的不怎么扎实...
    61. """
    62. html_data = re.findall('