• 爬虫练习(一)


    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


    提示:以下是本篇文章正文内容,下面案例可供参考

    一、环境准备示例

    Python安装
    requests库抓取网站数据
    Beautiful Soup 解析网页

    二、网页结构

    网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。
    HTML常用标签

    <html>..</html> 表示标记中间的元素是网页
    <body>..</body> 表示用户可见的内容
    <div>..</div> 表示框架
    <p>..</p> 表示段落
    <li>..</li>表示列表
    <img>..</img>表示图片
    <h1>..</h1>表示标题
    <a href="">..</a>表示超链接
    

    CSS 表示样式<style type="text/css">定义了外观。
    JScript 表示功能。交互的内容和各种特效都在 JScript 中,JScript 描述了网站中的各种功能。
    一个基础的HTML

    <html>
    <head>
        <title> title1</title>
    </head>
    <body>
        <div>
            <p>title2</p>
        </div>
        <div>
            <ul>
                <li><a href="网址">爬虫</a></li>
                <li>数据清洗</li>
            </ul>
        </div>
    </body>
    

    三.爬虫的合法性

    每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取的数据。

    User-Agent:*
    Disallow:/
    

    四.基本原理

    1 获取网页:利用requests等库获取网页的源代码,提取想要的信息。
    2. 提取信息: Beautiful Soup pyquery lxml等,使用这些库,可以高效快速地从中提取网页信息,如节点的属性 文本值等, 提取信息是爬虫非常重要的部分,它可以使杂乱的数据变得条理清晰 ,以便我们后续处理和分析数据。
    3. 保存数据:这里保存形式有多种多样,如可以简单保存为 txt 文本或 JSON 文本,也可以保存到数据库,如 MySQL, MongoDB, REDIS,也可保存至远程服务器。
    4. 自动化程序:爬虫就是代替我们来成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作 ,确保爬取持续高效地运行。

    能爬取怎样的数据

    各种二进制数据,如图片 、视频和音频等对应各自的 URL 是基于 HTTP或HTTPS协议的数据爬虫都可以抓取。
    (使用JavaScript 渲染的页面特殊处理)

    网页请求

    网页请求的过程分为两个环节:
    GET:最常见的方式,一般用于获取或者查询资源信息,也是大多数网站使用的方式,响应速度快。
    POST:相比 GET 方式,多了以表单形式上传参数的功能,因此除查询信息外,还可以修改信息。
    在写爬虫前要先确定向谁发送请求,用什么方式发送。

  • 相关阅读:
    解决方案中word中分节符的使用
    Python接口自动化封装导出excel方法和读写excel数据
    创建第一个Vue3项目时遇到的报错及处理
    活动图高阶讲解-03
    pytest(6)-Fixture(固件)
    VSCode怎么创建Java项目
    小蓝的钥匙(蓝桥杯错排)
    链表OJ练习(2)
    让iPhone用电脑的网络上网
    神经网络的发展
  • 原文地址:https://blog.csdn.net/weixin_62115589/article/details/127042742