• 简单的Python爬虫实例


    下面是一个简单的Python爬虫实例,用于抓取一个网页的标题。我们将使用requests库来发送HTTP请求,使用BeautifulSoup库来解析HTML。

    首先,你需要安装这两个库。如果你还没有安装,可以使用以下命令:

    1. pip install requests
    2. pip install beautifulsoup4

    接下来是一个简单的爬虫代码示例:

    1. import requests
    2. from bs4 import BeautifulSoup
    3. # 目标网页URL
    4. url = 'http://example.com'
    5. # 发送HTTP GET请求
    6. response = requests.get(url)
    7. # 检查请求是否成功
    8. if response.status_code == 200:
    9. # 解析HTML内容
    10. soup = BeautifulSoup(response.text, 'html.parser')
    11. # 查找并打印网页的标题
    12. title = soup.find('title').text
    13. print(f'网页标题是: {title}')
    14. else:
    15. print(f'请求失败,状态码: {response.status_code}')

    代码解释

    ‌导入库‌:

    import requests

    from bs4 import BeautifulSoup

    ‌定义目标网页的URL‌:

    url = 'http://example.com'

    ‌发送HTTP GET请求‌:

    response = requests.get(url)

    ‌检查请求是否成功‌:

    if response.status_code == 200:

    这里我们检查返回的状态码是否为200,表示请求成功。

    ‌解析HTML内容‌:

    soup = BeautifulSoup(response.text, 'html.parser')

    使用BeautifulSoup解析获取的HTML内容。

    ‌查找并打印网页的标题‌:

    title = soup.find('title').text

    print(f'网页标题是: {title}')

    查找HTML中的标签,并打印其文本内容。</p> <p id="u3e10bb88">‌处理请求失败的情况‌:</p> <p id="u1727b77f">else:</p> <p id="ue7a16db8">print(f'请求失败,状态码: {response.status_code}')</p> <p id="uce540b01"></p> <p id="uc978f12e">注意事项</p> <p id="u78c248e1">‌爬取频率‌:请不要频繁地爬取同一个网站,以免给网站服务器带来负担。遵守网站的robots.txt规则(通常位于<a href="http://example.com/robots.txt" rel="nofollow" title="http://example.com/robots.txt">http://example.com/robots.txt</a>),了解允许爬取的内容和频率。</p> <p id="u999d597a">‌法律与道德‌:确保你的爬虫行为符合法律法规和网站的条款与条件。不要爬取敏感信息或侵犯他人隐私。</p> <p id="u9cadf956">‌错误处理‌:在实际应用中,添加更多的错误处理机制,例如处理网络异常、超时等。</p> <p id="uc6797f10">希望这个简单的示例能帮助你入门Python爬虫开发!</p> </div> </div> </li> <li class="list-group-item ul-li"> <b>相关阅读:</b><br> <nobr> <a href="/Article/Index/1457375">sql生成两个时间区间的所有日期</a> <br /> <a href="/Article/Index/664245">Hudi vs Delta vs Iceberg</a> <br /> <a href="/Article/Index/1725805">Ceph入门到精通-高功性能文件系统hpfs</a> <br /> <a href="/Article/Index/649616">分布式机器学习:同步并行SGD算法的实现与复杂度分析</a> <br /> <a href="/Article/Index/778646">SAP CRM Fiori 应用 My Opportunity 的分页读取逻辑,在 GM4 - AG3 无法正常工作</a> <br /> <a href="/Article/Index/1042516">FFmpeg入门详解之121:颜色空间转换RGB和YUV的原理与实战</a> <br /> <a href="/Article/Index/867005">本身您无功而有过,如何天赐百福?</a> <br /> <a href="/Article/Index/744000">MySQL高级学习笔记</a> <br /> <a href="/Article/Index/1040086">【uvm function coverage】What is Coverage Metrics?</a> <br /> <a href="/Article/Index/1010571">Spring注解-3.自动装配</a> <br /> </nobr> </li> <li class="list-group-item from-a mb-2"> 原文地址:https://blog.csdn.net/qq_25699299/article/details/143286733 </li> </ul> </div> <div class="col-lg-4 col-sm-12"> <ul class="list-group" style="word-break:break-all;"> <li class="list-group-item ul-li-bg" aria-current="true"> 最新文章 </li> <li class="list-group-item ul-li"> <nobr> <a href="/Article/Index/1484446">攻防演习之三天拿下官网站群</a> <br /> <a href="/Article/Index/1515268">数据安全治理学习——前期安全规划和安全管理体系建设</a> <br /> <a href="/Article/Index/1759065">企业安全 | 企业内一次钓鱼演练准备过程</a> <br /> <a href="/Article/Index/1485036">内网渗透测试 | Kerberos协议及其部分攻击手法</a> <br /> <a href="/Article/Index/1877332">0day的产生 | 不懂代码的"代码审计"</a> <br /> <a href="/Article/Index/1887576">安装scrcpy-client模块av模块异常,环境问题解决方案</a> <br /> <a href="/Article/Index/1887578">leetcode hot100【LeetCode 279. 完全平方数】java实现</a> <br /> <a href="/Article/Index/1887512">OpenWrt下安装Mosquitto</a> <br /> <a href="/Article/Index/1887520">AnatoMask论文汇总</a> <br /> <a href="/Article/Index/1887496">【AI日记】24.11.01 LangChain、openai api和github copilot</a> <br /> </nobr> </li> </ul> <ul class="list-group pt-2" style="word-break:break-all;"> <li class="list-group-item ul-li-bg" aria-current="true"> 热门文章 </li> <li class="list-group-item ul-li"> <nobr> <a href="/Article/Index/888177">十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!</a> <br /> <a href="/Article/Index/797680">奉劝各位学弟学妹们,该打造你的技术影响力了!</a> <br /> <a href="/Article/Index/888183">五年了,我在 CSDN 的两个一百万。</a> <br /> <a href="/Article/Index/888179">Java俄罗斯方块,老程序员花了一个周末,连接中学年代!</a> <br /> <a href="/Article/Index/797730">面试官都震惊,你这网络基础可以啊!</a> <br /> <a href="/Article/Index/797725">你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法</a> <br /> <a href="/Article/Index/797702">心情不好的时候,用 Python 画棵樱花树送给自己吧</a> <br /> <a href="/Article/Index/797709">通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!</a> <br /> <a href="/Article/Index/797716">13 万字 C 语言从入门到精通保姆级教程2021 年版</a> <br /> <a href="/Article/Index/888192">10行代码集2000张美女图,Python爬虫120例,再上征途</a> <br /> </nobr> </li> </ul> </div> </div> </div> <!-- 主体 --> <!--body结束--> <!--这里是footer模板--> <!--footer--> <nav class="navbar navbar-inverse navbar-fixed-bottom"> <div class="container"> <div class="row"> <div class="col-md-12"> <div class="text-muted center foot-height"> Copyright © 2022 侵权请联系<a href="mailto:2656653265@qq.com">2656653265@qq.com</a>    <a href="https://beian.miit.gov.cn/" target="_blank">京ICP备2022015340号-1</a> </div> <div style="width:300px;margin:0 auto; padding:0px 5px;"> <a href="/regex.html">正则表达式工具</a> <a href="/cron.html">cron表达式工具</a> <a href="/pwdcreator.html">密码生成工具</a> </div> <div style="width:300px;margin:0 auto; padding:5px 0;"> <a target="_blank" href="http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=11010502049817" style="display:inline-block;text-decoration:none;height:20px;line-height:20px;"> <img src="" style="float:left;" /><p style="float:left;height:20px;line-height:20px;margin: 0px 0px 0px 5px; color:#939393;">京公网安备 11010502049817号</p></a> </div> </div> </div> </div> </nav> <!--footer--> <!--footer模板结束--> <script src="/js/plugins/jquery/jquery.js"></script> <script src="/js/bootstrap.min.js"></script> <!--这里是scripts模板--> <!--scripts模板结束--> </body> </html>