• Python实战:获取bing必应壁纸首页的每日一图(仅做学习用)


    在这里插入图片描述

    需求

    老板:微软必应https://cn.bing.com/ 首页的每日一图看着不错,能不能自动获取

    我:我试试

    网站分析

    我们查看网页元素,不难发现背景图就在类名为.img_cont 的标签下
    在这里插入图片描述
    可是搜索源代码 view-source:https://cn.bing.com/

    <div class="img_cont" style="background-image: url(https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg); opacity: 1;">
    
    • 1

    发现style属性中的数据不能直接获取,需要使用到正则提取url

    换个方法,试试搜索图片地址:

    https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg

    发现有三个地方
    在这里插入图片描述
    第一处是在header中

    <link rel="preload" href="https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&qlt=50" as="image" id="preloadBg" />
    
    • 1

    第二处在类名为img_cont 的标签中

    <div class="img_cont" style="background-image: url(https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg); opacity: 1;">
    
    • 1

    第三处在js代码中

    "Image":{"Url":"https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg\u0026rf=LaDigue_1920x1080.jpg",
    
    • 1

    代码实现

    通过以上分析,我们可以发现,通过id="preloadBg"的元素获取比较方便

    此处需要加一个请求头,避免获取不到正常的网页源代码

    安装依赖

    $ python --version
    Python 3.6.5
    
    $ pip install parsel requests
    
    • 1
    • 2
    • 3
    • 4

    代码示例

    # -*- coding: utf-8 -*-
    """
    @File    : demo.py
    @Date    : 2022-10-26
    @Author  : Peng Shiyu
    """
    
    import parsel
    import requests
    
    
    def get_bing_image():
        url = 'https://cn.bing.com'
    
        headers = {
            'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
        }
    
        res = requests.get(url, headers=headers)
        res.encoding = res.apparent_encoding
    
        sel = parsel.Selector(res.text, base_url=url)
    
        return sel.css('#preloadBg::attr(href)').extract_first()
    
    
    if __name__ == '__main__':
        image_url = get_bing_image()
        print(image_url)
    #     https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&qlt=50
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31

    进一步

    我们发现,图片还有一些介绍信息,我们看看能不能拿到

    在这里插入图片描述
    再次查看源码,我们可以发现,网页中有一个js的变量,包含了页面中壁纸的信息

    // 截取部分代码
    var _model ={"Headline":"山上的幽灵","Title":"巴尔干中央国家公园的布罗肯现象,保加利亚"}
    
    • 1
    • 2

    我们可以通过re正则表达式解析这个json字符串,获取更多的数据

    # -*- coding: utf-8 -*-
    """
    @File    : demo.py
    @Date    : 2022-10-26
    @Author  : Peng Shiyu
    """
    import json
    import re
    
    import requests
    
    
    def get_bing_image():
        url = 'https://cn.bing.com'
    
        headers = {
            'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
        }
    
        res = requests.get(url, headers=headers)
        res.encoding = res.apparent_encoding
    
        ret = re.search("var _model =(\{.*?\});", res.text)
        if not ret:
            return
    
        data = json.loads(ret.group(1))
        image_content = data['MediaContents'][0]['ImageContent']
    
        return {
            'headline': image_content['Headline'],
            'title': image_content['Title'],
            'description': image_content['Description'],
            'image_url': image_content['Image']['Url'],
            'main_text': image_content['QuickFact']['MainText']
        }
    
    
    if __name__ == '__main__':
        res = get_bing_image()
        print(json.dumps(res, ensure_ascii=False, indent=2))
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42

    输出

    {
      "headline": "山上的幽灵",
      "title": "巴尔干中央国家公园的布罗肯现象,保加利亚",
      "description": "万圣节快到了,今天的照片也非常应景,展示了一只“幽灵”,也就是布罗肯现象。尽管看着灵异,但布罗肯现象并非超自然现象。这是一位观察者被投射在阳光对面云层上的阴影。布罗肯现象很少见,但如果你在黎明时分爬上薄雾弥漫的山坡,则有可能幸运地目睹这种现象。只要满足条件,布罗肯现象可以出现在任何地方。在德国哈尔茨山脉的布罗肯峰,当地传说浓雾弥漫的山间有幽灵出没。1780年,约翰·西尔伯施拉格在此观察到了“幽灵”,对其进行了描述记录,并将其命名为“布罗肯现象”。此后,布罗肯现象便常常被记录在有关该地区的文献之中。",
      "image_url": "https://s.cn.bing.net/th?id=OHR.BrockenSpecter_ZH-CN5278743909_1920x1080.jpg&rf=LaDigue_1920x1080.jpg",
      "main_text": "布罗肯现象出现在日出与日落时的高山上,当前面弥漫着雾气时,太阳光将人的背影衍射在雾气上,浮现出彩虹轮廓。"
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    通过接口获取

    当然,我们也不必那么麻烦,bing已经贴心的给大家提供了一个接口,可以直接使用。

    只不过接口中返回的介绍性文字没有直接从页面上获取的多。

    接口地址:

    https://cn.bing.com/HPImageArchive.aspx?format=js&idx=0&n=1&mkt=zh-CN
    
    • 1

    参数

    参数含义
    format返回数据形式 js - json xml - xml
    idx截止天数 0-今天 -1 - 截止至明天 1 截止至昨天
    n返回数量
    mkt地区 zh-CN - 国区

    接口来源 Python - 定时自动获取 Bing 首页壁纸

    返回数据

    {
    	"images": [
    		{
    			"startdate": "20221027",
    			"fullstartdate": "202210271600",
    			"enddate": "20221028",
    			"url": "/th?id=OHR.FrankensteinFriday_ZH-CN5814917673_1920x1080.jpg&rf=LaDigue_1920x1080.jpg&pid=hp",
    			"urlbase": "/th?id=OHR.FrankensteinFriday_ZH-CN5814917673",
    			"copyright": "洛桑日内瓦湖上空的暴风雨,瑞典 (© Suradech Singhanat/Shutterstock)",
    			"copyrightlink": "https://www.bing.com/search?q=%E6%97%A5%E5%86%85%E7%93%A6%E6%B9%96&form=hpcapt&mkt=zh-cn",
    			"title": "一个黑暗的暴风雨之夜",
    			"quiz": "/search?q=Bing+homepage+quiz&filters=WQOskey:%22HPQuiz_20221027_FrankensteinFriday%22&FORM=HPQUIZ",
    			"wp": true,
    			"hsh": "426b0dd10360d364a0fcab233d04a9e3",
    			"drk": 1,
    			"top": 1,
    			"bot": 1,
    			"hs": []
    		}
    	],
    	"tooltips": {
    		"loading": "正在加载...",
    		"previous": "上一个图像",
    		"next": "下一个图像",
    		"walle": "此图片不能下载用作壁纸。",
    		"walls": "下载今日美图。仅限用作桌面壁纸。"
    	}
    }
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29

    定时获取

    我们没有服务器,没有数据库的情况下,怎么才能获取每日最新的图呢?总不能每天自己手动执行吧,肯定不行。

    于是。我们可以利用Github Actions 每天执行定时任务,每天定时自动获取数据

    数据获取项目地址:https://github.com/mouday/wallpaper-database

    在这里插入图片描述

    页面展示

    不能每次都查看数据,我们需要一个直观的显示地址,所以可以用Vue.js制作一个简单的预览地址,将我们获取的数据展示到浏览器。

    数据展示项目地址:https://github.com/mouday/wallpaper

    预览地址(仅供学习使用):https://mouday.github.io/wallpaper/

    在这里插入图片描述

    其他参考资源

    有小伙伴已经做了必应壁纸图片网站

    https://bing.ioliu.cn/

    https://www.todaybing.com/

    https://www.bingimg.cn/

  • 相关阅读:
    TensorFlow 2.10.0 已发布
    每日一题 1333. 餐厅过滤器(中等)
    STL容器之list
    分类预测 | MATLAB实现基于Isomap降维算法与改进蜜獾算法IHBA的Adaboost-SVM集成多输入分类预测
    初始C语言-1(数据类型、变量、常量、变量的作用域和生命周期、字符串+转义字符+注释)
    metaRTC5.0实现webrtc的TURN支持
    考研失败, 学点Java打小工——Day3
    java计算机毕业设计高铁在线购票系统MyBatis+系统+LW文档+源码+调试部署
    “Windows找不到文件‘chrome‘”问题处理办法
    使用git命令修改分支名称
  • 原文地址:https://blog.csdn.net/mouday/article/details/127526950