• 万万没想到,我用文心一言开发了一个儿童小玩具


    最近关注到一年一度的百度世界大会今年将于10月17日在北京首钢园举办,本期大会的主题是“生成未来(PROMPT THE WORLD)”。会上,李彦宏会做主题为「手把手教你做AI原生应用」的演讲,比较期待 Robin 会怎么展示。据说,大会当天百度还会发布文心4.0版本,估计要炸一波街。

    在这里插入图片描述

    作为一名对人工智能技术深感兴趣的开发者,我相信这次大会将带来各种新颖的想法和独特的观点,激发参会者们探索AI技术更广阔应用场景的热情。也很期待从李彦宏和其他嘉宾的分享中汲取灵感并拓宽视野,进一步认识到AI技术带给我们的巨大机遇。

    想法由来

    文心大模型覆盖了很多AI应用场景,有NLP大模型、CV大模型、跨模态大模型等等。今年3月,百度发布了大模型服务平台文心千帆,纳入管理包括文心大模型在内的国内外主流大模型,对于除文心大模型之外的第三方大模型,千帆平台不只是简单的接入,还提供中文增强、性能增强、上下文增强等能力。比如,原来要用英文对话效果才好的 Llama2 等国外大模型,现在用中文也一样好。

    看到文心提供的强大功能,感觉不做点什么都觉得对不起它。想到最近工作比较忙,没时间陪伴自己的女儿,她现在正是需要益智小游戏的年龄段,于是就有了开发一款适用于婴幼儿的【看图语音识别】小游戏的创意。

    实现流程构想

    • 程序弹出小动物的图片;
    • 孩子发出“小动物名字”的语音;
    • 程序识别语音并告知孩子是否回答正确;
    • 正确则切换下一张图片,错误则告知孩子请重新作答;

    小游戏应用实现流程

    准备工作:SDK安装及使用流程

    (1)安装SDK

    pip install qianfan
    
    • 1

    这里需要注意:目前支持 Python >= 3.7版本。且调用SDK前,需确保已完成SDK安装。

    (2)调用SDK(具体操作步骤)

    • 步骤一,在百度千帆大模型平台创建应用,获取应用API Key(AK) 和 Secret Key(SK)。
    • 步骤二,初始化AK 和 SK。
    • 步骤三,调用SDK。

    第一步,随机展示动物图片

    我们先搜集几张不同的动物图片,然后用动物的名字来命名,将它们放在程序的固定路径下。

    from PIL import Image
    import os
    import random
    
    # 指定图片文件夹路径
    img_folder = "path/to/image/folder"
    
    # 获取图片列表
    img_list = os.listdir(img_folder)
    
    # 从列表中随机选择一张图片
    img_name = random.choice(img_list)
    
    # 打开并显示选中的图片
    img_path = os.path.join(img_folder, img_name)
    img = Image.open(img_path)
    img.show()
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17

    在这里插入图片描述

    第二步,完成图像识别

    首先通过应用的API_KEY和SECRET_KEY 获取应用的 access_token。

    def get_access_token():
        # 使用 AK,SK 生成鉴权签名(Access Token)
        # return: access_token,或是None(如果错误)
        url = "https://aip.baidubce.com/oauth/2.0/token"
        params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}
        return str(requests.post(url, params=params).json().get("access_token"))
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6

    然后根据图片获取到对应的base64编码:

    def get_file_content_as_base64(path, urlencoded=False):
       
        # 获取文件base64编码
        # :param path: 文件路径
        # :param urlencoded: 是否对结果进行urlencoded
        # :return: base64编码信息
      
        with open(path, "rb") as f:
            content = base64.b64encode(f.read()).decode("utf8")
            if urlencoded:
                content = urllib.parse.quote_plus(content)
        return content
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    最后调用图片识别接口,获取图片识别的动物名称

    def get_result():
    
       url = "https://aip.baidubce.com/rest/2.0/image-classify/v1/animal?access_token=" + get_access_token()
    
       # 获取图片的base64编码
       payload= get_file_content_as_base64("C://path//to//image//folder//斑马.jpg",True)
       headers = {
           'Content-Type': 'application/x-www-form-urlencoded',
           'Accept': 'application/json'
       }
    
       response = requests.request("POST", url, headers=headers, data=payload)
    
       print(response.text)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14

    打印结果如下,返回结果对应不同score,我们取score最高的作为返回结果即“斑马”。

    {
        "result": [
            {
                "score": "0.948385",
                "name": "斑马"
            },
            {
                "score": "0.0410539",
                "name": "平原斑马"
            },
            {
                "score": "0.00519192",
                "name": "细纹斑马"
            },
            {
                "score": "0.000554136",
                "name": "斑马驴"
            },
            {
                "score": "0.000273289",
                "name": "斑驴"
            },
            {
                "score": "0.000155838",
                "name": "孟加拉虎"
            }
        ],
        "log_id": "1710925525288202877"
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29

    第三步,识别小朋友的语音

    在这里插入图片描述
    在孩子看到图片之后用语音的方式说出动物的名字,此时我们需要将孩子的语音文件进行 base64 转码处理。

    def get_file_content_as_base64(path, urlencoded=False):
        
        # 获取文件base64编码
        # :param path: 文件路径
        # :param urlencoded: 是否对结果进行urlencoded
        # :return: base64编码信息
       
        with open(path, "rb") as f:
            content = base64.b64encode(f.read()).decode("utf8")
            if urlencoded:
                content = urllib.parse.quote_plus(content)
        return content
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    然后需要将该语音文件转化为文本:

    def get_text():
        url = "https://vop.baidu.com/server_api"
        speech = get_file_content_as_base64("C://path//to//image//folder//banma.m4a",False)
        payload = json.dumps({
            "format": "pcm",
            "rate": 16000,
            "channel": 1,
            "cuid": "0kGgQCWS6F1A7lYR5sBQCVT3Id4TsEY4",
            "token": get_access_token(),
            "speech": speech,
            "len": 36414
        })
        headers = {
            'Content-Type': 'application/json',
            'Accept': 'application/json'
        }
        response = requests.request("POST", url, headers=headers, data=payload)
        print(response.text)
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18

    打印结果如下,我们根据返回的结果将 result 中的数据取出来,即“斑马”。

    {
        "corpus_no": "7287496064443398818",
        "err_msg": "success.",
        "err_no": 0,
        "result": [
            "斑马"
        ],
        "sn": "928281938221696752399"
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    最后就需要我们把“通过图像识别出来的文字”和“通过语音识别出来的文字”进行比对,如果一致就切换下一张图片,不一致则告知孩子请重新作答。

    到这儿,我的创意就全部实现了,虽然只是简单的软件层面的实现,但是我希望以后儿童玩具厂商可以把它来最终落地,毕竟这种AI原生应用小玩具肯定会广受儿童喜欢的。它到底是“斑马”还是“马”呢?让程序告诉小朋友吧。

    最后多啰嗦几句,很期待在百度世界大会上看到更多的AI原生应用,包括智能家居、智能医疗、智能零售、智能交通等领域的创新应用。这些应用将有望在未来实现更好的人机交互、智能化的自动化流程、个性化的服务和体验,推动产业升级和社会进步。同时,我们也期待看到更多企业和开发者加入到AI原生应用的创新行列中,共同推动人工智能技术向前发展。

  • 相关阅读:
    RK平台ADB不识别问题排查
    基础语法——组合与继承
    安全关闭Tcp连接
    深入分析四层/七层网关
    【SSM】初识Spring & 存取Bean对象
    【应用】OPC 通讯协议
    Google 开源库Guava详解
    2023年【G1工业锅炉司炉】考试题及G1工业锅炉司炉模拟考试
    【点云数据集介绍】
    Ctfshow web入门 phpCVE篇 web311-web315 详细题解 全
  • 原文地址:https://blog.csdn.net/Qingai521/article/details/133736563