• ChatGPT重磅升级:可以看图、听声音、说话啦!


    美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。

    早在今年3月OpenAI发布GPT-4模型时,就展示过看图的功能,但由于安全、功能不完善等原因一直没有开放。现在不仅开放了看图,连识别声音也来了,这是OpenAI实现AGI(通用人工智能)战略重要技术环节。

    OpenAI表示,在接下来的两周内,向Plus和企业版用户提供看、听、说功能。语音功能将在 iOS 和 Android上使用,图片识别全平台可以使用。

    在这里插入图片描述

    用语音与ChatGPT交流

    ChatGPT新的语音功能由一个文本到语音模型提供支持,能够仅通过文字和几秒钟的样本语音生成类似人类的音频。

    OpenAI与专业的配音演员合作,创建了5种合成语音,同时使用了自研开源语音识别系统 Whisper,将用户的语音转录成文本。

    简单来说,以后用户想将文本直接生成语音,可以在ChatGPT中完成了。

    文本直接生成语音,可以在ChatGPT中完成了。

    例如,让ChatGPT听一段小猫咪的文本故事,然后选择人类语音便可以一键完成转录。完成后,用户可以下载这段语音。

    在这里插入图片描述

    可以向ChatGPT提问图片
    用户可以向ChatGPT展示一张或多张图片,提问相关的问题。例如,发送一张坏掉的烧烤炉图片,然后询问无法启动原因;拍摄一张冰箱中的食材,询问多种菜品制作方案。

    可以通过移动端的绘图功能将其框起来进行发问

    如果用户只想询问图片中的部分内容,可以通过移动端的绘图功能将其框起来进行发问。
    ChatGPT的图片理解功能由 GPT-3.5 和GPT-4 提供技术支持,可理解的图片类型包括照片、屏幕截图或包含文本的图片等。
    提供安全的AI服务
    OpenAI表示,其目标是构建既安全又有益的AGI(通用人工智能)。所以,ChatGPT的功能正在逐步推出。这样做的好处是,可以让OpenAI有时间进行改进,逐步完善安全漏洞、风险。
    特别是新的语音技术,可以在几秒内就能生成真实的合成声音,这可能会为诈骗者提供了便利条件,所以,这种安全的研发策略对于涉及语音和视觉的高级模型非常重要。
    目前,Spotify已经使用ChatGPT的语音功能,开发一款语音翻译助手,可以将博主的声音自动翻译成其他语言,扩大用户群体。而Be My Eyes将ChatGPT的看图功能,植入在应用中,为盲人和弱视群体提供服务。
    本文素材来源OpenAI官网,如有侵权请联系删除

  • 相关阅读:
    Unity3D学习笔记12——渲染纹理
    用 Python 写的摸鱼监控进程,千万别让老板知道
    计算机毕业设计Java学科竞赛管理系统(源码+系统+mysql数据库+Lw文档)
    小程序注册安装以及新手快速入门教程
    【高级语法篇】Java必备基础(思维导图+代码)
    Kubernetes弃用Docker,我们该怎么办?
    order模块给User模块发送http请求
    err = nil,但是被判断为false
    [概述] 获取点云数据的仪器
    Java线程池ThreadPoolExecutor详解(一篇就够了)
  • 原文地址:https://blog.csdn.net/weixin_57291105/article/details/133313733