• chatgpt图片识别、生成图片、语音对话多模态深度试玩


    1. 大模型替代人的工作的能力,越来越明显了。最近chatgpt支持多模态了,看这大佬们玩的不易乐乎,手痒也想试一试,因此有给openai上供了20刀。
    1. 另外我是gpt的拥护者,但是周围的同事有对此担忧,因为他们长期积累的技能可能一下子没了门槛。
    2. 在工作中我已经充分使用了这些工具,此时我仿佛拥有了一个小团队,我提出思路和方案,苦活累活、无意义的重复劳动交给gpt。这样我可以有更多的学习最新的研究、更重要的技能。

    1 图生图

    1.1 操作方式

    打开new bing,切换创意模式,上传图片,输入提示词“根据图片内容生成图画”,如果你想告诉他用什么风格,可以在提示词追加,用中国风或者皮克斯风格。
    image.png

    1.2 观看效果

    我把娃娃的手绘上传到new bing(接入的是dalle-3模型),让它根据图片内容生成图片,下面看效果。
    第一张美人鱼
    b99843d77aa74ad627b8f32630d2bc9.jpgimage.png
    第二张海底世界(美人鱼、章鱼、鱼)
    ad15e8a93fc86f9ad62bef6edb174d3.jpgimage.png
    第三张长城
    由于我图片倒置了,生成了很有创意的机械龙
    a65882b46c55738265043db41b26ee2.jpgimage.png
    第四张画的葫芦,求子和平安
    识别成鱼了,有点意外。
    fe49e53d3501c8b68311db0a5918c3a.jpgimage.png

    2 提示词生图

    我们采用chatgpt4 DALLE-3

    2.1 操作方式

    前提是需要chatgpt4账号,选择dall-e3,然后输入提示词。
    image.png

    2.1 讲述一个程序员遇到bug,熬夜加班修bug的故事

    输入标题中的提示词
    image.png

    2.2 根据古诗生成图片

    image.png

    2.3 设计软件图标

    图标在我们UI设计中很常见,话不多说,贴图
    image.png

    2.4 设计logo和衬衫

    这个难度有点大,我始终没提示好
    image.pngimage.png

    3 识别图片并提问

    3.1 操作方式

    苹果手机安装了chatgpt客户端,打开客户端拍照上传,并提问。

    3.2 识别地图地图并提问超哪个方向

    eecff5381414e353ca7eb38e94c2759.jpg

    3.3 分析图片公式

    拍了一个泰勒展开式让它分析
    4b5f209a96eee8778f72b6e3e60a900.jpg

    4 语音对话

    4.1 设置开启语音

    在设置speech中选择语音风格
    image.pngimage.png

    4.2 体验

    语音提问,语音回复,这里没法播放录音,贴出回复的内容。
    image.pngimage.png

    5 总结

    上述的技能,总结一下叫“提示工程”(promote engineering),掌握这些很重要。所以下次在抱怨gpt不行之前,需要反问一下自己提出的问题是否清晰。
    如果你想学习请按下面操作搜错资料

    题外话:这里不是卖课,吴恩达是AI界的顶级科学家,免费教学推广人工智能的。

  • 相关阅读:
    洋葱架构、三层架构及两者区别
    vue2 源码解析(四)data数据响应式
    企业如何选择合适的服务器?
    mysql文档--myisam存储引擎--myisam引擎全解--底层探索
    animate.css
    Linux find学习
    【吴恩达机器学习笔记】八、应用机器学习的建议
    小细节,大问题。分享一次代码优化的过程
    Hyperledger Fabric 使用 CouchDB 和复杂智能合约开发
    3分钟读懂OKR | 不和绩效挂钩的OKR到底有什么用?
  • 原文地址:https://blog.csdn.net/huangmingleiluo/article/details/133902467