chatgpt图片识别、生成图片、语音对话多模态深度试玩

chatgpt图片识别、生成图片、语音对话多模态深度试玩
大模型替代人的工作的能力，越来越明显了。最近chatgpt支持多模态了，看这大佬们玩的不易乐乎，手痒也想试一试，因此有给openai上供了20刀。
1. 另外我是gpt的拥护者，但是周围的同事有对此担忧，因为他们长期积累的技能可能一下子没了门槛。
2. 在工作中我已经充分使用了这些工具，此时我仿佛拥有了一个小团队，我提出思路和方案，苦活累活、无意义的重复劳动交给gpt。这样我可以有更多的学习最新的研究、更重要的技能。
1 图生图

 1.1 操作方式

打开new bing，切换创意模式，上传图片，输入提示词“根据图片内容生成图画”，如果你想告诉他用什么风格，可以在提示词追加，用中国风或者皮克斯风格。

1.2 观看效果

我把娃娃的手绘上传到new bing(接入的是dalle-3模型)，让它根据图片内容生成图片，下面看效果。
第一张美人鱼

第二张海底世界（美人鱼、章鱼、鱼）

第三张长城
由于我图片倒置了，生成了很有创意的机械龙

第四张画的葫芦，求子和平安
识别成鱼了，有点意外。

2 提示词生图

我们采用chatgpt4 DALLE-3

2.1 操作方式

前提是需要chatgpt4账号，选择dall-e3，然后输入提示词。

2.1 讲述一个程序员遇到bug，熬夜加班修bug的故事

输入标题中的提示词

 2.2 根据古诗生成图片

 2.3 设计软件图标

图标在我们UI设计中很常见，话不多说，贴图

 2.4 设计logo和衬衫

这个难度有点大，我始终没提示好

 3 识别图片并提问

 3.1 操作方式

苹果手机安装了chatgpt客户端，打开客户端拍照上传，并提问。

3.2 识别地图地图并提问超哪个方向

 3.3 分析图片公式

拍了一个泰勒展开式让它分析

 4 语音对话

 4.1 设置开启语音

在设置speech中选择语音风格

 4.2 体验

语音提问，语音回复，这里没法播放录音，贴出回复的内容。

5 总结

上述的技能，总结一下叫“提示工程”(promote engineering)，掌握这些很重要。所以下次在抱怨gpt不行之前，需要反问一下自己提出的问题是否清晰。
如果你想学习请按下面操作搜错资料
- b站搜索“吴恩达 chatgpt 提示工程”
- 去https://www.deeplearning.ai/ 吴恩达的在线网站学习课程。
题外话：这里不是卖课，吴恩达是AI界的顶级科学家，免费教学推广人工智能的。
相关阅读:
洋葱架构、三层架构及两者区别
 vue2 源码解析（四）data数据响应式
 企业如何选择合适的服务器？
mysql文档--myisam存储引擎--myisam引擎全解--底层探索
 animate.css
Linux find学习
 【吴恩达机器学习笔记】八、应用机器学习的建议
 小细节，大问题。分享一次代码优化的过程
 Hyperledger Fabric 使用 CouchDB 和复杂智能合约开发
 3分钟读懂OKR | 不和绩效挂钩的OKR到底有什么用？
原文地址：https://blog.csdn.net/huangmingleiluo/article/details/133902467

1 图生图

1.1 操作方式

1.2 观看效果

2 提示词生图

2.1 操作方式

2.1 讲述一个程序员遇到bug，熬夜加班修bug的故事

2.2 根据古诗生成图片

2.3 设计软件图标

2.4 设计logo和衬衫

3 识别图片并提问

3.1 操作方式

3.2 识别地图地图并提问超哪个方向

3.3 分析图片公式

4 语音对话

4.1 设置开启语音

4.2 体验

5 总结