盘点有趣的人工智能开源项目一

字幕导出

zh_recogn是一个专注于中文语音识别的字幕生成工具，基于魔塔社区Paraformer模型。它不仅支持音频文件，还能处理视频文件，输出标准的SRT字幕格式。这个项目提供了API接口和简单的用户界面，使得用户可以根据自己的需求灵活使用。

该项目仅支持中文语音识别。对于非中文语音，您可以利用基于 OpenAI Whisper 和 Faster-Whisper 的项目，如 pyvideotrans 或 stt 来进行识别，目的是为了弥补国外模型在中文支持方面的不足。

地址：https://github.com/jianchang512/zh_recogn

项目介绍：一个开源项目，旨在将小爱音箱接入 ChatGPT 和豆包，实现个性化语音助手功能。

通过结合 ChatGPT 自然语言处理能力，MiGPT 可以增强小爱音箱的智能互动功能，如回答问题、角色扮演、流式响应和长短期记忆。

此外，它还支持自定义 TTS 语音和控制智能家居设备，支持通过 Docker 或 Node.js 进行安装和配置。

项目地址：https://github.com/idootop/mi-gpt

网站介绍：一个开源 AI 搜索引擎，它使用 Together AI 进行 LLM 推理，结合 Mixtral 8x7B 和 Llama-3 模型，利用 Bing 获取搜索结果。

TurboSeek 处理用户查询，获取并存储上下文，生成响应和相关问题，基于 Next.js 和 Tailwind 构建。

网站网址：点击打开 (https://www.turboseek.io/)

项目介绍：一个基于深度学习的图像到视频合成项目，旨在实现一致且可控的角色动画生成。

主要功能包括人脸重演、动作驱动的图像生成等，利用输入的视频关键点来控制源图像的姿态，同时保持源图像的身份特征。

项目地址：点击打开 (https://github.com/novitalabs/AnimateAnyone)

相关阅读:
【读点论文】CMT: Convolutional Neural Networks Meet Vision Transformers
FPGA project ：dds
单模连接器损耗与影响因素
第一讲递归和递推
【HarmonyOS】【ArkUI】在Service中使用Emitter
Vue 如何监听 localstorage的变化
数据中台与业务中台是什么关系？
es6运算符
ubuntu20.04蓝牙连接airpods
SMART PLC星三角延时启动功能块(梯形图FC)

原文地址：https://blog.csdn.net/ITWorldView/article/details/139729959