• 盘点有趣的人工智能开源项目一


    字幕导出

    zh_recogn是一个专注于中文语音识别的字幕生成工具,基于魔塔社区Paraformer模型。它不仅支持音频文件,还能处理视频文件,输出标准的SRT字幕格式。这个项目提供了API接口和简单的用户界面,使得用户可以根据自己的需求灵活使用。

    该项目仅支持中文语音识别。对于非中文语音,您可以利用基于 OpenAI Whisper 和 Faster-Whisper 的项目,如 pyvideotrans 或 stt 来进行识别,目的是为了弥补国外模型在中文支持方面的不足。

    地址:https://github.com/jianchang512/zh_recogn

    语音助手

    项目介绍:一个开源项目,旨在将小爱音箱接入 ChatGPT 和豆包,实现个性化语音助手功能。

    通过结合 ChatGPT 自然语言处理能力,MiGPT 可以增强小爱音箱的智能互动功能,如回答问题、角色扮演、流式响应和长短期记忆。

    此外,它还支持自定义 TTS 语音和控制智能家居设备,支持通过 Docker 或 Node.js 进行安装和配置。

    项目地址:https://github.com/idootop/mi-gpt

    AI 搜索引擎

    网站介绍:一个开源 AI 搜索引擎,它使用 Together AI 进行 LLM 推理,结合 Mixtral 8x7B 和 Llama-3 模型,利用 Bing 获取搜索结果。

    TurboSeek 处理用户查询,获取并存储上下文,生成响应和相关问题,基于 Next.js 和 Tailwind 构建。

    网站网址:点击打开 (https://www.turboseek.io/)

     图像转视频

    项目介绍:一个基于深度学习的图像到视频合成项目,旨在实现一致且可控的角色动画生成。

    主要功能包括人脸重演、动作驱动的图像生成等,利用输入的视频关键点来控制源图像的姿态,同时保持源图像的身份特征。

    项目地址:点击打开 (https://github.com/novitalabs/AnimateAnyone)

  • 相关阅读:
    【读点论文】CMT: Convolutional Neural Networks Meet Vision Transformers
    FPGA project :dds
    单模连接器损耗与影响因素
    第一讲 递归和递推
    【HarmonyOS】【ArkUI】在Service中使用Emitter
    Vue 如何监听 localstorage的变化
    数据中台与业务中台是什么关系?
    es6运算符
    ubuntu20.04蓝牙连接airpods
    SMART PLC星三角延时启动功能块(梯形图FC)
  • 原文地址:https://blog.csdn.net/ITWorldView/article/details/139729959