CosyVoice_V2 阿里通义实验室开源ai语音克隆模型

三月 14, 2025 / Ming / 12阅读 / 0评论/ 分类: 默认分类

CosyVoice V2官方主页：CosyVoice2.0 里面有一些试听和模型的原理

Github：CosyVoice2.0 项目在github开源想折腾的可以自己去部署

不想折腾的可以用b站大佬（与AI同行1996）的整合包

经过2个多月的使用中文克隆中文能达到8-9成相似（输入的音频很重要）

中文克隆英文也是7-8成相似但是语气有一些怪或许英文克隆英文会好一些

整合包简单使用方法

第一步：导入音频（时长大于3秒采样率不低于16khz）或录制音频（需要有麦克风）

第二步：输入prompt文本也就是你导入或录制音频里面说的内容

第三步：输入合成文本也就是你要输出音频所说的内容

第四步：点击生成音频

点击生成音频后进度条会跑进度条就算到百分之百了在试听和下载按钮没有出来之前都没算合成成功建议等一下

还有就是在生成音频音频途中不要用浏览器（偶尔有bug）和关闭CosyVoice_V2的cmd窗口

想要输出的音频有停顿（说话更真实）可以用，号。号来做停顿。不要使用回车键换行停顿（输出的音频有bug）

运行期间不要关闭 CosyVoice_V2的cmd窗口关闭此窗口等于关闭CosyVoice_V2

文章作者：Ming