TTS之Seed-VC：Seed-VC的简介、安装和使用方法、案例应用之详细攻略

栏目分类

亚博有网页版: 亚博有网页版介绍; 产品展示; 新闻动态

热点资讯

何刚暗示华为 WATCH FIT 5 Pro 智能手表即将发

南苑街道盛锦苑社区开展入户调解邻里噪音纠纷

“长者互助食堂”的暖心餐

十年如期而至《山河故人》复映票房破200万时光共振戳中全

TTS之Seed-VC：Seed-VC的简介、安装和使用方法

没想到，阳台两侧无法拆除的墙垛，竟然成了令人向往的“宝藏”所

你到底是“大聪明” or “冤大头”？快来测测你属于哪挂？

《太平风会图》朱玉芝加哥艺术博物馆藏

仁和药业：公司部署的清肺汤颗粒、温经汤颗粒、泻白散等10多个

中考英语语法分类训练(真题名校模拟)动词时态100题（答案

你的位置：亚博有网页版 > 新闻动态 >

TTS之Seed-VC：Seed-VC的简介、安装和使用方法、案例应用之详细攻略

发布日期：2025-10-08 15:11 点击次数：107

TTS之Seed-VC：Seed-VC的简介、安装和使用方法、案例应用之详细攻略

Seed-VC 项目简介

2024年9月，Seed-VC是一个先进的零样本语音转换和唱歌语音转换模型，它利用上下文学习技术，无需任何训练即可克隆语音。只需提供1到30秒的参考语音，Seed-VC就能转换任意语音到目标语音风格。该项目目前支持零样本语音转换、零样本实时语音转换和零样本唱歌语音转换。

GitHub地址：https://github.com/Plachtaa/seed-vc

1、Seed-VC 的特点

>> 零样本语音转换：无需针对目标说话人进行训练，即可将语音转换成目标说话人的声音。 >> 零样本实时语音转换：支持实时语音转换，能够进行即时的语音克隆。 >> 零样本唱歌语音转换：能够将语音转换成目标说话人的歌声。 >> 高性能：在客观评估中，Seed-VC在语音清晰度和说话人相似度方面显著优于OpenVoice和CosyVoice等基准模型，甚至在某些情况下也优于一些非零样本语音转换模型（如So-VITS-4.0）。 >> 多语言支持：项目提供英文、简体中文和日语的README文档。 >> 多种接口：提供命令行接口、Gradio网页界面和实时语音转换GUI。

Seed-VC 的安装和使用方法 1、安装

建议使用Python 3.10版本在Windows或Linux系统上运行。安装依赖包：

pip install -r requirements.txt

2、使用方法： T1、命令行接口

python inference.py --source <source-wav>
--target <referene-wav>
--output <output-dir>
--diffusion-steps 25 # recommended 50~100 for singingvoice conversion
--length-adjust 1.0
--inference-cfg-rate 0.7
--f0-condition False # set to True for singing voice conversion
--auto-f0-adjust False # set to True to auto adjust source pitch to target pitch level, normally not used in singing voice conversion
--semi-tone-shift 0 # pitch shift in semitones for singing voice conversion

参数说明：

source：待转换语音文件的路径。

target：目标语音（参考语音）文件的路径。

output：输出目录的路径。

diffusion-steps：扩散步骤数，默认25，唱歌语音转换建议使用50-100，快速转换可以使用4-10。

length-adjust：长度调整因子，默认1.0，小于1.0加快语音速度，大于1.0减慢语音速度。

inference-cfg-rate：对输出有细微影响，默认0.7。

f0-condition：是否根据源音频的音高调整输出音高，默认False，唱歌语音转换设置为True。

auto-f0-adjust：是否自动调整源音频音高到目标音高水平，默认False，唱歌语音转换通常不使用。

semi-tone-shift：唱歌语音转换的音高偏移（半音），默认0。

T2、Gradio 网页界面

运行 python app.py，然后在浏览器打开 http：//localhost：7860/ 使用网页界面。

python app.py

T3、在线测试

测试地址：Seed-VC

3、实时语音转换GUI

运行 python real-time-gui.py。强烈建议使用GPU进行实时语音转换。项目中提供了不同GPU配置下的参数建议，以优化性能和质量。

python real-time-gui.py

Seed-VC 的案例应用

项目提供了大量的客观评估结果，包括零样本语音转换和零样本唱歌语音转换的评估。

1、零样本语音转换评估

使用LibriTTS-test-clean数据集的100个随机语句作为源音频，以及12个随机选择的真实语音作为参考音频。评估指标包括说话人嵌入余弦相似度（SECS）、词错误率（WER）和字符错误率（CER）。结果表明，Seed-VC显著优于OpenVoice和CosyVoice基准模型。还与非零样本模型（So-VITS-4.0）进行了比较，结果显示Seed-VC即使未在目标说话人上进行训练，也能取得更好的结果。

python eval.py 
--source ./examples/libritts-test-clean
--target ./examples/reference
--output ./examples/eval/converted
--diffusion-steps 25
--length-adjust 1.0
--inference-cfg-rate 0.7
--xvector-extractor "resemblyzer"
--baseline ""  # fill in openvoice or cosyvoice to compute baseline result
--max-samples 100  # max source utterances to go through

2、零样本唱歌语音转换评估

使用M4Singer数据集进行评估，比较了Seed-VC与针对每个说话人训练的RVCv2-f0-48k模型。评估指标包括F0CORR、F0RMSE、SECS和CER。结果显示，Seed-VC在说话人相似度和清晰度方面优于RVCv2模型，但音频质量略低，项目组表示未来会优先改进音频质量。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

上一篇：没想到，阳台两侧无法拆除的墙垛，竟然成了令人向往的“宝藏”所在！

下一篇：十年如期而至《山河故人》复映票房破200万时光共振戳中全民共情