EmotiVoice

16小时前发布 2 0 0

网易有道开源的情感智能语音合成系统

收录时间:
2025-10-24
广告也精彩

EmotiVoice (https://github.com/netease-youdao/EmotiVoice)易魔声是网易有道开源的情感智能语音合成系统,其核心目标是为开发者提供零门槛、高可控、多场景适配的语音合成解决方案。
功能特点:
丰富的情感合成功能:支持 8 种基础情感,如快乐、悲伤、愤怒等,以及 3 种风格,包括正式、幽默、温柔等,情感准确率达 92%。通过提示词驱动情感建模,结合情感嵌入向量技术,可精准控制语音的情感基调,还能同时融合情感、语言和风格,如生成带英国口音的愤怒男声。
多样的音色选择:拥有 2000 多种预制音色,覆盖男声、女声、童声、方言等多种类型,每个音色包含年龄、性格等标签,如 “25 岁温柔女声”“50 岁严肃男声” 等,支持按场景快速筛选。此外,还支持语音克隆功能,仅需 5 秒参考音频即可复现用户自定义音色,且克隆的音色可同时支持中英双语。
多语言支持:支持中英双语自动识别,能处理混合文本,如 “Hello, 世界!”,发音自然度媲美母语者,适合跨国企业客服等场景。
高效的推理与部署:提供 Docker 一键部署、命令行工具、OpenAI 兼容 API 三种接入方式,支持云端、边缘设备和离线环境。利用 NVIDIA CUDA 和 Intel OpenVINO 实现 GPU/CPU 混合推理,在 RTX 4090 上实现 20 倍实时合成速度,1 分钟文本合成仅需 3 秒。移动端 SDK 体积压缩至 100MB 以下,在骁龙 8 Gen2 芯片上实现实时合成,延迟低于 200 毫秒。
批量处理能力:API 支持 JSON 批量输入,单次处理上限 10 万条文本,可返回 MP3/WAV 格式音频,适合有声书制作等场景。
应用场景:
有声书制作:可批量生成章节音频,支持按章节自动分割和元数据标注,为有声书创作者提供高效的语音合成解决方案。
虚拟助理:能赋予虚拟助理更丰富的情感和个性化的声音,提升用户与虚拟助理的交互体验。
教育软件:在教育软件中,可根据不同的教学内容和场景,生成具有相应情感的语音,增强教学的趣味性和效果。
游戏配音:为游戏角色创建专属语音库,使游戏角色更加生动形象,提升玩家的游戏体验。
短视频配音:为短视频创作者提供多样化的语音选择,能够根据视频内容添加相应情感的语音,增强视频的吸引力和感染力。
开源与社区:该项目遵循 Apache – 2.0 许可证开源,所有用户均可免费下载使用,并可在 GitHub 上获取源代码,鼓励社区参与和创新。

广告也精彩

数据统计

相关导航

广告也精彩

暂无评论

none
暂无评论...