登录
注册
据午方 AI 消息,AI 语音初创企业 Cartesia 披露了 Sonic-3.5 与 Ink-2 两款核心模型,二者共同构建了统一的实时语音 AI 技术框架。
Sonic-3.5 聚焦文本转语音场景,音频输出延迟压缩至 90 毫秒,原生支持 42 种语言,并具备直接处理英语同形异义词及字母数字字符的能力,无需额外预处理。Ink-2 则负责语音转文本,单词错误率控制在 3.6%,通过语义理解判断说话结束点而非依赖静音时长,目前仅支持英语。开发者可通过单一 API 调用双向交互模型,有效降低多供应商集成带来的传输延迟与系统开销。