登錄
註冊
據午方 AI 消息,AI 語音初創企業 Cartesia 披露了 Sonic-3.5 與 Ink-2 兩款核心模型,二者共同構建了統一的實時語音 AI 技術框架。
Sonic-3.5 聚焦文本轉語音場景,音頻輸出延遲壓縮至 90 毫秒,原生支持 42 種語言,並具備直接處理英語同形異義詞及字母數字字符的能力,無需額外預處理。Ink-2 則負責語音轉文本,單詞錯誤率控制在 3.6%,通過語義理解判斷說話結束點而非依賴靜音時長,目前僅支持英語。開發者可通過單一 API 調用雙向交互模型,有效降低多供應商集成帶來的傳輸延遲與系統開銷。