本網站為獨立社群專案,與 OpenClaw 官方無任何關聯。內容僅供參考。 了解更多

翻譯文件

本頁為社群翻譯版本,可能與官方最新內容有出入。 查看官方英文原文 →

Talk Mode

Talk Mode 啟用連續語音對話,系統聆聽語音、將逐字稿傳送至模型,並透過文字轉語音播放回應。

核心功能

Talk Mode 以三階段迴圈運作:聆聽語音 → 將逐字稿傳送至模型(main session,chat.send) → 等待回應 → 透過 ElevenLabs 播放回應(串流播放)。

macOS 行為

  • 啟用時顯示常駐疊加層
  • 視覺階段指示器(Listening/Thinking/Speaking)
  • 在短暫停頓(靜音窗口)後自動傳送
  • 回應會出現在 WebChat 中
  • 預設的 interrupt-on-speech 會在使用者說話時中斷播放

語音指令

回應可以一行 JSON 開頭來控制語音設定。系統支援的 key 包括:

  • voice / voice_id / voiceId:語音 ID
  • model / model_id / modelId:模型 ID
  • speed:語速
  • stability:穩定度
  • latency_tier:延遲等級
  • once: true:僅對當前回應套用設定;否則設定會成為新的預設值

未知的 key 會被忽略,JSON 行在播放前會被移除。

設定

設定位於 ~/.openclaw/openclaw.json

{
  talk: {
    voiceId: "<elevenlabs-voice-id>",       // 預設:環境變數或第一個可用的 ElevenLabs 語音
    modelId: "eleven_v3",                    // 預設:eleven_v3
    outputFormat: "pcm_22050",               // 因平台而異(大多數使用 PCM,MP3 為選用)
    apiKey: "<elevenlabs-api-key>",
    interruptOnSpeech: true,                 // 預設:true
  },
}

macOS UI 元素

  • 選單列切換和 Config 分頁用於 Talk Mode
  • 疊加層含視覺狀態和互動控制(點擊可停止/退出)

技術需求

  • 需要 Speech 和 Microphone 權限
  • 使用 ElevenLabs streaming API,透過增量播放降低延遲
  • 跨平台支援多種輸出格式(macOS、iOS、Android)