AI inside Corporation(代表取締役社長CEO:渡久地 択,總部:東京都港區,以下簡稱「AI inside」)開發了一款能夠同時處理人類對話與任務執行的全雙工(Full-Duplex)語音互動模型。

此研究開發基於「一致性日語全雙工語音多模態LLM的研究開發」這一研究主題,該主題已獲經濟產業省與國立研究開發法人新能源與產業技術綜合開發機構(NEDO)為加強日本國內生成AI開發能力而實施的 GENIAC(Generative AI Accelerator Challenge)專案所採納。

全雙工語音互動模型的技術特徵

① 對話與業務執行的同步處理 — 全雙工語音互動

本模型支援全雙工語音互動,能夠在使用者說話途中捕捉意圖,並立即開始回應生成與任務處理。與傳統語音AI在說話結束後才開始處理不同,本模型在說話過程中即已推進處理。這實現了即時的對話回應。

閒聊 根據對話的熱絡程度,即時變換回應內容。

工作諮詢 除了確認回應外,還能即時生成笑聲等非語言表達。

旅遊諮詢 自然地控制插話的時機與強度,維持沉穩的對話。

② 圖像理解以識別眼前資訊

實現了單一模型能整合處理圖像、語音和文本的機制。在日語圖像內容描述的評估中,與 Qwen3-8B-VL 相比,其解釋精確度約提高了 6.1 倍。

FACT BOX · 重點整理

  • 來源:PR TIMES
  • 分類:新品
  • 相關組織:経済産業省 / NEDO
  • 產品、服務:GENIAC