RAG 型 AI 聊天機器人「chai+」:「向量搜尋 × 關鍵字搜尋 × 語義重排序」三階段混合搜尋引擎取得專利公告
Defide 株式會社針對其 RAG 型 AI 聊天機器人「chai+」搭載的獨家搜尋引擎技術取得專利。透過結合向量、關鍵字與語義重排序三種方法,結構性地抑制 AI 幻覺,並在處理專業術語時展現高精度。
📋 文章處理履歷
- 📰 發表: 2026年4月28日 23:00
- 🔍 收集: 2026年4月28日 14:31
- 🤖 AI分析完成: 2026年4月28日 15:53(收集後1小時21分鐘)
AI/DX 諮詢公司 Defide 株式會社(總部:東京都港區赤坂 2-4-6;代表董事:山本 哲也)宣佈,其提供的 RAG 型 AI 聊天機器人「chai+」已取得專利第 7851525 號「針對使用者提問搜尋文件並回答之程式」。
本專利技術是一套獨特的混合搜尋引擎,結合了:① 向量搜尋(語義相似度)、② 關鍵字搜尋(標記比對)、③ 語義重排序三種搜尋方法。作為 chai+ 的核心技術,它被認定能同時解決單一搜尋方法無法避免的遺漏與「幻覺」(AI 事實錯誤)問題。
■ 開發背景|為何生成式 AI 常被說「難以使用」
以 ChatGPT 為代表的通用型生成式 AI 存在一個根本限制,即無法將企業固有資訊(內部規定、產品手冊、合約、FAQ 等)用於回答。此外,即使導入 RAG,僅依靠單一向量搜尋的配置也常會出現「語義接近但內容不對」的情況,或在包含專業術語、固有名詞的提問中,回答精度大幅下降。
▶ 傳統型 RAG 的三大極限:
① 僅靠向量搜尋,對包含專業術語、固有名詞的提問精度低。
② 僅靠關鍵字搜尋,在說法不同的提問中無法匹配相關文件。
③ 搜尋精度不足是導致「幻覺」(AI 事實錯誤、編造)的直接原因。
為了從根本上消除這些瓶頸,研發出了本次取得專利的三階段混合搜尋引擎。
■ 專利第 7851525 號|三階段混合搜尋引擎的機制
發明名稱:針對使用者提問搜尋文件並回答之程式
專利資訊(J-PlatPat):https://www.j-platpat.inpit.go.jp/c1801/PU/JP-7851525/15/ja
本專利的核在於將文件以頁面為單位切割成「塊」(Chunk),並針對每個塊並行構建「嵌入向量(Embedding)」與「標記(關鍵字)」兩種索引。每當有提問時,會經過三個搜尋階段選出最佳塊,並向使用者明示該塊所屬的原文件進行回答。
【搜尋階段】
第一步:向量搜尋(嵌入向量) - 在向量空間中高速搜尋與問題語義相似的塊。即使關鍵字不同,也能準確匹配「意義接近」的文件。
第二步:關鍵字搜尋(標記/BM25等) - 以標記為基礎搜尋與問題關鍵字一致的塊。覆蓋語義搜尋不擅長的專業術語、固有名詞等表達。
第三步:語義重排序(相關度評分) - 整合第一、二步的結果,最終選出與問題語義相關度最高的塊。透過三階段過濾使回答精度最大化。
由於僅以經過三階段搜尋流程選出的塊為根據生成回答,因此能從結構上抑制 AI 「不懂裝懂」的幻覺發生風險。同時,透過向使用者明示回答根據的文件,確保了回答的可靠性與透明度。
■ 與傳統型 RAG 及通用生成式 AI 的比較
- 搜尋方式:傳統型為單一(僅向量);chai+ 為三階段混合(專利技術)。
- 專業術語/固有名詞:傳統型會發生遺漏;chai+ 透過關鍵字搜尋補足,目標是零遺漏。
- 幻覺:傳統型頻發;chai+ 僅使用基於公司文件的塊,風險大幅降低。
- 回答根據:傳統型為黑盒且來源不明;chai+ 明示搜尋塊對應的文件。
■ 對企業 AI 應用的啟示
▶ 該專利技術解決的業務課題:
- 內部規定、手冊查詢對應 —— 大幅縮減人事、法務、總務的查詢工時。
- 基於產品規格、技術文件的支援 FAQ —— 實現抑制錯誤風險的高精度客戶對應。
- 合約、簽呈、報告的搜尋與摘要 —— 從龐大內部文件中即時檢索。
本專利技術是一套獨特的混合搜尋引擎,結合了:① 向量搜尋(語義相似度)、② 關鍵字搜尋(標記比對)、③ 語義重排序三種搜尋方法。作為 chai+ 的核心技術,它被認定能同時解決單一搜尋方法無法避免的遺漏與「幻覺」(AI 事實錯誤)問題。
■ 開發背景|為何生成式 AI 常被說「難以使用」
以 ChatGPT 為代表的通用型生成式 AI 存在一個根本限制,即無法將企業固有資訊(內部規定、產品手冊、合約、FAQ 等)用於回答。此外,即使導入 RAG,僅依靠單一向量搜尋的配置也常會出現「語義接近但內容不對」的情況,或在包含專業術語、固有名詞的提問中,回答精度大幅下降。
▶ 傳統型 RAG 的三大極限:
① 僅靠向量搜尋,對包含專業術語、固有名詞的提問精度低。
② 僅靠關鍵字搜尋,在說法不同的提問中無法匹配相關文件。
③ 搜尋精度不足是導致「幻覺」(AI 事實錯誤、編造)的直接原因。
為了從根本上消除這些瓶頸,研發出了本次取得專利的三階段混合搜尋引擎。
■ 專利第 7851525 號|三階段混合搜尋引擎的機制
發明名稱:針對使用者提問搜尋文件並回答之程式
專利資訊(J-PlatPat):https://www.j-platpat.inpit.go.jp/c1801/PU/JP-7851525/15/ja
本專利的核在於將文件以頁面為單位切割成「塊」(Chunk),並針對每個塊並行構建「嵌入向量(Embedding)」與「標記(關鍵字)」兩種索引。每當有提問時,會經過三個搜尋階段選出最佳塊,並向使用者明示該塊所屬的原文件進行回答。
【搜尋階段】
第一步:向量搜尋(嵌入向量) - 在向量空間中高速搜尋與問題語義相似的塊。即使關鍵字不同,也能準確匹配「意義接近」的文件。
第二步:關鍵字搜尋(標記/BM25等) - 以標記為基礎搜尋與問題關鍵字一致的塊。覆蓋語義搜尋不擅長的專業術語、固有名詞等表達。
第三步:語義重排序(相關度評分) - 整合第一、二步的結果,最終選出與問題語義相關度最高的塊。透過三階段過濾使回答精度最大化。
由於僅以經過三階段搜尋流程選出的塊為根據生成回答,因此能從結構上抑制 AI 「不懂裝懂」的幻覺發生風險。同時,透過向使用者明示回答根據的文件,確保了回答的可靠性與透明度。
■ 與傳統型 RAG 及通用生成式 AI 的比較
- 搜尋方式:傳統型為單一(僅向量);chai+ 為三階段混合(專利技術)。
- 專業術語/固有名詞:傳統型會發生遺漏;chai+ 透過關鍵字搜尋補足,目標是零遺漏。
- 幻覺:傳統型頻發;chai+ 僅使用基於公司文件的塊,風險大幅降低。
- 回答根據:傳統型為黑盒且來源不明;chai+ 明示搜尋塊對應的文件。
■ 對企業 AI 應用的啟示
▶ 該專利技術解決的業務課題:
- 內部規定、手冊查詢對應 —— 大幅縮減人事、法務、總務的查詢工時。
- 基於產品規格、技術文件的支援 FAQ —— 實現抑制錯誤風險的高精度客戶對應。
- 合約、簽呈、報告的搜尋與摘要 —— 從龐大內部文件中即時檢索。