正確地教導 AI 關於全日本企業的資訊。
Compalyze 株式會社發布了其「April Dream」,旨在將零散的日本企業數據轉換為 AI 可用的結構化資訊。他們正透過人工策展處理來自各政府部門的數據,以解決 AI 無法回答複雜企業查詢的問題。
📋 文章處理履歷
- 📰 發表: 2026年4月2日 01:45
- 🔍 收集: 2026年4月1日 17:37
- 🤖 AI分析完成: 2026年4月21日 07:15(收集後469小時37分鐘)
我們響應 April Dream,這是一個將 4 月 1 日作為傳達夢想之日的倡議。本新聞稿是 Compalyze 株式會社的夢想。
營運企業資訊資料庫「Compalyze」的 Compalyze 株式會社(滋賀縣草津市,代表董事:鈴木隆士),在 4 月 1 日的「April Dream」之際,宣告我們想要實現的夢想。
## 試著問問 AI。它應該「無法回答」。
你可以試著問 ChatGPT、Claude 或 Gemini。請這樣問:
「請告訴我滋賀縣擁有食品相關許可,且最新財報為盈餘的製造業。」
你可能不會得到準確的答案。它可能會列出一些看似合理的公司名稱,但有無許可只是猜測,財務數字沒有來源,甚至有時還會混入根本不存在的企業。
這不是因為 AI 不夠成熟。而是因為 AI 可以參考的「正確數據」根本就不存在。
## 企業數據「存在」。但是零散且無法讀取。
關於日本企業的資訊,實際上數量龐大。問題在於它們散落在不同的地方、格式各異、更新頻率也不同。
登記資訊在法務局。財務公告在官報。專利和商標在特許廳。許可證則分散在各個省廳——厚生勞動省、國土交通省、農林水產省。而且,法務局的登記是 PDF,官報的財務公告是圖片檔案,各省廳的許可登記簿則是 Excel 或 CSV,根本沒有統一的格式。
換句話說,數據不是「沒有」,而是「處於無法使用的狀態」。這正是 AI 無法正確回答關於日本企業問題的根本原因。
## 承接 AI 做不到的、吃力不討好的工作
Compalyze 每天致力於進行的,就是將這些「無法使用的數據」打磨成「AI 可以信任的品質」。
這項工作的內容,令人驚訝地樸實且吃力不討好。
使用 OCR 讀取刊登在官報上的財務公告 PDF,並將數字轉換為結構化數據。從登記受理簿中正確區分並分類「債權轉讓」和「債權人保護程序」。追蹤地址變更和商號變更的歷史,以準確整合同一法人的資訊。區分休眠公司和營業中的公司。將散落在 5 個以上省廳的許可數據與單一法人編號連結。然後,透過多個來源比對「這些財務數據是真的嗎?」。
這項工作沒有捷徑。這是一個不能完全交給 AI,且人類的策展不可或缺的領域。目前,Compalyze 的資料庫已達到 90 個資料表、數千萬筆紀錄。無論是否上市,這都是一份由來源明確的第一手資訊組成的企業「正確履歷」——包含登記、財務結果、員工人數趨勢、新聞和許可證。
AI 很聰明。但是,如果沒有數據可以吸收,它就什麼也答不出來。而且,如果吸收了垃圾,它就會給出垃圾。Compalyze 創造了一個「AI 可以吸收可靠數據」的狀態。
營運企業資訊資料庫「Compalyze」的 Compalyze 株式會社(滋賀縣草津市,代表董事:鈴木隆士),在 4 月 1 日的「April Dream」之際,宣告我們想要實現的夢想。
## 試著問問 AI。它應該「無法回答」。
你可以試著問 ChatGPT、Claude 或 Gemini。請這樣問:
「請告訴我滋賀縣擁有食品相關許可,且最新財報為盈餘的製造業。」
你可能不會得到準確的答案。它可能會列出一些看似合理的公司名稱,但有無許可只是猜測,財務數字沒有來源,甚至有時還會混入根本不存在的企業。
這不是因為 AI 不夠成熟。而是因為 AI 可以參考的「正確數據」根本就不存在。
## 企業數據「存在」。但是零散且無法讀取。
關於日本企業的資訊,實際上數量龐大。問題在於它們散落在不同的地方、格式各異、更新頻率也不同。
登記資訊在法務局。財務公告在官報。專利和商標在特許廳。許可證則分散在各個省廳——厚生勞動省、國土交通省、農林水產省。而且,法務局的登記是 PDF,官報的財務公告是圖片檔案,各省廳的許可登記簿則是 Excel 或 CSV,根本沒有統一的格式。
換句話說,數據不是「沒有」,而是「處於無法使用的狀態」。這正是 AI 無法正確回答關於日本企業問題的根本原因。
## 承接 AI 做不到的、吃力不討好的工作
Compalyze 每天致力於進行的,就是將這些「無法使用的數據」打磨成「AI 可以信任的品質」。
這項工作的內容,令人驚訝地樸實且吃力不討好。
使用 OCR 讀取刊登在官報上的財務公告 PDF,並將數字轉換為結構化數據。從登記受理簿中正確區分並分類「債權轉讓」和「債權人保護程序」。追蹤地址變更和商號變更的歷史,以準確整合同一法人的資訊。區分休眠公司和營業中的公司。將散落在 5 個以上省廳的許可數據與單一法人編號連結。然後,透過多個來源比對「這些財務數據是真的嗎?」。
這項工作沒有捷徑。這是一個不能完全交給 AI,且人類的策展不可或缺的領域。目前,Compalyze 的資料庫已達到 90 個資料表、數千萬筆紀錄。無論是否上市,這都是一份由來源明確的第一手資訊組成的企業「正確履歷」——包含登記、財務結果、員工人數趨勢、新聞和許可證。
AI 很聰明。但是,如果沒有數據可以吸收,它就什麼也答不出來。而且,如果吸收了垃圾,它就會給出垃圾。Compalyze 創造了一個「AI 可以吸收可靠數據」的狀態。