影像分析AI公司Asilla,利用超過700萬筆監視器影像獨家數據開發產業特化型獨家VLM「AsillaVision」
Asilla開發了專注於監視器影像的獨家VLM「AsillaVision-v1-4B」。該模型利用超過700萬筆影片進行訓練,在異常檢測上達到89%準確率,超越了Gemini等主要通用AI。
📋 文章處理履歷
- 📰 發表: 2026年4月8日 19:00
- 🔍 收集: 2026年4月8日 10:31
- 🤖 AI分析完成: 2026年4月20日 20:15(收集後297小時43分鐘)
開發獨家影像分析AI模型與行為識別AI的Asilla股份有限公司(總部:東京都千代田區,代表董事CEO:尾上剛,以下簡稱「Asilla」)宣布,利用其擁有的超過700萬筆監視器影像數據,開發了專門用於檢測監視器影像中異常行為的獨家視覺語言模型(VLM)「AsillaVision-v1-4B」。
該模型在真實環境中(如設施內跌倒、打架、使用滑板等)的異常行為識別準確率達到89%,超越了Google Gemini 3.1 Pro(84%)、Alibaba Qwen3.5-9B(64%)、NVIDIA Nemotron Nano-12B-v2-VL(61%)等主流VLM的表現。※此比較基於公司內部的評估數據集。
## 開發背景
近年來,隨著VLM(視覺語言模型)技術的迅速發展,影像分析AI的升級正加速進行。然而,由Google、OpenAI、NVIDIA等大型科技公司開發的通用VLM,其基礎學習資料來自網際網路上的大規模數據,缺乏對監視器影像的專業領域知識。
監視器影像通常存在於各設施的封閉網路中,幾乎不會公開在網際網路上。這種「監視器數據之壁」成為了通用模型在結構上的局限。
Asilla透過在全國各地設施中導入的「AI Security asilla」,自2023年起持續累積監視器影像數據(CARD)。利用截至2026年2月累計超過700萬筆的獨家數據,Asilla成功開發出專注於監視器影像領域的VLM。此外,在收集與使用數據時,已獲得導入設施的同意並進行了匿名化處理。
## AsillaVision-v1 的特點
### 1. 超越大型模型的領域特化性能
儘管這是一個僅有4B(40億)參數的輕量級模型,但在監視器影像的異常行為檢測方面,展現了超越主流通用模型的領域特化性能。在真實環境的異常行為識別(如設施內的跌倒、打架、使用滑板、電扶梯上的可疑行為等)中,實現了優於其他主要VLM的準確率。
※比較基準為設施內跌倒、打架、使用滑板的識別性能。
※作為比較對象的模型是從2026年2月時點已公開的代表性VLM中選出。
### 2. 邊緣計算...
該模型在真實環境中(如設施內跌倒、打架、使用滑板等)的異常行為識別準確率達到89%,超越了Google Gemini 3.1 Pro(84%)、Alibaba Qwen3.5-9B(64%)、NVIDIA Nemotron Nano-12B-v2-VL(61%)等主流VLM的表現。※此比較基於公司內部的評估數據集。
## 開發背景
近年來,隨著VLM(視覺語言模型)技術的迅速發展,影像分析AI的升級正加速進行。然而,由Google、OpenAI、NVIDIA等大型科技公司開發的通用VLM,其基礎學習資料來自網際網路上的大規模數據,缺乏對監視器影像的專業領域知識。
監視器影像通常存在於各設施的封閉網路中,幾乎不會公開在網際網路上。這種「監視器數據之壁」成為了通用模型在結構上的局限。
Asilla透過在全國各地設施中導入的「AI Security asilla」,自2023年起持續累積監視器影像數據(CARD)。利用截至2026年2月累計超過700萬筆的獨家數據,Asilla成功開發出專注於監視器影像領域的VLM。此外,在收集與使用數據時,已獲得導入設施的同意並進行了匿名化處理。
## AsillaVision-v1 的特點
### 1. 超越大型模型的領域特化性能
儘管這是一個僅有4B(40億)參數的輕量級模型,但在監視器影像的異常行為檢測方面,展現了超越主流通用模型的領域特化性能。在真實環境的異常行為識別(如設施內的跌倒、打架、使用滑板、電扶梯上的可疑行為等)中,實現了優於其他主要VLM的準確率。
※比較基準為設施內跌倒、打架、使用滑板的識別性能。
※作為比較對象的模型是從2026年2月時點已公開的代表性VLM中選出。
### 2. 邊緣計算...