影像分析AI公司Asilla，利用超過700萬筆監視器影像獨家數據開發產業特化型獨家VLM「AsillaVision」

2026年4月8日

Asilla開發了專注於監視器影像的獨家VLM「AsillaVision-v1-4B」。該模型利用超過700萬筆影片進行訓練，在異常檢測上達到89%準確率，超越了Gemini等主要通用AI。

📋 文章處理履歷

📰 發表: 2026年4月8日 19:00
🔍 收集: 2026年4月8日 10:31
🤖 AI分析完成: 2026年4月20日 20:15（收集後297小時43分鐘）

開發獨家影像分析AI模型與行為識別AI的Asilla股份有限公司（總部：東京都千代田區，代表董事CEO：尾上剛，以下簡稱「Asilla」）宣布，利用其擁有的超過700萬筆監視器影像數據，開發了專門用於檢測監視器影像中異常行為的獨家視覺語言模型（VLM）「AsillaVision-v1-4B」。

該模型在真實環境中（如設施內跌倒、打架、使用滑板等）的異常行為識別準確率達到89%，超越了Google Gemini 3.1 Pro（84%）、Alibaba Qwen3.5-9B（64%）、NVIDIA Nemotron Nano-12B-v2-VL（61%）等主流VLM的表現。※此比較基於公司內部的評估數據集。

## 開發背景
近年來，隨著VLM（視覺語言模型）技術的迅速發展，影像分析AI的升級正加速進行。然而，由Google、OpenAI、NVIDIA等大型科技公司開發的通用VLM，其基礎學習資料來自網際網路上的大規模數據，缺乏對監視器影像的專業領域知識。

監視器影像通常存在於各設施的封閉網路中，幾乎不會公開在網際網路上。這種「監視器數據之壁」成為了通用模型在結構上的局限。

Asilla透過在全國各地設施中導入的「AI Security asilla」，自2023年起持續累積監視器影像數據（CARD）。利用截至2026年2月累計超過700萬筆的獨家數據，Asilla成功開發出專注於監視器影像領域的VLM。此外，在收集與使用數據時，已獲得導入設施的同意並進行了匿名化處理。

## AsillaVision-v1 的特點
### 1. 超越大型模型的領域特化性能
儘管這是一個僅有4B（40億）參數的輕量級模型，但在監視器影像的異常行為檢測方面，展現了超越主流通用模型的領域特化性能。在真實環境的異常行為識別（如設施內的跌倒、打架、使用滑板、電扶梯上的可疑行為等）中，實現了優於其他主要VLM的準確率。
※比較基準為設施內跌倒、打架、使用滑板的識別性能。
※作為比較對象的模型是從2026年2月時點已公開的代表性VLM中選出。

### 2. 邊緣計算...

返回 Newsroom (45)