AI推論コスト最大70%削減──「アダプティブ・ルーティング」で200以上のLLMを最適選択するOrcaRouterが日本上陸

FlashLabsはContinuum AIと日本独占ディストリビューション提携を発表し、200以上のLLMをひとつのAPIで統合・最適化する適応型推論ゲートウェイ「OrcaRouter」を投入する。
新製品NQ 46/100出典:PR Times

📋 記事の処理履歴

  • 📰 発表: 2026年5月21日 02:30
  • 🔍 収集: 2026年5月20日 18:31
  • 🤖 AI分析完了: 2026年5月20日 18:40(収集から8分後)
FlashLabs株式会社(本社:東京都千代田区、代表取締役:細井 洋一、以下「FlashLabs」)は、次世代AIインフラを開発する研究機関Continuum AI(本社:米国)との日本独占ディストリビューション提携を発表しました。両社は、200以上のLLMをひとつのAPIで利用でき、5分で移行完了、本番AIコストを最大70%削減しながら品質を維持する適応型推論ゲートウェイ「OrcaRouter」を日本市場に投入します。

## 背景・課題
FlashLabs創業者の石一氏は、「現在、本番環境でAIを動かしている企業は、本来の倍以上のコストを払っている」と指摘します。既存のAIゲートウェイは単なるパイプとして機能しており、モデルの個別選択をユーザーに委ねているため、プロンプトの複雑さに応じた最適化が行われていません。さらに日本企業では、複数のプロバイダー契約に伴う複雑な調達プロセスや、ドル建て決済による為替リスクがAI活用を阻む要因となっています。

## OrcaRouterの技術的革新
OrcaRouterは、OpenAI、Anthropic、Google、xAIなど15社以上、合計200以上のLLMへの呼び出しを一元管理します。その中核技術である「アダプティブ・ルーティング」は、以下のメカニズムで機能します。
1. 小型分類モデルによる事前判断:リクエストの内容に応じて、品質基準を満たせる最安のLLMをミリ秒単位で予測・選択します。
2. 継続学習システム:モデルの評価やユーザーフィードバックをルーティングポリシーに週単位で反映し、導入後も自動的に最適化されます。
3. 市場変化のリアルタイム追跡:プロバイダーの価格や新モデルを常時監視し、最も有利な振り分け先へ瞬時に切り替えます。

## 導入効果と特長
固定モデル運用と比較して推論支出を47%〜71%削減し、品質劣化も測定されていません。また、マークアップ手数料ゼロの透明な料金体系を採用しています。移行作業はBase URLとAPIキーの書き換えのみで完了し、既存コードを改修する必要はありません。また、日本市場向けに円建て請求、日本語コンソール・サポート、国内データルーティングといったエンタープライズ要件を完備しています。

FlashLabs創業者の石氏は「アダプティブ・ルーティングはコスト問題を解決する唯一の方法であり、日本の実ワークロードで60〜70%の削減を積み上げている」と強調します。Continuum AIも「日本のお客様が求める予測可能性と透明性をFlashLabsと共に提供する」とパートナーシップの意義を述べています。本日より提供開始されます。

よくある質問

OrcaRouterでコストが下がる理由は?

小型ルーターモデルがプロンプトの複雑さを判断し、毎回最も安価で回答可能なモデルへ動的に割り振るためです。

既存のOpenAI SDKを利用できますか?

はい。Base URLとAPIキーを書き換えるだけで動作するため、コード改修なしで導入可能です。

日本企業に適した機能はありますか?

円建て請求、日本語サポート、国内データルーティングなど、日本企業が導入しやすい環境を整備しています。