AI推論ゲートウェイ「OrcaRouter」を高速LLMフレームワーク「SGLang」に統合 ― 200以上のモデルへの統一アクセスとコスト最適化を実現

Key facts

  • AI推論ゲートウェイ「OrcaRouter」を高速LLMフレームワーク「SGLang」に統合 ― 200以上のモデルへの統一アクセスとコスト最適化を実現
  • FlashLabsは、AI推論ゲートウェイ「OrcaRouter」が高速LLMフレームワーク「SGLang」と統合されたことを発表しました。これにより、SGLangを利用する開発者は、コード変更を最小限に抑えつつ、200以上のモデルに統一アクセスでき、最大40%のコスト削減を実現できます。
  • Source: PR Times
  • Date: 2026年6月18日

Direct answer

FlashLabsは、AI推論ゲートウェイ「OrcaRouter」が高速LLMフレームワーク「SGLang」と統合されたことを発表しました。これにより、SGLangを利用する開発者は、コード変更を最小限に抑えつつ、200以上のモデルに統一アクセスでき、最大40%のコスト削減を実現できます。

Citation
AI推論ゲートウェイ「OrcaRouter」を高速LLMフレームワーク「SGLang」に統合 ― 200以上のモデルへの統一アクセスとコスト最適化を実現 (2026年6月18日), PR Times
Source
PR Times
Date
2026年6月18日
FlashLabsは、AI推論ゲートウェイ「OrcaRouter」が高速LLMフレームワーク「SGLang」と統合されたことを発表しました。これにより、SGLangを利用する開発者は、コード変更を最小限に抑えつつ、200以上のモデルに統一アクセスでき、最大40%のコスト削減を実現できます。

📋 記事の処理履歴

  • 📰 発表: 2026年6月18日 04:00
  • 🔍 収集: 2026年6月17日 19:18
  • 🤖 AI分析完了: 2026年6月19日 06:53(収集から35時間35分後)
FlashLabs株式会社(本社:東京都千代田区、代表取締役:細井 洋一、以下「FlashLabs」)は、米Continuum AIが開発しFlashLabsが日本独占販売するAI推論ゲートウェイ「OrcaRouter」が、LMSYS Orgが主導する高速LLMサービングフレームワーク「SGLang」に対応したことをお知らせします。これにより、SGLangを利用する開発者は、コードを大幅に変更することなく、200以上の最新AIモデルへの統一アクセスと、品質を維持したまま最大40%のコスト削減を実現する適応型ルーティング機能を活用できるようになります。

背景・狙い

2026年、企業のAI活用は「単一モデルの利用」から「複数モデルを組み合わせた高度なエージェントワークフロー」へと進化しています。これに伴い、推論速度の向上と、増大するLLM利用料の最適化が課題となっています。

LMSYS Orgによって開発された「SGLang」は、従来のフレームワークと比較して最大5倍の推論速度を誇る次世代のランタイムとして、世界中のAIエンジニアから支持されています。一方、OrcaRouterは、プロンプトごとに難易度を判定し、最適なモデルへ自動ルーティングすることでコストと品質を両立させるLLMゲートウェイです。

今回の統合により、SGLangの圧倒的なパフォーマンスと、OrcaRouterの柔軟なモデル管理・コスト最適化機能が融合。エンタープライズレベルのAIアプリケーション開発において、速度・品質・コストのすべてを妥協しないインフラ環境を提供します。

統合の概要

主な機能:

200+モデルへの統一アクセス: SGLangのインターフェースから、OpenAI、Anthropic、Google、DeepSeek等の主要モデルへ単一エンドポイントで接続。

適応型自動ルーティング: プロンプトの難易度をミリ秒単位で判定。定型処理は低コストなオープンモデルへ、高度な推論はフロンティアモデルへ自動で振り分けます。

Agent Firewall & Guardrails: 個人情報(PII)のマスキングやプロンプトインジェクション対策を、SGLangのワークフローに透過的に適用。

Unified Billing(統合請求): 複数のプロバイダーを利用しても、支払いはOrcaRouterに一本化。トークン上乗せ手数料は0%です。

利用可能モデル例:

OrcaRouter Fable 5 Fusion API (モデル詳細はこちら)

Anthropic Claude Opus 4.8 API

OpenAI GPT 5.5 API

Gemini 3.5 FlashAPI

MiniMax M3 API

DeepSeek V4 Pro API

Qwen3.7 Max API

Z.AI GLM5.2 API

企業にもたらす価値

1. 開発スピードの劇的な向上

SGLangの高速なランタイムを維持しつつ、モデルごとのAPI仕様の違いを意識することなく、最新モデルを即座に試作・導入できます。

2. LLM支出の最大40%削減

すべてのリクエストを最高性能モデルに投げるのではなく、OrcaRouterが「最適なモデル」を自動選択することで、品質を落とさずに原価を最適化します。

3. エンタープライズグレードの信頼性

プロバイダーの障害時にストリームを中断せず代替モデルへ切り替える「ミッドストリーム・フェイルオーバー」により、24時間365日の安定稼働を支援します。

今後の展開

FlashLabsは、日本企業がOrcaRouterを円滑に導入できるよう、日本語ドキュメントの整備、SGLang環境向けの導入ガイドの提供、エンタープライズ向けの専用環境・SLA対応を進めます。今後も、セルフホスト基盤とAIゲートウェイを組み合わせた本番AIの最適化を支援してまいります。

代表コメント

FlashLabs株式会社 代表取締役 細井 洋一

「SGLangは、AIの『実行速度』におけるゲームチェンジャーです。そこにOrcaRouterの『知的な振り分け』が加わることで、日本の企業は世界最高水準のAI知能を、最も効率的なコストで、かつ安全に利用できるようになります。私たちは、インフラの複雑さを解消し、開発者がビジネスロジックの創造に集中できる環境を提供し続けます。」

OrcaRouterについて

OrcaRouterは、米国のAI研究機関Continuum AIが開発し、FlashLabs株式会社が日本独占販売する次世代AI推論ゲートウェイです。200以上のLLMを単一エンドポイントに統合し、プロンプトごとに難易度を判定して最適なモデルへ自動ルーティングします。トークン上乗せ手数料0%、導入は1行から。ガードレール、監視、評価機能も同一ゲートウェイで提供します。

OrcaRouter 公式サイト

FlashLabs株式会社について

FlashLabsは、営業とカスタマーエクスペリエンスを自動化、そして最終的には自律化へ導くことを目指すAI応用研究所です。機械の処理速度・精度と人間の戦略的洞察を融合させた"Human-AI Hybrid"で、従来手法を凌駕する成果を企業にもたらします。

会社名: FlashLabs株式会社

所在地: 東京都千代田区

代表者: 代表取締役 細井 洋一

事業内容: AIソリューションの開発・販売、AIゲートウェイ「OrcaRouter」の提供

FlashLabs株式会社 公式サイト

Continuum AIについて

Continuum AIは、OrcaRouterを開発する米国のAI企業です。適応型ルーティング技術により、複数のLLMプロバイダーを横断した効率的なAI活用基盤を提供しています。

Continuum AI 公式サイト

本件に関するお問い合わせ先

FlashLabs株式会社 マーケティング部

担当: 小林 光喜

Email: koki.kobayashi@myflashcloud.com

よくある質問

OrcaRouterはどのような企業に適していますか?

複数のLLMを利用している、またはコスト・信頼性・ガバナンスを重視する企業に最適です。特に金融、製造、カスタマーサポート業界で効果を発揮します。

導入にかかる工数はどれくらいですか?

SGLangを利用している環境では、設定変更はわずか1行。既存コードの大幅な修正は不要です。

セキュリティ対策は充実していますか?

はい。PIIマスキング、プロンプトインジェクション検出、コンテンツフィルタリングなどのガードレール機能を標準で提供しています。

OrcaRouterの料金体系は?

各プロバイダーの実際のトークン単価に上乗せ手数料を加えない「0%上乗せ」モデルです。請求はOrcaRouterで一元管理されます。

日本語対応は可能ですか?

はい。日本語ドキュメント、日本語サポート、日本語対応のガードレール機能を提供しており、日本企業の導入を全面支援します。