Qlean Dataset、方言音声データセット「日本語・地域方言対話音声」を提供開始

Visual Bank株式会社は、AI学習用データソリューション「Qlean Dataset」において、大阪弁と広島弁を収録した「日本語・地域方言対話音声データセット」の提供を開始。自然な対話音声5時間を収録し、ASR/LLM/TTSの性能向上や商用利用に対応する。
新製品NQ 82/100出典:PR Times

📋 記事の処理履歴

  • 📰 発表: 2026年5月19日 20:00
  • 🔍 収集: 2026年5月19日 11:31
  • 🤖 AI分析完了: 2026年5月27日 11:28(収集から191時間56分後)
Visual Bank株式会社(東京都港区、代表取締役CEO 永井真之)は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset(キュリンデータセット)」において、「日本語・地域方言対話音声データセット」の提供を開始します。

■ 方言音声データセットとは
方言音声データセットとは、標準語コーパスではカバーできない地域固有の音声パターン・アクセント・語彙を含む音声コーパスです。ASRモデルの方言汎化性能検証、LLMの方言理解向上、地域特化TTSモデルの構築を目的とした機械学習データとして活用されます。カスタム収録・追加方言への対応も可能です。

■ 今回提供を開始する「日本語・地域方言対話音声データセット」の概要
大阪弁・広島弁を話す日本人男女による自然発話の2話者対話音声を収録。台本読み上げではなく自発的発話のため、方言特有のイントネーション・文末表現・語彙など実環境に近い音声的特徴を含みます。性別ラベル付きの話者情報により、属性別の音響モデル評価や多話者モデルの適応実験にも対応します。

データ種別:音声(2話者対話形式)
被写物属性:各地の日本人(性別ラベル付き)
データ容量:5時間
データ形式:mp3 / wav
音声レート:44.1kHz・48kHz / 16・24bit
方言種類:大阪弁、広島弁 など
利用用途:商用利用可能

■ よくある質問(FAQ)
Q. 方言音声データセットはどんなASR開発に使えますか?
A. Whisper・ESPnetなど標準語ベースで学習済みのASRモデルに対し、大阪弁・広島弁音声でWERを測定するロバスト性ベンチマーク、およびLoRAやfull fine-tuningによる方言適応に利用できます。

Q. LLM開発での活用シーンは?
A. 方言特有の文末詞・助詞・イントネーションを含む対話テキストを用いて、方言→標準語スタイル変換モデルの学習や、コンテキスト依存の意味解釈タスクの評価データとして利用できます。

Q. TTS(音声合成)への活用は可能ですか?
A. 大阪弁・広島弁の自然なプロソディを持つ音声データとして、VITS・StyleTTSなどへのファインチューニングに活用可能です。地域密着型ガイドロボットや対話エージェントの音声生成に実装できます。

Q. 大阪弁・広島弁以外の方言追加収録は対応していますか?
A. 特定地域・年齢層・シチュエーション限定の対話収集など、開発要件に応じたカスタムデータ収集に対応しています。

■ 「日本語・地域方言対話音声データセット」のユースケースイメージ
1. ASRモデルのロバスト性ベンチマーク
標準語モデルが方言に対してどの程度の認識精度を維持できるかをWER・CERで定量評価。方言ASRの性能ギャップ計測に使用できます。
2. 方言適応ファインチューニング
few-shot・LoRAファインチューニング用データとして活用。標準語コーパスとの混合比調整による汎化性能検証にも有効です。
3. LLMの方言理解・スタイル変換
感情分析・方言→標準語変換・談話構造解析など、LLMの方言理解精度向上のための学習・評価データとして利用できます。
4. 地域特化TTS(音声合成)の構築
自然なイントネーションを持つ方言音声データをTTSモデルにファインチューニングし、地域密着型サービスや対話キャラクターを構築できます。
5. コンタクトセンター向けドメイン適応STT
方言語彙が頻出する環境でのカスタム言語モデル構築や、Google STT・Amazon Transcribeのカスタムボキャブラリーと組み合わせた開発に活用できます。

『Qlean Dataset(キュリンデータセット)』について
Visual Bank傘下の株式会社アマナイメージズが提供する権利クリア・商用利用可能なAI学習用データソリューションです。音声・画像・動画・3D・テキストなど多様な形式に対応し、法的リスクなく高品質なデータを調達・活用できる環境を提供しています。

よくある質問

Qlean Datasetの「日本語・地域方言対話音声データセット」にはどの方言が含まれますか?

現在は大阪弁と広島弁を収録しており、今後ニーズに応じて他の地域の方言の追加収録も可能です。

このデータセットはどのような形式で提供されますか?

音声データはmp3およびwav形式、サンプリングレートは44.1kHz・48kHz、ビット深度は16・24bitで提供されます。

台本読み上げの音声ですか?

いいえ、台本なしの自然な発話による対話音声を収録しているため、方言特有のイントネーションや語彙が実環境に近い形で含まれています。

商用利用は可能ですか?

はい、権利クリアなデータとして商用利用が可能です。

LLM開発においてどのように活用できますか?

方言特有の文末表現や助詞を含むテキストを用いて、スタイル変換モデルの学習や意味解釈タスクの評価データとして活用できます。