SambaNovaの音声推論モデルは、Vision (視覚) 中心だったマルチモーダルAIの機能をAudio (音声) 領域にも拡張し、高度な音声処理と理解を可能にします。このモデルはOpenAI互換のエンドポイントを備えており、リアルタイムでの推論、文字起こし、翻訳を可能にします。

Whisper-Large-v3 モデル

  • モデル名: Whisper-Large-v3
  • 説明: 最先端の自動音声認識 (ASR) および翻訳モデル。OpenAIにより開発され、500万時間以上のラベル付き音声データで学習済み。多言語およびゼロショット音声タスクにおいて卓越した性能を発揮。
  • モデルID: whisper-large-v3
  • 対応言語: 多言語対応

主な機能

  • 最大25MBの音声ファイルを文字起こしおよび翻訳
  • 音声認識および翻訳タスクにおいて高い精度を実現
  • OpenAI互換エンドポイントを通じて文字起こし・翻訳が可能

リクエストパラメータ

パラメータ名デフォルト説明エンドポイント
model文字列必須使用するモデルのIDtranscriptions, translations
prompt文字任意文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」)transcriptions, translations
temperature数値00から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。transcriptions, translations
fileファイル必須FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。最大25MBtranscriptions, translations
response format文字JSON出力形式: JSONまたはテキストtranscriptions, translations
language文字列任意入力音声の言語 (ISO-639-1形式、例: en)。指定すると精度とレイテンシが向上。transcriptions

Qwen2-Audio Instruct モデル

  • モデル名: Qwen2-Audio Instruct
  • 説明: 指示調整 (instruction-tuning) 済みの大規模音声言語モデル。Qwen-7BにWhisper-large-v3音声エンコーダーを組み合わせています (82億パラメータ)。
  • モデルID: qwen2-audio-7b-instruct
  • 対応言語: 多言語対応
本モデルは現在ベータ版として提供されています。

主な機能

  • 音声をインテリジェンスへ変換:GPT-4風の音声アプリを迅速に構築可能
  • 任意の音声入力に対して直接的な質問応答を提供
  • 単一の統合モデルを通して、リアルタイム会話、文字起こし、翻訳、分析を含む包括的な音声処理を実行

カスタマイズと制御

  • システムレベルプロンプト: リクエスト内のAssistant Promptを利用して、特定用途に合わせてモデル挙動を調整可能。詳細は リクエストパラメータ 内のmessages パラメータを参照。
    • ブランド表記の統一 (例: BrandName vs brandname)
    • ドメイン固有の専門用語
    • 応答スタイルとトーンの制御
詳細については、音声推論翻訳文字起こし のAPIエンドポイントのドキュメントも参照ください。

音声処理機能

  • 無音検出: 音声中の意味のある間や沈黙を的確に検出
  • ノイズ除去: 高度なノイズフィルタリングにより音声をクリーンに処理
  • 多言語処理: 自動言語検出による複数言語のサポート

分析機能

  • 感情分析: 発話の感情的要素を検出・分析
  • 複数話者処理: 複数人による会話を処理
  • 混合音声理解: 発話・音楽・環境音を含む音声を理解

音声認識性能

  • 数値は公開されているQwen2-Audio論文より引用
  • WER% (数値が低いほど良好)
言語データセットQwen2-AudioWhisper-large-v3改善率
英語Common Voice 158.6%9.3%+7.5%
中国語Common Voice 156.9%12.8%+46.1%

リクエストパラメータ

パラメータ名デフォルト説明エンドポイント
model文字列必須使用するモデルのID。現在は Qwen2-Audio-7B-Instruct のみ利用可能。すべて
messagesメッセージ必須role (user/system/assistant)、type (text/audio_content)、audio_content (base64音声) を含むメッセージのリストすべて
response_format文字列JSON出力形式: JSONまたはテキストすべて
temperature数値00から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。すべて
max_tokens数値1000生成する最大トークン数すべて
fileファイル必須FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。各ファイルは30秒以内である必要があります。すべて
language文字列任意文字起こしや翻訳の対象言語transcription, translation
streamブール値falseストリーミング応答を有効化すべて
stream_optionsオブジェクト任意ストリーミング応答の追加設定(例: {"include_usage": true})すべて