Audioモデル - SambaNova Documentation

このページの内容

Whisper-Large-v3 モデル
主な機能
リクエストパラメータ
Qwen2-Audio Instruct モデル
主な機能
カスタマイズと制御
音声処理機能
分析機能
音声認識性能
リクエストパラメータ

SambaNovaの音声推論モデルは、Vision (視覚) 中心だったマルチモーダルAIの機能をAudio (音声) 領域にも拡張し、高度な音声処理と理解を可能にします。このモデルはOpenAI互換のエンドポイントを備えており、リアルタイムでの推論、文字起こし、翻訳を可能にします。

Whisper-Large-v3 モデル

モデル名: Whisper-Large-v3
説明: 最先端の自動音声認識 (ASR) および翻訳モデル。OpenAIにより開発され、500万時間以上のラベル付き音声データで学習済み。多言語およびゼロショット音声タスクにおいて卓越した性能を発揮。
モデルID: whisper-large-v3
対応言語: 多言語対応

主な機能

最大25MBの音声ファイルを文字起こしおよび翻訳
音声認識および翻訳タスクにおいて高い精度を実現
OpenAI互換エンドポイントを通じて文字起こし・翻訳が可能

リクエストパラメータ

パラメータ名	型	デフォルト	説明	エンドポイント
`model`	文字列	必須	使用するモデルのID	`transcriptions`, `translations`
`prompt`	文字	任意	文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」)	`transcriptions`, `translations`
`temperature`	数値	0	0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。	`transcriptions`, `translations`
`file`	ファイル	必須	FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。最大25MB	`transcriptions`, `translations`
`response format`	文字	JSON	出力形式: JSONまたはテキスト	`transcriptions`, `translations`
`language`	文字列	任意	入力音声の言語 (ISO-639-1形式、例: en)。指定すると精度とレイテンシが向上。	`transcriptions`

Qwen2-Audio Instruct モデル

モデル名: Qwen2-Audio Instruct
説明: 指示調整 (instruction-tuning) 済みの大規模音声言語モデル。Qwen-7BにWhisper-large-v3音声エンコーダーを組み合わせています (82億パラメータ)。
モデルID: qwen2-audio-7b-instruct
対応言語: 多言語対応

本モデルは現在ベータ版として提供されています。

主な機能

音声をインテリジェンスへ変換：GPT-4風の音声アプリを迅速に構築可能
任意の音声入力に対して直接的な質問応答を提供
単一の統合モデルを通して、リアルタイム会話、文字起こし、翻訳、分析を含む包括的な音声処理を実行

カスタマイズと制御

システムレベルプロンプト: リクエスト内のAssistant Promptを利用して、特定用途に合わせてモデル挙動を調整可能。詳細はリクエストパラメータ内のmessages パラメータを参照。
- ブランド表記の統一 (例: BrandName vs brandname)
- ドメイン固有の専門用語
- 応答スタイルとトーンの制御

詳細については、音声推論、翻訳、文字起こしのAPIエンドポイントのドキュメントも参照ください。

音声処理機能

無音検出: 音声中の意味のある間や沈黙を的確に検出
ノイズ除去: 高度なノイズフィルタリングにより音声をクリーンに処理
多言語処理: 自動言語検出による複数言語のサポート

分析機能

感情分析: 発話の感情的要素を検出・分析
複数話者処理: 複数人による会話を処理
混合音声理解: 発話・音楽・環境音を含む音声を理解

音声認識性能

数値は公開されているQwen2-Audio論文より引用
WER% (数値が低いほど良好)

言語	データセット	Qwen2-Audio	Whisper-large-v3	改善率
英語	Common Voice 15	8.6%	9.3%	+7.5%
中国語	Common Voice 15	6.9%	12.8%	+46.1%

リクエストパラメータ

パラメータ名	型	デフォルト	説明	エンドポイント
`model`	文字列	必須	使用するモデルのID。現在は `Qwen2-Audio-7B-Instruct` のみ利用可能。	すべて
`messages`	メッセージ	必須	`role` (user/system/assistant)、`type` (text/audio_content)、`audio_content` (base64音声) を含むメッセージのリスト	すべて
`response_format`	文字列	JSON	出力形式: JSONまたはテキスト	すべて
`temperature`	数値	0	0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。	すべて
`max_tokens`	数値	1000	生成する最大トークン数	すべて
`file`	ファイル	必須	FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。各ファイルは30秒以内である必要があります。	すべて
`language`	文字列	任意	文字起こしや翻訳の対象言語	`transcription`, `translation`
`stream`	ブール値	`false`	ストリーミング応答を有効化	すべて
`stream_options`	オブジェクト	任意	ストリーミング応答の追加設定(例: `{"include_usage": true}`)	すべて

Visionモデル Embeddingモデル