whisper-large-v3
パラメータ名 | 型 | デフォルト | 説明 | エンドポイント |
---|---|---|---|---|
model | 文字列 | 必須 | 使用するモデルのID | transcriptions , translations |
prompt | 文字 | 任意 | 文字起こしのスタイルや語彙に影響を与えるプロンプト (例: 「間やためらいも含めて正確に文字起こしをしてください。」) | transcriptions , translations |
temperature | 数値 | 0 | 0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。 | transcriptions , translations |
file | ファイル | 必須 | FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。最大25MB | transcriptions , translations |
response format | 文字 | JSON | 出力形式: JSONまたはテキスト | transcriptions , translations |
language | 文字列 | 任意 | 入力音声の言語 (ISO-639-1形式、例: en)。指定すると精度とレイテンシが向上。 | transcriptions |
qwen2-audio-7b-instruct
messages
パラメータを参照。
言語 | データセット | Qwen2-Audio | Whisper-large-v3 | 改善率 |
---|---|---|---|---|
英語 | Common Voice 15 | 8.6% | 9.3% | +7.5% |
中国語 | Common Voice 15 | 6.9% | 12.8% | +46.1% |
パラメータ名 | 型 | デフォルト | 説明 | エンドポイント |
---|---|---|---|---|
model | 文字列 | 必須 | 使用するモデルのID。現在は Qwen2-Audio-7B-Instruct のみ利用可能。 | すべて |
messages | メッセージ | 必須 | role (user/system/assistant)、type (text/audio_content)、audio_content (base64音声) を含むメッセージのリスト | すべて |
response_format | 文字列 | JSON | 出力形式: JSONまたはテキスト | すべて |
temperature | 数値 | 0 | 0から1の範囲でサンプリング温度を指定。高い値でランダム性を増し、低い値でより焦点を絞った出力を生成。 | すべて |
max_tokens | 数値 | 1000 | 生成する最大トークン数 | すべて |
file | ファイル | 必須 | FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、WebM形式の音声ファイル。各ファイルは30秒以内である必要があります。 | すべて |
language | 文字列 | 任意 | 文字起こしや翻訳の対象言語 | transcription , translation |
stream | ブール値 | false | ストリーミング応答を有効化 | すべて |
stream_options | オブジェクト | 任意 | ストリーミング応答の追加設定(例: {"include_usage": true} ) | すべて |