音声コンテンツを指定された言語に翻訳します。

エンドポイント

POST https://api.sambanova.ai/v1/audio/translations

リクエストパラメータ

以下の表は、音声翻訳リクエストに必要なパラメータ、パラメータタイプ、説明、およびデフォルト値を示しています。

Whisper Large v3

パラメータタイプ説明デフォルト
modelString使用するモデルのID。必須
promptMessage文字起こしのスタイルや語彙に影響を与えるプロンプト。例:「間や躊躇を含めて、注意深く文字起こしをしてください。」任意
temperatureString0から1の間のサンプリング温度。高い値はランダム性を増加させ、低い値はより焦点を絞った出力を生成します。0
fileFileFLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、またはWebM形式の音声ファイル。ファイルサイズの制限は25MBです。必須
response formatString出力形式:JSONまたはテキスト。json

Qwen2-Audio-7B-Instruct

パラメータタイプ説明デフォルト
modelString使用するモデルのID。必須
messagesMessageロール(user/system/assistant)、タイプ(text/audio_content)、およびaudio_content(base64音声コンテンツ)を含むメッセージのリスト。必須
response_formatString出力形式はjsonまたはテキストです。json
temperatureNumber0から1の間のサンプリング温度。高い値(例:0.8)はランダム性を増加させ、低い値(例:0.2)は出力をより焦点を絞ったものにします。0
max_tokensNumber生成するトークンの最大数。1000
fileFileFLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、またはWebM形式の音声ファイル。各単一ファイルは30秒を超えてはいけません。必須
languageString文字起こしまたは翻訳の対象言語。任意
streamBooleanストリーミングレスポンスを有効にします。false
stream_optionsObject追加のストリーミング設定(例:{“include_usage”: true})。任意

リクエスト形式

このセクションでは、異なる方法を使用してリクエストを送信する例を提供します。

CURL

curl --location 'https://api.sambanova.ai/v1/audio/translations' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--form 'model="Qwen2-Audio-7B-Instruct"' \
--form 'language="spanish"' \
--form 'response_format="json"' \
--form 'temperature="0.01"' \
--form 'file=@"/path/to/audio/file.mp3"' \
--form 'stream="true"'

Python

import requests

def translate_audio(audio_file_path, api_key, target_language="spanish"):
      headers = {"Authorization": f"Bearer {api_key}"}

      files = {'file': open(audio_file_path, 'rb')}
      
      data = {
          'model': 'Qwen2-Audio-7B-Instruct',
          'language': target_language,
          'response_format': 'json',
          'temperature': 0.01,
          'stream': True  # Optional
      }
      response = requests.post(
          "https://api.sambanova.ai/v1/audio/translations",
          headers=headers,
          files=files,
          data=data
      )
      return response.json()

レスポンス形式

APIは選択された形式で入力音声の翻訳を返します。

JSON

{
    "text": "Es un efecto de sonido de una campana sonando, específicamente una campana de iglesia."
}

テキスト

Es un efecto de sonido de una campana sonando, específicamente una campana de iglesia.