指定された言語で音声をテキストに変換します。

エンドポイント

POST https://api.sambanova.ai/v1/audio/transcriptions

リクエストパラメータ

以下の表は、文字起こしリクエストに必要なパラメータ、パラメータの型、説明、およびデフォルト値を示しています。

Whisper Large v3

パラメータ説明デフォルト
modelString使用するモデルのID。必須
promptString文字起こしのスタイルや語彙に影響を与えるプロンプト。例:「間や躊躇を含めて、注意深く文字起こしをしてください。」オプション
temperatureNumber0から1の間のサンプリング温度。高い値(例:0.8)はランダム性を増加させ、低い値(例:0.2)は出力をより焦点を絞ったものにします。0
fileFileFLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、またはWebM形式の音声ファイル。ファイルサイズ制限は25MBです。必須
response_formatString出力形式:JSONまたはテキスト。json
languageString入力音声の言語。ISO-639-1形式(例:en)で入力言語を指定すると、精度とレイテンシーが向上します。必須

Qwen2-Audio-7B-Instruct

パラメータ説明デフォルト
modelString使用するモデルのID。必須
messagesMessageロール(ユーザー/システム/アシスタント)、タイプ(テキスト/音声コンテンツ)、および音声コンテンツ(base64音声コンテンツ)を含むメッセージのリスト。必須
response_format文字列出力フォーマットはjsonまたはtextのいずれかです。json
temperature数値0から1の間のサンプリング温度。高い値(例:0.8)はランダム性を増加させ、低い値(例:0.2)は出力をより焦点を絞ったものにします。0
max_tokens数値生成するトークンの最大数。1000
fileファイルFLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、またはWebM形式の音声ファイル。各単一ファイルは30秒を超えてはいけません。必須
language文字列文字起こしまたは翻訳の対象言語。オプション
stream真偽値ストリーミングレスポンスを有効にします。false
stream_optionsオブジェクト追加のストリーミング設定(例:{“include_usage”: true})。オプション

リクエストフォーマット

CURL

このセクションでは、異なる方法を使用してリクエストを送信する方法の例を提供します。
curl --location 'https://api.sambanova.ai/v1/audio/transcriptions' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--form 'model="Qwen2-Audio-7B-Instruct"' \
--form 'language="spanish"' \
--form 'response_format="json"' \
--form 'temperature="0.01"' \
--form 'file=@"/path/to/audio/file.mp3"' \
--form 'stream="true"'

Python

import requests

def transcribe_audio(audio_file_path, api_key, language="english"):
  headers = {"Authorization": f"Bearer {api_key}"}

  files = {"file": open(audio_file_path, "rb")}

  data = {
      "model": "Qwen2-Audio-7B-Instruct",
      "language": language,
      "response_format": "json",
      "temperature": 0.01,
      "stream": true,  # Optional
  }

  response = requests.post(
      "https://api.sambanova.ai/v1/audio/transcriptions",
      headers=headers,
      files=files,
      data=data,
  )

  return response.json()

レスポンスフォーマット

APIは選択されたフォーマットで入力音声の翻訳を返します。

JSON

{
    "text": "It's a sound effect of a bell chiming, specifically a church bell."
}

テキスト

It's a sound effect of a bell chiming, specifically a church bell.