文字起こし

指定された言語で音声をテキストに変換します。

エンドポイント

POST https://api.sambanova.ai/v1/audio/transcriptions

リクエストパラメータ

以下の表は、文字起こしリクエストに必要なパラメータ、パラメータの型、説明、およびデフォルト値を示しています。

Whisper Large v3

パラメータ	型	説明	デフォルト
`model`	String	使用するモデルのID。	必須
`prompt`	String	文字起こしのスタイルや語彙に影響を与えるプロンプト。例：「間や躊躇を含めて、注意深く文字起こしをしてください。」	オプション
`temperature`	Number	0から1の間のサンプリング温度。高い値（例：0.8）はランダム性を増加させ、低い値（例：0.2）は出力をより焦点を絞ったものにします。	0
`file`	File	FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、またはWebM形式の音声ファイル。ファイルサイズ制限は25MBです。	必須
`response_format`	String	出力形式：JSONまたはテキスト。	`json`
`language`	String	入力音声の言語。ISO-639-1形式（例：en）で入力言語を指定すると、精度とレイテンシーが向上します。	必須

Qwen2-Audio-7B-Instruct

パラメータ	型	説明	デフォルト
`model`	String	使用するモデルのID。	必須
`messages`	Message	ロール（ユーザー/システム/アシスタント）、タイプ（テキスト/音声コンテンツ）、および音声コンテンツ（base64音声コンテンツ）を含むメッセージのリスト。	必須
`response_format`	文字列	出力フォーマットはjsonまたはtextのいずれかです。	`json`
`temperature`	数値	0から1の間のサンプリング温度。高い値（例：0.8）はランダム性を増加させ、低い値（例：0.2）は出力をより焦点を絞ったものにします。	0
`max_tokens`	数値	生成するトークンの最大数。	1000
`file`	ファイル	FLAC、MP3、MP4、MPEG、MPGA、M4A、Ogg、WAV、またはWebM形式の音声ファイル。各単一ファイルは30秒を超えてはいけません。	必須
`language`	文字列	文字起こしまたは翻訳の対象言語。	オプション
`stream`	真偽値	ストリーミングレスポンスを有効にします。	false
`stream_options`	オブジェクト	追加のストリーミング設定（例：{“include_usage”: true}）。	オプション

リクエストフォーマット

CURL

このセクションでは、異なる方法を使用してリクエストを送信する方法の例を提供します。

curl --location 'https://api.sambanova.ai/v1/audio/transcriptions' \
--header 'Authorization: Bearer YOUR_API_KEY' \
--form 'model="Qwen2-Audio-7B-Instruct"' \
--form 'language="spanish"' \
--form 'response_format="json"' \
--form 'temperature="0.01"' \
--form 'file=@"/path/to/audio/file.mp3"' \
--form 'stream="true"'

Python

import requests

def transcribe_audio(audio_file_path, api_key, language="english"):
  headers = {"Authorization": f"Bearer {api_key}"}

  files = {"file": open(audio_file_path, "rb")}

  data = {
      "model": "Qwen2-Audio-7B-Instruct",
      "language": language,
      "response_format": "json",
      "temperature": 0.01,
      "stream": true,  # Optional
  }

  response = requests.post(
      "https://api.sambanova.ai/v1/audio/transcriptions",
      headers=headers,
      files=files,
      data=data,
  )

  return response.json()

レスポンスフォーマット

APIは選択されたフォーマットで入力音声の翻訳を返します。

JSON

{
    "text": "It's a sound effect of a bell chiming, specifically a church bell."
}

テキスト

It's a sound effect of a bell chiming, specifically a church bell.

Endpoints

Using the API

エンドポイント

リクエストパラメータ

Whisper Large v3

Qwen2-Audio-7B-Instruct

リクエストフォーマット

CURL

Python

レスポンスフォーマット

JSON

テキスト

Endpoints

Using the API

​エンドポイント

​リクエストパラメータ

​Whisper Large v3

​Qwen2-Audio-7B-Instruct

​リクエストフォーマット

​CURL

​Python

​レスポンスフォーマット

​JSON

​テキスト

エンドポイント

リクエストパラメータ

Whisper Large v3

Qwen2-Audio-7B-Instruct

リクエストフォーマット

CURL

Python

レスポンスフォーマット

JSON

テキスト