SambaNova Cloud Vision APIは、モデルがテキストと共に画像入力を処理することを可能にします。
詳細についてはVision機能のドキュメントをご覧ください。

エンドポイント

テキストと画像データの両方を含む入力に対して、モデルのレスポンスを作成します。
POST https://api.sambanova.ai/v1/chat/completions

リクエストパラメータ

以下の表は、ビジョンリクエストを行うために必要なパラメータ、パラメータタイプ、説明、およびデフォルト値を概説しています。
パラメータタイプ説明必須
model文字列クエリを実行する選択されたモデルのID。はい
messagesオブジェクトの配列会話を形成するメッセージのリスト。各メッセージにはテキストと画像の入力の両方を含めることができます。詳細については画像入力フォーマットを参照してください。はい
max_tokens整数生成するトークンの最大数。入力と生成されたトークンの合計の長さは、モデルのコンテキスト長によって制限されます。デフォルトは1000です。いいえ
temperature浮動小数点数レスポンスのランダム性を制御します。値は0から1の間で設定できます。デフォルトは0です。いいえ
top_p浮動小数点数累積確率に基づいて、各予測トークンの選択肢の数を調整します。値は0から1の間で設定できます。デフォルトは0.9です。いいえ
top_k整数次に予測される単語またはトークンの選択肢の数を制限します。値は1から100の間で設定できます。デフォルトは50です。いいえ
stop文字列または配列APIがそれ以上のトークンの生成を停止する最大4つのシーケンス。デフォルトはnullです。いいえ
stream真偽値trueの場合、部分的なメッセージデルタが送信されます。デフォルトはfalseです。いいえ
stream_optionsオブジェクトストリーミングレスポンスのオプション。stream: trueの場合のみ設定します。利用可能なオプション:include_usage(真偽値)。デフォルトはnullです。いいえ

画像入力のメッセージフォーマット

  • 1リクエストにつき1画像 - 各リクエストは1つの画像入力のみをサポートします。複数の画像の場合は、個別のリクエストを送信してください。
  • エンコーディング要件 - 画像がbase64エンコードされ、サイズ制限内であることを確認してください。無効なエンコーディングはエラーの原因となります。詳細は当社のAPIエラーページをご覧ください。
パラメータ説明必須
typeStringコンテンツの種類を示します。画像の場合は、image_urlに設定します。はい
image_url.urlStringbase64エンコードされた画像文字列。フォーマット: data:<image_format>;base64,<data>に従う必要があります。はい

リクエスト例

この例では非推奨のモデル、Llama-3.2-11B-Vision-Instructを使用しています。
{
  "model": "Llama-3.2-11B-Vision-Instruct",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What is happening in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/jpeg;base64,<base64_encoded_image>"
          }
        }
      ]
    }
  ],
  "max_tokens": 300,
  "temperature": 0.7,
  "top_p": 0.9,
  "top_k": 50
}

レスポンス

APIは提供された入力に対するモデルの応答を含むチャット完了オブジェクトを返します。
このサンプルでは、入力された画像は自然の風景で、応答は選択した画像を反映します。

レスポンス例

この例では非推奨のモデル、Llama-3.2-11B-Vision-Instructを使用しています。
{
  "id": "chatcmpl-456",
  "object": "chat.completion",
  "created": 1677652288,
  "model": "Llama-3.2-11B-Vision-Instruct",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "This image shows a sunset over a mountain range with a lake in the foreground. The scene is serene and filled with vibrant colors."
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 50,
    "completion_tokens": 32,
    "total_tokens": 82
  }
}