视觉能力

Claude 3 系列模型具有新的视觉能力，可以理解和分析图像，为多模态交互开启了令人兴奋的可能性。

本指南介绍如何在 Claude 中处理图像，包括最佳实践、代码示例以及需要注意的限制。

如何使用视觉能力

通过以下方式使用 Claude 的视觉能力：

claude.ai。像上传文件一样上传图像，或直接将图像拖放到聊天窗口中。
Console Workbench。如果您选择了支持图像的模型（仅限 Claude 3 模型），每个用户消息块的右上角都会出现添加图像的按钮。
API 请求。请参阅本指南中的示例。

上传前须知

基础知识和限制

您可以在单个请求中包含多个图像（claude.ai 最多 20 张，API 请求最多 100 张）。Claude 在制定回应时会分析所有提供的图像。这对于比较或对比图像很有帮助。

如果您提交的图像大于 8000x8000 像素，将被拒绝。如果您在一个 API 请求中提交超过 20 张图像，此限制为 2000x2000 像素。

评估图像大小

为获得最佳性能，如果图像太大，我们建议在上传前调整图像大小。如果您的图像长边超过 1568 像素，或图像超过约 1,600 个 token，它将首先被缩放，同时保持宽高比，直到符合大小限制。

如果您的输入图像太大需要调整大小，它会增加首个 token 响应时间的延迟，而不会给您带来任何额外的模型性能。任何边长小于 200 像素的非常小的图像可能会降低性能。

TIP

为了改善首个 token 响应时间，我们建议将图像调整为不超过 1.15 百万像素（且两个维度都在 1568 像素以内）。

以下是我们的 API 接受的不会被调整大小的常见宽高比的最大图像尺寸表。使用 Claude 3.7 Sonnet 模型时，这些图像使用约 1,600 个 token，每 1000 张图像约 4.80 美元。

宽高比	图像尺寸
1:1	1092x1092 px
3:4	951x1268 px
2:3	896x1344 px
9:16	819x1456 px
1:2	784x1568 px

计算图像成本

您在请求中包含的每张图像都会计入您的 token 使用量。要计算大致成本，将估计的图像 token 数乘以您使用的模型的每 token 价格。

如果您的图像不需要调整大小，您可以通过以下算法估算使用的 token 数：token 数 = (宽度像素 x 高度像素)/750

以下是基于 Claude 3.7 Sonnet 每百万输入 token 3 美元的价格，在我们 API 的大小限制内不同图像尺寸的大致 token 化和成本示例：

图像尺寸	token 数	每张图像成本	每 1000 张图像成本
200x200 px(0.04 百万像素)	~54	~$0.00016	~$0.16
1000x1000 px(1 百万像素)	~1334	~$0.004	~$4.00
1092x1092 px(1.19 百万像素)	~1590	~$0.0048	~$4.80

确保图像质量

向 Claude 提供图像时，请注意以下几点以获得最佳效果：

图像格式：使用支持的图像格式：JPEG、PNG、GIF 或 WebP。
图像清晰度：确保图像清晰，不要太模糊或像素化。
文本：如果图像包含重要文本，确保文本清晰可读且不要太小。避免为了放大文本而裁剪掉关键的视觉上下文。

提示示例

许多适用于基于文本的 Claude 交互的提示技巧也可以应用于基于图像的提示。

TIP

这些示例展示了涉及图像的最佳实践提示结构。

就像文档查询位置一样，图像放在文本之前效果最好。图像放在文本之后或与文本交错仍然表现良好，但如果您的用例允许，我们建议采用图像在前、文本在后的结构。

关于提示示例

以下示例演示了如何使用各种编程语言和方法使用 Claude 的视觉能力。您可以通过两种方式向 Claude 提供图像：

作为 image 内容块中的 base64 编码图像
作为在线托管图像的 URL 引用

限制

虽然 Claude 的图像理解能力处于前沿水平，但仍有一些需要注意的限制：

人物识别：Claude 不能用于识别（即命名）图像中的人物，并且会拒绝这样做。
准确性：Claude 在解释低质量、旋转或非常小的图像（小于 200 像素）时可能会产生幻觉或出错。
空间推理：Claude 的空间推理能力有限。它可能难以处理需要精确定位或布局的任务，如读取模拟时钟表面或描述棋子的确切位置。
计数：Claude 可以给出图像中物体的大致数量，但可能并不总是精确准确，尤其是对于大量小物体。
AI 生成的图像：Claude 不知道图像是否是 AI 生成的，如果被问到可能会回答错误。不要依赖它来检测假图片或合成图像。
不当内容：Claude 不会处理违反我们可接受使用政策的不当或露骨图像。
医疗应用：虽然 Claude 可以分析一般医学图像，但它不是为解释复杂的诊断扫描（如 CT 或 MRI）而设计的。Claude 的输出不应被视为专业医疗建议或诊断的替代品。

始终仔细审查和验证 Claude 的图像解释，尤其是对于高风险用例。在没有人工监督的情况下，不要使用 Claude 进行需要完美精确度或敏感图像分析的任务。

常见问题

Claude 支持哪些图像文件类型？

Claude 目前支持 JPEG、PNG、GIF 和 WebP 图像格式，具体包括：

image/jpeg
image/png
image/gif
image/webp

Claude 能读取图像 URL 吗？

是的，Claude 现在可以通过 API 中的 URL 图像源块处理来自 URL 的图像。只需在 API 请求中使用”url”源类型而不是”base64”即可。示例：

json

{
  "type": "image",
  "source": {
    "type": "url",
    "url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
  }
}

上传的图像文件大小有限制吗？

是的，有限制：

API：每张图像最大 5MB
claude.ai：每张图像最大 10MB

使用我们的 API 时，超过这些限制的图像将被拒绝并返回错误。

一个请求中可以包含多少张图像？

图像限制为：

Messages API：每个请求最多 100 张图像
claude.ai：每次对话最多 20 张图像

超过这些限制的请求将被拒绝并返回错误。

Claude 会读取图像元数据吗？

不会，Claude 不会解析或接收传递给它的图像的任何元数据。

我可以删除已上传的图像吗？

不能。图像上传是临时的，不会在 API 请求持续时间之外存储。上传的图像在处理后会自动删除。

在哪里可以找到关于图像上传数据隐私的详细信息？

请参阅我们的隐私政策页面，了解我们如何处理上传的图像和其他数据。我们不会使用上传的图像来训练我们的模型。

如果 Claude 的图像解释似乎不正确怎么办？

如果 Claude 的图像解释似乎不正确：

确保图像清晰、高质量且方向正确。
尝试提示工程技巧来改善结果。
如果问题持续存在，在 claude.ai 中标记输出（点赞/踩）或联系我们的支持团队。

您的反馈有助于我们改进！

Claude 能生成或编辑图像吗？

不能，Claude 只是一个图像理解模型。它可以解释和分析图像，但不能生成、制作、编辑、操作或创建图像。

视觉能力 ​

如何使用视觉能力 ​

上传前须知 ​

基础知识和限制 ​

评估图像大小 ​

计算图像成本 ​

确保图像质量 ​

提示示例 ​

关于提示示例 ​

限制 ​

常见问题 ​