Appearance
视觉能力
Claude 3 系列模型具有新的视觉能力,可以理解和分析图像,为多模态交互开启了令人兴奋的可能性。
本指南介绍如何在 Claude 中处理图像,包括最佳实践、代码示例以及需要注意的限制。
如何使用视觉能力
通过以下方式使用 Claude 的视觉能力:
- claude.ai。像上传文件一样上传图像,或直接将图像拖放到聊天窗口中。
- Console Workbench。如果您选择了支持图像的模型(仅限 Claude 3 模型),每个用户消息块的右上角都会出现添加图像的按钮。
- API 请求。请参阅本指南中的示例。
上传前须知
基础知识和限制
您可以在单个请求中包含多个图像(claude.ai 最多 20 张,API 请求最多 100 张)。Claude 在制定回应时会分析所有提供的图像。这对于比较或对比图像很有帮助。
如果您提交的图像大于 8000x8000 像素,将被拒绝。如果您在一个 API 请求中提交超过 20 张图像,此限制为 2000x2000 像素。
评估图像大小
为获得最佳性能,如果图像太大,我们建议在上传前调整图像大小。如果您的图像长边超过 1568 像素,或图像超过约 1,600 个 token,它将首先被缩放,同时保持宽高比,直到符合大小限制。
如果您的输入图像太大需要调整大小,它会增加首个 token 响应时间的延迟,而不会给您带来任何额外的模型性能。任何边长小于 200 像素的非常小的图像可能会降低性能。
TIP
为了改善首个 token 响应时间,我们建议将图像调整为不超过 1.15 百万像素(且两个维度都在 1568 像素以内)。
以下是我们的 API 接受的不会被调整大小的常见宽高比的最大图像尺寸表。使用 Claude 3.7 Sonnet 模型时,这些图像使用约 1,600 个 token,每 1000 张图像约 4.80 美元。
宽高比 | 图像尺寸 |
---|---|
1:1 | 1092x1092 px |
3:4 | 951x1268 px |
2:3 | 896x1344 px |
9:16 | 819x1456 px |
1:2 | 784x1568 px |
计算图像成本
您在请求中包含的每张图像都会计入您的 token 使用量。要计算大致成本,将估计的图像 token 数乘以您使用的模型的每 token 价格。
如果您的图像不需要调整大小,您可以通过以下算法估算使用的 token 数:token 数 = (宽度像素 x 高度像素)/750
以下是基于 Claude 3.7 Sonnet 每百万输入 token 3 美元的价格,在我们 API 的大小限制内不同图像尺寸的大致 token 化和成本示例:
图像尺寸 | token 数 | 每张图像成本 | 每 1000 张图像成本 |
---|---|---|---|
200x200 px(0.04 百万像素) | ~54 | ~$0.00016 | ~$0.16 |
1000x1000 px(1 百万像素) | ~1334 | ~$0.004 | ~$4.00 |
1092x1092 px(1.19 百万像素) | ~1590 | ~$0.0048 | ~$4.80 |
确保图像质量
向 Claude 提供图像时,请注意以下几点以获得最佳效果:
- 图像格式:使用支持的图像格式:JPEG、PNG、GIF 或 WebP。
- 图像清晰度:确保图像清晰,不要太模糊或像素化。
- 文本:如果图像包含重要文本,确保文本清晰可读且不要太小。避免为了放大文本而裁剪掉关键的视觉上下文。
提示示例
许多适用于基于文本的 Claude 交互的提示技巧也可以应用于基于图像的提示。
TIP
这些示例展示了涉及图像的最佳实践提示结构。
就像文档查询位置一样,图像放在文本之前效果最好。图像放在文本之后或与文本交错仍然表现良好,但如果您的用例允许,我们建议采用图像在前、文本在后的结构。
### 关于提示示例
以下示例演示了如何使用各种编程语言和方法使用 Claude 的视觉能力。您可以通过两种方式向 Claude 提供图像:
- 作为 image 内容块中的 base64 编码图像
- 作为在线托管图像的 URL 引用
限制
虽然 Claude 的图像理解能力处于前沿水平,但仍有一些需要注意的限制:
- 人物识别:Claude 不能用于识别(即命名)图像中的人物,并且会拒绝这样做。
- 准确性:Claude 在解释低质量、旋转或非常小的图像(小于 200 像素)时可能会产生幻觉或出错。
- 空间推理:Claude 的空间推理能力有限。它可能难以处理需要精确定位或布局的任务,如读取模拟时钟表面或描述棋子的确切位置。
- 计数:Claude 可以给出图像中物体的大致数量,但可能并不总是精确准确,尤其是对于大量小物体。
- AI 生成的图像:Claude 不知道图像是否是 AI 生成的,如果被问到可能会回答错误。不要依赖它来检测假图片或合成图像。
- 不当内容:Claude 不会处理违反我们可接受使用政策的不当或露骨图像。
- 医疗应用:虽然 Claude 可以分析一般医学图像,但它不是为解释复杂的诊断扫描(如 CT 或 MRI)而设计的。Claude 的输出不应被视为专业医疗建议或诊断的替代品。
始终仔细审查和验证 Claude 的图像解释,尤其是对于高风险用例。在没有人工监督的情况下,不要使用 Claude 进行需要完美精确度或敏感图像分析的任务。
常见问题
Claude 支持哪些图像文件类型?
Claude 目前支持 JPEG、PNG、GIF 和 WebP 图像格式,具体包括:
- image/jpeg
- image/png
- image/gif
- image/webp
Claude 能读取图像 URL 吗?
是的,Claude 现在可以通过 API 中的 URL 图像源块处理来自 URL 的图像。 只需在 API 请求中使用”url”源类型而不是”base64”即可。 示例:
json
{
"type": "image",
"source": {
"type": "url",
"url": "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
}
}
上传的图像文件大小有限制吗?
是的,有限制:
- API:每张图像最大 5MB
- claude.ai:每张图像最大 10MB
使用我们的 API 时,超过这些限制的图像将被拒绝并返回错误。
一个请求中可以包含多少张图像?
图像限制为:
- Messages API:每个请求最多 100 张图像
- claude.ai:每次对话最多 20 张图像
超过这些限制的请求将被拒绝并返回错误。
Claude 会读取图像元数据吗?
不会,Claude 不会解析或接收传递给它的图像的任何元数据。
我可以删除已上传的图像吗?
不能。图像上传是临时的,不会在 API 请求持续时间之外存储。上传的图像在处理后会自动删除。
在哪里可以找到关于图像上传数据隐私的详细信息?
请参阅我们的隐私政策页面,了解我们如何处理上传的图像和其他数据。我们不会使用上传的图像来训练我们的模型。
如果 Claude 的图像解释似乎不正确怎么办?
如果 Claude 的图像解释似乎不正确:
- 确保图像清晰、高质量且方向正确。
- 尝试提示工程技巧来改善结果。
- 如果问题持续存在,在 claude.ai 中标记输出(点赞/踩)或联系我们的支持团队。
您的反馈有助于我们改进!
Claude 能生成或编辑图像吗?
不能,Claude 只是一个图像理解模型。它可以解释和分析图像,但不能生成、制作、编辑、操作或创建图像。