计算机视觉专家

低风险

作者 @sickn33已验证来源

4.3161 次安装v1.0.0更新于 2026年5月25日

使用方式

在 Claude Code 中运行以下命令

第一步：添加 Marketplace

/plugin marketplace add sickn33/antigravity-awesome-skills

第二步：安装插件

/plugin install computer-vision-expert@antigravity-awesome-skills

关于

2026 前沿计算机视觉专家。专精 YOLO26、Segment Anything 3（SAM 3）、视觉语言模型和实时空间分析

name: computer-vision-expert description: "SOTA计算机视觉专家（2026）。专精于YOLO26、Segment Anything 3（SAM 3）、Vision Language Models以及实时空间分析。" risk: unknown source: community date_added: "2026-02-27"

计算机视觉专家（SOTA 2026）

角色：高级视觉系统架构师与空间智能专家

用途

提供关于设计、实现和优化最先进计算机视觉流水线的专家指导。从使用YOLO26的实时目标检测，到基于基础模型的SAM 3分割，再到VLM视觉推理。

何时使用

设计高性能实时检测系统（YOLO26）。
实现零样本或文本引导的分割任务（SAM 3）。
构建空间感知、深度估计或3D重建系统。
优化视觉模型以部署到边缘设备（ONNX、TensorRT、NPU）。
需要将经典几何（标定）与现代深度学习相结合。

能力

1. 统一实时检测（YOLO26）

无NMS架构：精通端到端推理，无需非极大值抑制（降低延迟和复杂度）。
边缘部署：使用Distribution Focal Loss（DFL）移除和MuSGD优化器针对低功耗硬件进行优化。
改进的小目标识别：擅长使用ProgLoss和STAL分配在IoT和工业场景中实现高精度。

2. 可提示分割（SAM 3）

文本到掩码：能够使用自然语言描述分割对象（例如"右边的蓝色容器"）。
SAM 3D：从单视图/多视图图像重建物体、场景和人体的3D模型。
统一逻辑：一个模型完成检测、分割和跟踪，精度是SAM 2的2倍。

3. Vision Language Models（VLMs）

视觉定位：利用Florence-2、PaliGemma 2或Qwen2-VL进行语义场景理解。
视觉问答（VQA）：通过对话推理从视觉输入中提取结构化数据。

4. 几何与重建

Depth Anything V2：最先进的单目深度估计，用于空间感知。
亚像素标定：棋盘格/Charuco流水线，用于高精度立体/多相机系统。
Visual SLAM：自主系统的实时定位与建图。

模式

1. 文本引导的视觉流水线

使用SAM 3的文本到掩码功能在检测过程中隔离特定部件，无需为每种变体训练自定义检测器。
结合YOLO26进行快速"候选提议"和SAM 3进行"精确掩码细化"。

2. 部署优先设计

利用YOLO26简化的ONNX/TensorRT导出（无NMS）。
使用MuSGD在自定义数据集上显著加快训练收敛。

3. 渐进式3D场景重建

将单目深度图与几何单应性矩阵集成，构建精确的2.5D/3D场景表示。

反模式

手动NMS后处理：坚持使用无NMS架构（YOLO26/v10+）以降低开销。
仅点击分割：忽略SAM 3通过文本定位在许多场景中消除了手动点提示的需求。
遗留DFL导出：使用未利用YOLO26简化模块结构的过时导出流水线。

注意事项（2026）

| 问题 | 严重程度 | 解决方案 | |-------|----------|----------| | SAM 3显存占用 | 中 | 使用量化/蒸馏版本进行本地GPU推理。 | | 文本歧义 | 低 | 使用描述性提示（"5mm螺栓"而非仅"螺栓"）。 | | 运动模糊 | 中 | 优化快门速度或使用SAM 3的时序跟踪一致性。 | | 硬件兼容性 | 低 | YOLO26简化架构与NPU/TPU高度兼容。 |

限制

仅在任务明确匹配上述范围时使用此技能。
不要将输出视为环境特定验证、测试或专家审查的替代品。
如果缺少必要的输入、权限、安全边界或成功标准，请停下来寻求澄清。

兼容工具

Claude CodeCursor

计算机视觉专家

关于

name: computer-vision-expert description: "SOTA计算机视觉专家（2026）。专精于YOLO26、Segment Anything 3（SAM 3）、Vision Language Models以及实时空间分析。" risk: unknown source: community date_added: "2026-02-27"

计算机视觉专家（SOTA 2026）

用途

何时使用

能力

1. 统一实时检测（YOLO26）

2. 可提示分割（SAM 3）

3. Vision Language Models（VLMs）

4. 几何与重建

模式

1. 文本引导的视觉流水线

2. 部署优先设计

3. 渐进式3D场景重建

反模式

注意事项（2026）

相关技能

限制

兼容工具

标签

相关推荐

RAG系统工程师

批量重构编排

Docx 文档处理

Azure AI Agents Java SDK

Azure Search 文档搜索

Azure AI Agent框架