Hugging Face评估管理

低风险

作者 @sickn33已验证来源

4.1136 次安装v1.0.0更新于 2026年5月25日

使用方式

在 Claude Code 中运行以下命令

第一步：添加 Marketplace

/plugin marketplace add sickn33/antigravity-awesome-skills

第二步：安装插件

/plugin install antigravity-awesome-skills@antigravity-awesome-skills

关于

在 Hugging Face 模型卡中添加和管理评估结果。支持从 README 提取评估表、从 Artificial Analysis API 导入分数，以及使用 vLLM/lighteval 运行自定义模型评估

name: hugging-face-evaluation description: 在 Hugging Face 模型卡中添加和管理评估结果。支持从 README 内容中提取评估表格、从 Artificial Analysis API 导入分数，以及使用 vLLM/lighteval 运行自定义模型评估。兼容 model-index 元数据格式。 risk: unknown source: community

概述

此技能提供工具，用于向 Hugging Face 模型卡添加结构化评估结果。支持多种添加评估数据的方法：

从 README 内容中提取现有评估表格
从 Artificial Analysis 导入基准分数
使用 vLLM 或 accelerate 后端（lighteval/inspect-ai）运行自定义模型评估

何时使用

需要向 Hugging Face 模型卡添加结构化评估结果时。
想要导入基准数据或使用 vLLM、lighteval 或 inspect-ai 运行自定义评估时。
为模型发布准备兼容排行榜的 model-index 元数据时。

与 HF 生态系统的集成

Model Cards：更新 model-index 元数据以集成排行榜
Artificial Analysis：直接 API 集成用于基准导入
Papers with Code：兼容其 model-index 规范
Jobs：通过 uv 集成直接在 Hugging Face Jobs 上运行评估
vLLM：用于自定义模型评估的高效 GPU 推理
lighteval：HuggingFace 的评估库，支持 vLLM/accelerate 后端
inspect-ai：英国 AI 安全研究所的评估框架

版本

1.3.0

依赖

核心依赖

huggingface_hub>=0.26.0
markdown-it-py>=3.0.0
python-dotenv>=1.2.1
pyyaml>=6.0.3
requests>=2.32.5
re（内置）

推理提供商评估

inspect-ai>=0.3.0
inspect-evals
openai

vLLM 自定义模型评估（需要 GPU）

lighteval[accelerate,vllm]>=0.6.0
vllm>=0.4.0
torch>=2.0.0
transformers>=4.40.0
accelerate>=0.30.0

注意：使用 uv run 时，vLLM 依赖通过 PEP 723 脚本头自动安装。

重要：使用此技能

关键：创建新 PR 前检查现有 PR

在使用 --create-pr 创建任何 Pull Request 之前，你必须检查现有的开放 PR：

uv run scripts/evaluation_manager.py get-prs --repo-id "username/model-name"

如果存在开放的 PR：

不要创建新 PR - 这会给维护者造成重复工作
警告用户已存在开放的 PR
向用户展示现有 PR 的 URL 以便他们审查
仅在用户明确确认要创建另一个 PR 时才继续

这可以防止向模型仓库发送重复的评估 PR。

所有路径相对于包含此 SKILL.md 文件的目录。 运行任何脚本前，先 cd 到该目录或使用完整路径。

使用 --help 获取最新工作流指导。 支持纯 Python 或 uv run：

uv run scripts/evaluation_manager.py --help
uv run scripts/evaluation_manager.py inspect-tables --help
uv run scripts/evaluation_manager.py extract-readme --help

关键工作流（与 CLI 帮助匹配）：

get-prs → 首先检查现有的开放 PR
inspect-tables → 查找表格编号/列
extract-readme --table N → 默认打印 YAML
添加 --apply（推送）或 --create-pr 来写入更改

核心功能

1. 检查和提取 README 中的评估表格

检查表格：使用 inspect-tables 查看 README 中所有表格的结构、列和示例行
解析 Markdown 表格：使用 markdown-it-py 精确解析（忽略代码块和示例）
表格选择：使用 --table N 从特定表格提取（存在多个表格时必需）
格式检测：识别常见格式（基准作为行、列或包含多个模型的比较表）
列匹配：自动识别模型列/行；优先使用 --model-column-index（来自 inspect 输出的索引）。仅在精确匹配列标题文本时使用 --model-name-override。
YAML 生成：将选定表格转换为 model-index YAML 格式
任务类型：--task-type 设置 model-index 输出中的 task.type 字段（例如 text-generation、summarization）

2. 从 Artificial Analysis 导入

API 集成：直接从 Artificial Analysis 获取基准分数
自动格式化：将 API 响应转换为 model-index 格式
元数据保留：维护来源归属和 URL
PR 创建：自动创建包含评估更新的 Pull Request

3. Model-Index 管理

YAML 生成：创建格式正确的 model-index 条目
合并支持：向现有模型卡添加评估而不覆盖
验证：确保符合 Papers with Code 规范
批量操作：高效处理多个模型

4. 在 HF Jobs 上运行评估（推理提供商）

**Ins

兼容工具

Claude CodeCursor

Hugging Face评估管理

关于

概述

何时使用

与 HF 生态系统的集成

版本

依赖

核心依赖

推理提供商评估

vLLM 自定义模型评估（需要 GPU）

重要：使用此技能

关键：创建新 PR 前检查现有 PR

核心功能

1. 检查和提取 README 中的评估表格

2. 从 Artificial Analysis 导入

3. Model-Index 管理

4. 在 HF Jobs 上运行评估（推理提供商）

兼容工具

标签

相关推荐

RAG系统工程师

批量重构编排

Docx 文档处理

Azure AI Agents Java SDK

Azure Search 文档搜索

Azure AI Agent框架