
关于
在 Hugging Face 模型卡中添加和管理评估结果。支持从 README 提取评估表、从 Artificial Analysis API 导入分数,以及使用 vLLM/lighteval 运行自定义模型评估
name: hugging-face-evaluation description: 在 Hugging Face 模型卡中添加和管理评估结果。支持从 README 内容中提取评估表格、从 Artificial Analysis API 导入分数,以及使用 vLLM/lighteval 运行自定义模型评估。兼容 model-index 元数据格式。 risk: unknown source: community
概述
此技能提供工具,用于向 Hugging Face 模型卡添加结构化评估结果。支持多种添加评估数据的方法:
- 从 README 内容中提取现有评估表格
- 从 Artificial Analysis 导入基准分数
- 使用 vLLM 或 accelerate 后端(lighteval/inspect-ai)运行自定义模型评估
何时使用
- 需要向 Hugging Face 模型卡添加结构化评估结果时。
- 想要导入基准数据或使用 vLLM、lighteval 或 inspect-ai 运行自定义评估时。
- 为模型发布准备兼容排行榜的
model-index元数据时。
与 HF 生态系统的集成
- Model Cards:更新 model-index 元数据以集成排行榜
- Artificial Analysis:直接 API 集成用于基准导入
- Papers with Code:兼容其 model-index 规范
- Jobs:通过
uv集成直接在 Hugging Face Jobs 上运行评估 - vLLM:用于自定义模型评估的高效 GPU 推理
- lighteval:HuggingFace 的评估库,支持 vLLM/accelerate 后端
- inspect-ai:英国 AI 安全研究所的评估框架
版本
1.3.0
依赖
核心依赖
- huggingface_hub>=0.26.0
- markdown-it-py>=3.0.0
- python-dotenv>=1.2.1
- pyyaml>=6.0.3
- requests>=2.32.5
- re(内置)
推理提供商评估
- inspect-ai>=0.3.0
- inspect-evals
- openai
vLLM 自定义模型评估(需要 GPU)
- lighteval[accelerate,vllm]>=0.6.0
- vllm>=0.4.0
- torch>=2.0.0
- transformers>=4.40.0
- accelerate>=0.30.0
注意:使用 uv run 时,vLLM 依赖通过 PEP 723 脚本头自动安装。
重要:使用此技能
关键:创建新 PR 前检查现有 PR
在使用 --create-pr 创建任何 Pull Request 之前,你必须检查现有的开放 PR:
uv run scripts/evaluation_manager.py get-prs --repo-id "username/model-name"
如果存在开放的 PR:
- 不要创建新 PR - 这会给维护者造成重复工作
- 警告用户已存在开放的 PR
- 向用户展示现有 PR 的 URL 以便他们审查
- 仅在用户明确确认要创建另一个 PR 时才继续
这可以防止向模型仓库发送重复的评估 PR。
所有路径相对于包含此 SKILL.md 文件的目录。 运行任何脚本前,先
cd到该目录或使用完整路径。
使用 --help 获取最新工作流指导。 支持纯 Python 或 uv run:
uv run scripts/evaluation_manager.py --help
uv run scripts/evaluation_manager.py inspect-tables --help
uv run scripts/evaluation_manager.py extract-readme --help
关键工作流(与 CLI 帮助匹配):
get-prs→ 首先检查现有的开放 PRinspect-tables→ 查找表格编号/列extract-readme --table N→ 默认打印 YAML- 添加
--apply(推送)或--create-pr来写入更改
核心功能
1. 检查和提取 README 中的评估表格
- 检查表格:使用
inspect-tables查看 README 中所有表格的结构、列和示例行 - 解析 Markdown 表格:使用 markdown-it-py 精确解析(忽略代码块和示例)
- 表格选择:使用
--table N从特定表格提取(存在多个表格时必需) - 格式检测:识别常见格式(基准作为行、列或包含多个模型的比较表)
- 列匹配:自动识别模型列/行;优先使用
--model-column-index(来自 inspect 输出的索引)。仅在精确匹配列标题文本时使用--model-name-override。 - YAML 生成:将选定表格转换为 model-index YAML 格式
- 任务类型:
--task-type设置 model-index 输出中的task.type字段(例如text-generation、summarization)
2. 从 Artificial Analysis 导入
- API 集成:直接从 Artificial Analysis 获取基准分数
- 自动格式化:将 API 响应转换为 model-index 格式
- 元数据保留:维护来源归属和 URL
- PR 创建:自动创建包含评估更新的 Pull Request
3. Model-Index 管理
- YAML 生成:创建格式正确的 model-index 条目
- 合并支持:向现有模型卡添加评估而不覆盖
- 验证:确保符合 Papers with Code 规范
- 批量操作:高效处理多个模型
4. 在 HF Jobs 上运行评估(推理提供商)
- **Ins
兼容工具
Claude CodeCursor
标签
AI与机器学习