
关于
阅读和分析 Hugging Face 论文页面或 arXiv 论文,获取 Markdown 和论文 API 元数据。
source: "https://github.com/huggingface/skills/tree/main/skills/huggingface-papers" name: hugging-face-papers description: 阅读和分析 Hugging Face 论文页面或 arXiv 论文,支持 markdown 和论文 API 元数据。 risk: unknown
Hugging Face 论文页面
Hugging Face 论文页面(hf.co/papers)是建立在 arXiv(arxiv.org)之上的平台,专门用于人工智能(AI)和计算机科学领域的研究论文。Hugging Face 用户可以在 hf.co/papers/submit 提交论文,论文会展示在每日论文动态(hf.co/papers)中。每天,用户可以为论文投票和评论。每个论文页面允许作者:
- 认领论文(点击
authors字段中的姓名)。这会使论文页面出现在其 Hugging Face 个人资料中。 - 通过在模型卡片、数据集卡片或 Space 的 README 中包含 HF 论文或 arXiv URL 来关联模型检查点、数据集和 Spaces
- 关联 Github 仓库和/或项目页面 URL
- 关联 HF 组织。这也会使论文页面出现在 Hugging Face 组织页面上。
当有人在模型卡片、数据集卡片或 Space 仓库的 README 中提到 HF 论文或 arXiv 摘要/PDF URL 时,论文会被自动索引。注意,并非所有在 Hugging Face 上索引的论文都提交到了每日论文。后者更多是推广研究论文的方式。论文只能在 arXiv 发布日期后14天内提交到每日论文。
Hugging Face 团队构建了一个易用的 API 来与论文页面交互。论文内容可以以 markdown 格式获取,或返回结构化元数据,如作者姓名、关联的模型/数据集/spaces、关联的 Github 仓库和项目页面。
适用场景
- 用户分享 Hugging Face 论文页面 URL(如
https://huggingface.co/papers/2602.08025) - 用户分享 Hugging Face markdown 论文页面 URL(如
https://huggingface.co/papers/2602.08025.md) - 用户分享 arXiv URL(如
https://arxiv.org/abs/2602.08025或https://arxiv.org/pdf/2602.08025) - 用户提到 arXiv ID(如
2602.08025) - 用户要求总结、解释或分析 AI 研究论文
解析论文 ID
建议从用户提供的任何内容中解析论文 ID(arXiv ID):
| 输入 | 论文 ID |
| --- | --- |
| https://huggingface.co/papers/2602.08025 | 2602.08025 |
| https://huggingface.co/papers/2602.08025.md | 2602.08025 |
| https://arxiv.org/abs/2602.08025 | 2602.08025 |
| https://arxiv.org/pdf/2602.08025 | 2602.08025 |
| 2602.08025v1 | 2602.08025v1 |
| 2602.08025 | 2602.08025 |
这允许你将论文 ID 提供给下面提到的任何 Hub API 端点。
以 markdown 格式获取论文页面
论文内容可以这样以 markdown 格式获取:
curl -s "https://huggingface.co/papers/{PAPER_ID}.md"
这应该返回 Hugging Face 论文页面的 markdown 格式。这依赖于 https://arxiv.org/html/{PAPER_ID} 上的论文 HTML 版本。
有2个例外:
- 并非所有 arXiv 论文都有 HTML 版本。如果论文的 HTML 版本不存在,则内容回退到 Hugging Face 论文页面的 HTML。
- 如果返回 404,表示论文尚未在 hf.co/papers 上索引。参见错误处理了解详情。
或者,你可以从普通论文页面 URL 请求 markdown,如下:
curl -s -H "Accept: text/markdown" "https://huggingface.co/papers/{PAPER_ID}"
论文页面 API 端点
所有端点使用基础 URL https://huggingface.co。
获取结构化元数据
使用 Hugging Face REST API 以 JSON 格式获取论文元数据:
curl -s "https://huggingface.co/api/papers/{PAPER_ID}"
返回的结构化元数据可能包括:
- 作者(姓名和 Hugging Face 用户名,如果他们已认领论文)
- 媒体 URL(提交论文到每日论文时上传)
- 摘要和 AI 生成的总结
- 项目页面和 GitHub 仓库
- 组织和互动元数据(点赞数)
查找与论文关联的模型:
curl https://huggingface.co/api/models?filter=arxiv:{PAPER_ID}
查找与论文关联的数据集:
curl https://huggingface.co/api/datasets?filter=arxiv:{PAPER_ID}
查找与论文关联的 Spaces:
curl https://huggingface.co/api/spaces?filter=arxiv:{PAPER_ID}
认领论文作者身份
为 Hugging Face 用户认领论文作者身份:
curl "https://huggingface.co/api/settings/papers/claim" \
--request POST \
--header "Content-Type: application/json" \
--header "Authorization: Bearer $HF_TOKEN" \
--data '{
"paperId": "{PAPER_ID}",
"claimAuthorId": "{AUTHOR_ENTRY_ID}",
"targetUserId": "{USER_ID}"
}'
- 端点:
POST /api/settings/papers/claim - 请求体:
paperId(字符串,必需):论文 IDclaimAuthorId(字符串,必需):作者条目 IDtargetUserId(字符串,必需):用户 ID