
关于
gget CLI 和 Python 工作流,用于快速基因组数据库查询、序列检索、BLAST 风格搜索、富集分析和可复现的生物信息学证据日志
name: gget description: gget CLI和Python工作流,用于快速基因组数据库查询、序列查找、BLAST风格搜索、富集分析检查和可重现的生物信息学证据日志。 origin: community
gget
当任务需要使用 gget CLI或Python包快速查询基因组参考数据库时,使用此技能。
何时使用
- 查找Ensembl ID、基因元数据、转录本详情或序列。
- 无需构建完整本地流水线即可运行快速BLAST或BLAT查找。
- 从Ensembl获取参考基因组链接和注释。
- 通过单一接口查询蛋白质结构、通路、癌症、表达或疾病关联模块。
- 在使用更重型工具(如Biopython、Snakemake、Nextflow、BLAST+或数据库专用客户端)之前,创建可重现的初步证据日志。
当任务需要受监管的临床解读、高通量生产流水线或对数据库版本和本地索引的精细控制时,请使用专用工作流而非 gget。
安装
使用干净的Python环境。
python -m venv .venv
. .venv/bin/activate
python -m pip install --upgrade pip
python -m pip install --upgrade gget
gget --help
如果 uv 可用:
uv venv
. .venv/bin/activate
uv pip install gget
在依赖旧环境之前,升级 gget 并重新检查模块文档。gget 查询的上游数据库会随时间变化。
基本模式
CLI形式:
gget <module> [arguments] [options]
Python形式:
import gget
result = gget.search(["BRCA1"], species="human")
print(result)
常见工作流:
- 确定物种、组装版本、基因ID类型和所需数据库。
- 查看当前模块文档了解参数。
- 先运行小规模查询。
- 使用明确的文件名和日期保存输出。
- 记录模块名称、版本、参数和数据库假设。
常用模块
使用当前上游文档获取确切参数。以下模块是常见的首选:
gget search:从搜索词查找Ensembl ID。gget info:检索Ensembl、UniProt或相关ID的元数据。gget seq:获取核苷酸或氨基酸序列。gget ref:检索参考基因组下载链接。gget blast:运行快速BLAST查询。gget blat:在支持的基因组组装中定位序列。gget muscle:运行多序列比对。gget diamond:对参考序列运行本地序列比对。gget alphafold和gget pdb:检查蛋白质结构参考。gget enrichr、gget opentargets、gget archs4、gget bgee、gget cbio和gget cosmic:探索富集、靶点、表达、癌症和疾病关联数据。
不要假设每个模块都支持所有Python版本或依赖集。某些可选科学依赖的版本支持范围比核心包更窄。
快速示例
查找基因:
gget search -s human brca1 dna repair -o brca1-search.json
获取基因元数据:
gget info ENSG00000012048 -o brca1-info.json
获取序列:
gget seq ENSG00000012048 -o brca1-seq.fa
运行小规模BLAST查询:
gget blast "MEEPQSDPSVEPPLSQETFSDLWKLLPEN" -l 10 -o blast-results.json
Python示例:
import gget
genes = gget.search(["BRCA1", "DNA repair"], species="human")
info = gget.info(["ENSG00000012048"])
sequence = gget.seq("ENSG00000012048")
可重现性日志
对于科学输出,包含足够的元数据以重放查询。
| 日期 | gget版本 | 模块 | 查询 | 物种/组装 | 输出 | 备注 |
| --- | --- | --- | --- | --- | --- | --- |
| 2026-05-11 | `gget --version` | search | `BRCA1 DNA repair` | human | `brca1-search.json` | 运行前已检查文档 |
还需记录:
- Python版本和环境管理器。
- 通过
gget setup安装的任何可选依赖。 - 查询返回的数据库特定标识符。
- 输出格式为JSON、CSV、FASTA还是DataFrame导出。
- 通过升级
gget解决的任何失败。
审查清单
- 是否升级或验证了已安装的
gget版本? - 是否在使用参数前检查了当前上游模块文档?
- 物种或组装版本是否明确?
- 标识符是否完整保留,包括Ensembl/UniProt前缀?
- 结果是否标记为数据库输出而非临床解读?
- 查询是否可从保存的命令或Python代码片段重现?
- 可选依赖是否安装在隔离环境中?
参考资料
兼容工具
Claude CodeCursor
标签
数据工程

