自定义细胞类型评分体系

目录

自定义细胞类型评分体系#

默认评分体系如下：

证据维度	评分标准	理由	分值†
标记物表达	识别到匹配的细胞类型/状态标记物	强有力地支持该聚类的身份判断	+45（上限）
	识别到高特异性的窄范围标记物	指向细分亚型或激活状态	+15（上限）
	与其他候选共享标记物	说明存在歧义，降低置信度	−10
	检测到不应表达的负向标记物	与目标身份矛盾	−30
通路富集	富集通路符合细胞状态	捕捉功能程序（例：“干扰素反应”）	+15（上限）
	富集通路符合细胞类型	描述总体生物学匹配（例：“TCR 信号”）	+5（上限）
	通路同时出现在其他候选中	降低特异性	−10
	富集结果相互矛盾	指向功能不匹配	−20
生物学背景	在组织/条件下合理的细胞类型	与先验知识一致	+10（上限）
	在组织/条件下合理的细胞状态	支持激活或分化状态	+10（上限）
	生物学上不合理的类型/状态	与实验背景矛盾	−30

自定义评分提示#

当项目需要强调不同的证据维度时，可以覆盖默认权重。构造一个新的 score_prompt 字符串，保持与默认模板相同的结构——逐项说明各证据维度的含义与分值区间，模型会据此标准化评分。

编写自定义评分方案时的几点建议#

保留 <Scoring_Criteria>...</Scoring_Criteria> 包裹，方便 LLM 正确解析结构。
明确写出设计意图（例如“罕见发育标记权重更高”），减少模型理解偏差。
为正向得分与冲突处罚设定清晰上限，保持同一维度内的尺度一致。
若需要原始模板，可以调用 gptbioinsightor.get_score_prompt() 获取内置版本后再修改。

示例：聚焦免疫细胞的评分方案#

score_prompt = """
<Scoring_Criteria>
Marker Profile (60 pts)
- Matching immune lineage markers present: max 40
- Activation markers for effector/memory states present: max 20
- Shared markers with non-immune candidates: -15
- Negative markers for the lineage present: -30

Pathway Profile (30 pts)
- Interferon/inflammatory pathways enriched: 15
- Cytotoxic or antigen-presentation pathways enriched: 15
- Pathway overlap with alternative candidates: -10
- Conflicting metabolic pathways: -20

Biological Context (10 pts)
- Plausible immune cell type in the sampled tissue: 5
- Plausible activation state for the condition: 5
- Implausible immune cell in this context: -25
</Scoring_Criteria>
"""

res = gbi.get_celltype(
    adata,
    background=background,
    out="gbi.celltype.md",
    key="deg_key",
    pathway=pathway_dic,
    topnumber=15,
    provider="openai",
    model="gpt-4o",
    n_jobs=4,
    score_prompt=score_prompt,
)

API 会接受任意结构清晰的提示文本，建议在复审输出时逐步调整权重，观察候选细胞类型排名的变化，以确保评分准则符合实验预期。