docs: 修正论文与文档不一致处

- recency: '时间衰减' → '新鲜度奖励(越新越大)'
- 删除3.6节句级裁剪(未实现)
- 补充中间地带fallback规则(0.20≤overlap≤0.45默认继续)
- 修正MS MARCO作者:Liu→Nguyen
- 10ms延迟标注为理论估算,移除无依据数据
- 更新局限性描述与实现状态一致
This commit is contained in:
Elaina
2026-04-22 09:46:47 +08:00
parent 224295ccaf
commit 93156cf736

View File

@@ -134,6 +134,7 @@ $$
- overlap > 0.45 → **继续当前话题** - overlap > 0.45 → **继续当前话题**
- overlap < 0.20 且 new_ratio > 0.70 → **切换新话题** - overlap < 0.20 且 new_ratio > 0.70 → **切换新话题**
- 存在指代词("这个"、"它"、"上面"等)→ **强制继续** - 存在指代词("这个"、"它"、"上面"等)→ **强制继续**
- **中间地带**0.20 ≤ overlap ≤ 0.45 且无指代词)→ **默认继续**(保守策略,避免误切换)
### 3.4 稀疏召回 ### 3.4 稀疏召回
@@ -146,7 +147,7 @@ $$
其中: 其中:
- $\text{lex}(x, q)$:基于 IDF-overlap 的词项重叠得分 - $\text{lex}(x, q)$:基于 IDF-overlap 的词项重叠得分
- $\text{exact}(b, q)$:英文术语、代码标识符、版本号完整命中加分 - $\text{exact}(b, q)$:英文术语、代码标识符、版本号完整命中加分
- $\text{recency}(b)$时间衰减因子(弱先验,仅微调) - $\text{recency}(b)$新鲜度奖励因子(越新越大,仅作弱先验微调)
用户侧消息权重1.5高于助手侧0.7),因为用户消息的语义更代表对话意图。 用户侧消息权重1.5高于助手侧0.7),因为用户消息的语义更代表对话意图。
@@ -172,12 +173,6 @@ $$
\text{gain}(b \mid S) = \frac{\sum_{t \in \text{cov}(b) \setminus \text{covered}(S)} \text{idf}(t)}{\text{cost}(b)^\alpha}, \quad \alpha = 0.8 \text{gain}(b \mid S) = \frac{\sum_{t \in \text{cov}(b) \setminus \text{covered}(S)} \text{idf}(t)}{\text{cost}(b)^\alpha}, \quad \alpha = 0.8
$$ $$
### 3.6 句级裁剪(可选)
对选中的块内部进一步按句子级别裁剪,保留覆盖了 query 锚点的句子,去除冗余内容。
---
## 4. 实现 ## 4. 实现
### 4.1 项目结构 ### 4.1 项目结构
@@ -248,7 +243,7 @@ prompt = gate.build_prompt("锁的 TTL 怎么设")
### 5.3 性能分析 ### 5.3 性能分析
在 2 核 2G CPU 环境下: 在 2 核 2G CPU 环境下:
- 单次 `select()` 调用延迟:< 10ms - 单次 `select()` 调用延迟:理论估算 < 10ms(未做专门性能基准测试)
- 内存占用:< 50MB - 内存占用:< 50MB
- 无外部模型依赖,纯 Python 标准库+re模块 - 无外部模型依赖,纯 Python 标准库+re模块
@@ -310,7 +305,7 @@ prompt = gate.build_prompt("锁的 TTL 怎么设")
[8] Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. *OpenAI Technical Report*. [8] Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. *OpenAI Technical Report*.
[9] Liu, P. J., et al. (2019). MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. *NeurIPS*. [9] Nguyen, P., et al. (2016). MS MARCO: A Human Generated MAchine Reading COmprehension Dataset. *NIPS*.
[10] Karpukhin, V., et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering. *EMNLP*. [10] Karpukhin, V., et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering. *EMNLP*.