过拟合训练日志

MemGAS论文翻译

2026-04-27T07:06:15.000Z

From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents

从单一粒度到多粒度：面向对话代理的长期记忆关联与选择

摘要

大语言模型（LLMs）近年来已被广泛应用于对话智能体中。然而，用户与智能体之间不断延长的交互会累积大量对话记录，使得上下文窗口有限的 LLMs 难以维持连贯的长期对话记忆，也难以生成个性化回复。尽管检索增强记忆系统已被提出以缓解这一问题，现有方法通常依赖单一粒度的记忆划分与检索。这种方式难以捕捉深层次的记忆关联，往往只能检索到部分有用信息，或引入大量噪声，从而导致性能不佳。为解决这些局限，本文提出了 MemGAS，一个通过构建多粒度关联、自适应选择与检索来增强记忆整合能力的框架。MemGAS 基于多粒度记忆单元，并采用高斯混合模型（Gaussian Mixture Models）将新记忆与历史记忆进行聚类与关联。基于熵的路由器通过评估查询相关性分布，自适应地选择最优粒度，在信息完整性与噪声之间取得平衡。检索到的记忆还会通过基于 LLM 的过滤进一步精炼。四个长期记忆基准上的实验表明，MemGAS 在问答任务和检索任务上均优于当前最先进方法，并在不同查询类型和不同 top-K 设置下取得了更优表现1。

引言

近年来，大语言模型（LLMs）已被广泛应用于对话代理中。然而，随着用户与代理之间的交互不断延长，所积累的大量对话记录使得上下文窗口受限的LLMs难以维持连贯的长期对话记忆，也难以提供个性化的响应。尽管基于检索增强的记忆系统已被提出以缓解这一问题，但现有方法通常依赖于单一粒度的记忆划分与检索。这种方式难以捕捉深层次的记忆关联，往往导致有用信息的部分缺失或引入大量噪声，从而影响整体性能。

为了解决上述局限，本文提出了 MemGAS 框架，通过构建多粒度关联、自适应选择与检索机制来增强记忆整合能力。MemGAS 基于多粒度记忆单元，利用 高斯混合模型（Gaussian Mixture Models） 对新记忆进行聚类，并将其与历史记忆建立关联。同时，引入基于熵的路由机制（entropy-based router），通过评估查询相关性分布，自适应选择最优粒度，在信息完整性与噪声之间取得平衡。检索到的记忆还会通过基于LLM的过滤进一步优化。

在四个长期记忆基准数据集上的实验结果表明，MemGAS 在问答任务和检索任务中均优于当前最先进方法，在不同查询类型和不同 top-K 设置下都表现出更优的性能。

近期关于LLM智能体外部记忆系统的研究，主要依赖于检索增强生成（Retrieval-Augmented Generation, RAG）范式，并从记忆划分与构建等多个方面探索如何实现高效检索。在记忆划分方面，现有方法主要采用单一粒度（single-granularity）对对话进行分割。一类方法使用会话级片段（session-level chunks）作为检索单元，而另一类方法则采用更细粒度的轮次级划分以捕捉更丰富的细节信息。近期的进展引入了基于主题感知（topic-aware）的划分技术，通过语义一致性对对话进行分组，从而提升围绕主题的一致性检索能力。

此外，一些研究通过生成记忆摘要，将关键信息压缩为紧凑表示，以提高检索效率。在记忆构建方面，研究者探索了多种结构化组织范式，以增强长期知识的保留能力。例如，RAPTOR（Sarthi et al., 2024）和 MemTree（Rezazadeh et al., 2024）采用树结构来编码记忆单元之间的多尺度关系。一些工作提出了层级化记忆架构（hierarchical memory architectures），构建具备深层抽象能力的复杂系统，从而支持高效的自顶向下检索。还有研究采用基于图的记忆架构，以模拟神经记忆巩固过程，并显式建模实体之间的关系结构。

然而，尽管现有方法取得了一定进展，但仍然存在两个关键局限：

（i）多粒度记忆连接不足。 虽然已有研究尝试将记忆组织为拓扑结构（例如知识图谱或树结构），但这些方法大多聚焦于单一粒度层级——要么是实体级别，要么是会话摘要级别。这种单尺度范式无法建模不同粒度记忆单元之间的跨层交互，导致检索结果往往只包含部分有用信息。如图1所示，在回答跨多轮会话的问题时，需要在不同粒度之间建立语义关联（例如通过共享关键词或摘要将对话1与对话2连接起来）。如果未能建立这种关联，就会出现信息检索不完整的情况（例如仅检索到对话1），从而导致错误答案。

（ii）缺乏自适应的多粒度记忆选择机制。 当前方法主要依赖固定的粒度策略（如基于会话或轮次的划分，或由LLM生成的摘要），这往往由于粒度选择不当而导致上下文信息缺失或噪声干扰。尽管基于主题的划分方法能够提升片段内部的一致性，但它们缺乏针对不同查询动态选择粒度的能力。我们在图1(a)中的实证分析表明，根据每个查询自适应地选择最合适的粒度（例如在摘要/关键词带来的降噪效果与原始会话的信息完整性之间进行权衡）可以显著提升性能。这一发现凸显了粒度选择在解决“信息-噪声权衡”问题中的重要性。

基于上述问题，本文提出了 MemGAS 框架，通过多粒度关联与自适应选择来构建和检索长期记忆。我们的方法主要包含两个核心策略：

（i）记忆关联（Memory Association）： 利用LLMs生成记忆摘要和关键词，构建多粒度记忆单元。在新记忆更新时，采用高斯混合模型（Gaussian Mixture Model）将历史记忆划分为接受集合（相关）与拒绝集合（不相关），并将接受集合中的记忆与新记忆建立关联，从而实现记忆结构的整合与实时更新。

（ii）粒度选择（Granularity Selection）： 引入基于熵的路由机制，通过评估查询相关性分布的不确定性，自适应地为不同粒度分配检索权重。随后，利用个性化PageRank算法检索关键记忆，并通过LLM进行过滤以去除冗余信息，从而获得高质量、精炼的记忆内容，提升对话系统的理解能力。

在四个开源长期记忆基准数据集上的实验表明，MemGAS 在问答任务和检索任务上均显著优于当前最先进方法以及单一粒度方法，并在不同查询类型及不同 top-k 设置下持续取得更优表现。

方法

本节首先对任务与数据格式进行定义，随后构建一个动态记忆关联框架，详细介绍一种基于熵的路由机制以选择更合适的粒度，并概述用于检索与过滤高质量上下文信息以生成响应的策略。

预备知识（Preliminary）

本文的研究重点在于通过长期对话记忆构建个性化助手。在该设定下，系统利用跨多个会话的用户—代理交互（统称为“记忆”）来构建外部记忆库 $M$。不失一般性地，第 $i$ 个会话可表示为

\[S_i = \{(u^{(i)}_j, a^{(i)}_j)\}_{j=1}^{n_i}\]

其中包含 $n_i$ 轮对话，每一轮由用户输入 $u^{(i)}_j$ 和助手回复 $a^{(i)}_j$ 组成。

当助手接收到查询 $q$ 时，我们的目标是通过跨多粒度（包括会话级 $S$、轮次级 $T$、关键词级 $K$ 和摘要级 $U$）的关联机制，从记忆库 $M$ 中检索出相关记忆子集 $M_{\text{rel}} \subseteq M$，并基于这些信息生成响应：

\[a = \text{LLM}(q, M_{\text{rel}})\]

该问题的核心挑战在于：一方面，需要建立跨不同粒度的记忆关联；另一方面，需要学习一种自适应的粒度选择函数

\[\psi: q \rightarrow {\alpha_s, \alpha_t, \alpha_k, \alpha_u}\]

以在信息完整性与检索噪声之间实现有效平衡。

多粒度关联构建（Multi-Granularity Association Construction）

现有方法通常将记忆编码为向量库（例如基于会话级的片段），并通过相似度搜索直接进行信息检索。然而，这类方法忽视了记忆之间更深层次的关联关系。为了解决这一问题，本文提出了一种关联式记忆构建过程，用于捕捉多粒度之间的关系。

多粒度记忆元数据（Multi-Granular Memory Metadata）。 对于第 $i$ 个会话 $S_i$，利用LLM生成多粒度的元数据，包括会话摘要 $U_i$ 和关键词 $K_i$。同时，将该会话划分为多个对话轮次 $T_i$。形式化表示为：

\[U_i, K_i = f_{\text{LLM}}(S_i), \quad T_i = \text{segment}(S_i)\]

其中，$f_{\text{LLM}}$ 表示 LLM 处理函数，$\text{segment}$ 表示分割操作。最终得到的记忆单元 $M_i$ 融合了会话级信息 $S_i$、轮次级对话 $T_i$、摘要 $U_i$ 以及关键词 $K_i$，并存储于记忆库中：

\[M_i = \{S_i, T_i, U_i, K_i\} \in M\]

动态记忆关联（Dynamical Memory Association）。 当新增记忆 $M_{\text{new}}$ 被加入时，当前记忆库 $M_{\text{cur}}$ 会更新为：

\[M_{\text{cur}} \leftarrow M_{\text{cur}} \cup M_{\text{new}}\]

为了在新记忆与历史记忆之间建立关联，本文采用基于高斯混合模型（Gaussian Mixture Model, GMM）的聚类策略。

具体而言，记忆库中每个元素的不同粒度都会被编码为稠密向量表示。对于会话级、轮次级、摘要级和关键词级元数据，分别表示为 $e(S_i)$、$e(T_i)$、$e(U_i)$ 和 $e(K_i)$。因此，整个记忆库 $M_{\text{cur}}$ 可以表示为由这些多粒度向量组成的集合。

随后，在新记忆 $e(M_{\text{new}})$ 与当前记忆库 $e(M_{\text{cur}})$ 之间计算两两相似度分数，覆盖每个记忆的所有粒度。得到的相似度向量集合 $s_{\text{sim}}$ 会通过 GMM 进行聚类，并划分为两个概率集合：

接受集合（Accept Set）： 与 $M_{\text{new}}$ 相似度较高的记忆，与新记忆建立直接关联；
拒绝集合（Reject Set）： 与新记忆无关的记忆，在当前阶段不建立连接。

需要注意的是，相似度向量是在**粒度特定信息（granularity-specific information）**的基础上计算的，这意味着 $M_{\text{new}}$ 的每一种粒度都被视为一个节点，并用于与 $M_{\text{cur}}$ 中的节点建立连接。我们维护一个关联图 $A_{\text{cur}}$ 来存储记忆库 $M$ 中的这些连接关系，其更新方式为：

\[A_{\text{cur}} \leftarrow A_{\text{cur}} \cup A_{\text{new}}\]

其中 $A_{\text{new}}$ 表示 $M_{\text{new}}$ 与其接受集合之间所形成的边。

该过程通过有选择地强化在上下文上相关的记忆，模拟了类似人类的记忆巩固机制。

多粒度路由器（Multi-Granularity Router）

现有方法通常依赖单一预定义的粒度进行记忆检索，这限制了其根据查询内容自适应地优先选择细粒度或粗粒度信息的能力。为了解决这一问题，本文提出了一种基于熵的路由机制（entropy-based router），能够针对每个查询动态选择最合适的粒度。

基于熵的粒度选择（Entropy-Driven Granularity Selection）。 对于给定查询 $q$，首先计算其与各个粒度层级 $g \in {\text{session}, \text{turn}, \text{summary}, \text{keyword}}$ 上所有记忆片段之间的相似度。设：

\[s_g = [\text{sim}(q, M^g_1), \dots, \text{sim}(q, M^g_n)]\]

表示查询 $q$ 与粒度 $g$ 下 $n$ 个记忆片段之间的相似度分数。随后，将 $s_g$ 归一化为概率分布 $p_g(s_g)$，并计算其香农熵（Shannon entropy）：

\[H^g = - \sum_{i=1}^{n} p_i^g(s^g)\,\log p_i^g(s^g), \quad\text{where }p_i^g(s^g) = \frac{\exp\big(\operatorname{sim}(q, M_i^g)/\lambda\big)}{\sum_{j=1}^{n} \exp\big(\operatorname{sim}(q, M_j^g)/\lambda\big)},\ \forall i \in \{1, \ldots, n\}.\]

其中，$H_g$ 用于量化查询 $q$ 在粒度 $g$ 下与记忆匹配的不确定性程度。参数 $\lambda$ 是用于控制熵影响程度的超参数，其具体作用与设置在附录 F 中进行了分析。

软路由权重（Soft Router Weights）。 我们的核心动机在于：较低的熵 $H_g$ 通常意味着更高的匹配置信度（例如，较低的不确定性表明查询与某些记忆之间存在明确对应关系）；相反，较高的熵则意味着匹配更加模糊（即难以确定查询对应的具体记忆）。为刻画这一特性，我们通过对熵的倒数进行归一化来为不同粒度分配权重：

\[w_g = \frac{1/H_g}{\sum_{g'=1}^{G} 1/H_{g'}}\]

其中，$G$ 表示粒度的总数。该公式保证了熵较低（确定性更高）的粒度会被赋予更大的权重。因此，在检索过程中，系统会对与查询最具确定性关联的粒度所对应的记忆进行强化，从而无需人工干预即可实现自适应优化。

关于多粒度关联与路由机制的理论分析，详见附录 H。

记忆检索与过滤（Memory Retrieval and Filter）

在完成多粒度记忆关联构建并确定粒度权重之后，我们基于图结构化记忆 ${M_i, A_i} \in M \times A$ 对查询 $q$ 进行相关记忆检索。为充分利用记忆之间的关系，本文采用**个性化PageRank（Personalized PageRank, PPR）**算法进行上下文感知排序。

在粒度层面上，我们将每个 $M_i^g$（即记忆 $M_i$ 在第 $g$ 个粒度上的节点）视为关联图中的一个独立节点。对于每个粒度 $g$，首先根据公式（4）中路由器分配的权重 $w_g$，计算节点 $M_i^g$ 的初始相关性得分：

\[\text{score}_i^g = w_g \cdot \text{sim}(q, M_i^g)\]

其中，$\text{sim}(q, M_i^g)$ 表示查询嵌入 $e(q)$ 与该粒度下记忆嵌入 $e(M_i^g)$ 之间的余弦相似度。所有得分集合 ${\text{score}_i^g}$ 构成了粒度级节点上的个性化初始概率分布。

随后，我们选取得分最高的前 $\alpha$ 个节点作为种子节点（具体分析见附录 F），并在多粒度关联图上运行PPR算法，使相关性沿图结构传播，从而突出那些既与查询直接相关、又与其他高价值节点紧密连接的节点。算法收敛后，根据最终的PPR得分选取得分最高的前 $k$ 个节点，作为候选上下文。参数 $k$ 的影响在第3.4节中进行了实证分析。

基于LLM的冗余过滤（LLM-Based Redundancy Filtering）。 为减少噪声并消除多粒度记忆中的冗余信息，我们引入基于LLM的过滤机制。该机制将检索得到的前 $K$ 条记忆与查询 $q$ 一同输入，通过精心设计的提示词（见附录 J），识别并剔除无关或重复内容。最终提供给响应生成模块的上下文被精炼为仅包含与查询最相关的关键信息，从而生成更加简洁且个性化的回复。

关于多粒度信息的案例分析见附录 K.2，过滤机制的案例分析见附录 K.3。

实验（Experiments）

实验设置（Experimental Settings）

数据集与评估指标（Dataset and Metrics）。 本文在四个综合性的长期记忆数据集上开展实验：LoCoMo、Long-MT-Bench+、LongMemEval-s 和 LongMemEval-m，这些数据集均用于评估LLM智能体在长期对话场景下的能力。由于本文的方法不涉及训练过程（training-free），因此数据集中的全部问答对均用于评估。更详细的数据集统计信息见附录 A。

为了全面评估模型性能，本文采用多种评价指标，包括：F1 分数（参考 Maharana 等人的设置）、BLEU（默认使用4-gram）、BERTScore，以及 ROUGE 分数（参考 Pan 等人的设置）。此外，本文还引入 GPT4o-as-Judge（GPT4o-J） 作为评估方式，即利用 GPT4o 来评估模型生成回答与参考答案之间的一致性。具体的评估提示词详见附录 J。

基线方法（Baselines）。 我们将 MemGAS 与多种方法进行了对比：

（1）Full History：直接利用最新的全部对话记录，最多包含 128k tokens 的上下文；

两种强大的检索模型：

（2）MPNet，

（3）Contriever；

四种基于记忆的对话模型：

（4）RecurSum：通过LLM递归生成和更新记忆摘要，以支持上下文相关的响应；

（5）MPC：结合提示工程与外部记忆增强LLM能力；

（6）A-Mem：通过生成笔记与链接结构来组织记忆；

（7）SeCom：将记忆划分为语义一致的主题块，并通过压缩去噪提升检索效果；

两种结构化RAG模型：

（8）HippoRAG 2：引入知识图谱以提升检索效率；

（9）RAPTOR：通过递归摘要与层级聚类构建树结构以增强检索能力；

此外，还包括两种近期提出的记忆模型：

HMEM：提出四层层级化记忆结构，并结合位置索引机制；

COMEDY：提供统一的“One-for-All”压缩记忆框架，无需传统记忆存储结构。

由于篇幅限制，HMEM 与 COMEDY 的实验结果见附录 I.2，更多细节见附录 B。

实现细节（Implementation Details）。 我们在所有任务中均使用 gpt-4o-mini-2024-07-18 作为基础模型，包括多粒度信息生成与问答任务。为保证公平性，所有基线方法均采用一致的生成提示。LLM 的 temperature 设置为 0 以确保结果可复现，所有模型均在 zero-shot 设置下运行，具体提示模板见附录 J。

在检索设置上，所有模型统一采用 top-3 会话检索策略；对于 SeCom 使用 top-3 片段，对于 RAPTOR 使用会话或摘要。编码模型统一采用 Contriever 来生成记忆文本的向量表示。超参数通过网格搜索确定：$\lambda \in {0.1, 0.2, 0.3, 0.5, 0.7, 1.0}$，$\alpha \in {5, 10, 15, 20, 25}$。

由于 LongMTBench+ 缺乏检索任务的真实标注，因此不纳入检索评估。此外，RAPTOR 与 A-Mem 无法在会话级 Recall 指标下进行评估，因为其存储单元为抽象或重写后的表示，无法与真实会话建立确定映射。在 LongMemEval-m 数据集上，RAPTOR、A-Mem 和 HippoRAG 的结果由于运行成本较高而未提供。

我们还在不同检索器、生成器及查询类型下对多种方法进行了对比分析（详见附录 E.1、E.2 和 E.3）。此外，附录 F 提供了超参数分析，附录 G 提供了误差分析，附录 D 则讨论了方法的额外开销与效率表现。

整体结果（Overall Results）

我们分别在表1和表2中展示了问答任务（Question Answering）和检索任务（Retrieval）的实验结果。此外，单一粒度与多粒度方法的对比结果见附录 C。下面对主要结果进行分析。

问答结果（Question Answering Results）。 如表1所示，MemGAS 在大多数数据集和评估指标上均稳定优于其他方法。与使用全部历史上下文、容易引入噪声的 Full History 方法不同，MemGAS 通过有效整合并检索最相关的记忆，实现了更优性能。其他基线方法（如 RecurSum 和 SeCom）虽然在特定粒度上进行建模，但由于缺乏跨粒度记忆关联能力，整体效果仍不理想。

此外，HippoRAG 2 和 RAPTOR 等方法虽然能够在记忆单元之间建立一定的连接，但未能有效构建多粒度关系及其选择机制，从而限制了性能表现。相比之下，MemGAS 通过多粒度记忆单元的动态构建、自适应路由机制以及冗余过滤策略，实现了更优表现，突出了“关联”和“选择”在记忆管理中的关键作用。

在效率方面，MemGAS 在保持具有竞争力的 token 使用量的同时，实现了更高质量的问答表现，并且相较于 A-Mem 和 RecurSum 等方法，其延迟相当甚至更低，使其在准确性与效率之间取得了更优平衡。

检索结果（Retrieval Results）。 如表2所示，MemGAS 在所有数据集上均表现出色，在 Recall 和 NDCG 等指标上持续取得最佳成绩。这些结果表明，该方法在长期记忆构建与检索方面具有良好的有效性与鲁棒性，能够确保查询与最相关的上下文进行准确匹配。

消融实验（Ablation Study）

表3中的消融实验结果表明，各个组件在提升问答（QA）和检索性能方面都具有重要作用。无论是单独移除高斯混合模型（GMM）、个性化PageRank（PPR）、记忆关联（MA）还是路由器（Router），都会导致性能持续下降，从而验证了这些模块的关键贡献。尤其是在移除所有组件的情况下，性能下降最为显著：F1 分数从 20.38 降至 13.78，Recall@3 从 78.51 降至 71.06，这进一步说明各模块在整体性能提升中的不可或缺性。

此外，这些模块引入的额外延迟非常有限，其中问答任务的最大延迟增加仅为 0.0191 秒，检索任务为 0.0079 秒。我们还发现，LLM 的 API 调用占据了整体端到端延迟的 98% 以上，是系统响应时间的主要来源，而本文方法引入的额外开销在实际应用中是可以接受的。

综上所述，该架构在性能提升与计算效率之间实现了良好的平衡。

THEANINE论文翻译

2026-04-27T03:37:16.000Z

THEANINE: Timeline-Enhanced Response Generation with Associative Memory Graphs for Lifelong Dialogue Agents

THEANINE：基于关联记忆图的终身对话智能体时间线增强回复生成

摘要

为了实现长期的人机交互，对话智能体需要持续地记忆所感知的信息，并在生成回复（response generation, RG）时能够恰当地检索这些信息。以往研究多关注通过移除过时记忆来提升检索质量，但我们认为，这类记忆在长期对话中能够为回复生成提供丰富且重要的上下文线索（例如用户行为的变化）。
本文提出了 THEANINE，一个基于大语言模型（LLM）的终身对话智能体框架。THEANINE 摒弃了记忆删除机制，而是通过基于时间关系与因果关系对大规模记忆进行关联式管理。在这种关联结构的支持下，THEANINE 通过引入“记忆时间线”（memory timelines）来增强回复生成能力——即由一系列记忆构成的序列，用于刻画相关历史事件的演化过程或因果关系。
此外，本文还提出了 TeaFarm，一种基于反事实驱动的评估方案，用于弥补 G-Eval 以及人工评估在衡量智能体将历史记忆整合进回复生成过程中的能力方面的不足。

引言

一种具有代表性的方法是将过往对话压缩为摘要式记忆，并在后续交互中检索这些记忆以增强回复生成（response generation, RG）（Xu et al., 2022a；Lu et al., 2023）。然而，随着对话不断累积，记忆规模的增长会对检索质量产生负面影响。尽管可以通过更新旧记忆在一定程度上缓解这一问题（Bae et al., 2022；Zhong et al., 2024），但这种常见做法往往会导致严重的信息丢失。

如图1(a)所示，在记忆更新时间线中，较早的一条关键记忆（例如一个重要的人设信息：“害怕船只”）被移除，从而导致回复生成不当。另一方面，利用近期大语言模型所具备的大上下文窗口来处理全部对话历史或记忆，虽然可以避免信息丢失¹，但往往会使模型对最新用户输入产生偏置性关注（见图1(b)），进而忽略过去相关的重要上下文（Liu et al., 2024）。

这些现象揭示了构建终身对话智能体所面临的两个核心挑战：

（i）记忆构建（Memory construction）：如何在不删除旧记忆的前提下，有效存储大规模历史交互信息？
（ii）回复生成（Response generation）：在不断增长的记忆空间中，如何识别与当前对话最相关的上下文线索，以生成恰当的回复？

受上述问题的启发，我们提出将这两个挑战分别但互补地加以解决：

（i）通过放弃记忆更新机制以避免信息丢失，并以一种关联结构在时间线上保留相关记忆；

（ii）将整条时间线作为整体进行检索，从而在不断扩展的搜索空间中更好地捕捉相关记忆。

基于这一思路，我们提出了 THEANINE，一个用于支持终身对话智能体的框架。

在记忆构建阶段（Phase I），不同于将原始记忆句子简单堆叠（Xu et al., 2022a）——这种方式由于信息结构松散，可能会影响记忆检索效果及回复质量（Mousavi et al., 2023；Chen et al., 2023）——THEANINE 将记忆存储为一个有向图结构。在该图中，受人类记忆机制的启发（即人们倾向于基于事件之间的关联将新记忆连接到已有记忆之上）（Bartlett, 1995），各个记忆节点通过其时间关系以及因果常识关系（Hwang et al., 2021）进行连接。

在这种关联结构的支持下，在用于回复生成（RG）的记忆检索阶段（Phase II-1），我们超越了传统的 top-k 检索方法，进一步获取完整的“时间线”（timelines），从而避免遗漏那些与当前对话文本重叠较低但仍然重要的记忆（Tao et al., 2023）。最后，为了解决离线记忆构建与在线部署之间的不一致问题，THEANINE 在时间线检索后（Phase II-2）利用大语言模型对其进行基于当前对话的细化，使其能够为回复生成（Phase III）提供更加定制化的信息（Chae et al., 2023）。

本文的贡献主要体现在以下两个方面：

为实现终身对话智能体，本文提出了 THEANINE，这是一个基于大语言模型的框架，通过引入关系感知的记忆图结构以及“时间线增强”（timeline augmentation）机制来支持长期对话。实验结果表明，在自动评估、基于LLM的评估以及人工评估的回复生成（RG）任务中，THEANINE 均优于具有代表性的基线方法。同时，我们验证了该框架能够显著提升记忆检索质量，其处理流程也更符合人类偏好。据我们所知，这是首次在记忆管理与回复生成中显式建模“时间线”（即相互关联的相关记忆）的工作。
另一方面，由于对话与参考记忆之间缺乏“黄金映射”（golden mapping），使得评估基于记忆增强的智能体变得困难。为此，我们提出了 TeaFarm，一种基于反事实驱动的评估流程，用于在无需人工干预的情况下，衡量智能体在引用历史信息方面的表现。

方法

我们提出 THEANINE，这是一个面向终身对话智能体的框架，其设计灵感来源于人类在对话过程中进行记忆存储与检索的方式（见图2）。

记忆图构建（Memory Graph Construction, Phase I）

为了管理大规模记忆，并为回复生成（RG）提供结构化信息（Mousavi et al., 2023；Chen et al., 2023），我们采用记忆图（memory graph）来建模记忆管理过程。该记忆图定义为：

$$
G = (V, E)
$$

其中：

$$
V = {m_1, m_2, …, m_{|V|}}
$$

$$
m = (event, time)
$$

$$
E = {\langle m_i, r_{ij}, m_j \rangle \mid m_i, m_j \in V \land r_{ij} \in R}
$$

$$
R = {Cause, Reason, Want, …, SameTopic}
$$

在图 $G$ 中，节点集合 $V$ 表示从对话中总结得到的记忆 $m$。每个记忆 $m = (event, time)$ 由一个事件（event）³以及其被形成（总结）的时间（time）构成。任意两个记忆节点之间的有向边 $e \in E$ 表示它们的时间顺序关系以及因果常识关系 $r \in R$。

在每个对话会话 $t$ 结束时，THEANINE 会将该会话中总结得到的新记忆 $m_{\text{new}}$ 逐一链接到当前的记忆图 $G_t$ 中，从而实现记忆的持续扩展与结构化组织。

Phase I-1：用于记忆链接的关联记忆识别（Identifying associative memories for memory linking）

参考人类将新记忆与具有相似事件或主题的既有记忆进行关联的方式（即“关联记忆”，associative memories），THEANINE 首先从当前记忆图 $G_t$ 中识别这些关联记忆。

形式化地，给定一个待存储的新记忆 $m_{\text{new}}$，其关联记忆集合 $M_a$ 定义为在 $G_t$ 中与 $m_{\text{new}}$ 具有最高 $j$ 个文本相似度的记忆节点集合，即满足 $|M_a| = j$。

Phase I-2：关系感知的记忆链接（Relation-aware memory linking）

直观来看，我们可以通过边将 $m_{\text{new}}$ 与 $m \in M_a$ 连接起来，这些边仅表示它们之间的文本相似性以及时间先后顺序。然而，我们发现这种简化的连接方式（例如“这件事发生了 → 类似事件随后发生”）会导致图结构上下文信息不足，从而难以有效支持回复生成（详见第4节）。

相比之下，人类在理解事件时，往往会考虑事件之间的关系，例如“一个事件如何影响另一个事件？”或“为什么这个人会做出这样的改变？”。因此，THEANINE 采用了一种关系感知的记忆链接机制：在两个记忆之间建立边时，不仅编码它们的时间顺序，还引入其因果常识关系 $r \in R$。

在具体实现中，我们采用了 Hwang 等人（2021）提出的常用关系类型，包括 HinderedBy、Cause、Want 等在内的多种关系（详见附录 B.1）。

此外，在本文中，“事件”（event）指对话系统所感知的信息，包括说话者的行为或发言，以及对说话者人设（persona）的识别与确认。

接下来，我们首先确定 $m_{\text{new}}$ 与每个关联记忆之间的关系。形式化地，对于每一对 $m_{\text{new}}$ 和 $m \in M_a$，由大语言模型（LLM）基于它们的事件（event）、时间（time）以及其来源对话，分配一个关系 $r \in R$：

$$
M_a^* = { m_i \in M_a \mid \Upsilon(m_i, m_{\text{new}}) \in R }
$$

其中，$\Upsilon(\cdot, m_{\text{new}}) \in R$ 表示该记忆与 $m_{\text{new}}$ 之间被赋予了某种关系 $r \in R$，而所有被成功赋予关系的记忆集合定义为 $M_a^*$。

换言之，$M_a^*$ 表示那些不仅在文本上相关，而且在语义上（通过因果或常识关系）能够与新记忆建立有效连接的关联记忆子集。

随后，我们将 $m_{\text{new}}$ 连接到记忆图中。首先，我们定位所有包含至少一个 $m \in M_a^*$ 的连通子图（connected component）$C_i \subset G_t$，如图3(a)和(b)所示：

$$
C = { C_i \subset G_t \mid V(C_i) \cap M_a^* \neq \varnothing }
$$

其中，$C$ 表示满足条件的所有连通子图的集合，$V(\cdot)$ 表示“该子图中的节点集合”。

接着，对于每一个 $C_i \subset C$，我们将 $m_{\text{new}}$ 连接到其中最新的（most recent）$m \in M_a^*$（见图3(c)）。与 $m_{\text{new}}$ 建立连接的记忆集合 $M_{\text{linked}}$ 定义为：

$$
M_{\text{linked}} = { \Omega\big(V(C_i) \cap M_a^*\big) \mid C_i \subset C }
$$

其中，$\Omega(\cdot)$ 表示“集合中时间上最新的记忆”。

这种策略确保在每个相关的连通子结构中，仅选择代表当前语境最新状态的记忆与 $m_{\text{new}}$ 建立连接，从而在控制图结构复杂度的同时，保留时间与语义上的关键演化信息。

在将会话 $t$ 中的所有记忆逐一链接到当前记忆图 $G_t$ 后，我们即可得到更新后的新记忆图 $G_{t+1}$。

Phase I 的整体流程（记忆图构建阶段）的伪代码如算法1所示。

得益于所构建的记忆图结构，THEANINE 可以在回复生成（RG）过程中引入与当前对话相关的“事件时间线”（timelines），从而缓解传统记忆管理方式中的信息丢失问题（见图1）。在获得记忆图 $G_{t+1}$ 后，THEANINE 在会话 $t+1$ 的回复生成过程中执行以下步骤：

准备阶段：Top-k 记忆检索（Top-k memory retrieval）
在对话进行过程中，以当前对话上下文 $D = {u_i}_{i=1}^{n}$（由 $n$ 条话语 $u$ 构成）作为查询，从记忆图中检索出 top-$k$ 个最相关的记忆：

$$
M_{re} = \lbrace m_{re,i} \mid i = 1,\dots,k \rbrace
$$

这些检索到的记忆将作为后续时间线构建与细化的基础输入。

Phase II-1：原始记忆时间线的检索与解缠（Retrieving and untangling raw memory timelines）

我们希望不仅获取 $M_{\text{re}}$ 中的记忆，还能够访问围绕这些记忆展开的相关上下文。形式化地，对于每个 $m_{\text{re}} \in M_{\text{re}}$，我们进一步基于记忆图中的连接结构，收集包含该节点的连通子图 $C_{\text{re}} \subset G_{t+1}$。

然而，由于图结构的存在，这些记忆集合（即 $C_{\text{re}}$）通常是“缠绕”的（即以复杂方式相互连接）。因此，我们需要将其“解缠”为若干条记忆时间线（memory timelines）。每一条时间线表示一系列围绕 $m_{\text{re}}$ 展开的事件，这些事件可能具有相似的起点，但在后续发展中分化为不同的路径。

为此，我们首先在 $C_{\text{re}}$ 中定位最早的记忆，作为所有时间线的起点 $m_{\text{start}}$（如图4左所示）：

$$
m_{\text{start}} = \Theta\big(V(C_{\text{re}})\big)
$$

其中，$\Theta(\cdot)$ 表示“集合中时间最早的记忆”。

该起点为后续时间线的展开提供了统一的源头，使得不同事件发展路径可以在一致的时间基准下进行建模与分析。

接下来，以 $m_{\text{start}}$ 为起点，我们沿着时间的“未来方向”对记忆进行解缠，通过遍历图结构，从 $C_{\text{re}}$ 中提取所有包含 $m_{\text{re}}$ 的线性路径（如图4中所示的两条路径）。这一过程会持续进行，直到到达某个终止节点 $\tau[-1]$，其出度为 0（即 $\deg^{+}(\tau[-1]) = 0$，表示没有从该节点出发的有向边）。每一条这样的路径都被视为一条原始记忆时间线 $\tau$，用于刻画 $m_{\text{re}}$ 及其相关事件的一种演化过程：

$$
T = {\tau \subset C_{\text{re}} \mid \tau \text{ 是一条有向线性图，且 } m_{\text{start}}, m_{\text{re}} \in \tau \land \deg^{+}(\tau[-1]) = 0 }
$$

随后，我们从集合 $T$ 中采样 $n$ 条原始时间线 $\tau$。对所有检索得到的 top-$k$ 记忆重复执行 Phase II-1 后，我们最终获得一组原始记忆时间线集合：

$$
\mathcal{T} = \bigcup T, \quad |\mathcal{T}| = k \times n
$$

该过程使模型能够从图结构中提取出多条可能的事件发展路径，为后续更精细的时间线筛选与回复生成提供丰富的候选上下文。

Phase II-2：上下文感知的时间线细化（Context-aware timeline refinement）

尽管我们已经通过引入时间关系与常识关系构建了信息更丰富的记忆图，但如果直接将检索到的时间线用于回复生成（RG），效果仍可能不理想（见第4节 RQ3）。其原因在于：记忆图是在离线阶段构建的，并未考虑当前正在进行的对话上下文。因此，在本阶段中，THEANINE 通过“上下文感知的时间线细化”来弥合离线记忆构建与在线对话之间的差距。

受大语言模型能够对其生成结果进行自我优化与修正的能力启发（Madaan et al., 2024），我们利用 LLM 对原始时间线进行重构，使其转化为更契合当前对话需求的信息资源，例如去除冗余内容或突出关键信息。

形式化地，给定当前对话上下文 $D$ 和检索得到的原始时间线集合 $\mathcal{T}$，LLM 将每一条时间线 $\tau \in \mathcal{T}$ 转换为细化后的时间线集合 $\mathcal{T}_{\Phi}$：

\[T_{\Phi} = \left\{ \arg\max_{\tau_{\Phi}} P_{\mathrm{LLM}}\left(\tau_{\Phi} \mid D, \tau\right) \mid \tau \in \mathcal{T} \right\}\]

最终，所有细化后的时间线 $\mathcal{T}_{\Phi}$ 将用于增强回复生成过程。

Phase II 的完整流程伪代码见算法2。

时间线增强的回复生成（Timeline-augmented Response Generation, Phase III）

在这一阶段，THEANINE 利用已经细化后的时间线来进行回复生成（RG）。

形式化地，给定当前对话上下文 $ D = \lbrace u_i \rbrace_{i=1}^{n} $ 以及细化后的时间线集合 $ \mathcal{T}_{\Phi} $，大语言模型生成下一条回复 $ u_{n+1} $：

$$
u_{n+1} = \arg\max_{u_{n+1}} P_{\text{LLM}}(u_{n+1} \mid D, \mathcal{T}_{\Phi})
$$

也就是说，模型在生成回复时，不仅依赖当前对话内容 $D$，还融合了经过筛选与重构的历史事件时间线 $\mathcal{T}_{\Phi}$，从而能够更好地利用长期记忆中的关键上下文信息，提高回复的连贯性与一致性。

实验设置

数据集

目前，用于长周期、多会话对话的公开数据集仍然较为有限。首先，Multi-Session Chat（MSC）（Xu et al., 2022a）是在 PersonaChat（Zhang et al., 2018）的基础上构建的，通过将原始对话扩展为多轮（五个）会话来实现长期对话建模。随后，DuLeMon（Xu et al., 2022b）和 CareCall（Bae et al., 2022）相继被提出，分别面向中文和韩文的长期对话场景。

近年来，Conversation Chronicles（CC）（Jang et al., 2023）作为一个新的数据集被发布。与 MSC 不同，CC 为对话参与者引入了明确的关系设定，例如“员工与上司”等，从而增强了对话的结构性与语境约束。

除了这些开放域数据集之外，Psychological QA⁸ 则关注于临床场景下的长期对话（以中文为主）。在本文中，我们选择 MSC 和 CC 作为评估数据集，以聚焦英文对话场景；而多语言及特定领域的数据集（如 DuLeMon、CareCall 和 Psychological QA）则留待未来工作进一步探索。

基线方法（Baselines）

为了评估 THEANINE 的性能，除了一些直接利用全部历史对话或记忆的朴素基线方法之外，我们还引入了以下具有代表性的设置与方法：

Memory Retrieval（记忆检索）
遵循 Xu et al. (2022a) 的做法，我们使用检索器从记忆库中提取与当前对话上下文相关的记忆，以增强回复生成（RG）。

Memory Update（记忆更新）
在每个对话会话结束时，我们利用大语言模型实现 Bae et al. (2022) 提出的常用记忆更新算法。该算法包括多种操作，如 Change（修改）、Replace（替换）、Delete（删除）、Append（追加）等（详见附录 H）。

RSum-LLM
一种纯生成式方法（Wang et al., 2023），完全依赖 LLM，通过递归地对记忆池进行摘要与更新来生成回复，而不使用显式的检索模块。

MemoChat
由 Lu et al. (2023) 提出，该方法利用 LLM 的链式思维（Chain-of-Thought, CoT）能力：（i）以“主题—摘要—对话”的结构从历史对话中提取重要记忆；（ii）选择相关记忆；（iii）生成回复。

COMEDY
由 Chen et al. (2024b) 提出，该方法使用 LLM 对每个会话级别的记忆进行总结，并将其压缩为简短的事件表示、用户画像（如行为模式、情绪等）以及用户-智能体关系信息。随后，从这些压缩记忆中选择相关内容用于增强回复生成。

模型与实现细节（Models and Implementation Details）

大语言模型（Large language models）
在所有实验中（包括各类基线方法），我们统一采用 gpt-3.5-turbo-0125（OpenAI, 2023）用于：（i）记忆摘要（见表6）、（ii）记忆更新，以及（iii）回复生成。温度参数（temperature）设定为 0.75。

检索器（Retrievers）
对于涉及检索的设置，我们使用 text-embedding-3-small（OpenAI, 2024b）来计算文本相似度。在关联记忆识别（Phase I-1）和 top-$k$ 记忆检索（Phase II）中，我们将 $j$ 和 $k$ 均设为 3。而在“Memory Retrieval”基线方法中，按照 Xu et al. (2022a) 的设置，将 $k = 6$。

对话会话（Dialogue sessions）
在评估阶段，我们使用 MSC 和 CC 数据集的第 3 至第 5 个会话进行实验。这是因为在前两个会话（session 1–2）中，各方法表现几乎一致（由于尚未形成可更新的记忆）。

评估方案一：自动评估与人工评估（Evaluation Scheme 1: Automatic and Human Evaluations）

为了评估 THEANINE 在长期对话中的回复质量，我们遵循常见做法，采用三类评估方式：（i）自动评估（Automatic evaluations）；（ii）G-Eval（Liu et al., 2023），一种基于大语言模型的生成评估框架；（iii）人工评估（human evaluation）。以下总结若干关键发现（具体细节、提示设计及评估界面见附录 E）：

（发现1）THEANINE 在回复生成任务中优于各类基线方法。

Methods / Metrics	MSC Bleu-4	MSC Rouge-L	MSC Mauve	MSC BertScore	CC Bleu-4	CC Rouge-L	CC Mauve	CC BertScore
All Dialogue History	1.65	14.89	9.06	86.28	4.90	21.56	26.47	88.13
All Memories & Current Context 𝒟	1.56	14.89	10.62	86.23	4.41	20.06	38.16	88.02
+ Memory Update (Bae et al., 2022)	1.55	14.77	9.28	86.20	4.34	20.34	34.84	88.03
Memory Retrieval (Xu et al., 2022a)	1.92	15.49	11.16	86.47	4.93	20.63	33.06	88.07
+ Memory Update (Bae et al., 2022)	1.67	15.30	13.71	86.39	4.46	20.19	34.28	88.02
Rsum-LLM (Wang et al., 2023)	0.75	11.53	2.45	84.91	0.98	11.42	2.28	85.59
MemoChat (Lu et al., 2023)	1.42	13.51	7.72	85.96	2.31	15.87	15.12	87.08
COMEDY (Chen et al., 2024b)	1.06	12.79	7.27	85.29	1.70	13.57	1.95	85.90
THEANINE (Ours)	1.80	15.37	18.62	86.70	6.85	22.68	64.41	88.58

表 1：回复质量的自动评估（各会话平均）

表1展示了不同方法在回复生成（RG）任务中的性能，评估指标包括基于重叠的指标和基于语义嵌入的指标，例如：

Bleu-4（Papineni et al., 2002）
Rouge-L（Lin, 2004）
Mauve（Pillutla et al., 2021）
BertScore（Zhang et al., 2020）

在两个数据集上，THEANINE 在整体回复质量方面均优于多种基线方法。尽管在 MSC 数据集上，相较于“Memory Retrieval”方法，THEANINE 在部分基于重叠的指标（如 Bleu-4 和 Rouge-L）上略低，但在基于语义表示的指标（如 Mauve 和 BertScore）上表现显著更优。

值得注意的是，包括 THEANINE 在内，不采用记忆更新机制的方法通常获得更高的评估分数。这一现象从实验层面支持了本文的核心观点：对于终身对话智能体而言，无需更新或删除记忆的管理策略更有利于提升整体性能。

（发现2 & 3）各阶段均对性能有贡献；整体检索“时间线”相比传统检索带来显著提升。

Settings / Metrics	B-4	R-L	Mauve	Bert
THEANINE (Ours)	4.32	19.03	41.52	87.64
w/o Relation-aware Linking	4.07	18.58	39.69	87.57
w/o Timeline Refinement	4.03	18.82	41.34	87.66
Broken Down, Shuffled Timeline	4.15	18.70	38.49	87.61
Memory Retrieval	3.43	18.06	22.11	87.27

表 2：消融实验性能（各数据集平均）。

为了深入分析模型设计的有效性，我们进一步研究了以下因素对 THEANINE 性能的影响：
（i）在记忆链接阶段（Phase I-2）中移除“关系感知”（relation-awareness）；
（ii）移除时间线细化（Phase II-2）；
（iii）为客观评估“时间线整体检索”的作用，我们设计了一种对照设置：将检索到的时间线打散为随机排序的事件序列，使其在回复生成（RG）时与传统的 top-$k$ 检索格式一致。

从表2的结果可以观察到，各组件对性能的贡献排序为：

关系感知记忆链接 > 整体时间线检索 > 时间线细化

这一结果表明：
首先，引入因果关系的记忆图构建（relation-aware linking）对于提升性能最为关键，验证了在记忆结构中显式建模事件间因果关系的有效性。
其次，基于该图结构对相关事件进行“时间线级别”的整体检索，相比传统的 top-$k$ 检索方法，能够显著提升回复生成质量——即使初始检索规模更小（$k=3$ 对比 $k=6$）。
最后，时间线细化（timeline refinement）虽然带来了性能提升，但增益相对较小，这表明其在实际应用于回复生成时仍存在优化空间，有待未来进一步研究。

（发现4）人工评估与 G-Eval 表明，THEANINE 在记忆检索的有效性与准确性方面均表现更优。

除了评估智能体生成的回复质量之外，我们还进一步分析了不同记忆构建方法对记忆检索质量的影响。在相同的当前对话作为查询条件下，图5展示了方法之间的两两对比（ours vs. baselines），评估其检索到的记忆在多大程度上有助于提升回复生成（RG）。

结果表明，THEANINE 在所有对比中均取得了更高的胜率，尤其是在人工评估中优势更为明显。这说明该方法能够为回复生成提供更有帮助的记忆增强信息。

除了“有用性”（helpfulness），对检索“准确性”（accuracy）的客观评估同样至关重要。然而，现有的长期对话数据集并未提供对话上下文与记忆之间的“黄金映射”（即标准答案）。为此，我们筛选了 50 个需要依赖历史记忆进行回复生成的对话上下文（测试样本），并对不同方法的检索准确率进行人工标注评估。

表3的结果显示，THEANINE 及其消融变体在检索准确率方面均优于各类基线方法，并且其性能排序与表1中的结果以及表4中的成功率保持一致。这进一步验证了该方法在记忆检索与利用方面的整体优势。

（发现5）人工评估表明，THEANINE 能生成更好地蕴含（entail）历史交互信息的回复。

在验证了 THEANINE 检索到的记忆具有较高“有用性”之后，我们进一步探究这些记忆是否能够促进可靠的长期人机交互。为此，我们组织标注人员通过多数投票的方式，对模型生成的回复进行判断：其与历史对话之间是“蕴含”（entail）、“矛盾”（contradict）还是“中立”（neutral）。

如图6所示，THEANINE 不仅将“矛盾”回复的比例降低至较低水平（4%），还在“蕴含”类别上取得了最高占比（68%）。这表明其生成的回复在很大程度上能够正确反映并延续历史对话内容，显著优于各类基线方法。

我们认为，这一优势源于其基于“时间线”的建模方式：通过组织相关记忆的演化过程，模型能够更好地刻画说话者之间的历史交互，从而生成与过去信息更加一致的回复。这种一致性对于对话智能体维持长期用户关系（例如建立亲密感）至关重要（Adiwardana et al., 2020）。

此外，这种高“蕴含性”与低“矛盾性”的特性也使 THEANINE 在特定应用场景中具有潜在价值。例如，在个性化医疗辅助等场景中，智能体需要确保其回复与用户历史信息（如电子健康记录或既往咨询记录）保持一致，这对于诊断决策具有重要意义（Tseng et al., 2024）。

补充说明：Memory Update 方法在“矛盾”回复方面表现更低（2%），这表明在以下两者之间可能存在权衡关系：（i）通过删除过时记忆来避免矛盾；（ii）保留这些记忆以为回复生成（RG）提供更丰富的信息（Kim et al., 2024a）。

（发现6）人工评估表明，THEANINE 的中间处理过程具有较高合理性。

如图7所示，评审人员在很大程度上认同 THEANINE 的中间步骤设计：

在记忆链接阶段，92% 的评审认为模型能够正确地为记忆之间分配因果关系，这也解释了其在性能上的提升；
在时间线细化阶段，评审一致认为（100%，共100个样本）该过程能够有效提取出更有助于回复生成的信息。

这些结果从人类评估角度进一步验证了 THEANINE 各个关键模块设计的有效性与合理性。更多关于各阶段处理过程及回复生成的具体示例见附录 G。

评估方案二：TeaFarm —— 基于反事实驱动的长期对话评估框架

（Evaluation Scheme 2: Counterfactual-driven Evaluation Pipeline）

在长期对话场景中，评估基于记忆增强的智能体具有较大挑战性，主要原因在于缺乏当前对话与“正确记忆”之间的标准映射（ground-truth mapping）。虽然可以借助 G-Eval，向评估用的 LLM（如 GPT-4）输入完整历史对话并判断回复是否正确引用过去信息，但这种方法的效果在很大程度上依赖于评估模型本身的能力（Kim et al., 2024b）。

为了解决这一问题，本文在提出 THEANINE 的同时，引入了 TeaFarm ——一种无需人工参与的、基于反事实（counterfactual）驱动的评估流程，用于衡量长期对话中记忆增强回复生成的效果。

基于反事实问题的记忆能力测试

（Testing Dialogue Agents’ Memory via Counterfactual Questions）

在 TeaFarm 中，我们通过“误导”对话智能体来测试其记忆能力：系统会构造与事实相反的陈述（反事实），诱导模型生成错误回答，而只有正确引用历史对话信息的模型才能避免被误导。

具体而言，在与智能体对话时，我们会假装某些不真实的陈述为真（即反事实设定）。例如（见图8），问题可能基于错误前提提出，而模型需要识别并纠正这些前提。

在实践中，当评估一个已经与用户进行了多轮会话的智能体时，TeaFarm 的流程如下：

收集历史对话：整理所有过往会话，并按会话逐一进行摘要；
输入摘要：将这些按时间排序的摘要输入到问题生成 LLM，使其能够理解各事件的当前状态（例如：“说话者B没有车”）；
生成反事实问题：从双方视角生成反事实问题及其正确答案；
模拟新会话：启动一个新的对话会话，与智能体进行自然交互；
提出问题：在对话过程中自然地引入反事实问题；
评估回答：根据模型是否能够抵抗误导、正确引用历史信息来评估其表现。

该方法的核心优势在于：无需人工标注“正确记忆”，即可通过反事实机制自动评估模型是否真正掌握并使用了历史信息。TeaFarm 的整体流程图、提示设计及合成数据示例分别见附录 C、H 和 D。

TeaFarm 评估结果（TeaFarm Results）

在表4中，THEANINE 在成功率（SR, Success Rate）上整体优于各类基线方法，尤其是在 Conversation Chronicles（CC）数据集上表现更为突出。消融实验的性能略低于完整模型，再次验证了关系感知记忆链接与时间线细化机制的有效性。

一个值得注意的现象是：所有方法的成功率整体较低。这表明 TeaFarm 作为评估框架具有较强的“压力测试”（stress-testing）能力，能够有效揭示长期对话中模型记忆能力的不足。

此外，一个有趣的发现是：采用检索机制的方法（与 THEANINE 类似）整体优于仅依赖 LLM 的方法（如 RSum-LLM、MemoChat 和 COMEDY）。这一结果在一定程度上支持了本文提出的观点——在大语言模型时代，构建结构化记忆管理机制（而非完全依赖生成能力）仍然至关重要。

最后，为了进一步分析模型的局限性，作者在附录 G 中提供了 THEANINE 在 TeaFarm 框架下失败案例的详细分析，以揭示对话智能体在某些复杂情境下仍面临的挑战。

ReadAgent论文阅读

2026-04-06T11:34:52.000Z

A Human-Inspired Reading Agent with Gist Memory

摘要

Current Large Language Models (LLMs) are not only limited to some maximum context length, but also are not able to robustly consume long inputs. To address these limitations, we propose ReadAgent, an LLM agent system that increases effective context length up to 20× in our experiments. Inspired by how humans interactively read long documents, we implement ReadAgent as a simple prompting system that uses the advanced language capabilities of LLMs to (1) decide what content to store together in a memory episode, (2) compress those memory episodes into short episodic memories called gist memories, and (3) take actions to look up passages in the original text if ReadAgent needs to remind itself of relevant details to complete a task. We evaluate ReadAgent against baselines using retrieval methods, using the original long contexts, and using the gist memories. These evaluations are performed on three long-document reading comprehension tasks: QuALITY, NarrativeQA, and QMSum. ReadAgent outperforms the baselines on all three tasks while extending the effective context window by 3.5 −20×.

当前的大语言模型（LLM）不仅受到最大上下文长度的限制，还无法稳定地处理超长输入。为解决这些缺陷，我们提出ReadAgent——一套大语言模型智能体系统，在实验中可将有效上下文长度提升至原来的20倍。
受人类交互式阅读长文档的方式启发，我们将ReadAgent设计为一个简洁的提示系统，利用大语言模型强大的语言能力实现三项核心功能：1. 确定哪些内容应整合为一个记忆单元进行存储；2. 将这些记忆单元压缩为简短的主旨记忆（gist memory）；3. 当完成任务需要回忆相关细节时，主动执行检索操作，从原文中查找对应段落。我们将ReadAgent与多类基线方法进行对比，包括基于检索的方法、直接使用原始长上下文的方法，以及仅使用主旨记忆的方法。对比实验在三项长文档阅读理解任务上开展：QuALITY、NarrativeQA和QMSum。结果表明，ReadAgent在所有三项任务上均优于基线方法，同时将有效上下文窗口扩大了3.5至20倍。

方法

摘要记忆 Gist Memory

摘要记忆（gist memory）是原始长上下文中文本片段的简短摘要的有序集合。构建摘要记忆包含两个步骤：分页和记忆摘要生成，如下文分别描述。

当 ReadAgent 阅读长文本时，它会通过在何处暂停阅读来决定将哪些内容存储为剧情分页（Episode Pagination）。在每一步中，我们向大语言模型（LLM）提供一段文本，该文本从上一次暂停点开始，直到达到最大词数限制为止。我们提示 LLM 选择一个段落之间的自然停顿点，然后将上次暂停点到当前暂停点之间的内容视为一个剧集（也称为一页）。这就是剧集分页，我们通过以下提示来实现这一机制。

如提示中所示，段落之间插入了可能的中断点，以带编号的标签表示（例如 ⟨13⟩），这使得该问题成为针对大语言模型的多选题。我们仅在达到 min words 后才开始插入这些带编号的标签，以确保每页至少包含 min words 个词。

Pagination Prompt:

You are given a passage that is taken from a larger text (article, book, ...) and some numbered labels between the paragraphs in the passage.  Numbered labels are in angle brackets. For example, if the label number is 19, it shows as ⟨19⟩ in text.  Please choose a label where it is natural to break reading.

The label can be a scene transition, the end of a dialogue, the end of an argument, a narrative transition, etc.  Please answer with the break point label and explain.  

For example, if ⟨57⟩ is a good point to break, answer with “Break point: ⟨57⟩\n Because ...”  

Passage: 
{...} 
{PARAGRAPH 5 TEXT}
⟨5⟩
{PARAGRAPH 6 TEXT} 
⟨6⟩
{PARAGRAPH 7 TEXT}
{...}

你得到了一段文本，这段文本是从更大的文本（文章、书籍等）中提取的，并且在段落之间有一些带编号的标签。带编号的标签用尖括号表示。例如，如果标签编号是19，则在文本中显示为⟨19⟩。请你选择一个标签，在那里自然地中断阅读。

标签可以是场景转换、对话结束、论点结束、叙事转换等。请回答中断点标签并解释。

例如，如果⟨57⟩是一个很好的中断点，请回答“中断点：⟨57⟩\n 因为...”

段落：
{...}
{段落5文本}
⟨5⟩
{段落6文本}
⟨6⟩
{段落7文本}
{...}

记忆概括 Memory Gisting

对于每一页，我们提示大型语言模型将确切内容缩短为一个摘要或要点，如下所示。

Gisting Prompt:

Please shorten the following passage.

Just give me a shortened version. DO NOT explain your reason.

Passage:
{PAGE TEXT}

请缩短以下段落。

只给我一个简化版本。不要解释你的理由。

段落：
{PAGE TEXT}

随后，在每个摘要前添加一个页面标签（例如“⟨第2页⟩\n{摘要内容}”），以对其进行上下文标注（说明摘要来源），然后将所有摘要连接起来。这样就得到了摘要记忆。我们在提示中使用“缩短”一词来生成这些摘要，因为它有助于保持叙述流程的自然性，使连接后的结果更流畅。在我们的实验中，使用“总结”一词则倾向于生成结构化的摘要。

原始页面大小是决定摘要压缩程度的关键因素。假设我们将最小文本单位视为一个段落。直观上，一个段落与其相邻段落之间可能存在一定的互信息。因此，我们组合的文本块越大，可以去除的重复信息就越多。经验上，使用大语言模型压缩更大的文本块也往往会去除更多细节，这可能影响性能。我们通过调整分页中的最小字数和最大字数来控制页面大小。

这种权衡在4.4节中进行了研究，如下：

压缩权衡表6展示了随着页面尺寸增大，压缩率提高的经验结果。随着压缩率的降低，摘要对于直接回答问题更有用。然而，对于使用查找功能的ReadAgent，当初始摘要压缩率过高时，准确性会受到影响。

文章中各项任务使用的页面大小如下：

交互式查找与应答 Interactive Look-Up and Response

针对给定的长文档任务，我们希望 ReadAgent 在利用主旨记忆的基础上，进一步执行检索操作，从原文中查找相关细节。由于主旨记忆已通过页码完成上下文关联，我们只需对大语言模型进行提示，使其根据具体任务给出希望检索并重新阅读的页码。下文将讨论两种检索策略：并行一次性检索所有目标页面（ReadAgent‑P）与串行逐次检索单页（ReadAgent‑S）。

ReadAgent-P（并行检索）

如下方所示的问答任务提示示例，我们通常会设定模型可检索的最大页面数量，同时要求模型尽可能少地选取页面，以避免不必要的计算开销与干扰信息。以下提示展示了并行检索的实现方式：模型仅需接收一次提示，即可同时请求多个页面。

The following text is what you remember from reading
an article and a multiple choice question related to it.

You may read 1 to 5 page(s) of the article again to refresh
your memory to prepare yourself for the question.
Please respond with which page(s) you would like to read.

For example, if you only need to read Page 8, respond
with “I want to look up Page [8] to ...”; if you would like
to read Page 7 and 12, respond with “I want to look up
Page [7, 12] to ...”; if you would like to read Page 2, 3, 7,
15 and 18, respond with “I want to look up Page [2, 3, 7,
15, 18] to ...”.

DO NOT select more pages if you don’t need to.

You don’t need to answer the question yet.

Text:
{GIST MEMORY}
Question:
{QUESTION}

以下文本是你阅读一篇文章后记住的内容，以及一道与之相关的选择题。你可以重新阅读这篇文章的 1 至 5 页内容来唤醒记忆，以便作答。请回复你想要重新阅读的页码。

示例：
若只需阅读第 8 页，请回复：“I want to look up Page [8] to ...”

若需阅读第 7 页和第 12 页，请回复：“I want to look up Page [7, 12] to ...”

若需阅读第 2、3、7、15、18 页，请回复：“I want to look up Page [2, 3, 7, 15, 18] to ...”

非必要不要选择多余页面。你暂时无需回答问题。

文本：
{GIST MEMORY}
问题：
{QUESTION}

被选中的原始页面会替换记忆中对应位置的主旨内容，同时保留整体的叙事逻辑。随后我们将任务与更新后的记忆再次输入大模型，提示其完成任务（示例提示词见附录 F）。

ReadAgent-S（串行检索）

我们还研究了串行检索策略：模型每次只请求一页，最多可检索设定的最大页面数。在串行检索中，模型在决定下一页要展开的内容前，能够先看到已经展开的页面。这让模型比并行检索获得更多信息，因此在部分场景中表现可能更优。但与模型的交互次数大幅增加会提升计算成本，所以串行检索仅适用于能带来明显收益的任务。

The following text is what you remember from reading
a meeting transcript, followed by a question about the
transcript.

You may read multiple pages of the transcript again to
refresh your memory and prepare to answer the question.

Each page that you re-read can significantly improve your
chance of answering the question correctly.

Please specify a SINGLE page you would like to read
again or say ”STOP”.

To read a page again, respond with “Page $PAGE NUM”,
replacing $PAGE NUM with the target page number.

You can only specify a SINGLE page in your response at
this time.

To stop, simply say “STOP”. DO NOT answer the ques-
tion in your response.

Text:
{GISTS WITH IN-LINE EXPANDED PAGES}

Pages re-read already (DO NOT ask to read them again):
{LIST OF PAGE NUMBERS ALREADY READ}

Question:
{QUESTION}

Specify a SINGLE page to read again, or say STOP:

以下是你阅读一份会议记录后记住的内容，随后是一道与该记录相关的问题。

你可以重新阅读这份记录中的多页内容，以唤醒记忆并准备回答问题。

你重新阅读的每一页，都能显著提升你正确回答问题的概率。

请指定一页你想要重新阅读的内容，或者回复STOP。

若要重新阅读某一页，请以格式 Page 页码 回复，将 $PAGE NUM 替换为目标页码。

你每次只能指定一页。若要停止检索，直接回复 STOP。请勿在回复中回答问题。

记忆内容：
{GISTS WITH IN-LINE EXPANDED PAGES}

已重读页面（请勿重复请求阅读）：
{LIST OF PAGE NUMBERS ALREADY READ}

问题：
{QUESTION}

请指定一页重新阅读，或回复 STOP：

计算代价权衡与可扩展性 Computational Trade-offs and Scalability

篇章分段、主旨压缩与交互式检索都需要迭代推理。正如后文所示，其额外开销受一个较小系数的线性约束，这使得本方法能够随输入长度良好扩展。

分段：理论上，大语言模型可单次通读文档并直接完成分段，因此模型必须处理的最小词量等于文档长度。本文的分段算法将文档切分为不超过最大词数（max_words）的块，并保证每一步至少处理最小词数（min_words）。因此，最大词数与最小词数的比值，给出了模型使用该算法所需处理文档词数的倍数上限。

主旨压缩：主旨压缩需要对原始输入再做一次完整遍历，因为每一页均独立压缩。

检索：并行检索基于主旨而非全文，因此处理长度远短于原始输入的一次遍历。串行检索的每一步与并行检索类似，总开销受允许的最大检索次数限制。

作答：最终的任务作答环节与并行检索的计算量相近。当然，提示词模板会带来少量额外开销。

另一方面，主旨生成是一次性开销，而检索与作答环节主要处理远短于原文的主旨。当同一上下文被用于多个任务时，这部分一次性开销可被均摊。因此在这类场景下，ReadAgent能够减少模型需处理的总token数。

具体而言，直接基于QuALITY开发集原文（230篇文章、2086个问题）作答时，模型需处理8,708,434个词；而使用ReadAgent：

单页检索：6,499,856个词（节省25.4%）
最多2页检索：6,933,357个词（节省20.4%）
最多5页检索：7,503,084个词（节省13.8%）

可以预期，压缩率越高，节省的计算量越显著。

ReadAgent 的变体 ReadAgent Variants

在附录 G 中，我们讨论了ReadAgent 的多种变体，这些变体可适用于不同的问题场景，包括在阅读长文档之前就已知晓目标任务的情况。在附录 E 中，我们介绍了如何将 ReadAgent 适配应用于网页导航场景。

G.1 无条件 / 有条件 ReadAgent

在处理长文本时，用户有可能提前知道需要完成什么任务。这种情况下，我们可以在主旨生成环节的提示词中加入任务描述。这样一来，大语言模型就能更好地过滤掉与任务无关的信息，从而提升效率、减少干扰。这种方法被称为条件式 ReadAgent。

但更常见的情况是：生成主旨时并不知道具体任务，或者这些主旨需要用于多个不同任务（比如回答关于同一文本的多个问题）。因此，在主旨生成阶段不加入任务信息，模型可以生成通用性更强的主旨，代价是压缩率降低、干扰信息增多。这种设置被称为无条件式 ReadAgent。

本文仅对无条件式进行了实验验证，但我们认为在某些场景下，条件式会是更优选择。

G.2 特定领域专用 ReadAgent

与附录 G.1 相关，当将 ReadAgent 应用于特定领域时，提供领域专属指令往往会很有帮助。例如，若要使用 ReadAgent 理解程序库，可以向大语言模型给出更具体的指令，让其从每个文件中提取代码用途、功能、关键函数或类的签名等摘要信息作为主旨。

G.3 迭代主旨压缩（Iterative Gisting）

对于非常长的事件历史（例如一段对话），我们可以考虑通过迭代式主旨压缩对更早的记忆进行进一步压缩，从而支持更长的上下文，这与人类对久远记忆会变得模糊的特点相似。尽管这不在本文的研究范围内，但它对于智能助手等应用场景可能十分有用 —— 在这些场景中，随着用户与智能体持续交互，上下文长度会随时间无限增长。

实验结果

QuALITY

Quality: Question answering with long input texts, yes!

QuALITY 是一个四选项多选题问答评测任务，其文本数据来源于多个不同领域。该任务使用准确率作为评估指标，随机猜测的正确率为 25%。

NarrativeQA

The NarrativeQA Reading Comprehension Challenge

NarrativeQA是我们选用的三个阅读理解数据集中平均上下文长度最长的数据集。该数据集分为书籍（古登堡）和电影剧本两部分。其中，古登堡测试集平均长度为 70619 词，最长达 343910 词；电影剧本测试集平均长度为 29963 词。

QMSum

QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization

SCROLLS: Standardized CompaRison Over Long Language Sequences

QMSum 由各类主题的会议记录以及对应的问题或指令构成。我们使用了由 SCROLLS（Shaham 等人，2022）提供的拼接版 QMSum 数据集。这些会议记录通常篇幅较长，长度在 1000 到 26300 词之间，平均约为 10000 词。图 5 展示了 QMSum 训练集的词数分布直方图。该任务的答案为自由文本格式，因此标准评估指标是 ROUGE F 值。

ES-Mem论文阅读

2026-04-03T05:08:29.000Z

ES-Mem: Event Segmentation-Based Memory for Long-Term Dialogue Agents

摘要

Memory is critical for dialogue agents to maintain coherence and enable continuous adaptation in long-term interactions. While existing memory mechanisms offer basic storage and retrieval capabilities, they are hindered by two primary limitations: (1) rigid memory granularity often disrupts semantic integrity, resulting in fragmented and incoherent memory units; (2) prevalent flat retrieval paradigms rely solely on surface-level semantic similarity, neglecting the structural cues of discourse required to navigate and locate specific episodic contexts. To mitigate these limitations, drawing inspiration from Event Segmentation Theory, we propose ES-Mem, a framework incorporating two core components: (1) a dynamic event segmentation module that partitions long-term interactions into semantically coherent events with distinct boundaries; (2) a hierarchical memory architecture that constructs multi-layered memories and leverages boundary semantics to anchor specific episodic memory for precise context localization. Evaluations on two memory benchmarks demonstrate that ES-Mem yields consistent performance gains over baseline methods. Furthermore, the proposed event segmentation module exhibits robust applicability on dialogue segmentation datasets.

记忆对于对话智能体维持连贯性并在长期交互中实现持续适应至关重要。尽管现有的记忆机制提供了基本的存储与检索能力，但仍受到两个主要限制：（1）僵化的记忆粒度常常破坏语义完整性，导致记忆单元碎片化且缺乏连贯性；（2）主流的扁平化检索范式仅依赖表层语义相似性，忽视了话语结构线索，而这些线索对于定位和检索特定情境片段至关重要。为缓解上述问题，我们受到事件分割理论（Event Segmentation Theory）的启发，提出了 ES-Mem 框架。该框架包含两个核心组件：（1）动态事件分割模块，将长期交互划分为具有清晰边界的语义连贯事件；（2）层次化记忆架构，构建多层级记忆，并利用边界语义锚定特定的情景记忆，从而实现精确的上下文定位。在两个记忆基准数据集上的评估结果表明，ES-Mem 相较于基线方法取得了稳定的性能提升。此外，所提出的事件分割模块在对话分割数据集上也表现出良好的通用性。

引言

现状

当前的记忆机制存在两点问题：

1）记忆粒度是固定的，一般都是以一个 turn 为单位

2）检索的方法过于扁平，一般都是依赖于表层语义相似性（就是嵌入计算余弦相似度，然后召回 Top-K 这种）进行记忆检索，没有采用记忆 unit 之间的结构化关联。

动机（故事）

事件分段理论（Event Segmentation Theory, EST）是一种认知科学理论，用于解释人类在感知、理解和记忆连续事件时如何将其划分为有意义的片段。该理论由心理学家 Jeffrey Zacks 等人提出，对影视理解、记忆编码及预测行为具有重要影响。

简单来说就是输入对话流，然后通过事件分段模块将对话流划分为一个个事件单元（event unit），每个事件单元都是一个语义连贯的片段。然后在记忆检索阶段，利用事件边界的语义信息来定位和召回特定的情景记忆，从而实现更精确的上下文定位。

贡献

提出 ES-Mem，一个基于事件分割理论的新型认知启发式记忆框架。通过将记忆粒度从固定的话轮转变为动态事件，ES-Mem 解决了现有方法固有的语义碎片化问题，并确保了话语整体性的保持。
实现了一个动态分割模块，该模块根据主题连贯性和意图变化对连续对话流进行划分。这驱动了一种分层记忆架构，包含多层存储机制，从而支持一种以边界为锚点的精准上下文定位策略.
在两个长期记忆基准测试上系统地评估了 ES-Mem 的性能。实证结果表明，ES-Mem 持续优于各类记忆基线模型。此外，在小型模型场景下，我们的事件分割模块在对话分割任务中表现出强大的适应性.

通过EST理论来提升对话智能体记忆能力的相关工作。

MemoryBank论文阅读

2026-04-02T06:50:02.000Z

MemoryBank: Enhancing Large Language Models with Long-Term Memory

MemoryBank 是一个围绕三个核心支柱构建的统一机制：

（1）作为主要数据存储库的记忆存储（memory storage），

（2）用于上下文相关记忆召回的记忆检索器（memory retriever），

（3）受 Hermann Ebbinghaus 遗忘曲线理论启发的记忆更新器（memory updater），该理论是关于记忆保持与遗忘的经典心理学原理。

记忆存储 Memory Storage

记忆存储作为 MemoryBank 的“仓库”，是一个强大的数据存储库，包含精细组织的信息集合。如图 1 所示，它存储每日对话记录、过去事件的总结以及不断演化的用户人格评估，从而构建出一个动态且多层次的记忆结构。

深度记忆存储 In-Depth Memory Storage

MemoryBank 的存储系统通过以详细的时间顺序记录多轮对话，捕捉 AI 与用户交互的丰富性。每一段对话都带有时间戳进行存储，形成有序的历史叙述。这种详细记录不仅有助于精确的记忆检索，也为后续的记忆更新提供支持，构成完整的对话历史索引。

分层事件总结 Hierarchical Event Summary

MemoryBank 不仅仅停留在细节记录层面，还模拟人类记忆的特性，对信息进行抽象和提炼。它将冗长的对话压缩为每日事件摘要，再进一步整合为全局摘要，从而形成分层记忆结构，使系统能够从宏观角度理解历史交互与关键事件。具体而言，我们将过去的每日对话或事件作为输入，通过如下提示让 LLM 进行总结：

1
2
3

Summarize the events and key information in the content [dialog/events]

概述内容[对话/事件]中的情节和关键信息

动态人格理解 Dynamic Personality Understanding

MemoryBank 关注用户人格的建模。它在长期交互过程中持续评估并更新用户特征，生成每日人格洞察，并进一步整合为全局人格认知。这种多层结构使 AI 能够学习、适应并针对不同用户特征进行个性化响应，从而提升用户体验。具体而言，我们使用如下提示:

1
2
3

Based on the following dialogue, please summarize the user’s personality traits and emotions.[dialog]”

请根据以下对话，概括该用户的性格特征和情绪。[对话]”

1
2
3

The following are the user’s exhibited personality traits and emotions throughout multiple days. Please provide a highly concise and general summary of the user’s personality[daily Personalities]。

以下是用户在数天内表现出的性格特征和情绪。请对用户的性格进行高度简洁且概括性的总结[每日性格]。

记忆检索 Memory Retrieval

基于稳健的记忆存储结构，MemoryBank 的记忆检索机制类似于知识检索任务。我们采用类似于 Dense Passage Retrieval（Karpukhin et al., 2020）的双塔密集检索模型。在该框架中，每一轮对话及事件摘要都被视为一个记忆单元 m，并通过编码器模型 E(·) 预编码为向量表示 hm。由此，整个记忆集合 M 被表示为：
M = {h₀ᵐ, h₁ᵐ, … , h|M|ᵐ}。

这些向量通过 FAISS 进行索引，以实现高效检索。同时，当前对话上下文 c 也通过同一编码器 E(·) 编码为 hc，作为查询向量，在 M 中检索最相关的记忆。在实际应用中，编码器 E(·) 可以替换为任意合适模型。

记忆更新机制 Memory Updating Mechanism

在持久化记忆存储与检索机制的基础上，LLM 的记忆能力可以显著增强。然而，在需要更具人类特征记忆行为的场景（如 AI 陪伴、虚拟 IP 等）中，引入记忆更新机制是必要的。例如，对长期未被访问且重要性较低的信息进行遗忘，可以使 AI 更加自然。

该机制受到 Ebbinghaus Forgetting Curve 启发，并遵循以下基本规律：

遗忘速率（Rate of Forgetting）：记忆保持随时间下降，如果不复习，信息会迅速遗忘。
时间与记忆衰减（Time and Memory Decay）：遗忘曲线初期陡峭，随后趋缓。
间隔效应（Spacing Effect）：重复学习可以减缓遗忘，使信息更容易被再次掌握。

（注：虽然该理论还包括过度学习与材料意义性等因素，但本文仅建模上述三条原则。）

遗忘曲线可表示为指数衰减模型：

$$
R = e^{(−t / S)}，
$$

其中 R 表示记忆保留率，t 为学习后经过的时间，S 为记忆强度（受学习深度与重复次数影响）。为简化模型，我们将 S 设为离散值，并在首次出现时初始化为 1。当某一记忆被再次调用时，S 增加 1，同时 t 重置为 0，从而降低其被遗忘的概率。

需要注意的是，这是一种探索性且高度简化的建模方式。现实中的记忆过程更加复杂，并受到多种因素影响，不同个体与不同信息类型的遗忘曲线也会有所不同。

G-Memory论文阅读

2026-03-18T04:08:50.000Z

G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems

瞎逼逼

摘要

Large language model (LLM)-powered multi-agent systems (MAS) have demonstrated cognitive and execution capabilities that far exceed those of single LLM agents, yet their capacity for self-evolution remains hampered by underdeveloped memory architectures. Upon close inspection, we are alarmed to discover that prevailing MAS memory mechanisms (1) are overly simplistic, completely disregarding the nuanced inter-agent collaboration trajectories, and (2) lack crosstrial and agent-specific customization, in stark contrast to the expressive memory developed for single agents. To bridge this gap, we introduce G-Memory, a hierarchical, agentic memory system for MAS inspired by organizational memory theory [1], which manages the lengthy MAS interaction via a three-tier graph hierarchy: insight, query, and interaction graphs. Upon receiving a new user query, G-Memory performs bi-directional memory traversal to retrieve both high-level, generalizable insights that enable the system to leverage cross-trial knowledge, and fine-grained, condensed interaction trajectories that compactly encode prior collaboration experiences. Upon task execution, the entire hierarchy evolves by assimilating new collaborative trajectories, nurturing the progressive evolution of agent teams. Extensive experiments across five benchmarks, three LLM backbones, and three popular MAS frameworks demonstrate that G-Memory improves success rates in embodied action and accuracy in knowledge QA by up to 20.89% and 10.12%, respectively, without any modifications to the original frameworks.

大语言模型（Large Language Models, LLM）驱动的多智能体系统（Multi-Agent Systems, MAS）在认知能力与执行能力方面已显著超越单一LLM智能体。然而，其自我演化能力仍受到记忆架构发展不足的制约。通过深入分析，我们发现当前主流的MAS记忆机制存在两大关键问题：（1）设计过于简单，完全忽视了多智能体协作过程中的复杂交互轨迹；（2）缺乏跨任务（cross-trial）与智能体个体层面的定制能力，这与单智能体系统中已发展出的高表达力记忆机制形成鲜明对比。
为弥补上述不足，本文提出了一种名为G-Memory的分层智能体记忆系统。该系统受到组织记忆理论（organizational memory theory）[1]的启发，通过一个三层图结构层级对MAS中的长程交互进行管理，包括：洞察图（insight graph）、查询图（query graph）以及交互图（interaction graph）。
在接收到新的用户查询时，G-Memory通过双向记忆遍历机制，同时检索：（i）高层次、具备泛化能力的抽象洞察，以支持跨任务知识迁移；以及（ii）细粒度、压缩表达的交互轨迹，用以高效编码历史协作经验。在任务执行过程中，该分层结构会通过吸收新的协作轨迹持续演化，从而促进智能体团队能力的渐进式提升。
在五个基准任务、三种LLM基础模型以及三种主流MAS框架上的大量实验表明，G-Memory在无需修改原有框架的前提下，可将具身行动任务的成功率提升最高达20.89%，并将知识问答任务的准确率提升最高达10.12%。

方法

多智能体形式化定义

将多智能体系统（Multi-Agent System, MAS）定义为一个有向图 $G = (\mathcal{V}, \mathcal{E})$，其中顶点集合 $\mathcal{V}$ 表示智能体的集合，$|\mathcal{V}|$ 表示智能体的数量；边集合 $\mathcal{E} \subseteq \mathcal{V} \times \mathcal{V}
$ 表示智能体之间交互通道（channel）的集合。

每个智能体节点 $\mathcal{C} \in \mathcal{V}$ 有一个四元组来描述：
$$
C_i = (\mathrm{Base}_i,\ \mathrm{Role}_i,\ \mathrm{Mem}_i,\ \mathrm{Plugin}_i)
$$

符号	含义
$\mathrm{Base}_i$	底层的大语言模型实例
$\mathrm{Role}_i$	智能体的角色或人设
$\mathrm{Mem}_i$	记忆状态，包括历史交互或外部知识库
$\mathrm{Plugin}_i$	辅助工具集合（如网页搜索引擎等）

在接收到用户查询 ${Q}$ 后，系统经历了 ${T}$ 个同步通信周期。

在每个周期 ${t}$ 中，我们推导出节点的拓扑排序 $π = [π1, . . . , πN ]$，使得如果存在从 $π_j$ 到 $π_k$ 的边，则 $j < k$，这保证了每个智能体仅在所有前驱节点完成操作后才处理其输入。对于 $π$ 中的每个智能体 $\mathrm{C}_i$，其在第 $t$ 次迭代中的输出计算为：

$$
r_i^{(t)} = C_i(P_{\text{sys}}^{(t)}, Q, { r_j^{(t)} : C_j \in \mathcal{N}^{-}(C_i) })
$$

符号	含义
$r_i^{(t)}$	表示智能体 $C_i$ 在第 $t$ 轮生成的响应（包括推理步骤、中间分析或最终结果）
$P_{sys}^{(t)}$	全局系统提示，包含整体指令以及各个智能体的角色设定 $R_i$
$\mathcal{N}^{-}(C_i)$	智能体 $C_i$ 的入邻居集合，其输出作为当前输入上下文

Tips: 这段定义可以这样理解

同步通信周期可以理解为整个多智能体系统完成了多少轮协作迭代。
例如查询 Q 输入给智能体 A，A 的输出分别流向 B 和 C，最后由 D 汇总，这就完成了一轮。

[Q] -> A -> B -> D      \          ^       -> C -----  

拓扑排序用于保证处理顺序正确。合法示例：π = [A, B, C, D]、π = [A, C, B, D]；非法示例：π = [B, A, C, D]、π = [C, A, B, D]。非法的原因是 B、C 依赖 A 的输出，却在 A 之前被执行。

当所有的智能体完成响应（acted）后，全局聚合算子 $\mathcal{A}$ 将响应集合融合为中间解 $a^{(t)}$。

$$
a^{(t)} = \mathcal{A}(r_1^{(t)}, \ldots, r_N^{(t)})
$$

论文中还提到，聚合算子的常见实现有多数投票方案、通过专用聚合智能体进行分层摘要，或直接采用最终智能体的输出作为答案等。
这些迭代持续进行 $t = {1, …, T}$ 次，直到达到预设限制或满足提前停止标准，从而生成对查询Q的最终响应 $a^{(T)}$。

G-Memory 设计

G-Memory 由三层图构成，分别是

交互图 Interaction Graph (Utterance Graph)：记录原始多智能体交互的细粒度轨迹，包含每轮迭代中每个智能体的响应以及全局聚合结果。
查询图 Query Graph：历史查询组成的图，相关的历史查询之间会有边连接。
洞察图 Insight Graph：提取和总结从交互中获得的洞察经验（知识总结）。

交互图 Interaction

👉 粒度最细：记录一次 query 内部的对话过程

$$
G_{\text{inter}}^{(Q)} = \left( U^{(Q)}, E_u^{(Q)} \right)
$$

其中：

节点集合：
$$
U^{(Q)} = {u_i}, \quad u_i ≜ (\mathcal{A}_i, m_i)
$$

符号	含义
$Q$	查询，当前处理的任务
$u_i$	单个节点第 i 条发言
$\mathcal{A}_i$	发言者（哪个智能体说的），$\mathcal{A}_i \in \mathcal{V}$
$m_i$	发言内容（文本）

边集合：
$$
E_u^{(Q)} \subseteq U^{(Q)} \times U^{(Q)}
$$

定义为：
$$
(u_j, u_k) \in E_u^{(Q)}
\iff u_{j}
$$
表示存在一条从 $u_j$ 到 $u_k$ 的边，当且仅当 $u_k$ 的产生依赖于 $u_j$。

查询图 Query Graph

查询图存储了先前处理过的查询及其元数据，具体如下：

$$
G_{query} = (Q, E_q) = ( \lbrace Q_i, \Psi_i, G_{inter}^{(Q_i)} \rbrace _{i=1}^{|Q|}, E_q )
$$

符号	含义
$ \mathcal{Q} $	查询节点集合，$ \mathcal{Q} = \lbrace q_i \rbrace $
$ q_i $	单个查询节点，$ q_i ≜ (Q_i, \Psi_i, G_{inter}^{(Q_i)} ) $
$ Q_i $	原始查询
$ \Psi_i $	任务状态（Failed / Resolved）
$ {G}_{\text{inter}}^{(Q_i)} $	对应的交互图
$ {E}_q $	查询之间的关系边集合，$ {E}_q \subseteq {Q} \times {Q} $

洞察图 Insight Graph

$$
G_{insight} = (I, E_i) = ( \langle r_k, \Omega_k \rangle_{k=1}^{|I|}, E_i )
$$

实验

AutoGen

AutoGen 是一个由微软在 2023 年提出的一个多智能体框架，强调的是“允许开发者通过多个能够相互对话的智能体来构建大语言模型应用”。

有点像群聊的感觉。这篇论文采用的是上面的 A3 模式，一个 Assistant 和一个 Grounding Agent，在这个论文的代码中叫 solver 和 ground_truth。

我看了代码，AutoGen 这个 MAS 的流程是这样的，当 solver 连续三次给出相同动作时，代码里会切换到 ground_truth 角色尝试打破循环。这个 MAS 就两个智能体，平时 solver 负责解题，ground_truth 负责当 solver 卡住时提供正确的答案或指导。

solver 的 system prompt 如下：

1	You are a smart agent designed to solve problems.

翻译

1	你是一个被设计用来解决问题的智能代理。

ground_truth 的 system prompt 如下：

You are an agent designed to assist the solver agent. When you are called, it means the solver agent has repeatedly output the same incorrect content (It means that the solver agent is stuck in a loop of providing the same incorrect answer or approach).

Your task is to carefully analyze the input and provide the correct answer or guidance to help the solver agent break out of the stuck state and proceed toward the correct solution.

NOTE: ** Your approach must avoid being consistent with the previous output's approach (as the previous output comes from a solver agent that has already fallen into a misconception, making it definitely wrong). **

翻译

你是一个被设计用来辅助“求解代理（solver agent）”的代理。当你被调用时，意味着求解代理已经多次输出相同的错误内容（也就是说，它陷入了不断重复错误答案或错误方法的循环中）。

你的任务是仔细分析输入内容，并提供正确的答案或指导，帮助求解代理摆脱这种卡住的状态，继续朝正确的解决方案推进。

注意：
你的方法必须避免与之前错误输出所采用的方法保持一致（因为之前的输出来自一个已经陷入误解的求解代理，因此其方法必然是错误的）。

实验结果

GPT-4o-mini

Qwen2.5-7B-Instruct

Qwen2.5-14B-Instruct

A-Mem论文阅读

2026-03-14T16:05:39.000Z

A-Mem: Agentic Memory for LLM Agents

瞎逼逼

这篇文章最精彩的是用 Zettelkasten（卡片盒笔记法）这个故事包装了一个由提示驱动的 agentic memory system for LLM agents（这里有点绕，就是这个记忆系统本身就是智能体型的，然后这个记忆系统还是专门设计给智能体用的），公式很清晰简洁（主要是我这种小白也能看懂），提示词设计也很有意思，尤其是那个笔记链接的提示词，感觉很有启发性，值得好好学习一下。

摘要

While large language model (LLM) agents can effectively use external tools for complex real-world tasks, they require memory systems to leverage historical experiences. Current memory systems enable basic storage and retrieval but lack sophisticated memory organization, despite recent attempts to incorporate graph databases. Moreover, these systems’ fixed operations and structures limit their adaptability across diverse tasks. To address this limitation, this paper proposes a novel agentic memory system for LLM agents that can dynamically organize memories in an agentic way. Following the basic principles of the Zettelkasten method, we designed our memory system to create interconnected knowledge networks through dynamic indexing and linking. When a new memory is added, we generate a comprehensive note containing multiple structured attributes, including contextual descriptions, keywords, and tags. The system then analyzes historical memories to identify relevant connections, establishing links where meaningful similarities exist. Additionally, this process enables memory evolution – as new memories are integrated, they can trigger updates to the contextual representations and attributes of existing historical memories, allowing the memory network to continuously refine its understanding. Our approach combines the structured organization principles of Zettelkasten with the flexibility of agent-driven decision making, allowing for more adaptive and context-aware memory management. Empirical experiments on six foundation models show superior improvement against existing SOTA baselines.

虽然大型语言模型（LLM）智能体能够有效利用外部工具来完成复杂的现实任务，但它们仍然需要 记忆系统 来利用历史经验。现有的记忆系统虽然能够实现基本的 存储与检索 功能，但在记忆组织方面仍然较为简单，尽管近期已有一些尝试将图数据库引入其中。此外，这些系统通常依赖 固定的操作方式和结构设计，这限制了它们在不同任务场景中的适应能力。
为了解决这一问题，本文提出了一种新的 面向 LLM 智能体的 agentic 记忆系统，该系统能够以 智能体驱动（agentic）的方式动态组织记忆。借鉴 Zettelkasten（卡片盒笔记法） 的基本思想，我们设计了一种记忆系统，通过 动态索引与链接机制 构建相互连接的知识网络。
当新的记忆被加入时，系统会生成一条包含多种结构化属性的完整笔记，例如 上下文描述、关键词以及标签。随后，系统会分析历史记忆以识别相关连接，并在存在有意义相似性的情况下建立记忆之间的链接。此外，这一过程还 支持记忆演化（memory evolution）：当新的记忆被整合进系统时，它们可能会触发对已有历史记忆的 上下文表示和属性进行更新，从而使整个记忆网络能够持续优化其理解。
我们的方法结合了 Zettelkasten 的结构化知识组织原则 与 智能体驱动决策的灵活性，从而实现更加 自适应且具备上下文感知能力的记忆管理机制。在六种基础模型上的实证实验表明，该方法相较于当前 最先进（SOTA）的基线方法 取得了显著性能提升。

方法

生成笔记 Note Construction

记忆 $M$ 由多个笔记 Note $m_i$ 组成，每个记忆单元由多个属性组成的结构化表示，包含以下元素：

$$
m_i = {c_i, t_i, K_i, G_i, X_i, e_i, L_i}
$$

符号	描述
$c_i$	原始交互内容（Original interaction content）
$t_i$	交互的时间戳（Timestamp）
$K_i$	由 LLM 生成的高频关键词，用于捕捉交互中的核心概念
$G_i$	由 LLM 生成的标签集合（tags），用于对记忆进行分类
$X_i$	由 LLM 生成的语境描述（contextual description），提供更丰富的语义理解
$e_i$	记忆内容的语义向量表示（embedding），用于计算记忆之间的语义相似度
$L_i$	与当前记忆具有语义关联的已链接记忆集合（linked memories）

笔记构建过程使用精心设计提示模板 $P_{s1}$ 提示 LLM，输入为原始交互内容 $c_i$、时间戳 $t_i$ 和提示模板 $P_{s1}$，LLM 输出为结构化记忆单元的属性（$K_i, G_i, X_i$）：

$$
K_i,, G_i,, X_i \leftarrow \mathrm{LLM}(c_i \parallel t_i \parallel P_{s1})
$$

遵循 Zettelkasten 的原子性原则，每条笔记仅捕获一个自包含的知识单元。

为实现高效检索与关联，通过文本编码器（嵌入模型）计算一条稠密向量表征，该表征封装了笔记所有文本成分。

$$
e_i = f_{\text{enc}}\ \left[ \operatorname{concat}(c_i, K_i, G_i, X_i) \right]
$$

笔记链接 Link Generation

A-Mem 系统实现了一个自主链接生成机制，使新的记忆笔记能够在没有预定义规则的情况下形成有意义的连接。

当构建的记忆笔记 $m_n$ 被添加到系统中时，我们首先利用其语义嵌入进行基于相似性的检索。对于每个现有的记忆笔记 $m_j \in M$，我们计算一个相似性得分（其实就是余弦相似度Cosine Similarity）：

$$
s_{n,j} = \frac{e_n \cdot e_j}{\lVert e_n \rVert \lVert e_j \rVert}
$$

系统识别出最相关的 top-k 个记忆笔记：

$$
M_{near}^{n} = \lbrace m_j | rank(s_{n,j}) \le k,; m_j \in M \rbrace
$$

基于这些候选的最近记忆，我们提示大语言模型（LLM）分析它们之间可能存在的潜在共同属性相关的联系。形式化地，记忆 $m_n$ 的更新链接集如下：

$$
L_i \leftarrow \text{LLM}(m_n || M_{near}^n || P_{s2})
$$

基于这些候选最近记忆，我们提示大语言模型（LLM）分析它们可能共有的潜在属性。正式地，记忆 $m_n$ 的更新链接集如下：每个生成的链接 $l_i$ 的结构为：$L_i = {m_i, \ldots, m_k}$。

通过将基于嵌入的检索作为初始过滤器，我们实现了高效的可扩展性，同时保持了语义相关性。A-MEM 能够快速识别大型记忆集合中的潜在连接，而无需进行详尽比较。更重要的是，由 LLM 驱动的解析能够实现对关系的细致理解，超越简单的相似性度量。该语言模型可以识别微妙的模式、因果关系和概念性关联，而这些可能无法仅从嵌入相似性中显现。我们实现了 Zettelkasten 原则中的灵活链接机制，同时借助现代语言模型。由此形成的网络自然地从记忆内容和上下文中涌现，从而实现自然的知识组织。（用语义嵌入先进行初筛选，然后提示大模型来进行最终的链接生成）

记忆演化 Memory Evolution

在为新记忆建立链接之后，A-MEM 会根据其文本信息和与新记忆的关联关系来演化被检索到的记忆。

对于最近邻居集合 $\mathcal{M}_{\text{near}}^{n}$ 中的每个记忆 $m_j$，系统会决定是否需要更新其上下文、关键词和标签。该演化过程可以形式化地表示为：

$$
m_j^{*} \leftarrow \text{LLM}(m_n || (M_{near}^n - m_j) || m_j || P_{s3})
$$

经过演化的记忆 $m_j^{*}$ 随后取代集合 $\mathcal{M}$ 中原有的记忆 $m_j$。这种演化方法能够实现持续更新和新连接的建立，模仿人类学习过程。随着系统随时间处理更多记忆，它会发展出越来越复杂的知识结构，在多个记忆中发现更高阶的模式和概念。这为自主记忆学习奠定基础，使知识的组织通过新体验与已有记忆的持续互动而日益丰富。

检索 Retrieve Relative Memory

在每轮交互中，我们的 A-MEM 执行上下文感知的记忆检索，为智能体提供相关的历史信息。给定当前交互中的查询文本 $q$，我们首先使用与记忆笔记相同的文本编码器计算其密集向量表示：

$$
e_q = f_{\mathrm{enc}}(q)
$$

系统随后使用余弦相似度计算查询嵌入与 $\mathcal{M}$ 中所有现有记忆笔记之间的相似度分数：

$$
s_{q,i} = \frac{e_q \cdot e_i}{\lVert e_q \rVert \lVert e_i \rVert},
\quad \text{where } e_i \in m_i,\ \forall m_i \in \mathcal{M}
$$

然后我们从历史记忆存储中检索最相关的 $k$ 条记忆，以构建一个语境恰当的提示。

$$
M_{retrieved} = \lbrace m_i | rank(s_{q,i}) \le k, m_i \in M \rbrace
$$

这些检索到的记忆提供了相关的历史背景，有助于智能体更好地理解和响应当前的交互。检索到的上下文通过将当前交互与记忆系统中存储的相关过去经验联系起来，丰富了智能体的推理过程。

实验

实验结果

LoCoMo 数据集

DialSim 数据集

消融实验

“w/o”表示特定模块被移除的实验设置。LG和ME分别代表链路生成模块和记忆演化模块。

超参数敏感性分析

关于检索时候取 Top-K 的值

这里是不是有点奇怪，为什么 GPT-4o-mini 和 GPT-4o 的 Top-K 都是 40，而其他模型的 Top-K 都是 10？
理论上 GPT-4o-mini 和 GPT-4o 的性能会更强，所以应该需要更加少的Top-K就可以达到相似的性能；还是说他性能强，增大Top-K还可以进一步取得更加好的效果，直到40才收敛。

Model	Multi Hop	Temporal	Open Domain	Single Hop	Adversial
GPT-4o-mini	40	40	50	50	40
GPT-4o	40	40	50	50	40
Qwen2.5-1.5b	10	10	10	10	10
Qwen2.5-3b	10	10	50	10	10
Llama3.2-1b	10	10	10	10	10
Llama3.2-3b	10	20	10	10	10

基线方法 Baselines

LoCoMo：不使用记忆机制，直接将全部历史对话作为提示输入模型进行问答。
ReadAgent：通过“分页 → 记忆摘要 → 交互检索”三阶段流程处理长上下文文档。
MemoryBank：基于遗忘曲线动态更新记忆，并通过长期交互构建用户画像。
MemGPT：借鉴操作系统内存层级，通过“主上下文 + 外部上下文”管理长期信息.

数据集 Dataset

LoCoMo 数据集

Adyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal, Francesco Barbieri, and Yuwei Fang. Evaluating very long-term conversational memory of llm agents. arXiv preprint arXiv:2402.17753, 2024.

LoCoMo 是一个用于评估长对话理解能力的问答数据集，相比传统对话数据集，其对话长度显著更长。以往数据集通常包含约 1K tokens、4–5 个会话的对话，而 LoCoMo 的对话平均长度达到约 9K tokens，最多可覆盖 35 个会话。因此，该数据集特别适合评估模型在长程依赖建模和跨会话一致性保持方面的能力。

LoCoMo 的问题类型设计较为多样，用于全面评估模型对长对话内容的理解能力，主要包括：

Single-hop questions：可在单个会话中直接找到答案的问题
Multi-hop questions：需要跨多个会话整合信息才能回答的问题
Temporal reasoning questions：测试模型对时间相关信息的理解能力
Open-domain knowledge questions：需要结合对话上下文和外部知识进行回答的问题
Adversarial questions：用于测试模型识别不可回答问题的能力

LoCoMo 数据集包含 7,512 个问答对，覆盖上述不同类型的问题。

DialSim 数据集

Jiho Kim, Woosog Chay, Hyeonji Hwang, Daeun Kyung, Hyunseung Chung, Eunbyeol Cho, Yohan Jo, and Edward Choi. Dialsim: A real-time simulator for evaluating long-term multi-party dialogue understanding of conversational agents. arXiv preprint arXiv:2406.13144, 2024.

DialSim 是一个用于评估长期对话记忆能力的问答数据集，来源于长期多角色对话场景。该数据集基于热门电视剧（如 Friends、The Big Bang Theory 和 The Office）构建，覆盖约五年的剧情内容。

DialSim 数据集包含 1,300 个对话会话（sessions），约 350,000 个 tokens。每个会话包含 1000+ 个问题，数据集中的问题主要来源于：

粉丝问答网站中的精炼问题
基于时间知识图谱生成的复杂问题

由于对话跨度长、问题复杂，该数据集特别适合用于评估模型在长期对话记忆、跨时间推理以及多角色对话理解方面的能力。

模型 foundation models

Qwen-2.5 1.5B/3B
Llama-3.2 1B/3B
DeepSeek-R1-32B
GPT-4o-mini
Claude 3.0 Haiku
Claude 3.5 Haiku
文本嵌入 all-minilm-l6-v2

Prompt 设计

生成笔记附录B.1

提示$ P_{s1}$
原文：

Generate a structured analysis of the following content by:
1. Identifying the most salient keywords (focus on nouns, verbs, and key concepts)
2. Extracting core themes and contextual elements
3. Creating relevant categorical tags

Format the response as a JSON object:

{
  "keywords": [
    // several specific, distinct keywords that capture key concepts and terminology
    // Order from most to least important
    // Don’t include keywords that are the name of the speaker or time
    // At least three keywords, but don’t be too redundant.
  ],
  "context":
    // one sentence summarizing:
    // - Main topic/domain
    // - Key arguments/points
    // - Intended audience/purpose
  ,
  "tags": [
    // several broad categories/themes for classification
    // Include domain, format, and type tags
    // At least three tags, but don’t be too redundant.
  ]
}

Content for analysis:

中文翻译：

请对以下内容进行结构化分析，要求：

1. 识别最重要的关键词
- 重点关注名词、动词以及关键概念。

2. 提取核心主题与上下文要素

3. 生成相关的分类标签

请将输出组织为如下 JSON 对象：

{
  "keywords": [
    // 若干具体且彼此区分明显的关键词，用于概括核心概念与术语
    // 按重要性从高到低排序
    // 不要包含说话者姓名或时间信息
    // 至少提供 3 个关键词，但避免过度重复
  ],
  "context": "用一句话总结以下内容：主题领域、关键观点以及预期用途或受众",
  "tags": [
    // 若干较宽泛的分类标签
    // 应包含领域、内容形式和类型等维度
    // 至少提供 3 个标签，但避免过度重复
  ]
}

待分析内容：

笔记链接附录B.2

提示$ P_{s2}$

原文：

You are an AI memory evolution agent responsible for managing and evolving a knowledge base.
Analyze the new memory note according to keywords and context, also with its several nearest neighbor memories.

The new memory:
- context: {context}
- content: {content}
- keywords: {keywords}

The nearest neighbor memories:
- {nearest_neighbors_memories}

Based on this information, determine:
Should this memory be evolved?
Consider its relationships with other memories.

中文翻译：

你是一个 AI 记忆演化智能体，负责管理并持续演化一个知识库。
请结合关键词、上下文以及若干条最近邻记忆，对新记忆笔记进行分析。

新记忆信息：
- context: {context}
- content: {content}
- keywords: {keywords}

最近邻记忆：
- {nearest_neighbors_memories}

请基于以上信息判断：
这条记忆是否应该被演化（更新）？
请重点考虑它与其他记忆之间的关系。

记忆演化附录B.3

提示$ P_{s3}$

原文：

You are an AI memory evolution agent responsible for managing and evolving a knowledge base.
Analyze the new memory note according to keywords and context, along with several nearest neighbor memories.
Make decisions about its evolution.

The new memory:
- context: {context}
- content: {content}
- keywords: {keywords}

The nearest neighbor memories:
- {nearest_neighbors_memories}

Based on this information, determine:
1. What specific actions should be taken (strengthen, update_neighbor)?
1.1 If choosing to strengthen, which memory should it connect to? Can you provide updated tags for this memory?
1.2 If choosing to update_neighbor, you may update the context and tags of these memories based on improved understanding.
Tags should reflect the content characteristics of these memories for future retrieval and categorization.

All information should be returned in list order:
[[new_memory], [neighbor_memory_1], ... [neighbor_memory_n]]

These actions can be combined.

Return your decision in JSON format with the following structure:
{
  "should_evolve": true/false,
  "actions": ["strengthen", "merge", "prune"],
  "suggested_connections": ["neighbor_memory_ids"],
  "tags_to_update": ["tag_1", ..., "tag_n"],
  "new_context_neighborhood": ["new context", ..., "new context"],
  "new_tags_neighborhood": [["tag_1", ..., "tag_n"], ..., ["tag_1", ..., "tag_n"]]
}

中文翻译：

你是一个 AI 记忆演化智能体，负责管理并持续演化一个知识库。
请结合关键词、上下文以及若干条最近邻记忆，对新记忆笔记进行分析，并给出其演化决策。

新记忆信息：
- context: {context}
- content: {content}
- keywords: {keywords}

最近邻记忆：
- {nearest_neighbors_memories}

请基于以上信息判断：
1. 应采取哪些具体动作（strengthen、update_neighbor）？
1.1 如果选择 strengthen，应连接到哪条记忆？并给出该记忆更新后的 tags。
1.2 如果选择 update_neighbor，可基于新的理解更新邻居记忆的 context 和 tags。
这些 tags 应体现记忆内容特征，以便后续检索和分类。

所有信息按以下列表顺序返回：
[[new_memory], [neighbor_memory_1], ... [neighbor_memory_n]]

动作可以组合执行。

请按以下 JSON 结构输出：
{
  "should_evolve": true/false,
  "actions": ["strengthen", "merge", "prune"],
  "suggested_connections": ["neighbor_memory_ids"],
  "tags_to_update": ["tag_1", ..., "tag_n"],
  "new_context_neighborhood": ["new context", ..., "new context"],
  "new_tags_neighborhood": [["tag_1", ..., "tag_n"], ..., ["tag_1", ..., "tag_n"]]
}

一个具体使用记忆的例子

原文：

Example:

Question 686: Which hobby did Dave pick up in October 2023?
Prediction: photography
Reference: photography

talk start time: 10:54 am on 17 November, 2023
memory content:
Speaker Dave says: Hey Calvin, long time no talk! A lot has happened. I've taken up photography and it's been great, been taking pics of the scenery around here which is really cool.
memory context:
The main topic is the speaker's new hobby of photography, highlighting their enjoyment of capturing local scenery, aimed at engaging a friend in conversation about personal experiences.
memory keywords: ['photography', 'scenery', 'conversation', 'experience', 'hobby']
memory tags: ['hobby', 'photography', 'personal development', 'conversation', 'leisure']

talk start time: 6:38 pm on 21 July, 2023
memory content:
Speaker Calvin says: Thanks, Dave! It feels great having my own space to work in. I've been experimenting with different genres lately, pushing myself out of my comfort zone. Adding electronic elements to my songs gives them a fresh vibe. It's been an exciting process of self-discovery and growth!
memory context:
The speaker discusses their creative process in music, highlighting experimentation with genres and the incorporation of electronic elements for personal growth and artistic evolution.
memory keywords: ['space', 'experimentation', 'genres', 'electronic', 'self-discovery', 'growth']
memory tags: ['music', 'creativity', 'self-improvement', 'artistic expression']

中文翻译：

示例：

问题 686：Dave 在 2023 年 10 月开始了哪项爱好？
预测：photography
参考答案：photography

对话开始时间：2023 年 11 月 17 日 上午 10:54
记忆内容：
说话人 Dave：Hey Calvin，好久没聊了！最近发生了很多事。我开始玩摄影了，感觉很棒。我一直在拍这附近的风景，真的很酷。
记忆上下文：
这条记忆的主题是说话人开始了摄影这一新爱好，强调了其对拍摄本地风景的兴趣，意图是在与朋友交流中分享个人近况与体验。
记忆关键词：['photography', 'scenery', 'conversation', 'experience', 'hobby']
记忆标签：['hobby', 'photography', 'personal development', 'conversation', 'leisure']

对话开始时间：2023 年 7 月 21 日 下午 6:38
记忆内容：
说话人 Calvin：谢谢你，Dave！有了自己的创作空间感觉太好了。最近我一直在尝试不同的音乐风格，逼自己走出舒适区。给歌曲加入电子元素让作品更有新鲜感。这是一个令人兴奋的自我探索与成长过程！
记忆上下文：
说话人讨论了其音乐创作过程，重点在于风格实验以及电子元素的引入，并体现了个人成长和艺术演进。
记忆关键词：['space', 'experimentation', 'genres', 'electronic', 'self-discovery', 'growth']
记忆标签：['music', 'creativity', 'self-improvement', 'artistic expression']

APC AP7921 接入Home Assistant（SNMP方式）

2025-09-08T09:06:29.000Z

之前在小黄鱼淘入了一个APC的PDU，型号为AP7921，查看文档发现是支持每个插口单独控制开关的，于是想将这PDU接入HA控制。

这个PDU是支持 SNMP V1 和 V3 协议的，SNMP协议介绍如下：

SNMP（简单网络管理协议）是一个用于在IP网络中监控和管理设备（如路由器、交换机、服务器和打印机）的标准协议。它允许网络管理员通过中心化的管理工作站收集设备状态、跟踪网络性能、响应故障，并实现自动化管理。SNMP包含管理器、代理和管理信息库（MIB）等组件，通过查询和轮询机制与代理交换数据，并支持三种版本：SNMPv1、SNMPv2c和更安全的SNMPv3。
SNMP中，每个可管理的设备信息都有一个唯一标识，称为 OID（对象标识符）。OID 就像设备内部信息的“地址”，用于标识 CPU 使用率、内存状态、端口流量等参数。例如，OID 1.3.6.1.2.1.1.5.0 就表示设备的系统名称。网络管理系统通过 OID 访问设备的管理信息库（MIB），实现对设备状态的监控、故障告警和自动化管理。OID 的结构呈层次化，以点分十进制表示，每一层代表不同类别的管理对象。

主要区别是V3新增了用户认证的功能，但是我们家用局域网使用其实用V1就足够了。

开启SNMP V1

首先第一步就是先能够访问到PDU的Web管理页面，参考我之前写的这篇博文。

进入Web后，在Administration - Network - SNMPv1 - access 里，勾选 Enable SNMPv1 access ，点击Apply 。

转到同级的access control 下，保证权限如图所示：

即 public的权限为Read，private权限为Write + ；

**（可选）**然后，点击private，进入设置页面，将NMS IP/Host Name改为运行Home Assistant设备的IP

HA接入

Home Assistant 提供了 SNMP 设备的接入组件，文档在：https://www.home-assistant.io/integrations/snmp

这个组件只能通过配置文件configuration.yaml 手动接入，所以得先想办法访问到HA的配置文件。

一般来说部署HA容器时候有将config文件夹映射到宿主机里，这个每个人映射的位置都不一样了，我的是/opt/homeassistant/config/configuration.yaml 。

在configuration.yaml 后面追加下面内容：

⚠️ host字段的值192.168.123.50 是PDU的IP！每个人不同，根据实际情况更改
⚠️ 在此感谢前辈提供的oid ，前辈经验贴：https://bbs.hassbian.com/thread-4838-1-1.html

switch:
  - platform: snmp
    name: "APC Outlet 1"
    host: 192.168.123.50
    community: private
    version: "1"
    baseoid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.1
    command_oid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.1
    payload_on: 1
    payload_off: 2
    command_payload_on: 1
    command_payload_off: 2
  
  - platform: snmp
    name: "APC Outlet 2"
    host: 192.168.123.50
    community: private
    version: "1"
    baseoid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.2
    command_oid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.2
    payload_on: 1
    payload_off: 2
    command_payload_on: 1
    command_payload_off: 2
  
  - platform: snmp
    name: "APC Outlet 3"
    host: 192.168.123.50
    community: private
    version: "1"
    baseoid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.3
    command_oid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.3
    payload_on: 1
    payload_off: 2
    command_payload_on: 1
    command_payload_off: 2

  - platform: snmp
    name: "APC Outlet 4"
    host: 192.168.123.50
    community: private
    version: "1"
    baseoid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.4
    command_oid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.4
    payload_on: 1
    payload_off: 2
    command_payload_on: 1
    command_payload_off: 2
  
  - platform: snmp
    name: "APC Outlet 5"
    host: 192.168.123.50
    community: private
    version: "1"
    baseoid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.5
    command_oid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.5
    payload_on: 1
    payload_off: 2
    command_payload_on: 1
    command_payload_off: 2
  
  - platform: snmp
    name: "APC Outlet 6"
    host: 192.168.123.50
    community: private
    version: "1"
    baseoid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.6
    command_oid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.6
    payload_on: 1
    payload_off: 2
    command_payload_on: 1
    command_payload_off: 2
  
  - platform: snmp
    name: "APC Outlet 7"
    host: 192.168.123.50
    community: private
    version: "1"
    baseoid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.7
    command_oid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.7
    payload_on: 1
    payload_off: 2
    command_payload_on: 1
    command_payload_off: 2
  
  - platform: snmp
    name: "APC Outlet 8"
    host: 192.168.123.50
    community: private
    version: "1"
    baseoid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.8
    command_oid: 1.3.6.1.4.1.318.1.1.4.4.2.1.3.8
    payload_on: 1
    payload_off: 2
    command_payload_on: 1
    command_payload_off: 2

验证重启

进入HA的Web页面，侧边栏 - 开发者工具 - 配置检查与重启 - 检查配置，检查配置无误后，点击重新启动。

重启后来到，设置 - 设备与服务 - SNMP，应该就可以看到8个开关了。

结算画面

R730XD IDRAC8 接入 Home Assistant（IPMI方式）

2025-09-05T09:06:29.000Z

HA容器安装IPMITool

我的 HA 是 Docker 容器安装的，先找到 HA 容器的 ID，SSH 连接到宿主机，输入 docker ps -a | grep homeassistant ：

1
2
3

@Docker:~# docker ps -a | grep homeassistant

9f0a5e8d7de3 ghcr.nju.edu.cn/hasscc/hacn:stable "/init" 3 days ago Up 28 hours (healthy) homeassistant

可以看到容器的 ID 为9f0a5e8d7de3，然后 docker exec -it 9f0a5e8d7de3 /bin/bash 进入容器的命令行。

然后根据 HA 基础镜像不同安装 IPMITool，Alpine 使用 apk add ipmitool，Debian/Ubuntu 使用 apt install -y ipmitool。

Docker:/config# apk add ipmitool

fetch https://dl-cdn.alpinelinux.org/alpine/v3.21/main/x86_64/APKINDEX.tar.gz

fetch https://dl-cdn.alpinelinux.org/alpine/v3.21/community/x86_64/APKINDEX.tar.gz

(1/1) Installing ipmitool (1.8.19-r1)

Executing busybox-1.37.0-r12.trigger

OK: 184 MiB in 202 packages

安装好 IPMITool 后，测试一下ipmi的命令 ipmitool -I lanplus -H -U -P dcmi power reading （注意<>内的需要按你的实际情况填写），在 R730XD 上输出为：

Instantaneous power reading:                    12 Watts
Minimum during sampling period:                  2 Watts
Maximum during sampling period:                296 Watts
Average power reading over sample period:      141 Watts
IPMI timestamp:                           09/04/25 15:10:37 CST    Sampling period:                          00000001 Seconds.
Power reading state is:                   activated

编写IPMI命令

需要将什么数据接入HA，就需要自己手动写出查询这些数据的命令，下面给出我的供参考：

CPU温度（两个CPU中的最大值）

ipmitool -I lanplus -H  -U  -P  sdr elist full | awk -F'|' '/Temp *\| 0E|Temp *\| 0F/ {gsub(/degrees C/,"",$5); gsub(/ /,"",$5); if($5~/^[0-9]+$/ && $5>max) max=$5} END {if(max>0) print max; else print 0}'

查询风扇转速（所有风扇转速平均值，单位RPM）

1	ipmitool -I lanplus -H -U -P sdr elist full \| grep "Fan" \| awk -F'\|' '{gsub(/RPM/, "", $5); gsub(/ /, "", $5); if($5 ~ /^[0-9]+$/) {sum+=$5; count++}} END {if(count>0) print sum/count; else print 0}'

进气温度

1	ipmitool -I lanplus -H -U -P sdr elist full \| grep "Inlet Temp" \| awk -F'\|' '{print $5}' \| grep -o '[0-9]\+'

排气温度

1	ipmitool -I lanplus -H -U -P sdr elist full \| grep "Exhaust Temp" \| awk -F'\|' '{print $5}' \| grep -o '[0-9]\+'

功率

1	ipmitool -I lanplus -H -U -P sdr elist full \| awk -F'\|' '/Pwr Consumption/ {gsub(/Watts/,"",$5); gsub(/ /,"",$5); print $5}'

设置风扇自动调速（关）

1	ipmitool -I lanplus -H -U -P raw 0x30 0x30 0x01 0x00

设置风扇自动调速（开）

1	ipmitool -I lanplus -H -U -P raw 0x30 0x30 0x01 0x01

电源相关

# 查询电源状态
ipmitool -I lanplus -H  -U  -P password chassis power status

# 开机
ipmitool -I lanplus -H  -U  -P password chassis power on

# 软关机
ipmitool -I lanplus -H  -U  -P password chassis power soft

# 重启
ipmitool -I lanplus -H  -U  -P password chassis power cycle

# 重置
ipmitool -I lanplus -H  -U  -P password chassis power reset

设置风扇转速（%）
10%

1	ipmitool -I lanplus -H -U -P raw 0x30 0x30 0x02 0xff 0xa

1	ipmitool -I lanplus -H -U -P raw 0x30 0x30 0x02 0xff 0x14

100%

1	ipmitool -I lanplus -H -U -P raw 0x30 0x30 0x02 0xff 0x64

接入HA

我这里使用command_line接入HA，打开HA的configuration.yaml ，加入下面的内容：

记得替换、、为你自己的值。
我知道写set_fan_00、set_fan_05…这种很蠢，但是我用模板语法实在调试不通，请大佬们有更加好的方案指教。

# R730XD 远程管理命令配置
shell_command:
  r730xd_power_cycle: "ipmitool -I lanplus -H  -U  -P  chassis power cycle"
  r730xd_power_reset: "ipmitool -I lanplus -H  -U  -P  chassis power reset"

  # 风扇模式命令
  set_fan_auto: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x01 0x01'
  set_fan_manual: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x01 0x00'
  
  # 预定义的风扇速度命令
  set_fan_00: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x00'
  set_fan_05: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x05'
  set_fan_10: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x0a'
  set_fan_15: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x0f'
  set_fan_20: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x14'
  set_fan_25: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x19'
  set_fan_30: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x1e'
  set_fan_35: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x23'
  set_fan_40: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x28'
  set_fan_45: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x2d'
  set_fan_50: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x32'
  set_fan_55: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x37'
  set_fan_60: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x3c'
  set_fan_65: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x41'
  set_fan_70: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x46'
  set_fan_75: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x4b'
  set_fan_80: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x50'
  set_fan_85: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x55'
  set_fan_90: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x5a'
  set_fan_95: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x5f'
  set_fan_100: 'ipmitool -I lanplus -H  -U  -P  raw 0x30 0x30 0x02 0xff 0x64'

# R730XD 传感器和开关配置
command_line:
  - sensor:
      name: R730XD CPU Temp
      command: "/config/scripts/ipmi_sdr_cache.sh cpu_temp"
      unit_of_measurement: "°C"
      command_timeout: 60
      scan_interval: 30
      value_template: "{{ value | int(0) }}"
      icon: mdi:cpu-64-bit

  - sensor:
      name: R730XD Fans AVG RPM
      command: "/config/scripts/ipmi_sdr_cache.sh fans_avg"
      command_timeout: 60
      scan_interval: 30
      unit_of_measurement: "RPM"
      value_template: "{{ value | int(0) }}"
      icon: mdi:fan

  - sensor:
      name: R730XD Inlet Temp
      command: "/config/scripts/ipmi_sdr_cache.sh inlet_temp"
      unit_of_measurement: "°C"
      command_timeout: 60
      scan_interval: 30
      value_template: "{{ value | int(0) }}"
      icon: mdi:thermometer-chevron-up

  - sensor:
      name: R730XD Exhaust Temp
      command: "/config/scripts/ipmi_sdr_cache.sh exhaust_temp"
      command_timeout: 60
      scan_interval: 30
      unit_of_measurement: "°C"
      value_template: "{{ value | int(0) }}"
      icon: mdi:thermometer-chevron-down

  - sensor:
      name: R730XD Power
      command: "/config/scripts/ipmi_sdr_cache.sh power"
      command_timeout: 60
      scan_interval: 30
      unit_of_measurement: "W"
      value_template: "{{ value | int(0) }}"
      icon: mdi:flash

  - switch:
      name: R730XD Power Ctrl
      command_on: "ipmitool -I lanplus -H  -U  -P  chassis power on"
      command_off: "ipmitool -I lanplus -H  -U  -P  chassis power soft"
      command_state: "ipmitool -I lanplus -H  -U  -P  chassis power status | grep -qi 'on'"
      command_timeout: 60
      scan_interval: 30
      icon: mdi:power

# R730XD 电源控制按钮配置
template:
  - button:
      - name: "R730XD Power Cycle"
        icon: mdi:restart
        press:
          service: shell_command.r730xd_power_cycle

      - name: "R730XD Power Reset"
        icon: mdi:restart-alert
        press:
          service: shell_command.r730xd_power_reset

# R730XD 风扇控制配置
input_number:
  fan_speed:
    name: R730XD Fan Speed Ctrl
    initial: 15
    min: 0
    max: 100
    step: 5
    mode: slider

script:
  set_server_fan_speed:
    alias: R730XD Set Fan Speed
    sequence:
      - variables:
          fan_speed: "{{ speed | int }}"
          
      # 设置风扇模式
      - choose:
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 0 }}"
            sequence:
              - service: shell_command.set_fan_auto
        default:
          - service: shell_command.set_fan_manual
      
      - delay: '00:00:02'
      
      # 设置风扇速度
      - choose:
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 0 }}"
            sequence:
              - service: shell_command.set_fan_00
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 5 }}"
            sequence:
              - service: shell_command.set_fan_05
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 10 }}"
            sequence:
              - service: shell_command.set_fan_10
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 15 }}"
            sequence:
              - service: shell_command.set_fan_15
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 20 }}"
            sequence:
              - service: shell_command.set_fan_20
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 25 }}"
            sequence:
              - service: shell_command.set_fan_25
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 30 }}"
            sequence:
              - service: shell_command.set_fan_30
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 35 }}"
            sequence:
              - service: shell_command.set_fan_35
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 40 }}"
            sequence:
              - service: shell_command.set_fan_40
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 45 }}"
            sequence:
              - service: shell_command.set_fan_45
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 50 }}"
            sequence:
              - service: shell_command.set_fan_50
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 55 }}"
            sequence:
              - service: shell_command.set_fan_55
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 60 }}"
            sequence:
              - service: shell_command.set_fan_60
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 65 }}"
            sequence:
              - service: shell_command.set_fan_65
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 70 }}"
            sequence:
              - service: shell_command.set_fan_70
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 75 }}"
            sequence:
              - service: shell_command.set_fan_75
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 80 }}"
            sequence:
              - service: shell_command.set_fan_80
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 85 }}"
            sequence:
              - service: shell_command.set_fan_85
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 90 }}"
            sequence:
              - service: shell_command.set_fan_90
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 95 }}"
            sequence:
              - service: shell_command.set_fan_95
          - conditions:
              - condition: template
                value_template: "{{ fan_speed == 100 }}"
            sequence:
              - service: shell_command.set_fan_100
        default:
          - service: system_log.write
            data:
              message: "不支持的风扇速度: {{ fan_speed }}%"
              level: warning

automation:
  - alias: R730XD Set Fan Speed on Change
    trigger:
      - platform: state
        entity_id: input_number.fan_speed
    condition:
      - condition: template
        value_template: "{{ trigger.from_state is not none }}"
      - condition: template
        value_template: "{{ trigger.from_state.state != trigger.to_state.state }}"
    action:
      - service: script.set_server_fan_speed
        data:
          speed: "{{ states('input_number.fan_speed') | int }}"

在config文件夹下新建一个文件夹scripts存放 Python 脚本：

脚本的功能是创建一个tmp文件，每次将ipmitool -I lanplus -H -U -P sdr elist full的结果 + 时间戳写入这个文件，然后其他命令每次都先读取tmp文件，如果现在时间-文件时间戳 > 60s，则说明该缓存的TTL已经结束，再次执行ipmitool -I lanplus -H -U -P sdr elist full重新创建缓存，这样可以减少对ipmi的压力，解决命令经常无响应的问题。
仍然要记得替换、、为你自己的值。

#!/usr/bin/env bash
# ipmi_sdr_cache.sh
# Usage: ipmi_sdr_cache.sh 
# Place under /config/ and chmod +x it. Adjust HOST/USER/PASS or use secrets.

CACHE="/tmp/r730xd_sdr_cache"
TMP="$(mktemp /tmp/r730xd_sdr_cache.XXXXXX)"
HOST=""
USER=""
PASS=""
TTL=30

IPMITOOL_CMD="ipmitool -I lanplus -H ${HOST} -U ${USER} -P ${PASS}"

timestamp() { date +%s; }

# ensure cache exists & fresh
now=$(timestamp)
filetime=0
if [ -f "$CACHE" ]; then
  read -r filetime < "$CACHE" || filetime=0
fi

age=$((now - filetime))

if [ ! -f "$CACHE" ] || [ "$age" -gt "$TTL" ]; then
  # try to fetch new data; write to temporary file then move atomically
  if $IPMITOOL_CMD sdr elist full > "${TMP}.data" 2>/dev/null; then
    echo "$now" > "${TMP}.tmp"
    cat "${TMP}.data" >> "${TMP}.tmp"
    mv -f "${TMP}.tmp" "$CACHE"
    rm -f "${TMP}.data"
  else
    # ipmitool failed: if cache exists, we'll fall back to it; otherwise write a minimal cache
    if [ ! -f "$CACHE" ]; then
      echo "$now" > "$CACHE"
      echo "NO_DATA_FROM_IPMITOOL" >> "$CACHE"
    fi
  fi
fi

# helper: get raw cached body (skip first line timestamp)
get_cached() {
  if [ -f "$CACHE" ]; then
    tail -n +2 "$CACHE"
  else
    echo ""
  fi
}

case "$1" in
  full)
    get_cached
    ;;

  cpu_temp)
    # choose sensors matching 0E or 0F (same AWK logic as you had)
    get_cached | awk -F'|' '/Temp *\| 0E|Temp *\| 0F/ {
      gsub(/degrees C/,"",$5); gsub(/ /,"",$5);
      if($5~/^[0-9]+$/ && $5>max) max=$5
    } END { if(max>0) print max; else print 0 }'
    ;;

  fans_avg)
    get_cached | awk -F'|' '/Fan/ {
      gsub(/RPM/,"",$5); gsub(/ /,"",$5);
      if($5~/^[0-9]+$/){ sum+= $5; cnt++ }
    } END {
      if(cnt>0) {
        avg = sum/cnt;
        # print rounded int
        printf "%d\n", avg
      } else { print 0 }
    }'
    ;;

  inlet_temp)
    # print first numeric from Inlet Temp
    get_cached | awk -F'|' '/Inlet Temp/ {print $5}' | grep -o '[0-9]\+' | head -n1 | sed -e 's/^$/0/'
    ;;

  exhaust_temp)
    get_cached | awk -F'|' '/Exhaust Temp/ {print $5}' | grep -o '[0-9]\+' | head -n1 | sed -e 's/^$/0/'
    ;;

  power)
    get_cached | awk -F'|' '/Pwr Consumption/ {
      gsub(/Watts/,"",$5); gsub(/ /,"",$5); print $5; exit
    }' | sed -e 's/^[[:space:]]*//;s/[[:space:]]*$//' | awk '{ if($0~/^[0-9]+$/) print $0; else print 0 }'
    ;;

  *)
    echo "Usage: $0 "
    exit 2
    ;;
esac

最后成果

CR880X刷入集客AP系统

2025-09-01T09:56:22.000Z

介绍

CR880X

CR880X是运营商定制版的红米AX3000，硬件上CR880X和AX3000是几乎完全相同的，一般可以把运营商定制版系统刷为红米AX3000系统即可完美使用。

CR880X分为CR8806（中国联通定制版）、CR8808（中国移动定制版）、CR8809（中国电信定制版）；按主板版号来分的话有M81（IPQ5000）、M79 A版（IPQ5000）、M79 B版（IPQ5018）三种。

分辨方法如下：

来自恩山大佬帖子：https://www.right.com.cn/forum/thread-8444159-1-1.html（必看）
可以不拆机从顶部散热口处观察TTL位置来判断主板什么版本。具体操作就是用手机打开手电筒放在路由器底部，光线透过底部散热口照亮内部主板，眼睛通过顶部散热口查看内部的TTL位置
ttl在右上角的是5000，在底部的是5018（竖排是m81，横排是m79，板子左上角也有写）在uboot下均显示5018

⚠️ 需要注意的是：

M79 B版不能刷红米AX3000固件会变砖，M79 A版刷了后2.4G wifi速率残缺
M79 B版刷了集客AP开机又是原厂固件

集客

集客系统

“集客系统”是一套无线接入点（AP）管理系统。它通常由以下两部分组成：

AC（接入点控制器）
可以是刷了集客 AC 固件的路由器，也可以部署在 Docker 容器中的 AC，或者使用集客官方提供的云端 AC。AC 负责统一管理多个 AP，实现 Wi-Fi 管理、漫游优化等核心功能。
多个 AP（无线接入点）
分布在家中不同区域，为各个角落提供 Wi-Fi 信号覆盖。AP 则通过 AC 统一配置，通过同一 SSID 实现设备漫游和自动切换网络，本文就是把CR880X刷成集客AP。

AC + AP 优势

相比常见的路由器 Mesh 组网方式，AC + AP 有几个显著优势：

更强的设备承载能力：AC + AP 架构适用于更多终端连接，不容易因为过载导致性能下降。
无缝漫游体验：通过 AC 配置漫游阈值（如 RSSI），设备可以快速切换到信号最优的 AP，几乎不会断网，连接体验更轻柔流畅。
集中管理：AP 无需逐台单独配置，可以通过模板批量设置 SSID、信道、功率、VLAN、黑/白名单等，大幅减少管理复杂度与设置时间。

集客AC + AP组网方法

刷固件 & 启动AC：将支持集客固件的设备（如小米路由、小米 AX 系列、K2T等，最好组网设备都是高通）刷成 AP固件，并部署AC（无论是Docker、虚拟机、云端还是刷路由器本身）。
配置模板：在AC控制器中配置SSID、信号功率、频段、漫游阈值、VLAN、安全设置等，并保存为模板。
AP 批量上架：AP插入电源或接入网线后，会自动连接AC并获取模板配置，实现“即插即用”。无需手动逐个配置。
漫游优化：启用KVR快速漫游、自动信道优化、5G优先等功能，提升终端在不同AP之间切换时的连接质量。

扫盲贴

这里提供一篇恩山大佬的帖子学习：https://www.right.com.cn/forum/thread-1501038-1-1.html

打开SSH权限

下面就正式开始刷机了！

参考文献

步骤记录

从GitHub上将整个项目Clone到本地电脑 git clone https://github.com/openwrt-xiaomi/xmir-patcher.git
准备好python 3.8+ 和openssl 环境（MacOS会自带openssl）
运行脚本 cd xmir-patcher & bash ./run.sh
脚本会自动安装pip的依赖！！！！（忘记conda开新环境了😠😠😠），然后显示主菜单：

Xiaomi MiR Patcher  


 1 - Set IP-address (current value: 192.168.31.1)
 2 - Connect to device (install exploit)
 3 - Read full device info
 4 - Create full backup
 5 - Install EN/RU languages
 6 - Install permanent SSH
 7 - Install firmware (from directory "firmware")
 8 - {{{ Other functions }}}
 9 - [[ Reboot device ]]
 0 - Exit

Select:

输入 1 ，设置CR880X的IP地址，我这里是192.168.123.7 （每个人不一样，同理下面命令的所有192.168.123.7都需要改成你自己的IP）
输入2 ，MacOS需要允许终端查找附近设备，然后输入WEB管理页上的密码，看到输出SSH server are activated! 就是成功。

Select: 2

device_name = CR8806
rom_version = 6.2.33 release
mac_address = xx:xx:xx:xx:xx:xx
CountryCode = CN
Enter device WEB password: yourpassword
WARN: Exploits "arn_switch/start_binding/set_mac_filter" not working!!!
Enable smartcontroller scene executor ...
Wait smartcontroller activation ...
Unlock dropbear service ...
Unlock SSH server ...
Set password "root" for root user ...
Enabling dropbear service ...
Run SSH server on port 22 ...
Test SSH connection to port 22 ...

#### SSH server are activated! ####

固化SSH密码为root ，主菜单选8，然后选2 ，输入需要固化的密码

Select: 8


----------------------------------------------------------

Xiaomi MiR Patcher (extended functions) 


    1 - Set IP-address (current value: 192.168.123.7)
    2 - Change root password
    3 - Read dmesg and syslog
    4 - Create a backup of the specified partition
    5 - Uninstall EN/RU languages
    6 - Set kernel boot address
    7 - Install Breed bootloader
    8 - __test__
    9 - [[ Reboot device ]]
    0 - Return to main menu

Choice: 2

Detect valid SSH server on port 22 (auth OK)
Enter new password for root user: root
The root password has been changed.

使用SSH连接到路由器 ssh -o HostKeyAlgorithms=+ssh-rsa -o PubkeyAcceptedAlgorithms=+ssh-rsa root@192.168.123.7 ，输入密码root，看到下面的输出就是成功登陆。

BusyBox v1.25.1 (2022-04-11 13:21:54 UTC) built-in shell (ash)

    -----------------------------------------------------
        Welcome to XiaoQiang!
    -----------------------------------------------------
    $$$$$$\  $$$$$$$\  $$$$$$$$\      $$\      $$\        $$$$$$\  $$\   $$\
    $$  __$$\ $$  __$$\ $$  _____|     $$ |     $$ |      $$  __$$\ $$ | $$  |
    $$ /  $$ |$$ |  $$ |$$ |           $$ |     $$ |      $$ /  $$ |$$ |$$  /
    $$$$$$$$ |$$$$$$$  |$$$$$\         $$ |     $$ |      $$ |  $$ |$$$$$  /
    $$  __$$ |$$  __$$< $$  __|        $$ |     $$ |      $$ |  $$ |$$  $$<
    $$ |  $$ |$$ |  $$ |$$ |           $$ |     $$ |      $$ |  $$ |$$ |\$$\
    $$ |  $$ |$$ |  $$ |$$$$$$$$\       $$$$$$$$$  |       $$$$$$  |$$ | \$$\
    \__|  \__|\__|  \__|\________|      \_________/        \______/ \__|  \__|


root@XiaoQiang:~#

输入nvram get flag_last_success 查看当前分区
若输出为0 ，执行下面命令：

nvram set flag_last_success=1
nvram set flag_boot_rootfs=1
nvram commit
reboot

等待路由器重启后，再次SSH登陆（步骤8），输入nvram get flag_last_success查看，若输出为1，则执行下一步，否则重复步骤10

刷入集客固件

刷入7.0固件

因为集客官网的8.0固件过大，无法直接刷入，需要先刷入7.0固件后再使用8.0固件进行升级

感谢 @乌客wuke 提供的7.0固件，下载链接为：https://cloud.189.cn/web/share?code=6NFNbyniEFJr，密码5q6s

这里提供一个从我博客服务器下载的链接，防止天翼云文件删除，ubi-JIKEAP_N3000.img

得到ubi-JIKEAP_N3000.img后，打开终端进入到ubi-JIKEAP_N3000.img同级目录下，利用SCP传输固件到路由器内 scp -O -o HostKeyAlgorithms=+ssh-rsa -o PubkeyAcceptedAlgorithms=+ssh-rsa ubi-JIKEAP_N3000.img root@192.168.123.7:/tmp/

(base) fwm@MacBook-Air 集客固件 % ls
GECOOS_N3000_IPQ50XX_8.0_2024081000.binubi-JIKEAP_N3000.img
(base) fwm@MacBook-Air 集客固件 % scp -O -o HostKeyAlgorithms=+ssh-rsa -o PubkeyAcceptedAlgorithms=+ssh-rsa ubi-JIKEAP_N3000.img root@192.168.123.7:/tmp/
root@192.168.123.7's password: 
ubi-JIKEAP_N3000.img                          100%   14MB   3.9MB/s   00:03    
(base) fwm@MacBook-Air 集客固件 %

重新SSH登陆到路由器，ls /tmp | grep JIKEAP_N3000 ，有输出就是成功传输了

1 2	root@XiaoQiang:/tmp# ls /tmp \| grep JIKEAP_N3000 ubi-JIKEAP_N3000.img

😁激动人心的时刻！！！正式开始刷机！！在SSH登陆后，输入ubiformat /dev/mtd18 -y -f /tmp/ubi-JIKEAP_N3000.img

root@XiaoQiang:/tmp# ubiformat /dev/mtd18 -y -f /tmp/ubi-JIKEAP_N3000.img
ubiformat: mtd18 (nand), size 37748736 bytes (36.0 MiB), 288 eraseblocks of 131072 bytes (128.0 KiB), min. I/O size 2048 bytes
libscan: scanning eraseblock 287 -- 100 % complete  
ubiformat: 288 eraseblocks have valid erase counter, mean value is 0
ubiformat: flashing eraseblock 110 -- 100 % complete  
ubiformat: formatting eraseblock 287 -- 100 % complete

修改启动分区

nvram set flag_last_success=0
nvram set flag_boot_rootfs=0
nvram commit
reboot

耐心等待系统重启，重启成功后进入主路由后台查看IP，WEB后台原始密码为admin

刷入8.0固件

在集客官网的固件下载页面，设备类型集客无线AP(高通)、设备型号N3000

然后打开WEB后台，系统管理-系统升级-上传8.0固件-升级系统

结算画面

MikroTik hAP ax² 配置PPPoE拨号上网

2025-09-01T09:06:29.000Z

介绍

网络情况介绍

我原来一直用的主路由是部署在aio小主机上的iKuai，功能能够完全满足我的需求而且使用非常顺畅。

我现在的网络架构是电信的光纤入户到玄关处的弱电箱（弱电箱有网线通往各个房间），然后从光猫接出一根网线到我的房间里，最后在我的房间进行拨号上网的（即光猫桥接模式，只负责光电转换，由我房间的路由器拨号上网，然后全屋其他房间使用本人房间的AP上网）。

但是因为要在杂物房放置一台R730XD服务器作为冷备份服务器，需要也给那边接入网络；而杂物房的网口只连接到弱电箱，主路由本人房间情况下无法解决；所以决心购入一台新的小型路由器放在弱电箱内拨号上网，然后两个房间的网络接入到主路由到lan口上网。

主路由配置

emmm，实话说 MikroTik 官方正版的 ax² 价格大概在500元上下，本人实在囊中羞涩，买的是红米AX5 魔改的 ax²。

魔改版 ax² 配置如下：

CPU：高通 IPQ6000 四核 1.8GHz（频率解锁版）
内存：1G（原512M）
闪存/硬盘：256M（原128M）
系统：RouterOS L4 授权版（加了授权小版，可以任意升级非patch）
接口：4 * 千兆 + Reset 可用
外壳：铁壳

以上配置购买价在小黄鱼210元左右（值不值就另说了，买改好的主要是图个省心吧）；什么都不改的原版红米AX5也是可以直接刷入patch版的RouterOS的，没刷机的价格在50元左右，刷好的在100元左右。

配置系统

WinBox安装

RouterOS实际上是有WEB管理页面的，但是据大佬说关闭网页管理转用WinBox这个软件进行配置可以更加节省系统资源。

~~但是很尴尬的是，WinBox这个软件只有Windows版本，在macOS上无法使用。不过有一个项目叫winbox-mac，结合了Wine在macOS上运行WinBox。~~

最新的WinBox 4.0已经支持跨平台使用！！！访问：https://mikrotik.com/download 可以下载。

配置PPPoE拨号

先在原系统中记下宽带的账号密码、各个设备DHCP静态分配的地址、DDNS的MAC、KEY等等；

然后给路由器的WAN口接上光猫出来的网线，然后LAN口接入交换机，通电；

等待WinBox扫描出路由器：

然后左侧输入图示地址，账号admin，密码空，点击connect按钮连接；

进入后点击左侧菜单上的Quick Set：

选择Router模式、PPPoE、PPPoE的账号密码、设置DHCP、开启NAT

如果拨号出现terminating... - failed to authenticate ourselves to peer，手机拨打10001（中国电信），无法上网-宽带-提供宽带的电话-等待电信那边重置

VPS常用服务部署

2025-08-26T08:58:06.000Z

最近终于入手了阿里云的200M服务器，记录一下利用、配置这台服务器的过程。

DD 重装系统

新机到手，肯定是要重新安装系统的。先不说阿里云的系统模板可能会有问题，系统自带的监控也让人不舒服。

利用GitHub大佬的一键重装项目reinstall。

采用命令记录如下：

下载重装脚本

# 海外VPS
curl -O https://raw.githubusercontent.com/bin456789/reinstall/main/reinstall.sh || wget -O reinstall.sh $_

# 大陆VPS
curl -O https://cnb.cool/bin456789/reinstall/-/git/raw/main/reinstall.sh || wget -O reinstall.sh $_

进行重装

我比较喜欢用最新的Ubuntu LTS，重装命令如下：

1	bash reinstall.sh ubuntu 24.04 --password PASSWORD

跑分

重装系统后可以跑一下分了解VPS的性能情况，这里用到的是Github另一位大佬的融合怪测试脚本，一键即可测试CPU、硬盘、内存、网络。

常用命令：

# 海外VPS
export noninteractive=true && curl -L https://raw.githubusercontent.com/oneclickvirt/ecs/master/goecs.sh -o goecs.sh && chmod +x goecs.sh && bash goecs.sh env && bash goecs.sh install && goecs

# 大陆VPS（CDN）
export noninteractive=true && curl -L https://cdn.spiritlhl.net/https://raw.githubusercontent.com/oneclickvirt/ecs/master/goecs.sh -o goecs.sh && chmod +x goecs.sh && bash goecs.sh env && bash goecs.sh install && goecs

# 大陆VPS（CNB）
export noninteractive=true && curl -L https://cnb.cool/oneclickvirt/ecs/-/git/raw/main/goecs.sh -o goecs.sh && chmod +x goecs.sh && bash goecs.sh env && bash goecs.sh install && goecs

这里附上我的阿里云 200M-2C2G 轻量应用服务器评测结果。

系统设置

挂载数据盘

我买的配置包含 100G 的数据盘，需要手动挂载

sudo apt install parted e2fsprogs -y 安装分区工具
fdisk -l 查看服务器的磁盘情况

Disk /dev/vda: 40 GiB, 42949672960 bytes, 83886080 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: gpt
Disk identifier: D4F1FC6D-8843-414D-839C-A5EBB7DEF544

Device      Start      End  Sectors  Size Type
/dev/vda1    2048   206847   204800  100M EFI System
/dev/vda2  206848 83886046 83679199 39.9G Linux filesystem


Disk /dev/vdb: 100 GiB, 107374182400 bytes, 209715200 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes

可以看到/dev/vdb是数据盘

parted /dev/vdb 开始分区
mklabel gpt 设置GPT分区
Yes 同意设置分区
mkpart primary 1 100% 划分一个主分区，并设置分区的开始位置和结束位置（若有警告输入I）

(parted) mkpart primary 1 100%
Warning: You requested a partition from 1000kB to 107GB (sectors 1953..209715199).
The closest location we can manage is 1048kB to 1048kB (sectors 2047..2047).
Is this still acceptable to you?
Yes/No? yes
Warning: The resulting partition is not properly aligned for best performance: 2047s %
2048s != 0s
Ignore/Cancel? i

align-check optimal 1 检查分区是否对齐

1 2	(parted) align-check optimal 1 1 aligned

print 查看分区表

(parted) print 
Model: Virtio Block Device (virtblk)
Disk /dev/vdb: 107GB
Sector size (logical/physical): 512B/512B
Partition Table: gpt
Disk Flags: 

Number  Start   End     Size   File system  Name     Flags
 2      1048kB  1049kB  512B                primary
 1      1049kB  107GB   107GB               primary

quit 退出Parted工具
partprobe 系统重读分区表
mkfs -t ext4 /dev/vdb1 创建一个ext4文件系统
mkdir /mnt/data 创建挂载点
echo `blkid /dev/vdb1 | awk '{print $2}' | sed 's/\"//g'` /mnt/data ext4 defaults 0 0 >> /etc/fstab 向 /etc/fstab 里写入新分区信息以便自动挂载
cat /etc/fstab 查看是否出现了写入的新分区信息(UUID是新的)

root@ubuntu:~# cat /etc/fstab
LABEL=cloudimg-rootfs   /        ext4   discard,commit=30,errors=remount-ro     0 1
LABEL=UEFI      /boot/efi       vfat    umask=0077      0 1
UUID=1403e86a-8d80-4be6-8e72-43817b0f6c1d /mnt/data ext4 defaults 0 0

systemctl daemon-reload && mount -a 配置生效
df -h 查看目前磁盘空间和使用情况

root@ubuntu:~# df -h
Filesystem      Size  Used Avail Use% Mounted on
tmpfs           187M 1008K  186M   1% /run
efivarfs        256K   17K  235K   7% /sys/firmware/efi/efivars
/dev/vda2        39G  1.8G   36G   5% /
tmpfs           935M     0  935M   0% /dev/shm
tmpfs           5.0M     0  5.0M   0% /run/lock
/dev/vda1       100M  6.2M   94M   7% /boot/efi
tmpfs           187M   12K  187M   1% /run/user/0
/dev/vdb1        98G   24K   93G   1% /mnt/data

安装Docker

我希望这台服务器上大部分服务都使用Docker部署，不会扰乱宿主机的环境。

官方的文档地址：https://docs.docker.com/engine/install/ubuntu/

添加 Docker 官方的存储库

sudo apt-get update
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

echo \
"deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
$(. /etc/os-release && echo "${UBUNTU_CODENAME:-$VERSION_CODENAME}") stable" | \
sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

sudo apt-get update

通过 APT 安装 Docker

1	sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y

将 Docker 迁移到数据盘

上面提到数据盘挂载在 /mnt/data，需要将 Docker 的数据目录迁移到这里

⚠️ 我这里是完全没有使用过的 Docker 环境，所以可以直接切换目录；如果是已经创建过容器或者 pull 过的，需要将旧数据迁移到新目录

mkdir /mnt/data/docker 在数据盘上创建 Docker 目录
sudo systemctl stop docker 停止 Docker 服务
sudo vim /etc/docker/daemon.json 修改 Docker 配置文件

将配置文件改为：

1
2
3

{
    "data-root": "/mnt/docker"
}

sudo systemctl daemon-reload
sudo systemctl restart docker 重启 Docker 服务
docker info | grep Root 查看 Docker 路径

应该输出为设置的新路径

1 2	root@ubuntu:~# docker info \| grep Root Docker Root Dir: /mnt/data/docker

安装 Dockge

Dockge 是一个Docker-Compose 配置文件管理工具，项目地址：https://github.com/louislam/dockge

安装方法：

# Create directories that store your stacks and stores Dockge's stack
mkdir -p /opt/stacks /opt/dockge
cd /opt/dockge

# Download the compose.yaml
curl https://raw.githubusercontent.com/louislam/dockge/master/compose.yaml --output compose.yaml

# Start the server
docker compose up -d

# If you are using docker-compose V1 or Podman
# docker-compose up -d

网络优化

换源

因为是阿里云的服务器嘛，肯定要用阿里源啦

阿里源文档地址：https://developer.aliyun.com/mirror/ubuntu

Ubuntu 24.04 先打开/etc/apt/sources.list.d/ubuntu.sources

1	vi /etc/apt/sources.list.d/ubuntu.sources

替换为下面的内容：

下面是Ubuntu 24.04的阿里源，其他请参考文档

Types: deb deb-src
URIs: https://mirrors.aliyun.com/ubuntu/
Suites: noble noble-security noble-updates noble-proposed noble-backports
Components: main restricted universe multiverse
Signed-By: /usr/share/keyrings/ubuntu-archive-keyring.gpg

如果是24.04以下版本的，打开/etc/apt/sources.list

以下为 22.04 LTS 的阿里源

deb https://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse
deb-src https://mirrors.aliyun.com/ubuntu/ jammy main restricted universe multiverse

deb https://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiverse
deb-src https://mirrors.aliyun.com/ubuntu/ jammy-security main restricted universe multiverse

deb https://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiverse
deb-src https://mirrors.aliyun.com/ubuntu/ jammy-updates main restricted universe multiverse

# deb https://mirrors.aliyun.com/ubuntu/ jammy-proposed main restricted universe multiverse
# deb-src https://mirrors.aliyun.com/ubuntu/ jammy-proposed main restricted universe multiverse

deb https://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse
deb-src https://mirrors.aliyun.com/ubuntu/ jammy-backports main restricted universe multiverse

启用 BBR 拥塞控制算法

BBR（Bottleneck Bandwidth and Round-trip propagation time）是 Google 开发的一个拥塞控制算法，它旨在最大化带宽利用率并减少网络拥塞延迟。
它是 Linux 内核中的一种 TCP 拥塞控制方式，用于替代传统的 Reno、CUBIC 等算法。传统的 TCP 拥塞控制算法基于丢包作为网络拥塞信号。而 BBR 是基于带宽和延迟的估算，不再依赖丢包。

BBR 算法有一些魔改变体，在这篇博客中有进行对比评测：https://roov.org/2020/03/bbr-bbrplus-bbr2/

我个人还是比较喜欢原板的BBR算法，下面说明如何开启：

参考文献：https://www.sysgeek.cn/enable-bbr-on-ubuntu/

查看目前的 TCP 控制算法

sysctl net.ipv4.tcp_congestion_control

1 2	root@ubuntu:~# sysctl net.ipv4.tcp_congestion_control net.ipv4.tcp_congestion_control = cubic

查看系统是否支持 BBR，若支持则无任何输出

sudo modprobe tcp_bbr

使用下面命令设置 fq（Fair Queuing，公平排队）作为默认排队规则，BBR 作为拥塞控制算法.

sudo sh -c 'echo "net.core.default_qdisc=fq" >> /etc/sysctl.conf'
sudo sh -c 'echo "net.ipv4.tcp_congestion_control=bbr" >> /etc/sysctl.conf'

重新加载配置以生效：

sudo sysctl -p

root@ubuntu:~# sudo sysctl -p
net.ipv4.ping_group_range = 0 2147483647
net.core.default_qdisc = fq
net.ipv4.tcp_congestion_control = bbr

再次查看目前的 TCP 控制算法

sysctl net.ipv4.tcp_congestion_control

1 2	root@ubuntu:~# sysctl net.ipv4.tcp_congestion_control net.ipv4.tcp_congestion_control = bbr

开启虚拟内存SWAP

因为 VPS 只有 2G 内存，需要开启 SWAP 保证内存不会溢出导致系统彻底卡死

创建 swap 文件（4GB）：sudo fallocate -l 4G /swapfile
设置合适的权限：sudo chmod 600 /swapfile
格式化为 swap：sudo mkswap /swapfile
启用 swap：sudo swapon /swapfile

查看是否成功启用：free -h

root@ubuntu:/opt# free -h
            total        used        free      shared  buff/cache   available
Mem:           1.8Gi       617Mi       236Mi       3.1Mi       1.2Gi       1.2Gi
Swap:          4.0Gi          0B       4.0Gi

开机自动挂载：sudo nano /etc/fstab，在最后追加：
1
/swapfile none swap sw 0 0

安装Web服务器

因为我的服务器希望可以通过不同的子域名访问不同的服务，所以需要部署一个Web服务器进行反向代理。

我这里选择的是 Caddy，不用 Nginx 是因为他需要搭配别的项目一起才能解决 HTTPS 证书续签的问题；而且 Nginx 本身的配置文件也较为复杂。

安装Caddy

命令如下：

sudo apt install -y debian-keyring debian-archive-keyring apt-transport-https curl
curl -1sLf 'https://dl.cloudsmith.io/public/caddy/stable/gpg.key' | sudo gpg --dearmor -o /usr/share/keyrings/caddy-stable-archive-keyring.gpg
curl -1sLf 'https://dl.cloudsmith.io/public/caddy/stable/debian.deb.txt' | sudo tee /etc/apt/sources.list.d/caddy-stable.list
sudo apt update
sudo apt install caddy

设置Caddy配置文件

反向代理

Caddy的配置文件在 /etc/caddy/Caddyfile

以用的最多的普通反向代理为例，如果要将域名 test.example.com 反向代理到 127.0.0.1:5000，在 Caddyfile 中需要添加：

1
2
3

test.example.com {
    reverse_proxy 127.0.0.1:5000
}

sudo caddy reload 加载新的配置

然后Caddy会自动帮你搞定证书的事情，直接访问 https://test.example.com 即可。

备注：如果是特殊的项目，如哪吒探针、Uptime Kuma 等项目，利用了 WebSocket 等协议的项目反向代理需要特殊设置。

重定向

1
2
3

test.example.com {
    redir http://xx.xx.21.xx:80{uri} 301
}

同样需要 sudo caddy reload 加载新的配置。

测速服务 Speedtest-x

测速的开源项目有3个：

speedtest-x 是在 LibreSpeed 基础上开发的，界面相对好看一丢丢

LibreSpeed可以自定义站点标题，知名测速网站中国科学技术大学测速网站是在 LibreSpeed 上修改的

我这里部署的是 speedtest-x，采用下面的 docker 命令进行部署：

docker run -d \
  --restart unless-stopped \
  -p 23456:80 \
  --name speedtest-x \
  badapple9/speedtest-x

然后可以使用 IP:PORT 进行访问测速，需要注意的是采用Caddy进行反向代理后可能会出现测速远远不如IP访问的问题，参考这个 issure，原因是因为 当地运营商 QOS 限速所致，煞笔电信！！！。

对象存储 MinIO

MinIO 已经叛变了开源社区，变成了一个闭源商业软件，不再推荐使用。

MySQL + redis

networks:
  infra-net:
    name: infra-net
    external: false
services:
  mysql:
    image: mysql:8.2
    container_name: mysql
    restart: always
    environment:
      MYSQL_ROOT_PASSWORD: Fwm8848@
      MYSQL_DATABASE: shared_db
    ports:
      - 3306:3306
    networks:
      - infra-net
    healthcheck:
      test:
        - CMD
        - mysqladmin
        - ping
        - -h
        - localhost
      interval: 10s
      timeout: 5s
      retries: 3
    volumes:
      - mysql-data:/var/lib/mysql # 数据持久化
  redis:
    image: redis:latest
    container_name: redis
    restart: always
    ports:
      - 6379:6379 # 映射物理机端口
    networks:
      - infra-net
    healthcheck:
      test:
        - CMD
        - redis-cli
        - ping
      interval: 10s
      timeout: 5s
      retries: 3
    volumes:
      - redis-data:/data # Redis 持久化挂载
volumes:
  mysql-data: null
  redis-data: null

APC AP7921 机柜 PDU 配置网络

2025-08-25T06:20:39.000Z

介绍

外观

尺寸

接口

8个C13接口

空载功率为8W

配置

网络配置

通电后大概10s会听到断路器“咔”一声，就是开始上电；等待40s左右网口右下角的状态灯变成绿色，就是初始化完成了。

因为不知道设备的前任对PDU做了什么配置，使用牙签或者回形针戳Reset小孔长按5s左右，可以看到状态灯开始黄绿交替闪烁；再快速短戳一下Reset，状态灯熄灭，系统开始初始化；再次亮起后重置成功。

根据用户手册说明，PDU有下面几种配置网络方法：

APC Device IP Configuration Wizard
- 在 Windows 电脑上运行网络配置工具，自动发现并配置 PDU 的 IP、子网掩码和网关。
- 默认用户名/密码是 apc / apc。
DHCP/BOOTP
- 如果网络里有 DHCP 服务器，PDU 插上网线后会自动获取 IP。
串口配置（本地直连）
- 用随机附带的配置线（RJ-11 → 串口）连到电脑，打开终端（9600bps，8-N-1），用 apc/apc 登录，设置 IP、掩码、网关。
ARP + Ping 配置（远程）
- 在同一子网电脑上用 arp -s 命令绑定 MAC → IP，然后发一个 113 字节的 ping 包，PDU 会采用这个 IP。

但是实际上，APC Device IP Configuration Wizard、DHCP在我这都没有起效，然后我也没有串口线，最后是采用ARP + Ping 配置配置的，具体步骤如下：

macOS / Linux

sudo arp -s 192.168.123.50 00:c0:b7:8a:a2:b7ping 192.168.123.50 -s 113

192.168.123.50 是你想分配给 PDU 的新 IP（改成你网段里空闲的）。
00:c0:b7:8a:a2:b7 是 PDU 的 MAC 地址，必须改成你设备底部贴纸上的真实值。
ping -s 113 的 -s 在 macOS/Linux 表示 payload size（113 字节）。

Windows

arp -s 192.168.1.50 00-c0-b7-63-9f-67ping 192.168.1.50 -l 113

观察ping是否已经通，通了就访问上面设置的IP，我这里就是192.168.123.50 ：

默认账密：apc/apc

Spark集群部署

2024-04-28T11:48:24.000Z

SSH & JDK部署

互联互通

在哥们(hhh)的帮助下，搞到四台阿里云服务器，不过挺寒碜的配置：

编号	IP	用户名	密码	系统配置	备注
1	8.219.xx0.46	root	—-	Ubuntu 22.04 \| 2vCPU/4GiB	主节点
2	4x.236.2x.161	root	—-	Ubuntu 22.04 \| 2vCPU/1GiB	从节点
3	4x.236.15x.1x2	root	—-	Ubuntu 22.04 \| 2vCPU/2GiB	从节点
4	47.2x6.x15.x57	root	—-	Ubuntu 22.04 \| 2vCPU/1GiB	客户端

写了一个shell脚本，在四台服务器上创建用户dase-dis（注意确保四台服务器的用户名和密码一致才可以使用）:

先sudo apt install sshpass，在Linux下执行脚本：

#!/bin/bash

# 服务器IP地址列表
ip_list=("xxxx" "xxxx" "xxxx" "xxxx")

# 设置统一的密码
password="admin"

# 循环遍历IP地址列表
for ip in "${ip_list[@]}"
do
    echo "Connecting to $ip..."

    # 连接服务器并创建用户
    sshpass -p "$ssh_password" ssh -o StrictHostKeyChecking=no root@$ip << EOF
        # 创建用户并设置密码
        useradd -m -s /bin/bash dase-dis
        echo "dase-dis:$password" | chpasswd
        # 添加用户到sudo组
        usermod -aG sudo dase-dis
EOF

    echo "User dase-dis created on $ip with password $password"
done

执行结果：

实现四台服务器之间ssh免密登录

安装openssh

在四台服务器上执行

sudo apt-get install openssh-server 安装openssh

更改主机名

在1号机（主节点，在文章开头编号1）执行：

sudo hostnamectl set-hostname ecnu01 更改主机名

在2号机（从节点，在文章开头编号2）执行：

sudo hostnamectl set-hostname ecnu02

…以此类推

sudo hostnamectl set-hostname ecnu03
sudo hostnamectl set-hostname ecnu04

四台服务器都执行完毕后，断开ssh重新连接，观察到主机名字已经成功更改

更改hosts

原理：

Hosts 文件是本地计算机上的文本文件，用于将主机名与 IP 地址关联起来,绕过 DNS 解析。Linux hosts 文件的格式通常是：
IP地址主机名 [别名...]
在 /etc/hosts 路径下，每行代表一个主机名到 IP 地址的映射。例如：
1
2
3
127.0.0.1   localhost
::1         localhost
192.168.1.2 example.com
其中，127.0.0.1 和 ::1 映射到 localhost，192.168.1.2 映射到 example.com。hosts 文件允许手动指定主机名与 IP 地址的对应关系，用于特定网络配置和测试。

开始修改：

在四台机上执行以下操作：

sudo vim /etc/hosts

在hosts文件后追加（ip需要改成自己的哇）：

# IP地址 主机名
8.219.108.46 ecnu01
47.236.20.161 ecnu02
47.236.157.142 ecnu03
47.236.115.157 ecnu04

!!!!!!!注意!!!!!!!!!
!!!!!!!注意!!!!!!!!!
!!!!!!!注意!!!!!!!!!

在云服务器配置时, 本机使用内网IP, 其余为公网IP

查看内网IP:

hosts数值示例:

拷贝ssh公钥

在所有机器依次执行下面命令：

作用是将除主机外的三台机的ssh公钥拷贝到主中，实现其余三台机器到主机的ssh免密登录

ssh-keygen -t rsa 生成ssh密钥
ssh dase-dis@ecnu01 'mkdir -p ~/.ssh && cat >> ~/.ssh/authorized_keys' < ~/.ssh/id_rsa.pub 发送公钥到主机
sudo service ssh restart && chmod 700 ~/.ssh && chmod 600 ~/.ssh/authorized_keys 重启本机ssh服务+解决ssh文件夹的权限问题

主机执行：

作用是将主机的ssh认证拷贝到其余三台机中，实现其余三台机器之间的ssh免密登录

scp ~/.ssh/authorized_keys dase-dis@ecnu02:/home/dase-dis/.ssh/authorized_keys
scp ~/.ssh/authorized_keys dase-dis@ecnu03:/home/dase-dis/.ssh/authorized_keys
scp ~/.ssh/authorized_keys dase-dis@ecnu04:/home/dase-dis/.ssh/authorized_keys

上面的三条命令等价于命令：for host in ecnu02 ecnu03 ecnu04; do scp ~/.ssh/authorized_keys dase-dis@$host:/home/dase-dis/.ssh/; done

然后主机执行：

sudo service ssh restart && chmod 700 ~/.ssh && chmod 600 ~/.ssh/authorized_keys

运行结果：

验证：

互相ssh过去看看要不要输入密码

ssh dase-dis@ecnu01
exit
ssh dase-dis@ecnu02
exit
ssh dase-dis@ecnu03
exit
ssh dase-dis@ecnu04
exit

关闭防火墙

如果你是本地虚拟机:

systemctl stop firewalld.service
systemctl disable firewalld.service

如果你是云服务器:

请确保你知道自己在干什么, 关闭防火墙(开放所有端口)可能导致服务器被入侵

配置Java环境

JDK 1.8 https://www.oracle.com/cn/java/technologies/javase/javase8-archive-downloads.html

在四台机器上配置：

可能你需要在上面oracle网站登陆后上手动找到下载地址，然后使用wget下载

下载：wget https://download.oracle.com/otn/java/jdk/8u202-b08/1961070e4c9b4e26a04e7f5a083f551e/jdk-8u202-linux-x64.tar.gz
解压：tar -zxvf jdk-8u202-linux-x64.tar.gz
环境变量配置：sudo vi /etc/profile
添加以下内容：

# 路径自己配自己的
export JAVA_HOME=/home/dase-dis/jdk1.8.0_202
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.ja
export PATH=$PATH:$JAVA_HOME/bin

刷新：source /etc/profile
验证：java -version

Hadoop 2.x部署

下载

地址：https://archive.apache.org/dist/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz

在主节点上执行：

下载:wget https://archive.apache.org/dist/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
解压:tar -zxvf hadoop-2.10.1.tar.gz

进入文件夹:cd ~/hadoop-2.10.1/
查看下载软件的版本:./bin/hadoop version

修改配置

修改slaves

在主节点上执行：

修改 slaves 文件: vim ~/hadoop-2.10.1/etc/hadoop/slaves

修改为：

1 2	ecnu02 ecnu03

修改core-site

修改 core-site.xml: vim ~/hadoop-2.10.1/etc/hadoop/core-site.xml

"1.0" encoding="UTF-8"?>
"text/xsl" href="configuration.xsl"?>




<configuration>
  <property>
    <name>hadoop.tmp.dirname>
    <value>/home/dase-dis/hadoop-2.10.1/tmpvalue>
  property>
  
  <property>
    <name>fs.defaultFSname>
    <value>hdfs://ecnu01:9999value>
  property>
configuration>

修改hdfs-site

修改 hdfs-site.xml: vim ~/hadoop-2.10.1/etc/hadoop/hdfs-site.xml

"1.0" encoding="UTF-8"?>
"text/xsl" href="configuration.xsl"?>




<configuration>
  <property>
    <name>dfs.replicationname>
    <value>2value>
  property>
  <property>
    <name>dfs.namenode.name.dirname>
    <value>file:/home/dase-dis/hadoop-2.10.1/tmp/dfs/namevalue>
  property>
  <property>
    <name>dfs.namenode.name.dirname>
    <value>file:/home/dase-dis/hadoop-2.10.1/tmp/dfs/namevalue>
  property>
configuration>

修改hadoop-env

修改 hadoop-env.sh: vim ~/hadoop-2.10.1/etc/hadoop/hadoop-env.sh
将JAVA_HOME改为：

1	export JAVA_HOME=/home/dase-dis/jdk1.8.0_202

拷贝安装包

好了好了，终于改完了，接下来将改好的这份hadoop拷贝到其余三台机：

拷贝到从节点1：scp -r /home/dase-dis/hadoop-2.10.1 dase-dis@ecnu02:/home/dase-dis/
拷贝到从节点2：scp -r /home/dase-dis/hadoop-2.10.1 dase-dis@ecnu03:/home/dase-dis/
拷贝到客户端：scp -r /home/dase-dis/hadoop-2.10.1 dase-dis@ecnu04:/home/dase-dis/

其实打包一下拷贝会更加好的，这里偷懒了

启动HDFS服务

格式化

注意: 仅在第一次启动 HDFS 时才需要格式化 NameNode，如果是重启HDFS那么跳过这步，直接执行下一步即可。
此外，在进行 NameNode 格式化之前，如果~/hadoop-2.10.1/tmp/文件夹已存在，那么需要删除该文件夹后再执行以下格式化命令。
如果启动时炸了，CTRL+C了，断电了，请参考后文解决办法，可能仍然需要格式化

格式化命令: ~/hadoop-2.10.1/bin/hdfs namenode -format

启动

启动：~/hadoop-2.10.1/sbin/start-dfs.sh

验证

验证：jps
主节点

从节点

浏览器访问http://主节点IP:50070/，（如果主节点是云服务器记得把防火墙打开）

开防火墙：

集群工作正常：

查看节点信息：

集群异常解决

如果因为一些情况导致集群第一次没有启动成功，请在主、从节点：

在主节点, 停止集群：~/hadoop-2.10.1/sbin/stop-dfs.sh
删除运行生成文件：cd ~/hadoop-2.10.1/tmp/dfs && rm -rf *
删除日志：cd ~/hadoop-2.10.1/logs && rm -rf *
解决端口占用：sudo reboot
在主节点, 重新执行格式化命令：~/hadoop-2.10.1/bin/hdfs namenode -format

云服务器可能会出现的错误

错误日志：

提示绑定错误或2024-04-30 16:06:52,547 INFO org.apache.hadoop.util.ExitUtil: Exiting with status 1: java.net.BindException: Problem binding to [ecnu01:9000] java.net.BindException: Cannot assign requested address; For more details see: http://wiki.apache.org/hadoop/BindException的
检查文章spark-1 中提到的hosts设置是否正确, 设置好了不会出现这种情况
参考：

HDFS Shell

注意:第一次使用 HDFS 时,需要首先在 HDFS 中创建用户目录

打开工作目录: cd ~/hadoop-2.10.1
为当前 dase-dis 用户创建一个用户根目录: ./bin/hdfs dfs -mkdir -p /user/dase-dis

HDFS Shell目录操作示例:

显示 hdfs:///user/dase-dis 下的文件: ./bin/hdfs dfs -ls /user/dase-dis
新建 hdfs:///user/dase-dis/input 目录: ./bin/hdfs dfs -mkdir /user/dase-dis/input
删除 hdfs:///user/dase-dis/input 目录: ./bin/hdfs dfs -rm -r /user/dase-dis/input

Spark部署

修改配置文件

修改.bashrc文件

客户端执行：

vi ~/.bashrc
按i进入编辑模式，按方向键到文件最后一行，输入export TERM=xterm-color

按Esc键退出编辑模式，输入:wq保存退出
使.bashrc配置生效：source ~/.bashrc

下载 spark

在主节点执行:

启动HDFS服务(已经启动直接下一步):~/hadoop-2.10.1/sbin/start-dfs.sh
下载Spark安装包：wget http://archive.apache.org/dist/spark/spark-2.4.7/spark-2.4.7-bin-without-hadoop.tgz
解压安装包：tar -zxvf spark-2.4.7-bin-without-hadoop.tgz
改名：mv ~/spark-2.4.7-bin-without-hadoop ~/spark-2.4.7

上述步骤完成后：

修改配置

在主节点执行以下修改:

spark-env

cp /home/dase-dis/spark-2.4.7/conf/spark-env.sh.template /home/dase-dis/spark-2.4.7/conf/spark-env.sh
vi /home/dase-dis/spark-2.4.7/conf/spark-env.sh

修改为:

# 因为下载的是Hadoop Free版本的Spark, 所以需要配置Hadoop的路径
export HADOOP_HOME=/home/dase-dis/hadoop-2.10.1
export SPARK_DIST_CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath)
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:$LD_LIBRARY_PATH

export SPARK_MASTER_HOST=ecnu01 #主节点主机名
export SPARK_MASTERPORT=7077    #端口号

slaves

cp spark-2.4.7/conf/slaves.template spark-2.4.7/conf/slaves
vi spark-2.4.7/conf/slaves

修改为:

1
2
3

# localhost
ecnu02
ecnu03

spark-defaults

cp spark-2.4.7/conf/spark-defaults.conf.template spark-2.4.7/conf/spark-defaults.conf
vi spark-2.4.7/conf/spark-defaults.conf

修改为:

1
2
3

spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://ecnu01:9000/tmp/spark_history
spark.history.fs.logDirectory=hdfs://ecnu01:9000/tmp/spark_history

spark-config

vi spark-2.4.7/sbin/spark-config.sh

追加:

1	export JAVA_HOME=/home/dase-dis/jdk1.8.0_202

安装spark

拷贝

本步骤将spark修改好的安装包拷贝到其他三台机:

scp -r spark-2.4.7 dase-dis@ecnu02:~/
scp -r spark-2.4.7 dase-dis@ecnu03:~/
scp -r spark-2.4.7 dase-dis@ecnu04:~/

HDFS中建立日志目录

~/hadoop-2.10.1/bin/hdfs dfs -mkdir -p /tmp/spark_history

启动 spark

千辛万苦, 终于到启动了

在主节点执行:

启动spark: ~/spark-2.4.7/sbin/start-all.sh
启动日志服务器: ~/spark-2.4.7/sbin/start-history-server.sh
主节点:

从节点:

错误处理:

dase-dis@ecnu01:~$ ~/spark-2.4.7/sbin/start-all.sh
starting org.apache.spark.deploy.master.Master, logging to /home/dase-dis/spark-2.4.7/logs/spark-dase-dis-org.apache.spark.deploy.master.Master-1-ecnu01.out
ecnu02: starting org.apache.spark.deploy.worker.Worker, logging to /home/dase-dis/spark-2.4.7/logs/spark-dase-dis-org.apache.spark.deploy.worker.Worker-1-ecnu02.out
ecnu03: starting org.apache.spark.deploy.worker.Worker, logging to /home/dase-dis/spark-2.4.7/logs/spark-dase-dis-org.apache.spark.deploy.worker.Worker-1-ecnu03.out
ecnu02: failed to launch: nice -n 0 /home/dase-dis/spark-2.4.7/bin/spark-class org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://172.19.39.254:7077
ecnu02:         at io.netty.channel.AbstractChannel.bind(AbstractChannel.java:248)
ecnu02:         at io.netty.bootstrap.AbstractBootstrap$2.run(AbstractBootstrap.java:356)
ecnu02:         at io.netty.util.concurrent.AbstractEventExecutor.safeExecute(AbstractEventExecutor.java:164)
ecnu02:         at io.netty.util.concurrent.SingleThreadEventExecutor.runAllTasks(SingleThreadEventExecutor.java:472)
ecnu02:         at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:500)
ecnu02:         at io.netty.util.concurrent.SingleThreadEventExecutor$4.run(SingleThreadEventExecutor.java:989)
ecnu02:         at io.netty.util.internal.ThreadExecutorMap$2.run(ThreadExecutorMap.java:74)
ecnu02:         at io.netty.util.concurrent.FastThreadLocalRunnable.run(FastThreadLocalRunnable.java:30)
ecnu02:         at java.lang.Thread.run(Thread.java:748)
ecnu02:   24/05/02 10:23:10 INFO util.ShutdownHookManager: Shutdown hook called
ecnu02: full log in /home/dase-dis/spark-2.4.7/logs/spark-dase-dis-org.apache.spark.deploy.worker.Worker-1-ecnu02.out

请检查hosts文件设置, 文章[大数据]Spark-1 SSH & JDK部署

验证

浏览器访问: http://主节点IP:8080/，（如果主节点是云服务器记得把防火墙打开）

可以看到有两个worker在线, 大功告成

运行spark应用程序

好不容易搞好了, 来玩一下:

创建文件夹&上传文件

创建spark_input文件夹: ~/hadoop-2.10.1/bin/hdfs dfs -mkdir -p spark_input
上传文件RELEASE到spark_input: ~/hadoop-2.10.1/bin/hdfs dfs -put ~/spark-2.4.7/RELEASE spark_input/

在hadood的页面可以看到, 文件RELEASE存储在两个节点中:

启动 Spark Shell

启动spark-shell: ~/spark-2.4.7/bin/spark-shell --master spark://ecnu01:7077

键入以下Scala代码:

val sc = spark.sparkContext
val textFile = sc.textFile("hdfs://ecnu01:9000/user/dase-dis/spark_input/RELEASE")
val counts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)
counts.collect().foreach(println)

shell输出:

可以在网页查看到正在运行的任务信息:

到此Spark集群就已经顺利搭建完毕了

停止集群

如果你希望停止集群:

停止Spark: /spark-2.4.7/sbin/stop-all.sh
停止Spark日志服务: /spark-2.4.7/sbin/stop-history-server.sh
停止HDFS服务: /hadoop-2.10.1/sbin/stop-dfs.sh

测试运行

经典的WordCount程序源码如下:

package cn.edu.ecnu.spark.example.java.wordcount;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.*;
import scala.Tuple2;

import java.util.Arrays;
import java.util.Iterator;

public class WordCount {
    public static void run(String[] args) {
        /* 步骤1：通过SparkConf设置配置信息，并创建SparkContext */
        SparkConf conf = new SparkConf();
        conf.setAppName("WordCount");
        JavaSparkContext sc = new JavaSparkContext(conf);

        /* 步骤2：按应用逻辑使用操作算子编写DAG，其中包括RDD的创建、转换和行动等 */
        // 读入文本数据，创建名为lines的RDD
        JavaRDD lines = sc.textFile(args[0]);

        // 将lines中的每一个文本行按空格分割成单个单词
        JavaRDD words = lines.flatMap(new FlatMapFunction() {
            @Override
            public Iterator call(String line) throws Exception {
                return Arrays.asList(line.split(" ")).iterator();
            }
        });
        // 将每个单词的频数设置为1，即将每个单词映射为[单词, 1]
        JavaPairRDD pairs = words.mapToPair(new PairFunction() {
            @Override
            public Tuple2 call(String word) throws Exception {
                return new Tuple2(word, 1);
            }
        });
        // 按单词聚合，并对相同单词的频数使用sum进行累计
        JavaPairRDD wordCounts = pairs.groupByKey().mapToPair(new PairFunction>, String, Integer>() {
            @Override
            public Tuple2 call(Tuple2> t) throws Exception {
                Integer sum = Integer.valueOf(0);
                for (Integer i : t._2) {
                    sum += i;
                }
                return new Tuple2(t._1, sum);
            }
        });
        // 合并机制
        /*
        JavaPairRDD wordCounts =
        pairs.reduceByKey(
            new Function2() {
              @Override
              public Integer call(Integer t1, Integer t2) throws Exception {
                return t1 + t2;
              }
            });
         */

        // 输出词频统计结果
        wordCounts.saveAsTextFile(args[1]);

        /* 步骤3：关闭SparkContext */
        sc.stop();
    }

    public static void main(String[] args) {
        run(args);
    }
}

新建maven项目

在idea新建项目：

pom.xml内容如下：

"1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0modelVersion>

    <groupId>org.examplegroupId>
    <artifactId>spark-wordcountartifactId>
    <version>1.0-SNAPSHOTversion>

    <properties>
        <spark.version>1.2.0spark.version>
    properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.sparkgroupId>
            <artifactId>spark-core_2.11artifactId>
            <version>2.4.7version>
        dependency>
    dependencies>

project>

更新依赖

新建 Java 代码

新建包cn.edu.ecnu.spark.example.java.wordcount，类WordCount:

打包

打包为.jar:

传送到客户端

将打包好的.jar(位置项目路径\out\artifacts\spark_wordcount_jar)传到客户端的/home/dase-dis/spark-2.4.7/myapp

下载测试数据

下载：wget https://github.com/ymcui/Chinese-Cloze-RC/archive/master.zip
解压：unzip master.zip
解压：unzip ~/Chinese-Cloze-RC-master/people_daily/pd.zip
拷贝到集群：~/hadoop-2.10.1/bin/hdfs dfs -put ~/Chinese-Cloze-RC-master/people_daily/pd/pd.test spark_input/pd.test

提交jar任务

删除输出文件夹：~/hadoop-2.10.1/bin/hdfs dfs -rm -r spark_output
提交任务：~/spark-2.4.7/bin/spark-submit \ --master spark://ecnu01:7077 \ --class cn.edu.ecnu.spark.example.java.wordcount.WordCount \ /home/dase-dis/spark-2.4.7/myapp/spark-wordcount.jar hdfs://ecnu01:9000/user/dase-dis/spark_input hdfs://ecnu01:9000/user/dase-dis/spark_output

正在运行

顺利跑完

ssh：

webui：

查看output文件夹:

查看part01运行结果：

./hadoop-2.10.1/bin/hdfs dfs -cat /user/dase-dis/spark_output/part-00001

逻辑回归推导

2023-12-23T06:46:38.000Z

介绍

逻辑回归是一种广义上的线性回归模型，简单来看就是将线性回归的结果 $y$ 通过一个映射函数 sigmoid 映射到 0-1 区间，将 sigmoid 函数输出当做概率值，当概率值大于 0.5 时分类为正类，反之反类。

Sigmoid函数:

$$
g(z) = \frac{1}{1+e^{-z}}
$$

推导模型公式

模型公式

$$
h_{\theta}(x) = g(\theta^T X) = \frac{1}{1 + e^{-\theta^T X}}
$$

$$\hat{y} = \begin{cases}1, & h_{\theta}(x) > 0.5 \\0, & h_{\theta}(x) < 0.5\end{cases}$$

⚠️ 注意：

$\hat{y}$ 是预测的类别，
$y$ 是真实的类别，
$h_{\theta}(x)$ 视作概率值（这个模型就是这样设计的），
$\theta$ 是这个模型的参数（实际上和线性回归的参数一样）

推导损失函数

条件概率表示

首先写出模型的条件概率表示（在给定样本 $x$ 下）：

给定输入样本 $x$，模型输出 $h_{\theta}(x)$ 表示预测类别为 $1$ 的概率，即：

$$
P_{\theta}(y=1|x) = h_{\theta}(x)
$$

同样，预测类别为 $0$ 的概率是：

$$
P_{\theta}(y=0|x) = 1 - h_{\theta}(x)
$$

令 $p = h_{\theta}(x)$，上面的公式可以写为：

给定输入样本 $x$，预测类别为 $1$ 的概率：

$$
P_{\theta}(y=1|x) = p
$$

同样，预测类别为 $0$ 的概率是：

$$
P_{\theta}(y=0|x) = 1 - p
$$

最大似然函数

这里实际上将sigmoid输出当做概率，我们目标追求正确分类的概率 $P_{\theta}(y|x)$ 要越高越好 (注意这里的 $y$ 是真实类别，所以 $P_{\theta}(y|x)$ 就是正确分类的概率值)。

使用最大似然估计来求使 $P_{\theta}(y|x)$ 达到最大的参数 $\theta$，故可以得到参数 $\theta$ 的似然函数如下：

$$
L(\theta) = P_{\theta}(Y|X) = \prod_{j=1}^{m} P_{\theta}(Y^j | X^j)
$$

©️ 符号说明：

$m$: 样本数量
$d$: 为样本特征纬度
$x$: 单个样本的特征，是一个行向量
$X$: 每个样本特征组成的矩阵，形状为 $m * d$
$X^j$: 第 $j$ 个样本的特征
$y$: 单个样本的类别标签
$Y$: 样本类别组成的向量，形状为 $1 * m$
${Y^j}$: 第 $j$ 个样本的真实类别

改写最大似然函数

将 $P_{\theta}(y|x) $ 替代为 $p^{y} (1-p)^{1-y}$。

当 $y$ 为 $1$ ，$p^y$ 生效；$y=0$，$p^y$ 失效，$(1-p)^{1-y}$ 生效。所以这种替代是等效的。

这其实是为什么要定义正类编码为 $1$ ，负类编码为 $0$ 的原因，这样做可以简洁表示，简化了后面的推导过程。如果定义为其他数字也是可以的，不过后续推导会很繁琐。

然后就可以得到下面这种形式：
$$
L(\theta) = \prod_{j=1}^{m} p^{Y^j} (1-p)^{1-Y^j}
$$

对数似然函数

为了计算方便，在上式两边取对数：

$$
\ln L(\theta) = \ln \left( \prod_{j=1}^{m} p^{Y^j} (1-p)^{1-Y^j} \right)
= \sum_{j=1}^{m} \left( Y^j \ln p + (1 - Y^j) \ln(1 - p) \right)
$$

最大化对数似然 $\ln L(\theta)$ 等价于最大化似然 $L(\theta)$

损失函数

得到对数似然 $\ln L(\theta)$ 后，我们需要最大化对数似然 $\ln L(\theta)$ 得到参数 $\theta$。

我们知道求解一个模型是需要将模型的损失函数最小化，但是现在我们需要最大化对数似然，所以将对数似然 $\ln L(\theta)$取负，然后最小化$-\ln L(\theta)$ 即可。

故损失函数为：

$$
J(\theta) = -\frac{1}{m} L(\theta) = -\frac{1}{m} \sum_{j=1}^{m} \left( y^j \ln p + (1 - y^j) \ln(1 - p) \right)
$$

📝 备注：
在逻辑回归的损失函数中，我们希望对所有训练样本的损失进行求和，然后再通过 $\frac{1}{m}$ 来平均，这样可以使损失函数对每个样本的贡献相等，避免训练数据量的大小对损失函数的影响过大。

梯度下降求解

先计算一些后面会用到的结果：

sigmoid函数的导数：

$$\begin{aligned}\frac{\partial}{\partial z} g(z) &= \frac{\partial}{\partial z} \left( \frac{1}{1 + e^{-z}} \right) \\&= \frac{\partial}{\partial z} (1 + e^{-z})^{-1} \\&= -(1 + e^{-z})^{-2} \left( (1 + e^{-z})' \right) \\&= -(1 + e^{-z})^{-2} (-e^{-z}) \\&= (1 + e^{-z})^{-2} e^{-z}\end{aligned}$$

1 - sigmoid函数的导数:

$$
\frac{\partial}{\partial z} \left( 1 - g(z) \right) = -g(z) \left( 1 - g(z) \right)
$$

对数 sigmoid函数的导数:

$$\begin{aligned}\frac{\partial}{\partial z} \ln g(z) &= \frac{\partial}{\partial z} \ln \left( \frac{1}{1 + e^{-z}} \right) \\&= (1 + e^{-z}) \left( (1 + e^{-z})^{-2} \right) \left( e^{-z} \right) \\&= \frac{e^{-z}}{1 + e^{-z}} \\&= 1 - \frac{1}{1 + e^{-z}} \\&= 1 - g(z)\end{aligned}$$

对数 1 - sigmoid函数的导数:

$$\begin{aligned}\frac{\partial}{\partial z} \ln (1 - g(z)) &= \frac{\partial}{\partial z} \ln \left( 1 - \frac{1}{1 + e^{-z}} \right) \\&= - \frac{1}{1 - \frac{1}{1 + e^{-z}}} \left( (1 + e^{-z})^{-2} \right) (e^{-z}) \\&= - \frac{1 + e^{-z}}{e^{-z}} \left( (1 + e^{-z})^{-2} \right) \\&= -g(z)\end{aligned}$$

一通算后，终于可以开始计算损失函数的导数：

$$\begin{aligned}\frac{\partial}{\partial \theta_i} J(\theta) &= \frac{\partial}{\partial \theta_i} \left( -\frac{1}{m} \sum_{j=1}^{m} \left( y^j \ln p + (1 - y^j) \ln(1 - p) \right) \right) \\&= \frac{\partial}{\partial \theta_i} \left( -\frac{1}{m} \sum_{j=1}^{m} \left( y^j \ln g(\theta^T X^j) + (1 - y^j) \ln(1 - g(\theta^T X^j)) \right) \right) \\&= -\frac{1}{m} \sum_{j=1}^{m} \left( y^j \left( \ln g(\theta^T X^j) \right)' + (1 - y^j) \left( \ln(1 - g(\theta^T X^j)) \right)' \right) \\&= -\frac{1}{m} \sum_{j=1}^{m} \left( y^j (1 - g(\theta^T X^j)) x_i^j + (y^j - 1) g(\theta^T X^j) x_i^j \right) \\&= -\frac{1}{m} \sum_{j=1}^{m} \left( y^j - g(\theta^T X^j) \right) x_i^j\end{aligned}$$

中间计算详细过程：

$\left( \ln g(\theta^T X) \right)’$:
$$
\left( \ln g(\theta^T X) \right)’ = \frac{\partial}{\partial \theta_i} \ln g(\theta^T X)
$$
$\frac{\partial \ln g(z)}{\partial z} \frac{\partial z}{\partial \theta_i}$:

$$\begin{aligned}\frac{\partial \ln g(z)}{\partial z} \frac{\partial z}{\partial \theta_i} &= (1 - g(z)) \frac{\partial}{\partial \theta_i} \theta^T X \\&= (1 - g(z)) x_i \\&= (1 - g(\theta^T X)) x_i\end{aligned}$$

$\left( \ln(1 - g(\theta^T X)) \right)’$：
$$
\left( \ln(1 - g(\theta^T X)) \right)’ = \frac{\partial}{\partial \theta_i} \ln(1 - g(\theta^T X))
$$
$\frac{\partial \ln(1 - g(z))}{\partial z} \frac{\partial z}{\partial \theta_i} $：

$$\begin{aligned}\frac{\partial \ln(1 - g(z))}{\partial z} \frac{\partial z}{\partial \theta_i} &= -g(z) \frac{\partial}{\partial \theta_i} \theta^T X \\&= -g(z) x_i \\&= -g(\theta^T X) x_i\end{aligned}$$

迭代更新公式

梯度下降更新公式：
$$
\theta_i := \theta_i - \alpha \frac{1}{m} \sum_{j=1}^{m} \left( g(\theta^T X^j) - y^j \right) x_i^j
$$

线性回归推导

2023-11-06T04:19:44.000Z

原理

闭式求解

模型：$h_\theta(x)=\theta^TX$
损失函数：$J(\theta)=\left|X\theta-Y\right|_2^2$
目标：$\theta=\arg\min J(\theta)$
说明：

$$\begin{cases}\theta\in\mathbb{R}^{d\times1}\\[2ex]X\in\mathbb{R}^{m\times d}\\[2ex]Y\in\mathbb{R}^{m\times1}\end{cases}$$

正规方程形式求解，即为直接求 $J(\theta)$ 的最小值：

先展开 $J(\theta)$ ：

$$\begin{align*}J(\theta) &= \|X\theta - Y\|_{2}^{2} \\&= (X\theta - Y)^{T}(X\theta - Y) \\&= (X^{T}\theta^{T} - Y^{T})(X\theta - Y) \\&= X^{T}\theta^{T}X\theta - Y^{T}X\theta - Y^{T}X\theta + Y^{T}Y \\&= X^{T}\theta^{T}X\theta - 2Y^{T}X\theta + Y^{T}Y \end{align*}$$

对 $J(\theta)$ 进行求导：

$$\begin{aligned}\frac{\partial J(\theta)}{\partial\theta}& =\frac{\partial X^T\theta^TX\theta-2Y^TX\theta+Y^TY}{\partial\theta} \\&=2X^{T}X\theta-2Y^{T}X\end{aligned}$$

令 $J(\theta)=0$ 得：

$$\begin{aligned}2X^{T}X\theta-2Y^{T}X& =0 \\X^{T}X\theta & =Y^{T}X \\\theta & =(X^TX)^{-1}Y^TX \end{aligned}$$

上述结果即为求解结果，需要说明的是：特征矩阵 $X$ 不满秩（即存在特征间的线性相关性），则正规方程求解过程中的矩阵求逆操作可能会导致数值不稳定性。

梯度下降求解

模型：$h_\theta(x)=\sum_{i=1}^d\theta_ix_i$
注：$x_i$表示$x$的第$i$维
损失函数：$J(\theta)=\frac1{2m}\sum_{j=0}^m\left(y^j-h_\theta(x^j)\right)^2$
注：$x^j$表示第$j$个样本
目标：$\theta=\arg\min J(\theta)$
说明：

$$\begin{cases}\theta\in\mathbb{R}^d\\[2ex]x\in\mathbb{R}^d\\[2ex]y\in\mathbb{R}^m\end{cases}$$

损失函数 $J(\theta)$ 是一个关于参数 $\theta$ 的二次型，对 $J(\theta)$ 进行展开：

$$\begin{aligned}J(\theta)& =\frac{1}{2m}\sum_{j=0}^{m}\Big(y^{j}-h_{\theta}(x^{j})\Big) \\&=\frac{1}{2m}\sum_{j=0}^{m}\Bigg(y^{j}-\sum_{i=1}^{d}\theta_{i}x_{i}^{j}\Bigg)^{2}\end{aligned}$$

对 $J(\theta)$ 进行偏微分求导运算得到：

$$\begin{aligned}\partial\frac{J(\theta)}{\partial\theta_i}& =\frac{\partial}{\partial\theta_{i}}\frac{1}{2m}\sum_{j=0}^{m}\Bigg(y^{j}-\sum_{i=1}^{d}\theta_{i}x_{i}^{j}\Bigg)^{2} \\&=\frac{1}{m}\sum_{j=0}^{m}\Bigg( y^{j}-\sum_{i=1}^{d}\theta_{i}x_{i}^{j}\Bigg)(-x_{i}^{j}) \\&=\frac{1}{m}\sum_{j=0}^{m}\Bigg(\sum_{i=1}^{d}\theta_{i}x_{i}^{j}-y^{j}\Bigg)x_{i}^{j}\end{aligned}$$

每次根据梯度更新参数：

$$\begin{aligned}\theta_{i}& =\theta_i-\alpha\partial\frac{J(\theta)}{\partial\theta_i} \\&=\theta_i-\alpha(\frac1m\sum_{j=0}^m\biggl(\sum_{i=1}^d\theta_ix_i^j-y^j\biggr)x_i^j) \\&=\theta_i+\alpha \frac{1}{m}\sum_{j=0}^m\Bigg( y^j-\sum_{i=1}^d\theta_ix_i^j\Bigg)x_i^j\end{aligned}$$

梯度下降法步骤：

$\text{Repeat until convergence } \{$$$\theta_i:=\theta_i+\alpha\:\frac{1}{m}\sum_{j=0}^m\Bigg(y^j-\sum_{i=1}^d\theta_ix_i^j\Bigg)x_i^j$$$\}$

Python实现

导包

# 导入所需的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
import time

%matplotlib inline
%config InlineBackend.figure_format = 'svg'

读取数据集

# 读取数据
df = pd.read_csv("./housing.csv")
# 预览数据
print(df.head())

print(df.info())

数据预处理

# 1）处理缺失值
# 取出有缺失值的列
# reshape是为了适应sklearn要求
total_bedrooms = df.loc[:, "total_bedrooms"].values.reshape(-1, 1)  

# 复制一份不破坏原数据
filled_df = df.copy()  

# 中位数填补
filled_df.loc[:, "total_bedrooms"] = SimpleImputer(strategy="median").fit_transform(total_bedrooms)  

# 看一下效果
filled_df.info()


# 2）编码
# 编码
code = OneHotEncoder().fit_transform(filled_df.loc[:, "ocean_proximity"].values.reshape(-1, 1))

# 合并
coded_df = pd.concat([filled_df, pd.DataFrame(code.toarray())], axis=1)

# 删除原列
coded_df.drop(["ocean_proximity"], axis=1, inplace=True)

# 改下表头
coded_df.columns = list(coded_df.columns[:-5]) + ["ocean_0", "ocean_1", "ocean_2", "ocean_3", "ocean_4"]
# coded_df.columns = coded_df.columns.astype(str)

# 看看效果
coded_df.head(10)

划分数据集

feature = coded_df.iloc[:, :8].join(coded_df.iloc[:, -5:])
label = coded_df["median_house_value"]

Xtrain,Xtest,Ytrain,Ytest = train_test_split(feature,label,test_size=0.3)

Xtrain.head()

求解模型

评价指标R^2

1
2
3

# 计算R^2
def R2(y, y_pred):
    return 1 - (np.sum((y - y_pred) ** 2) / np.sum((y - np.mean(y)) ** 2))

数据标准化

# 数据标准化
def normalize(X):
    sigma = np.std(X, axis=0)
    mu = np.mean(X, axis=0)
    X = (X - mu) / sigma
    return np.array(X)

X = np.array(Xtrain).reshape(np.size(Xtrain, 0), -1)
y = np.array(Ytrain).T.reshape(-1, 1)

# 标准化（闭式求解其实不需要，但梯度下降需要，为了对比统一都采用归一化）
X = normalize(X)
y = normalize(y)

闭合形式求解

# 1）线性回归模型的闭合形式参数求解
# 正规方程求解
def Normal_Equation(X, y):
    return np.linalg.inv(X.T @ X) @ X.T @ y

start_time = time.time()
theta_ne = Normal_Equation(X, y)

print(f"花费时间：{time.time() - start_time}")v
print(f"R^2：{R2(y, X @ theta_ne)}")

# 创建 DataFrame
result_cf = pd.DataFrame({"ColumnName": list(Xtrain.columns), "Theta": theta_ne.flatten()})
result_cf

梯度下降求解

# 2）线性回归梯度下降参数求解
# 损失函数
def MSE_Loss(y, y_pred):
    return np.sum((y_pred - y) ** 2) / (2 * np.size(y))

# 梯度下降
def GD(X, y, lr=0.01, epochs=5000):
    m, n = X.shape

    # 初始化参数为标准正态分布
    theta = np.random.randn(n, 1)
    # 记录每代损失
    loss = np.zeros(epochs)

    for epoch in range(epochs):
        # 计算梯度
        gradient = (1 / m) * (X.T @ (X @ theta - y))
        # 更新参数
        theta -= lr * gradient
        # 记录损失
        loss[epoch] = MSE_Loss(y, X @ theta)

    return theta, loss

start_time = time.time()
[theta_gd, loss] = GD(X, y)

print(f"花费时间：{time.time() - start_time}")
print(f"R^2：{R2(y, X @ theta_gd)}")

# 创建 DataFrame
result_gd = pd.DataFrame({"ColumnName": list(Xtrain.columns), "Theta": theta_gd.flatten()})
result_gd

# 绘制损失函数梯度下降曲线
sns.lineplot(x=np.arange(5000), y=loss.flatten(), label='Loss Curve')

plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Gradient Descent Loss Curve')

实验结果

Bochs环境配置记录

2023-04-22T08:41:20.000Z

WSL2 - Ubuntu 22.04 + VSCode + Bochs + XFCE4 + VcXsrv

笔者环境：WSL2 - Ubuntu 22.04

安装 WSL2 & VSCode & 终端

网上教程千千万，请自行查找：

WSL2：WSL2 安装教程 - CSDN

切换清华源：清华大学开源软件镜像站

1
2
3

sudo cp /etc/apt/sources.list /etc/apt/sources.bak
sudo vim /etc/apt/sources.list
sudo apt update

VSCode：Visual Studio Code 官网
- 安装插件：WSL
- 点击左下绿色按钮，按提示连接 WSL。

终端：Microsoft Store 提供下载。

安装软件包

以下命令以行为单位粘贴到终端运行：

1
2
3

sudo apt update
sudo apt upgrade
sudo apt-get install -y neofetch gcc vim build-essential g++ libgtk2.0-dev nasm gdb

配置 WSL2 图形界面

采用 XFCE4 + VcXsrv，实现图形化界面。

安装 VcXsrv

下载地址：VcXsrv 下载

安装过程：

选择 One Large Window：

勾选 Disable Access Control：

成功界面：

解决高 DPI 模糊问题：

安装 XFCE4

1	sudo apt install -y xfce4

配置

修改 .bashrc 文件：

1	cd ~ && vim .bashrc

在文件末尾添加：

1	export DISPLAY=$(awk '/nameserver / {print $2; exit}' /etc/resolv.conf 2>/dev/null):0

执行：

1	source ~/.bashrc

启动 XFCE4

1	sudo startxfce4

防火墙弹窗选择同意。

小技巧：使用多终端避免 log 阻塞命令。

解决锁屏卡死问题：

1	sudo apt purge xfce4-screensaver

安装 Bochs

下载与解压

下载：

1	wget https://sourceforge.net/projects/bochs/files/bochs/2.6.2/bochs-2.6.2.tar.gz

解压：

1	tar -zxvf bochs-2.6.2.tar.gz

配置

cd bochs-2.6.2
./configure \
--prefix=/your_path/bochs \
--enable-debugger \
--enable-disasm \
--enable-iodebug \
--enable-x86-debugger \
--with-x \
--with-x11 \
LDFLAGS='-pthread' \
LIBS='-lX11'

修改 Makefile：

在第 92 行添加：

1	IBS =-lm -lgtk-x11-2.0 -lgdk-x11-2.0 -latk-1.0 -lgio-2.0 -lpangoft2-1.0 -lgdk_pixbuf-2.0 -lpangocairo-1.0 -lcairo -lpango-1.0 -lfreetype -lfontconfig -lgobject-2.0 -lgmodule-2.0 -lglib-2.0 -lpthread

编译安装

编译：

make

安装：

1	sudo make install

配置 Bochs

创建 bochsrc.disk 文件：

1	sudo vim /home/fwm-0100/bochs/bin/bochsrc.disk

配置示例如下（路径需改为实际安装路径）：

1 2	romimage: file=/home/fwm-0100/bochs/share/bochs/BIOS-bochs-latest vgaromimage: file=/home/fwm-0100/bochs/share/bochs/VGABIOS-lgpl-latest

运行 Bochs

1 2	cd /home/fwm-0100/bochs/bin ./bochs

界面截图：

过拟合训练日志

MemGAS论文翻译

摘要

引言

方法

预备知识（Preliminary）

多粒度关联构建（Multi-Granularity Association Construction）

多粒度路由器（Multi-Granularity Router）

记忆检索与过滤（Memory Retrieval and Filter）

实验（Experiments）

实验设置（Experimental Settings）

整体结果（Overall Results）

消融实验（Ablation Study）

THEANINE论文翻译

摘要

引言

方法

记忆图构建（Memory Graph Construction, Phase I）

时间线检索与时间线细化（Timeline Retrieval and Timeline Refinement, Phase II）

时间线增强的回复生成（Timeline-augmented Response Generation, Phase III）

实验设置

数据集

基线方法（Baselines）

模型与实现细节（Models and Implementation Details）

评估方案一：自动评估与人工评估（Evaluation Scheme 1: Automatic and Human Evaluations）

评估方案二：TeaFarm —— 基于反事实驱动的长期对话评估框架

基于反事实问题的记忆能力测试

TeaFarm 评估结果（TeaFarm Results）

ReadAgent论文阅读

摘要

方法

摘要记忆 Gist Memory

剧情分页（Episode Pagination）

记忆概括 Memory Gisting

交互式查找与应答 Interactive Look-Up and Response

ReadAgent-P（并行检索）

ReadAgent-S（串行检索）

计算代价权衡与可扩展性 Computational Trade-offs and Scalability

ReadAgent 的变体 ReadAgent Variants

实验结果

QuALITY

NarrativeQA

QMSum

ES-Mem论文阅读

摘要

引言

现状

动机（故事）

贡献

相关工作

通过EST理论来提升对话智能体记忆能力的相关工作。

MemoryBank论文阅读

记忆存储 Memory Storage

深度记忆存储 In-Depth Memory Storage

分层事件总结 Hierarchical Event Summary

动态人格理解 Dynamic Personality Understanding

记忆检索 Memory Retrieval

记忆更新机制 Memory Updating Mechanism

G-Memory论文阅读

瞎逼逼

摘要

方法

多智能体形式化定义

G-Memory 设计

交互图 Interaction

查询图 Query Graph

洞察图 Insight Graph

实验

AutoGen

实验结果

GPT-4o-mini

Qwen2.5-7B-Instruct

Qwen2.5-14B-Instruct

A-Mem论文阅读

瞎逼逼

摘要

方法

生成笔记 Note Construction

笔记链接 Link Generation

记忆演化 Memory Evolution

生成笔记附录B.1

笔记链接附录B.2

记忆演化附录B.3