首页 > 灵异恐怖 > 大白话聊透人工智能 > DeepSeek Engram技术如何重塑大模型赛道

DeepSeek Engram技术如何重塑大模型赛道(1/2)

目录

2026年1月12日,DeepSeek联合北京大学在arXiv上发布的《ditional Meory via Scable Lookup: A New Axis of Sparsity for Large Language Models》论文,以及同步开源的Engra(记忆痕迹)核心模块,堪称大模型技术演进的一次关键转向。这项被视作DeepSeek-V4“技术底牌”的创新,以“查—算分离”的全新机制,跳出了“参数越大、算力越足、模型越强”的传统内卷路径,为大模型突破性能瓶颈提供了更精巧的解决方案,更将引发AI产业链的价值重估与格局洗牌。

一、 传统大模型的“低效痛点”:用计算模拟记忆,纯属“杀鸡用牛刀”

要理解Engra的革命性,首先得看清传统Transforr模型的核心缺陷。

在处理“莎士比亚的全名是什么”“珠穆朗玛峰的高度是多少”这类确定性知识问题时,传统大模型的操作堪称“大材小用”:它不会像人类一样直接调取记忆库里的答案,而是要启动多层神经网络,通过复杂的矩阵运算、注意力机制层层推导,最终“拼凑”出结果。这种模式本质上是用“动态深度计算”去模拟“静态知识检索”,不仅耗时耗力,还造成了巨大的算力资源浪费。

打个比方,这就像让一个数学家放下微积分研究,专门去背诵九九乘法表——不是做不到,而是完全没必要,属于典型的“能力错配”。随着大模型参数规模突破千亿、万亿级别,这种“用计算代记忆”的模式,带来的算力成本、部署门槛也水涨船高,成为制约大模型普惠化的关键瓶颈。

二、 Engra的核心逻辑:“查算分离”,让专业的人做专业的事

Engra模块的诞生,正是为了根治上述痛点。它的核心设计哲学,是将大模型的任务拆分为“静态知识检索”和“动态推理计算”两大分支,实现精准分工。

1. “查”:Engra模块负责的静态记忆检索

Engra本质上是一个可扩展、高效率的现代化查找表,专门存储那些确定性、固定化的知识——比如实体名称、固定短语、历史事实、公式定理等。它的最大优势在于,能够以O(1)的时间复杂度完成检索,相当于“随取随用”。

当模型遇到“Alexahe Great”这个短语时,不需要再通过多层神经网络运算推导,而是直接从Engra的记忆库中提取对应的语义向量;当用户询问“中国的首都是哪里”时,Engra可以瞬间给出答案,无需模型“绞尽脑汁”计算。

这就像给大模型配备了一个“超级记忆U盘”,把那些不需要思考的“死知识”全部存进去,随用随取。

2. “算”:Transforr主干负责的动态组合推理

在Engra接管了“死记硬背”的工作后,Transforr主干网络终于可以“轻装上阵”,专注于自己最擅长的事——复杂逻辑推理、创造性内容生成、上下文关联分析等需要“动脑筋”的任务。

比如,当用户要求“基于莎士比亚的生平,写一篇关于人性的散文”时,Engra负责快速检索莎士比亚的生平事迹、代表作品等基础信息,而Transforr主干则负责整合这些信息,进行逻辑梳理、语言组织和创意表达;当用户提出“设计一个基于区块链的供应链管理方案”时,Engra提供区块链相关的基础概念和技术术语,Transforr主干则负责方案的架构设计、流程规划和可行性分析。

这种分工,就像给程序员配备了一个智能IDE:IDE自动补全语法、调用函数,程序员则专注于核心算法的设计——效率提升是显而易见的。

3. 理论支撑:U型缩放定律,优化资源配比

论文中还提出了一个关键发现:神经计算(MoE)与静态记忆(Engra)之间存在一种U型缩放定律。这一定律揭示了两者之间的资源优化配比关系——不是一味增加某一方的资源投入,而是找到两者的平衡点,才能实现性能最大化。

这就意味着,未来大模型的优化方向,不再是盲目堆参数、堆算力,而是通过调整“检索”与“计算”的资源占比,实现效率与性能的最优解。这为大模型的架构设计提供了明确的理论指导,堪称是一次“方法论层面的革新”。

三、 实测性能:不止是知识检索,推理能力也意外飞跃

Engra的价值,不是停留在理论层面的“纸上谈兵”,而是在实测中展现出了性能与效率的双重突破。在27B参数规模的对比实验中,Engra模型在“等参数、等算力”的条件下,全面超越了传统的MoE模型,甚至带来了一些“意外之喜”。

1. 知识检索能力显着增强

这是最符合预期的提升。在MMLU、CMMLU等知识密集型任务中,Engra模型的准确率提升了3-4分。毕竟,专门的记忆检索模块,就是为了解决知识问答的效率问题而生的,这一提升在意料之中。

2. 推理与代码数学能力“意外飞跃”

令人惊喜的是,Engra模型不仅在知识任务上表现出色,还在需要深层思考的任务中大放异彩:在BigBench Hard(BBH)推理任务上提升5.0分,在HuanEval代码生成任务上提升3.0分,在MATH数学任务上提升2.4分。

这背后的逻辑很简单:Transforr主干网络从繁琐的知识记忆中解放出来后,算力资源被集中用于推理计算,自然能够“更专注地解题”。就像一个学生不用再死记硬背公式,而是可以把精力放在理解公式的应用逻辑上,解题能力自然会提升。

3. 长上下文理解能力实现“质变”

在32K上下文长度的RULER基准测试中,多查询“大海捞针”任务的准确率从84.2%跃升至97.0%,这是一个堪称“质变”的提升。

传统大模型在处理长上下文时,注意力机制很容易被大量冗余信息分散,导致关键信息检索效率低下。而Engra模块负责处理局部的固定依赖关系,注意力机制得以解放,能够更专注于全局上下文的建模和关键信息的抓取——这就像清理了电脑的内存,让系统运行更加流畅。

本章未完,点击下一页继续阅读。

目录
返回顶部