跳转到内容
核心技术

Post-Neumann 架构。

我们没有改良冯·诺依曼瓶颈。我们消除了它——从底层重新架构芯片处理智能的方式。

0% 内存瓶颈 传统架构浪费40-60%的时钟周期用于数据搬运。MPCE彻底消除了数据传输。
128 认知核心 专门为transformer和注意力工作负载设计的专用处理单元。
<0.1ms 推理延迟 ZLTA-2协议通过预测性调度实现亚0.1ms的token生成。
架构

超越冯·诺依曼。

自1945年以来,所有处理器都建立在同一个假设之上:内存与计算是分离的。这条数据高速公路成为AI工作负载的主要瓶颈。

Post-Neumann架构将内存和处理融合为统一的认知单元,计算就在数据所在的位置发生——消除数据传输、降低功耗,并实现确定性推理。

  • 无数据总线瓶颈——计算与存储共置。
  • 确定性执行——每个token的延迟可预测。
  • 专用处理,零GPU冲突。
  • 原生transformer支持——注意力机制直接在芯片中实现。
查看NYMPH协处理器 ↗
Post-Neumann架构图——认知单元融合内存与计算
核心创新

Memory-Process Coupled Execution。

在传统架构中,数据从DRAM传输到缓存,再到寄存器,然后才进行处理。每一次跳转都增加延迟并消耗功耗。MPCE消除了每一次跳转。

每个AI-SRAM tile在同一物理结构中包含存储和算术逻辑。数据永不移动——指令来到数据所在之处,而非相反。

  • 零缓存未命中——数据始终与计算共置。
  • 相比传统数据搬运,功耗降低40-60%。
  • 大规模并行——每个tile独立运行。
  • 线性扩展——增加tile即增加性能。
Memory-Process Coupled Execution示意图
基本构建单元

AI-SRAM tile。

Post-Neumann计算的基本单元。每个tile是一个自包含的处理与存储元素,处理神经网络的一个切片,无需外部依赖。

不同于通过复杂层级共享全局内存的GPU核心,AI-SRAM tile在本地数据上操作,具有保证的访问时间——使推理完全确定性。

  • 集成SRAM + ALU于单一tile结构中。
  • 确定性访问——无缓存层级,无未命中。
  • 针对注意力头计算优化。
  • tile间通过专用mesh网络通信。
AI-SRAM tile架构图
框架

State Capsules。

当前的AI推理是无状态的——每个请求都从零开始。State Capsules引入了持久化的、硬件管理的推理状态,可跨会话和请求存续。

可以将其理解为AI模型的硬件级记忆。处理器原生维护上下文、注意力状态和中间计算——实现真正的上下文感知、连续推理。

  • 跨会话持久化推理上下文。
  • 硬件管理状态——无软件开销。
  • 封装且隔离——设计即安全。
  • 在边缘端实现持续学习。
State Capsules框架示意图
协议

ZLTA-2:零延迟token架构。

ZLTA-2是一种自研推理协议,通过预测性token调度、推测执行和硬件加速注意力实现亚0.1ms的token生成。

传统流水线按顺序处理token,而ZLTA-2预测下一个计算路径,并在当前token完成之前预先准备数据——消除流水线停顿。

  • 预测性token调度——预先准备下一步计算。
  • 推测执行,零代价回滚。
  • 生产级质量下每token亚0.1ms。
  • 硬件加速注意力评分。
探索应用 →
ZLTA-2协议示意图
下一步

从架构到芯片。

专利组合展示了技术栈的保护方式。研究实验室展示了下一步方向。