核心技术
Post-Neumann 架构。
我们没有改良冯·诺依曼瓶颈。我们消除了它——从底层重新架构芯片处理智能的方式。
0%
内存瓶颈
传统架构浪费40-60%的时钟周期用于数据搬运。MPCE彻底消除了数据传输。
128
认知核心
专门为transformer和注意力工作负载设计的专用处理单元。
<0.1ms
推理延迟
ZLTA-2协议通过预测性调度实现亚0.1ms的token生成。
架构
超越冯·诺依曼。
自1945年以来,所有处理器都建立在同一个假设之上:内存与计算是分离的。这条数据高速公路成为AI工作负载的主要瓶颈。
Post-Neumann架构将内存和处理融合为统一的认知单元,计算就在数据所在的位置发生——消除数据传输、降低功耗,并实现确定性推理。
- 无数据总线瓶颈——计算与存储共置。
- 确定性执行——每个token的延迟可预测。
- 专用处理,零GPU冲突。
- 原生transformer支持——注意力机制直接在芯片中实现。
核心创新
Memory-Process Coupled Execution。
在传统架构中,数据从DRAM传输到缓存,再到寄存器,然后才进行处理。每一次跳转都增加延迟并消耗功耗。MPCE消除了每一次跳转。
每个AI-SRAM tile在同一物理结构中包含存储和算术逻辑。数据永不移动——指令来到数据所在之处,而非相反。
- 零缓存未命中——数据始终与计算共置。
- 相比传统数据搬运,功耗降低40-60%。
- 大规模并行——每个tile独立运行。
- 线性扩展——增加tile即增加性能。
基本构建单元
AI-SRAM tile。
Post-Neumann计算的基本单元。每个tile是一个自包含的处理与存储元素,处理神经网络的一个切片,无需外部依赖。
不同于通过复杂层级共享全局内存的GPU核心,AI-SRAM tile在本地数据上操作,具有保证的访问时间——使推理完全确定性。
- 集成SRAM + ALU于单一tile结构中。
- 确定性访问——无缓存层级,无未命中。
- 针对注意力头计算优化。
- tile间通过专用mesh网络通信。
框架
State Capsules。
当前的AI推理是无状态的——每个请求都从零开始。State Capsules引入了持久化的、硬件管理的推理状态,可跨会话和请求存续。
可以将其理解为AI模型的硬件级记忆。处理器原生维护上下文、注意力状态和中间计算——实现真正的上下文感知、连续推理。
- 跨会话持久化推理上下文。
- 硬件管理状态——无软件开销。
- 封装且隔离——设计即安全。
- 在边缘端实现持续学习。
协议
ZLTA-2:零延迟token架构。
ZLTA-2是一种自研推理协议,通过预测性token调度、推测执行和硬件加速注意力实现亚0.1ms的token生成。
传统流水线按顺序处理token,而ZLTA-2预测下一个计算路径,并在当前token完成之前预先准备数据——消除流水线停顿。
- 预测性token调度——预先准备下一步计算。
- 推测执行,零代价回滚。
- 生产级质量下每token亚0.1ms。
- 硬件加速注意力评分。