研究与洞察 — 后诺依曼计算与 AI 架构

AI 硬件的未来不是更快的 GPU。而是为特定目的构建的、以不同方式思考的硅片。

GPU 时代的每一次改进都是渐进式的——更多核心、更多内存、更多功耗。Punky Tiger Labs 建立在相反的前提之上：推理是一个计算问题，而不是一个图形问题。我们先设计架构，再设计晶体管，然后设计编译器。结果是能够确定性地执行认知工作负载的硬件，具有有界延迟和持久状态。

核心支柱

四大研究领域。

每一项 PTL 发明所触及的技术面——从晶体管到模型运行时。

架构

后冯·诺依曼计算

将内存和计算融合在同一基底上的统一认知 Tile。消除自 1945 年以来定义处理器的总线瓶颈。

推理

确定性 AI 推理

有界延迟、可预测的尾部行为、零缓存未命中。硬件级调度将 AI 推理变成实时系统。

安全

硬件级安全

认证、隐写水印和抗对抗编码植根于硅片——而非作为中间件附加。

前瞻

量子就绪架构

混合经典-量子接口，使当今的工作负载无需重写技术栈即可移植到未来的加速器。

出版物

即将发布的研究。

四篇论文正在准备中。标题和摘要已锁定；完整版将于 2026 年发布。

2026

Post-Neumann Architecture: A Unified Cognitive Substrate

奠基论文，介绍基于 Tile 的认知计算模型，用融合的计算-存储元件取代 CPU/内存分离架构。
2026 年发布
2026

ZLTA-2: Zero-Latency Token Architecture for Transformer Inference

预测性 Token 调度、推测性管线和硬件加速注意力评分，将推理延迟降至 0.1ms 以下。
2026 年发布
2026

AI-SRAM Tiles: Compute-in-Memory at Transistor Density

关于 AI-SRAM Tile 的电路级研究——作为后诺依曼构建单元的自包含计算加存储元件。
2026 年发布
2026

State Capsules: Hardware-Managed Persistent Inference

硅片级状态管理如何将无状态 Transformer 模型转变为持久的、会话感知的系统，恢复成本近乎为零。
2026 年发布

架构简报

三篇洞察文章，点击阅读。

来自 PTL 研究团队的短篇简报。点击卡片展开完整文章。

冯·诺依曼墙

架构 · 8 分钟阅读 · 2026 年 3 月

自 1945 年以来，通用计算由一个单一的架构选择定义：将计算与内存分离，并通过总线在它们之间移动数据。它起了作用。然后它停止了扩展。

结构性天花板

现代推理工作负载在达到计算瓶颈之前很久就已经受到带宽限制。一个 Transformer 层在算术上并不昂贵——昂贵的是因为每次矩阵乘法都需要将权重从 DRAM 移动到 SRAM 再到寄存器然后返回。每一次跳转都是能耗税。每一次跳转都是延迟税。每一次跳转都是冯·诺依曼墙。

Tile 的不同之处

Tile 是一个自包含的单元，具有本地 SRAM、本地算术逻辑和本地控制。模型被映射到 Tile 网格上，工作流向权重已经存在的位置，而不是将数据流式传输到全局执行单元。计算和存储之间没有总线，因为根本没有分离。

推理变成了拓扑问题，而不是带宽问题。

下游效应

确定性几乎是免费获得的。如果每个权重在已知 Tile 上有已知的物理地址，那么每个注意力头都有已知的成本。最坏情况延迟不再是统计分布，而变成有界常数。这就是让推理加入实时系统的特性。

Punky Tiger Labs Research — 架构团队，2026 年 3 月。

确定性为何重要

推理 · 6 分钟阅读 · 2026 年 2 月

云推理仪表盘喜欢展示中位数。生产系统运行在尾部延迟上。两者之间的差距正是确定性硬件发挥价值的地方。

中位数是谎言

一个平均每 Token 12ms 但在第 99.9 百分位飙升到 180ms 的 GPU，将无法通过任何实时合约。机器人、自主系统和交互式代理不关心你的平均值——他们关心你的保证值。随机调度器、缓存驱逐和 DRAM 行冲突是尖峰的来源，而它们在 GPU 模型中是结构性的。

有界，而非快速

确定性推理并不是要做到最快。而是要做到可预测。当每个权重有固定的 Tile，每个注意力头有固定的调度，每次内存访问有固定的周期数时，最坏情况就会收敛到最佳情况。尾部延迟不再是概率分布，而变成一个规格参数。

可预测就是新的快速。

它解锁了什么

实时机器人。亚帧游戏推理。闭环工业控制。有延迟 SLA 的智能体系统。这些是随机 GPU 模型无法服务的工作负载——也是后诺依曼硅片专门为之构建的。

Punky Tiger Labs Research — 推理团队，2026 年 2 月。

硬件根认证

安全 · 7 分钟阅读 · 2026 年 1 月

模型权重是知识产权。模型输出是法律工件。如果你的认证路径经过软件，那你就是在信任对手的环境。

基底即证明

硬件信任根意味着认证设备与运行推理的设备是同一个。没有交接、没有中间驱动程序、信任路径中没有操作系统内核。模型使用仅存在于 Tile 内部的密钥进行签名。输出可追溯到特定时刻的特定硅片。

隐写水印

后诺依曼 Tile 发出的每个 Token 都带有硬件嵌入的签名，可在下游重新编码、改述和模型到模型蒸馏后幸存。信号位于语言表面之下——对输出不可见，对验证者可读。

输出知道哪块硅片生产了它。

为什么现在很重要

溯源正从礼貌性要求变成法律要求。监管机构、内容平台和企业买家越来越多地要求 AI 生成的工件可以追溯到特定的、可问责的来源。硬件根认证是唯一能够在不依赖软件栈良好行为的情况下提供这一保证的层。

Punky Tiger Labs Research — 安全团队，2026 年 1 月。

外部验证

独立研究佐证我们的方向。

近期经过同行评审和行业论文，与我们一直在构建的架构结论趋于一致。

推理吞吐量 arXiv · 2026 年 2 月

FAST-Prefill: Decoupled Attention for Long-Context Inference

通过分离内存层次将预填充与解码解耦——与 ZLTA-2 的预测性调度管线背后的设计原则相同。

独立验证：内存层分离用于 Transformer 推理。

异构计算 Zhao & Liu · 2026 年 1 月

Heterogeneous AI Compute: A Survey of Tile-Based Accelerators

对新兴 Tile 网格加速器的综述证实，行业正朝着 PTL 数年前已获专利的融合计算-存储拓扑方向转变。

独立验证：Tile 范式作为后 GPU 方向。

KV-Cache 效率 Zhang · 2026 年 1 月

SwiftKV: Streaming KV-Cache Eviction for Long-Context Models

证明状态持久化在长上下文中主导推理成本——这正是 State Capsules 所针对的场景。

独立验证：持久状态硬件作为瓶颈。

内存架构 Kim et al. · 2025 年 11 月

CXL-Enabled KV-Cache: Towards Disaggregated Inference Memory

早期行业实验使用 CXL 支持的 KV Cache，重新发现了对统一内存-计算基底的需求——这是 PTL 从第一天起的核心论点。

独立验证：统一内存-计算拓扑。

下一步

了解研究背后的架构。

技术页面展示了这些研究支柱如何落地为硅片——专利页面展示了它们如何受到保护。