后冯·诺依曼计算
将内存和计算融合在同一基底上的统一认知 Tile。消除自 1945 年以来定义处理器的总线瓶颈。
来自 Punky Tiger Labs 的应用研究和架构简报——在这里,硅片、编译器和推理协议从第一性原理重新设计。
AI 硬件的未来不是更快的 GPU。而是为特定目的构建的、以不同方式思考的硅片。
GPU 时代的每一次改进都是渐进式的——更多核心、更多内存、更多功耗。Punky Tiger Labs 建立在相反的前提之上:推理是一个计算问题,而不是一个图形问题。我们先设计架构,再设计晶体管,然后设计编译器。结果是能够确定性地执行认知工作负载的硬件,具有有界延迟和持久状态。
每一项 PTL 发明所触及的技术面——从晶体管到模型运行时。
将内存和计算融合在同一基底上的统一认知 Tile。消除自 1945 年以来定义处理器的总线瓶颈。
有界延迟、可预测的尾部行为、零缓存未命中。硬件级调度将 AI 推理变成实时系统。
认证、隐写水印和抗对抗编码植根于硅片——而非作为中间件附加。
混合经典-量子接口,使当今的工作负载无需重写技术栈即可移植到未来的加速器。
四篇论文正在准备中。标题和摘要已锁定;完整版将于 2026 年发布。
奠基论文,介绍基于 Tile 的认知计算模型,用融合的计算-存储元件取代 CPU/内存分离架构。
2026 年发布预测性 Token 调度、推测性管线和硬件加速注意力评分,将推理延迟降至 0.1ms 以下。
2026 年发布关于 AI-SRAM Tile 的电路级研究——作为后诺依曼构建单元的自包含计算加存储元件。
2026 年发布硅片级状态管理如何将无状态 Transformer 模型转变为持久的、会话感知的系统,恢复成本近乎为零。
2026 年发布来自 PTL 研究团队的短篇简报。点击卡片展开完整文章。
近期经过同行评审和行业论文,与我们一直在构建的架构结论趋于一致。
通过分离内存层次将预填充与解码解耦——与 ZLTA-2 的预测性调度管线背后的设计原则相同。
独立验证:内存层分离用于 Transformer 推理。
对新兴 Tile 网格加速器的综述证实,行业正朝着 PTL 数年前已获专利的融合计算-存储拓扑方向转变。
独立验证:Tile 范式作为后 GPU 方向。
证明状态持久化在长上下文中主导推理成本——这正是 State Capsules 所针对的场景。
独立验证:持久状态硬件作为瓶颈。
早期行业实验使用 CXL 支持的 KV Cache,重新发现了对统一内存-计算基底的需求——这是 PTL 从第一天起的核心论点。
独立验证:统一内存-计算拓扑。
技术页面展示了这些研究支柱如何落地为硅片——专利页面展示了它们如何受到保护。