Investigación e Insights — Computación Post-Neumann y Arquitectura de IA

El futuro del hardware de IA no son GPUs más rápidas. Es silicio diseñado con propósito que piensa diferente.

Cada mejora en la era de la GPU ha sido incremental — más núcleos, más memoria, más potencia. Punky Tiger Labs se construye sobre la premisa opuesta: la inferencia es un problema de computación, no un problema de gráficos. Diseñamos primero la arquitectura, luego el transistor, luego el compilador. El resultado es hardware que ejecuta cargas de trabajo cognitivas de forma determinista, con latencia acotada y estado persistente.

Pilares centrales

Cuatro áreas de investigación.

La superficie técnica que toca cada invención de PTL — desde el transistor hasta el runtime del modelo.

Arquitectura

Computación Post-von-Neumann

Tiles cognitivos unificados que fusionan memoria y cómputo en el mismo sustrato. Elimina el cuello de botella del bus que ha definido a los procesadores desde 1945.

Inferencia

Inferencia Determinista de IA

Latencia acotada, comportamiento de cola predecible, cero fallos de caché. La programación a nivel de hardware convierte la inferencia de IA en un sistema en tiempo real.

Seguridad

Seguridad a Nivel de Hardware

Atestación, marca de agua esteganográfica y codificación resistente a adversarios anclada en el silicio — no añadida como middleware.

Arquitectura híbrida de computación quantum-ready

Futuro

Arquitecturas Quantum-Ready

Interfaces híbridas clásico-cuánticas diseñadas para que las cargas de trabajo actuales migren a los aceleradores del mañana sin reescribir el stack.

Publicaciones

Investigación próxima.

Cuatro artículos actualmente en preparación. Títulos y resúmenes están definidos; publicaciones completas en 2026.

2026

Post-Neumann Architecture: A Unified Cognitive Substrate

Artículo fundacional que introduce el modelo de computación cognitiva basado en tiles que reemplaza la separación CPU/memoria con elementos fusionados de cómputo-almacenamiento.
Próximamente 2026
2026

ZLTA-2: Zero-Latency Token Architecture for Transformer Inference

Despacho predictivo de tokens, pipelines especulativos y puntuación de atención acelerada por hardware que lleva la inferencia por debajo del umbral de 0.1 ms.
Próximamente 2026
2026

AI-SRAM Tiles: Compute-in-Memory at Transistor Density

Un estudio a nivel de circuito de los AI-SRAM tiles — el elemento autónomo de cómputo más almacenamiento que sirve como bloque constructivo Post-Neumann.
Próximamente 2026
2026

State Capsules: Hardware-Managed Persistent Inference

Cómo la gestión de estado a nivel de silicio convierte modelos transformer sin estado en sistemas persistentes con reconocimiento de sesión y costo de reanudación cercano a cero.
Próximamente 2026

Briefings de arquitectura

Tres insights. Abre para leer.

Briefings breves del equipo de investigación de PTL. Haz clic en una tarjeta para expandir el artículo completo.

El Muro de Von Neumann

Arquitectura · 8 min de lectura · Marzo 2026

Desde 1945, la computación de propósito general se ha definido por una sola decisión arquitectónica: separar el cómputo de la memoria y mover datos a través de un bus entre ambos. Funcionó. Luego dejó de escalar.

El techo estructural

Las cargas de trabajo de inferencia modernas están limitadas por ancho de banda mucho antes de estar limitadas por cómputo. Una capa de transformer no es aritméticamente costosa — es costosa porque cada multiplicación de matrices requiere trasladar pesos de DRAM a SRAM a registros y de vuelta. Cada salto es un impuesto energético. Cada salto es un impuesto de latencia. Cada salto es el muro de Von Neumann.

Lo que los tiles hacen diferente

Un tile es una celda autónoma con SRAM local, aritmética local y control local. En lugar de transmitir datos a una unidad de ejecución global, el modelo se mapea sobre la cuadrícula de tiles y el trabajo fluye donde los pesos ya residen. No hay bus entre cómputo y almacenamiento porque no hay separación.

La inferencia se convierte en un problema de topología, no un problema de ancho de banda.

El efecto cascada

El determinismo emerge casi gratis. Si cada peso tiene una dirección física conocida en un tile conocido, entonces cada cabeza de atención tiene un costo conocido. La latencia en el peor caso deja de ser una distribución estadística y se convierte en una constante acotada. Esa es la propiedad que permite a la inferencia integrarse en sistemas de tiempo real.

Punky Tiger Labs Research — Equipo de arquitectura, Marzo 2026.

Por Qué Importa el Determinismo

Inferencia · 6 min de lectura · Febrero 2026

Los dashboards de inferencia en la nube adoran la mediana. Los sistemas en producción viven de la cola. La brecha entre ambos es donde el hardware determinista demuestra su valor.

La mediana es una mentira

Una GPU que promedia 12 ms por token pero sube a 180 ms en el percentil 99.9 fallará cualquier contrato de tiempo real. La robótica, los sistemas autónomos y los agentes interactivos no se preocupan por tu promedio — se preocupan por lo que garantizas. Los schedulers estocásticos, las evictions de caché y los conflictos de filas de DRAM son las fuentes de los picos, y son estructurales en el modelo GPU.

Acotado, no rápido

La inferencia determinista no se trata de ser la más rápida. Se trata de ser predecible. Cuando cada peso tiene un tile fijo, cada cabeza de atención tiene un schedule fijo y cada acceso a memoria tiene un conteo de ciclos fijo, el peor caso colapsa sobre el mejor caso. La latencia de cola deja de ser una distribución de probabilidad y se convierte en una especificación.

Predecible es el nuevo rápido.

Lo que desbloquea

Robótica en tiempo real. Inferencia sub-frame para gaming. Control industrial en lazo cerrado. Sistemas agénticos con SLAs de latencia. Estas son las cargas de trabajo que el modelo estocástico de GPU no puede servir — y las que el silicio Post-Neumann está diseñado para resolver.

Punky Tiger Labs Research — Equipo de inferencia, Febrero 2026.

Autenticación Anclada en Hardware

Seguridad · 7 min de lectura · Enero 2026

Los pesos de un modelo son propiedad intelectual. Las salidas del modelo son artefactos legales. Si tu ruta de autenticación pasa por software, estás confiando en el entorno del adversario.

El sustrato es la prueba

Una raíz de confianza en hardware significa que el dispositivo de atestación es el mismo dispositivo que ejecuta la inferencia. No hay transferencia, no hay driver intermedio, no hay kernel del SO en la ruta de confianza. El modelo firma con una clave que solo existe dentro del tile. La salida es verificable hasta una pieza específica de silicio en un instante específico.

Marca de agua esteganográfica

Cada token emitido por un tile Post-Neumann lleva una firma embebida en hardware que sobrevive la recodificación, el parafraseo y la destilación modelo a modelo. La señal se encuentra por debajo de la superficie lingüística — invisible para la salida, legible para el verificador.

La salida sabe qué silicio la produjo.

Por qué importa ahora

La procedencia está pasando de ser una cortesía a un requisito legal. Reguladores, plataformas de contenido y compradores empresariales exigen cada vez más que los artefactos generados por IA se rastreen hasta una fuente específica y responsable. La autenticación anclada en hardware es la única capa que puede entregar esa garantía sin depender del buen comportamiento del stack de software.

Punky Tiger Labs Research — Equipo de seguridad, Enero 2026.

Validación externa

La investigación independiente coincide.

Artículos recientes revisados por pares y de la industria que convergen en las mismas conclusiones arquitectónicas que hemos estado construyendo.

Rendimiento de inferencia arXiv · Feb 2026

FAST-Prefill: Decoupled Attention for Long-Context Inference

Desacopla prefill de decode mediante una jerarquía de memoria dividida — el mismo principio de diseño detrás del pipeline de despacho predictivo de ZLTA-2.

Validación independiente de la separación de niveles de memoria para inferencia transformer.

Cómputo heterogéneo Zhao & Liu · Ene 2026

Heterogeneous AI Compute: A Survey of Tile-Based Accelerators

Un estudio de aceleradores emergentes basados en cuadrícula de tiles confirma el cambio de la industria hacia la topología fusionada de cómputo-almacenamiento que PTL patentó años antes.

Validación independiente del paradigma de tiles como la dirección post-GPU.

Eficiencia de KV-cache Zhang · Ene 2026

SwiftKV: Streaming KV-Cache Eviction for Long-Context Models

Demuestra que la persistencia de estado domina el costo de inferencia en contexto largo — precisamente el régimen para el que State Capsules están diseñados.

Validación independiente del hardware de estado persistente como cuello de botella.

Tejido de memoria Kim et al. · Nov 2025

CXL-Enabled KV-Cache: Towards Disaggregated Inference Memory

Experimentos tempranos de la industria con KV caches respaldados por CXL redescubren la necesidad de un sustrato unificado de memoria-cómputo — la tesis de PTL desde el primer día.

Validación independiente de la topología unificada de memoria-cómputo.

La página de tecnología muestra cómo estos pilares de investigación aterrizan en silicio — y la página de patentes muestra cómo están protegidos.

No optimizamos. Rediseñamos la arquitectura.

Cuatro áreas de investigación.

Computación Post-von-Neumann

Inferencia Determinista de IA

Seguridad a Nivel de Hardware

Arquitecturas Quantum-Ready

Investigación próxima.

Post-Neumann Architecture: A Unified Cognitive Substrate

ZLTA-2: Zero-Latency Token Architecture for Transformer Inference

AI-SRAM Tiles: Compute-in-Memory at Transistor Density

State Capsules: Hardware-Managed Persistent Inference

Tres insights. Abre para leer.

El Muro de Von Neumann

Por Qué Importa el Determinismo

Autenticación Anclada en Hardware

El Muro de Von Neumann

El techo estructural

Lo que los tiles hacen diferente

El efecto cascada

Por Qué Importa el Determinismo

La mediana es una mentira

Acotado, no rápido

Lo que desbloquea

Autenticación Anclada en Hardware

El sustrato es la prueba

Marca de agua esteganográfica

Por qué importa ahora

La investigación independiente coincide.

FAST-Prefill: Decoupled Attention for Long-Context Inference

Heterogeneous AI Compute: A Survey of Tile-Based Accelerators

SwiftKV: Streaming KV-Cache Eviction for Long-Context Models

CXL-Enabled KV-Cache: Towards Disaggregated Inference Memory

Descubre la arquitectura detrás de la investigación.