1400 RISC - Weifang Co., Ltd.

Untether AI en Canadá ha desarrollado un dispositivo de IA con más de 1400 procesadores RISC-V llamado Boqueria para computación 'en memoria'.

Boqueria, discutido hoy en la Conferencia HotChips, se basa en el proceso de 7 nm de TSMC con 238 MB de SRAM. El dispositivo tiene un rendimiento de 2 PetaFlops para tipos de datos de IA de 8 bits del FP8 con una cifra de potencia de 30 TFLOPs/W que proviene de mantener el procesamiento más cerca de los núcleos de IA con 729 bancos de memoria dual RISC-V.

Debido a que el cómputo en memoria es significativamente más eficiente desde el punto de vista energético que las arquitecturas tradicionales de von Neumann, se pueden realizar más TFlops para una envolvente de potencia dada. Con la introducción de los dispositivos runAI en 2020, Untether AI vio un nivel de eficiencia energética de 8 TOP/W para el tipo de datos INT8.

La arquitectura speedAI utilizada en Boqueria mejora eso, entregando 30 TFlops/W. Esta eficiencia energética es producto de la arquitectura informática en memoria de segunda generación, más de 1400 procesadores RISC-V optimizados con instrucciones personalizadas, flujo de datos de eficiencia energética y la adopción de un nuevo tipo de datos FP8, todo lo cual ayuda a cuadruplicar la eficiencia en comparación con el dispositivo runAI de la generación anterior.

Cada banco de memoria de la arquitectura speedAI tiene 512 elementos de procesamiento con conexión directa a SRAM dedicada. Estos elementos de procesamiento admiten tipos de datos INT4, FP8, INT8 y BF16, junto con circuitos de detección cero para la conservación de energía y compatibilidad con escasez estructurada 2:1.

Organizado en 8 filas de 64 elementos de procesamiento, cada fila tiene su propio controlador de fila dedicado y funcionalidad de reducción cableada para permitir flexibilidad en la programación y el cálculo eficiente de las funciones de red del transformador, como Softmax y LayerNorm. Las filas son administradas por dos procesadores RISC-V con más de 20 instrucciones personalizadas diseñadas para la aceleración de inferencias. La flexibilidad del banco de memoria le permite adaptarse a una variedad de arquitecturas de redes neuronales, incluidas redes convolucionales, transformadoras y de recomendación, así como modelos de álgebra lineal.

El primer miembro de la familia, el speedAI240, proporciona 2 PetaFlops de rendimiento FP8 y 1 PetaFlop de rendimiento BF16. Esto se traduce en un mayor rendimiento, por ejemplo, ejecutando el marco BERT a más de 750 consultas por segundo por vatio (qps/w), 15 veces más que el estado actual de las GPU líderes.

La investigación de Untether AI determinó que dos formatos FP8 diferentes proporcionaron la mejor combinación de precisión, alcance y eficiencia. Una versión de 4 mantisas (FP8p para "precisión") y una versión de 3 mantisas (FP8r para "rango") proporcionaron la mejor precisión y rendimiento para la inferencia en una variedad de redes diferentes. Tanto para redes convolucionales como ResNet-50 como para redes de transformadores como BERT-Base, la implementación de FP8 de Untether AI da como resultado menos de 1/10 del 1 por ciento de pérdida de precisión en comparación con el uso de tipos de datos BF16, con un aumento de cuatro veces en el rendimiento y la eficiencia energética. .

El dispositivo speedAI240 está diseñado para escalar a modelos grandes. La arquitectura de la memoria tiene varios niveles, con 238 MB de SRAM dedicados a los elementos de procesamiento que ofrecen 1 petabyte/s de ancho de banda de memoria, cuatro memorias auxiliares de 1 MB y dos puertos LPDDR5 de 64 bits de ancho, lo que proporciona hasta 32 GB de DRAM externa.

Hay 16 carriles de PCIe Gen5 para conectividad de host a 63 GB/s con tres puertos de PCIe Gen5 x8 para conectividad de chip a chip y de tarjeta a tarjeta, cada uno con 31,5 GB/s.

"Los méritos de la computación en memoria se han probado con el dispositivo runAI de primera generación, y la arquitectura speedAI de segunda generación mejora la eficiencia energética, el rendimiento, la precisión y la escalabilidad de nuestra oferta", dijo Arun Iyengar, director ejecutivo de Untether AI. "Los dispositivos speedAI ofrecen una capacidad que no tiene comparación con ninguna otra oferta de inferencia en el mercado".

Untether AI tiene un kit de desarrollo de software (SDK) llamado imAIgine que proporciona un camino para ejecutar redes con alto rendimiento, con cuantización, optimización, asignación física y particionamiento de múltiples chips. imAIgine SDK también proporciona un amplio conjunto de herramientas de visualización, un simulador de ciclo preciso y una API de tiempo de ejecución fácilmente integrada y ya está disponible.

Los dispositivos speedAI se ofrecerán como chips independientes, así como una variedad de tarjetas de factor de forma m.2 y PCI-Express. Se espera que el muestreo de dispositivos y tarjetas speedAI240 para clientes de acceso anticipado comience en la primera mitad de 2023.