EPI: sobre la licencia de los núcleos ARM
El fantástico proyecto EPI sigue adelante en su desarrollo, dejándonos algunas grandes noticias que he ido comentado desde este blog, como los nuevos fichajes de SiPearl. La soberanía tecnológica de Europa está un pequeño paso más cerca, aunque aún queda mucho recorrido.
En esta nueva entrada mostraré algo más sobre cómo serán los núcleos de EPI, es decir, los que están basados en ARM. Se me ha ocurrido hacer esta entrada después de haber visto algunos usuarios con dudas sobre Apple Silicon, o sobre el procesador Fujitsu A64FX, y las diferencias con los IP cores. Y supongo que esas dudas también se trasladan al caso del EPI.
Introducción
SiPearl, la empresa francesa tras el proyecto EPI de la Comisión Europea, ya anuncio la obtención de la licencia IP ARM Neoverse para la CPU (codename Zeus). Recuerda que el acelerador estará basado en la ISA RISC-V, pero por madurez y ecosistema, se ha optado por ARM para el procesador de propósito general.
En la NdP se podía leer:
- Maisons-Laffitte, Francia, 21 de abril de 2020 – SiPearl, la compañía que está diseñando el microprocesador de alto rendimiento y bajo consumo para la supercomputadora de exaescala europea, ha firmado un importante acuerdo tecnológico de licencia con Arm, el proveedor mundial IP de semiconductores. El acuerdo permitirá a SiPearl beneficiarse de la plataforma Arm® Neoverse™ de próxima generación de alto rendimiento, segura y escalable, con nombre en código Zeus, así como aprovechar el sólido ecosistema de software y hardware Arm. Aprovechar la plataforma Arm Zeus, incluida POP ™ IP de Arm, en la tecnología avanzada FinFET, permitirá a SiPearl acelerar su diseño y garantizar la confiabilidad excepcional para una oferta de muy alto nivel, en términos de potencia de computación y eficiencia energética, y estar listo para lanzar la primera generación de microprocesadores en 2022.
El núcleo Zeus, por tanto, usará Neoverse N1 (codename Ares) de Arm. Eso quiere decir que no se usará una microarquitectura creada desde cero y basada en la ISA ARM como ocurre con Apple Silicon, o el caso citado anterormente del A64FX, sino que se opta por comprar ya el núcleo IP para integrarlo junto con el resto de elementos para esta GPP.
ARM Neoverse N1
Pero ¿qué es exactamente Neoverse N1? Pues bien, es una microarquitectura diseñada por ARM Holdings para el mercado HPC. Se ha diseñado como una microarquitectura con IP Core sintetizable y vendida a otros diseñadores de semiconductores para que las puedan implementar en sus propios chips.
Neoverse N1 es casi un núcleo gemelo al Cortex-A76, pero cuyas características se han mejorado para que trabaje mejor en infraestructuras de alta carga de trabajo. Por tanto, las características son:
- Pipeline de 11 etapas
- Decodificador de 4 vías
- Emisor de instrucciones de 8 vías
- Malla para interconectar núcleos a alta velocidad y mantener la coherencia
- Memoria cache:
- L1I (para instrucciones) de 64 KiB, 4-way asociativa, con líneas de 64-byte, SECDEC ECC y de tipo write-back.
- L1D (para datos) de 64 KiB, 4-way asociativa, líneas de 64-byte, carga más rápida de 4 ciclos, SECDEC ECC, y tipo write-back.
- L2 (unificada) de 512 KiB o 1 MiB (2 bancos), 8-way asociativa, con accesos en 9-11 ciclos, ECC, MESI, y tipo write-back.
- LLC (System-level cache o SLC) un nivel superior de cache a nivel de sistema con 1 banco por núcleo duplex, de 2 MiB a 4MiB con 16-way asociativa.
- TLB
- ITLB dedicado par L1: con páginas de tamaños 4KiB, 16 KiB, 64 KiB, 2 MiB, y 32 MiB, y 48 entradas totalmente asociativas.
- DTLB para L1: igual al anterior, en vez de páginas del tamaño 32 KiB se usa 512 MiB.
- STLB unificado para L2. En este caso es una 1280-entry de 5 vías asociativa.
- Consumo estimado: 1W @ 2.6 Ghz (0.75v) y 1.8W @ 3.1 Ghz (1.0v).
- Tamaño del dado: en un proceso de 7nm, cada núcleo con la cache L2 tendría un tamaño de 1.2 mm² para 512 KiB de L2, y de 1.4 mm² para 1 MiB de L2. Un tamaño extremadamente pequeño.
Cada uno de estos núcleos IP usará un tipo de empaquetado avanzado de TSMC con chiplets para las unidades de procesamiento y aceleradores, junto con memoria HBM (High Bandwidth Memory) interconectada a través de un interposer. Para ello se empleará la tecnología TSMC CoWoS (Chip-on-Wafer-on-Substrate).