Haciendo palanca para abrir la tapa del Multichip Cascade Lake de Intel
Imagina por un segundo que eres Intel.
Los pocos fabricantes de CPU de servidor que quedan en el mercado (AMD, IBM, Marvell y Ampere) tienen más controladores de memoria en sus zócalos que usted. Todos están trabajando en chips de 7 nanómetros que van a meter muchos núcleos en la matriz. Su proceso de 10 nanómetros para grabar chips, que es análogo a la tecnología de 7 nanómetros que ofrece Taiwan Semiconductor Manufacturing Corp y que utilizan tres de esos proveedores (no IBM, que recurrió a Samsung), está atrasado y ha derramado algo de café en su hoja de ruta en el camino a través del país de los lagos. Sin embargo, el negocio del Grupo de centros de datos está en auge, incluso si los hiperescaladores y los constructores de la nube pisaron el freno en el cuarto trimestre de 2018. Y todavía queda un largo camino hasta la primera mitad de 2020 cuando los Xeons SP "Ice Lake" están en marcha. estar rampante.
¿A qué te dedicas?
Haces lo mejor que puedes. Usted modifica la arquitectura de Skylake de varias maneras y en rápida sucesión para mantener a los clientes en movimiento. Esto es precisamente lo que Intel hizo hoy con sus chips Cascade Lake, que cubrimos en detalle aquí. Intel usó un proceso refinado de 14 nanómetros para exprimir un poco más la velocidad del reloj de los núcleos de Skylake, agregó algunas instrucciones nuevas de DL Boost para acelerar la inferencia de aprendizaje automático, arregló algunas restricciones de seguridad de las vulnerabilidades de ejecución especulativa de Spectre/Meltdown/Foreshadow y sacudió la pila de SKU, por lo que había algunos núcleos más en un Cascade Lake Xeon SP a un precio determinado para los chips Skylake Xeon SP originales lanzados hace casi dos años.
Pero sólo hay un problema con esta estrategia. Intel no puede hablar sobre el liderazgo en rendimiento haciendo solo lo que se describe anteriormente. Intel necesita algo más. Tal como lo hizo AMD con los Opteron 6100 hace una década, cuando Intel se fortalecía con los Xeon "Nehalem", que son los ancestros de los Cascade Lakes actuales. AMD colocó dos chips de seis núcleos en un dado y tenía un conjunto de chips que se escalaba a ocho zócalos, y creó un servidor físico de cuatro zócalos a partir de ocho procesadores conectados lógicamente a través de su interconexión HyperTransport NUMA.
AMD duplicó los chips en un zócalo para hacer una declaración de rendimiento en ese entonces, e Intel lo está haciendo ahora. Con el procesador Cascade Lake-AP, Intel acopla cuatro chips Cascade Lake utilizando UltraPath Interconnect, su propio pegamento NUMA, y los empaqueta de tal manera que esta máquina lógica de cuatro zócalos parece un servidor físico de dos zócalos con chips monstruosos. Al incluir hasta 56 núcleos en un paquete montado en superficie de matriz de rejilla de bola única (BGA), Intel aún puede hablar sobre el liderazgo en rendimiento y tal vez incluso una relación precio/rendimiento decente en una máquina de dos zócalos antes del lanzamiento del procesador de servidor Epyc "Rome" de AMD. que se espera en junio si el rumor es correcto.
Con la serie de procesadores Xeon SP 9200 Platinum, como se conocen formalmente los chips Cascade Lake-AP, Intel obtiene un poco de experiencia en el diseño y la fabricación de módulos de chips múltiples, lo cual es bueno y quizás sea una vista previa de cómo serán las cosas en última instancia. hacer en un futuro no muy lejano. Hacer procesadores monolíticos masivos es mucho más costoso que hacer muchos más pequeños, y al igual que el mundo tuvo que acostumbrarse a programar para sistemas distribuidos hechos de múltiples servidores, los compiladores y programadores tendrán que acostumbrarse a trabajar con sistemas distribuidos. dentro de un solo servidor.
No hay duda en la mente de nadie de que la futura CPU no solo será una mezcolanza de chips, sino chips grabados con los procesos más óptimos disponibles para cada función. Es muy probable que los circuitos de E/S y de comunicación nunca se reduzcan por debajo de los 16 nanómetros (14 nanómetros en la forma Intel de contar los tamaños de las puertas de los transistores), y que los núcleos de la CPU sigan encogiéndose tanto como sea posible, y que estos componentes estar hecho de chips separados unidos de nuevo con varios tipos de interconexiones y metodologías de empaquetado. No nos sorprendería en absoluto si los chips Ice Lake Xeon SP hicieran esto de verdad, y no solo de la manera apresurada que Intel tomó con los chips Cascade Lake-AP. ¿Quizás Intel no creía que TSMC podría hacer que sus 7 nanómetros actuaran juntos y, por lo tanto, AMD no tuvo oportunidad con los procesadores Rome Epyc? Es difícil de decir.
Pero por el momento, no hay indicios de que TSMC no vaya a poder fabricar chips para los muchos proveedores que se han alineado para usar sus fábricas de 7 nanómetros, y parece que AMD tendrá cierta ventaja con Rome sobre Ice Lake: ciertamente en términos de tiempo de comercialización, y tal vez en términos de recuento de núcleos y en general. Tendremos que ver.
Así que piense en Cascade Lake-AP como un vistazo al futuro, o al menos uno en el que la densidad de cómputo es importante y la capacidad de hacer que los módulos multichip sean asequibles es aún más importante.
Hay cuatro chips de la serie Xeon SP 9200, que comparamos con el resto de la línea Cascade Lake aquí. Ya les contamos sobre un módulo de dos chips basado en chips Cascade Lake de 24 núcleos en noviembre pasado, y esperábamos que el chip quemara entre 275 y 350 vatios, dependiendo de lo que Intel hiciera con las velocidades de reloj de los procesadores. Resulta que las velocidades de reloj son un poco más altas de lo que muchos esperaban en esta pieza de 48 núcleos, que ahora se llama Xeon SP-9242 Platinum, con una base de 2,3 GHz y una velocidad Turbo Boost de 3,8 GHz. Los chips Cascade Lake-AP del contenedor inferior, el Xeon SP-9221 y el Xeon SP-9222, consumen 250 vatios y tienen velocidades de reloj base de 2,1 GHz y 2,3 GHz, respectivamente, con un turbo de hasta 3,7 GHz. Hay cuatro núcleos más y, por lo tanto, ocho subprocesos más en estas partes de Cascade Lake-AP de 32 núcleos, y eso podría ser importante para ciertas cargas de trabajo, pero un Xeon SP-8180 en la familia Skylake o un Xeon SP-8280 en la sencilla Cascade Vanilla La familia Lake le dará 28 núcleos y 56 subprocesos, lo cual es lo suficientemente cerca. Y creemos que la diferencia de precio por núcleo es un poco más alta en las variantes AP que en los SKU regulares con un poco menos de núcleos. (Nuevamente, nada es gratis cuando se trata de chips, a menos que un competidor esté tratando de engrasar los patines del negocio y reducir la fricción, como AMD ciertamente está haciendo con sus chips Epyc).
El contenedor superior Xeon SP-9282 tiene dos chips Cascade Lake de 28 núcleos que cohabitan dentro de un paquete BGA. Funciona a una base de 2,6 GHz y turbo hasta 3,8 GHz cuando puede, y consume 400 vatios. Creemos que este es el chip del que todos hablaban cuando escuchamos rumores sobre una variante de Cascade Lake-AP que costaba más de $20,000 cada uno. Intel no proporciona precios de lista para los modelos Xeon SP-9200 porque solo están disponibles en un sistema completo diseñado por Intel, incluidas las placas base de cosecha propia. Este es un tipo de máquina tan diferente que merece un tratamiento tan especial, Kartik Ananth, el ingeniero principal sénior de Intel a cargo del nodo del servidor S9200WK y el gabinete Server Chassis FC2000 que lo usa, le dice a The Next Platform. (Nvidia adopta el mismo enfoque con la interconexión NVSwitch y las placas del sistema en sus componentes híbridos CPU-GPU DGX-2, que solo están disponibles en la propia Nvidia).
Tener una envolvente térmica de 250 vatios no es gran cosa: los aceleradores han estado en ese rango durante una década, pero 350 vatios lo están estirando un poco y no sorprende saber que el Cascade Lake-AP de 400 vatios es solo disponible como procesador refrigerado por líquido. Poner dos de estos en un solo sled de cómputo, y cuatro de ellos en un gabinete de 2U, es bastante denso en términos de cómputo y térmicas. Eso es 3200 vatios y 448 núcleos en el mismo tamaño que un gabinete 2U normal que a menudo tiene un orden de magnitud menos núcleos en el centro de datos empresarial. Si pudiera obtener toda la potencia para un bastidor de estos, podría necesitar entre 64 kilovatios y 122 kilovatios para hacer el truco, pero tendría 8960 núcleos por bastidor; podría costar alrededor de $ 2 millones con configuraciones de memoria modestas y más como $ 3 millones para una configuración robusta. (Esa es una suposición educada, pero ciertamente salvaje).
Aquí hay un diagrama de bloques que muestra cómo los Xeon SP-9200 están vinculados lógicamente a un servidor de dos sockets:
La matriz de rejilla de bolas para Cascade Lake-AP tiene la friolera de 5903 bolas, y hay un disipador de calor gigante que puede quitar el calor del dispositivo. Hay seis canales de memoria en cada chip Cascade Lake en el BGA, para un total de 12 canales de memoria por socket, por lo que Intel de alguna manera está ganando la batalla del canal de memoria y el ancho de banda de memoria en el nivel de "socket" en este momento. Pero dos cosas a tener en cuenta. En primer lugar, solo puede tener un DIMM DDR4 por canal para ejecutar la memoria rápida de 2,93 GHz que admite la arquitectura Cascade Lake, y duplicar esos chips y controladores en el zócalo no cambia el ancho de banda de la memoria por ecuación de núcleo ni un poquito. En todo caso, necesitamos más ancho de banda por núcleo, y esto no logra esto. Otras arquitecturas de CPU tienen que hacer un trato similar ya que agregan núcleos pero no quieren agregar pines de alimentación para controlar más controladores de memoria, que consumen mucha energía y generan mucho calor.
Cada chiplet Cascade Lake-AP, ¿podemos llamar chiplet a tal bestia? – tiene tres enlaces UPI al igual que las otras partes de Cascade Lake, y funcionan a la velocidad máxima de 10,4 GT/seg. Los enlaces están acoplados de forma cruzada, de modo que un carril se utiliza para vincular cada chip con el otro en cada paquete BGA y los cuatro restantes se utilizan para crear el enlace NUMA entre los dos zócalos lógicos. La topología anterior no es diferente de lo que tendría usando enlaces UPI en un servidor de cuatro sockets. Ananth dice que se tarda unos 70 nanosegundos en acceder a la memoria conectada a un procesador dentro del BGA desde el otro, pero se tarda unos 130 nanosegundos en saltar al otro paquete BGA de forma NUMA. No está claro qué tipo de impacto en el rendimiento podría tener esto, pero en términos generales, los números parecen ser lo que espera, con el doble de procesadores que manejan el doble de ancho de banda. Así es como un Skylake Xeon SP-8180 se compara con un Cascade Lake-AP Xeon SP-9282:
Aquí se profundiza en las pruebas de ancho de banda de la memoria, ya que este es un aspecto clave del argumento de venta de Cascade Lake-AP: El siguiente gráfico muestra la interacción del ancho de banda en la prueba de memoria STREAM con la cantidad de núcleos en un Cascade Lake de dos sockets. sistema AP:
Los procesadores Xeon SP-9200 Platinum, por cierto, no son compatibles con los módulos de memoria persistente Optane 3D XPoint, que se promocionan como un extensor de memoria en la plataforma de servidor "Purley" normal que utiliza procesadores Cascade Lake normales. De hecho, estos procesadores solo admiten un máximo de 768 GB por socket, ni siquiera la mayor capacidad de memoria DDR4 que admiten algunos de los otros procesadores de las series Platinum y Gold de las familias Skylake y Cascade Lake. Vimos presentaciones a principios de este año que sugerían que algunos clientes querrían usar ocho de los doce canales en un zócalo para memoria DDR4 y los cuatro restantes para Optane PMM, pero aparentemente debe ser un SKU personalizado. Hasta donde sabemos, no hay ninguna razón técnica por la que los procesadores Cascade Lake-AP no sean compatibles con los PMM de Optane.
Es interesante para nosotros que esto no se presente como un SKU de motor de búsqueda, considerando que a los que ejecutan motores de búsqueda generalmente les gusta obtener tantos núcleos en una sola imagen de sistema como sea posible. (Hay un SKU de motor de búsqueda especial, como señalamos en nuestra cobertura de los chips genéricos de Cascade Lake, pero creemos que cuesta una décima parte de lo que cuesta el chip duplicado del contenedor superior y tiene solo un tercio de los núcleos.
Todavía no está claro quién venderá servidores basados en los procesadores Xeon SP 9200, pero esta máquina es el diseño de Intel y los OEM y ODM prácticamente tienen que tomarlo tal como es, y sin tener espacio para apoyar a su empresa local. BMC de grado. Es posible que veamos que algunos OEM realizan compromisos personalizados, pero no esperamos mucha acción aquí. Aquí puede ser donde los ODM hacen las ventas, y particularmente en China, donde las máquinas de cuatro zócalos son populares entre los hiperescaladores y los constructores de nubes. Sin embargo, no es más compacto que un servidor 2U con cuatro sockets, que ha estado disponible durante muchos años. Todo se reducirá a los precios y quién le dará a Intel los derechos de fanfarronear entre ahora y Ice Lake.
En cualquier caso, aquí están las especificaciones técnicas del gabinete S9200WK:
Y aquí están las especificaciones de los trineos que van al recinto:
La densidad de cómputo depende de la cantidad de interconexión de periféricos y almacenamiento local que desee en los nodos y de si tiene las partes de 400 vatios o no. Presumiblemente, si desea refrigeración líquida en las partes de 250 watts o 350 watts, solo para ser eficiente, puede hacerlo.
Aquí está la cosa, sin embargo. Si el software tiene un precio por socket, y si un proveedor de software comercial tratará la máquina Cascade Lake-AP como un servidor de dos sockets cuando, lógicamente, en realidad es un servidor de cuatro sockets, entonces genial. Esto definitivamente reducirá las facturas de VMware y Red Hat, y debería reducirse a la mitad en cosas con precios basados en sockets. Pero si el software tiene un precio por núcleo, el cambio a los procesadores AP no sirve de nada, y en el código de cosecha propia no hace ninguna diferencia.
Presentando aspectos destacados, análisis e historias de la semana directamente de nosotros a su bandeja de entrada sin nada en el medio. Suscríbase ahora