Novo Supercomputador promete chegar ao Exascale

O supercomputador será lançado em 2021 e promete atingir a escala de processamento de 1 exaflop! Conheça as especificações deste monstro que executará sob Linux com arquitetura Intel.


| Se você apoia nosso site, desative o AdBlock quando visitá-lo, inclusive em Mobile!
Os anúncios são poucos e não invasivos. Se quiser contribuir com nosso trabalho, clique em qualquer banner de sua preferência, exceto dos Parceiros. 
Mais detalhes clicando aqui.


Introdução

Como esperado, a Intel será principal fornecedora para o desenvolvimento do primeiro supercomputador exascale – ou seja, atinja a escala do exaflop – nos Estados Unidos, que o Argonne National Laboratory (ALCF) espera estar operacional até o final de 2021.

E como também já foi divulgado anteriormente, a Cray servirá como subcontratante com sua arquitetura “Shasta” , que será amplamente definida por empacotamento avançado e a interconexão “Slingshot” que Cray criou como uma alternativa para InfiniBand, Omni-Path e sua própria geração anterior “Aries” de interconexão.

Isso, combinado com uma geração futura de memória persistente Optane 3D XPoint, terá como objetivo reduzir o consumo de energia do movimento de dados, com o desempenho real de ponto flutuante e inteiro proveniente de uma futura plataforma de computação baseada em futuros processadores Xeon SP operando paralelamente com a nova arquitetura de GPUs Xe

Imaginamos que a nova interconexão CXL em que a Intel revelou que estava trabalhando na semana passada, bem como sua alternativa OneAPI ao CUDA para compilar e distribuir aplicativos (ou partes deles) em diferentes CPUs, GPUs e FPGAs, também será um recurso proeminente deste conjunto atualizado de hardware e software Intel deste computador de alta performance (High Performance Computing – HPC) e replicará algumas das funcionalidades de alguns dos supercomputadores de primeira linha que já temos no mercado, como o sistema Summit, atualmente no Laboratório Nacional de Oak Ridge, ou o sistema Sierra , do Lawrence Livermore National Laboratory.

Hardware

Proposto inicialmente pela Intel, cuja construção ficaria a cargo da Cray, esse sistema Aurora possuirá até 50.000 nós baseado no sucessor de “Knights Hill” para o processador de muitos núcleos Xeon Phi “Knights Landing” que a Intel criou para assumir grandes trabalhos de HPC e melhor trabalho em cargas de trabalho de IA que são cada vez mais parte do datacenter.

A missão da ALCF inclusive é oficialmente apoiar não apenas a HPC baseada em simulação tradicional, mas também apoiar os três pilares da Simulação, Dados e Aprendizagem:

  • Simulação – ciência computacional baseada em simulação tradicional
  • Dados – computação centrada em dados e de dados intensivos na escala de liderança
  • Aprendizagem – aprendizado de máquina, aprendizado profundo e outras áreas de IA que revolucionam o HPC científico

Esperava-se que o sistema original da Aurora fosse entregue em 2018 como um sistema pré-exascale antes da entrega das máquinas Summit e Sierra, que têm processadores “Nimbus” Power9 e que descarregam a maior parte de seu processamento matemático nos aceleradores de GPU da Nvidia da linha Tesla, baseados na arquitetura “Volta”.

Os nós são conectados por uma interconexão EDR InfiniBand de 100 Gb/s da Mellanox Technologies, que está em processo de aquisição pela Nvidia. Este novo sistema Aurora está usando uma arquitetura que é distinta – mas claramente inspirada – pela arquitetura híbrida CPU-GPU dos sistemas Summit e Sierra pré-exascale. Nesse caso, são os nós dos mecanismos de computação da Intel e a hierarquia de memória com a interconexão Slingshot, sendo ela própria quem dará um aumento da conectividade da rede com qualidade de serviço e ajustes de gerenciamento de congestionamento para cargas de trabalho de HPC e AI.

Os detalhes do sistema Aurora revisados, também às vezes referido como A21, são muito escassos, mas correspondem a algumas das especulações que ocorreram há um ano, quando alguns detalhes da arquitetura de software do sistema foram revelados.

Basicamente o supercomputador é composto de uma mistura de processadores com diferentes níveis e tipos de matemática e desempenho serial, como esperado, mas estes são implementados em um único die como foi antecipado por alguns e como foi implementado em várias arquiteturas. Alguns exemplos desse método de trabalho inclui o processador Sunway SW26010 usado no supercomputador TaihuLight hoje ou no processador AFX64 a ser usado no supercomputador Post-K que está sendo construído pela Fujitsu para o laboratório RIKEN no Japão como seu primeiro sistema exascale.

CPUs e GPUs

Embora saibamos que a futura máquina Aurora usará a interconexão do Slingshot da Cray, não sabemos exatamente qual geração de Xeon SP CPU e GPU Xe será implantada no sistema. Existem algumas possibilidades diferentes.

Os processadores “Ice Lake” Xeon SP, os primeiros processadores de 10 nanômetros da Intel e os baseados nos novos núcleos “Sunny Cove”, devem começar a ser comercializados no final de 2019 com uma rápida rampa em 2020. A máquina Aurora quase certamente não usará este processador. A Intel está planejando atualizar a linha Xeon com o núcleo “Willow Cove” no próximo ano, com um redesenho de cache, otimizações de transistor e aprimoramentos de segurança provavelmente relacionados às mitigações Specter/Meltdown, entre outras coisas. Esta mudança para a família Ice Lake parece mais provável. Mas é mais provável ainda que um sucessor deste chip Xeon, baseado nos futuros núcleos “Golden Cove” que serão lançados em 2021, sejam usado.

No lado da GPU da coisa, a Intel já está trabalhando em uma GPU Gen11 para entregar este ano em computadores móveis e de estação de trabalho, que tem um total de 72 unidades de execução com 64 delas utilizáveis ​​e entregando mais de 1 teraflops de desempenho de precisão única; divida por dois para precisão dupla FP64 e quadruplicar para taxas de precisão meia FP16.

A primeira GPU Xe é esperada para 2020, e a Intel tem sido deliberadamente vaga sobre o que esperar aqui, considerando que seu esforço de GPU “Larrabee” de uma década atrás falharam, deixando a porta aberta para a Nvidia dominar a computação no setor de GPU. – O esforço de Larrabee foi revitalizado como a família Knights de aceleradores de descarga de muitos núcleos e, eventualmente, motores de computação independentes, mas a Intel oficialmente os desativou no verão passado.- Tudo o que a Intel disse sobre as GPUs Xe é que elas variam em desempenho de “teraflops a petaflops” e que vão desde dispositivos de clientes a dispositivos de datacenter com ampla diferenciação em todo o portfólio de produtos. Nós estamos supondo que a Intel irá utilizar a primeira geração do Xe, enquanto ela tenta empurrar para usar um mais poderoso, provavelmente de segunda geração, com o objetivo de diminuir a contagem de nós.

Exascale

O principal objetivo do anúncio do Aurora, para uma data tão distante como 2021, era colocar uma estaca no chão com a bandeira dos EUA para um supercomputador exascale estar pronto em breve. Isso significa que teremos que fornecer alguma especulação sobre esta máquina e o que ela pode significar para o caminho.

Uma coisa que ficou clara durante o briefing, no entanto, é que as simulações de HPC tradicionais são importantes, mas a análise de dados, particularmente análise de dados de fluxo e aprendizado de máquina, também é crítica – e levou a pensar na arquitetura revisada da máquina Aurora. De acordo com Rick Stevens, diretor de laboratório associado da Argonne, os laboratórios nacionais estão desenvolvendo mais de 100 aplicativos que têm um gancho de AI e o programa de aprendizado de máquina do Exascale Computing Project e estão trabalhando em mais.

O contrato revisado da Aurora está chegando a um valor consideravelmente mais alto do que a máquina original deveria custar, com a Intel, a principal contratada, recebendo mais de US $ 500 milhões pelo contrato. (Os 180 petaflops originais da Aurora custariam cerca de US $ 200 milhões.)

A Cray obterá mais de US $ 100 milhões desse orçamento revisado para sua interconexão Slingshot, os mais de 200 gabinetes Shasta que comporão o sistema e o ambiente de software Linux que vai manter tudo junto. A Intel também está deduzindo como será a parte do conjunto de software, e não está claro onde as linhas entre Intel e Cray serão desenhadas. Espera-se agora que a Aurora seja entregue em 2021, com a aceitação da previsão da Argonne – e, portanto, o reconhecimento da receita pela Intel e pela Cray – em 2022.

Equipe

Com uma equipe totalmente nova no controle dos negócios de datacenter na Intel, temos:

  • Navin Shenoy, da Intel
  • Murthy Renduchintala, é presidente do grupo de Tecnologia, Arquitetura de Sistemas e Grupo de Clientes e também diretor de engenharia, tendo trabalhado anteriormente com a Qualcomm
  • Raja Koduri, arquiteto-chefe e designer de GPU, trabalhou anteriormente na AMD
  • Jim Keller, vice-presidente sênior de engenharia de silício; trabalhou anteriormente na Digital Equipment, Apple e AMD

Não é de forma alguma surpreendente que eles estejam dando uma olhada no que obteve sucesso no mercado e decidiram algo que se parece muito com o que o coletivo OpenPower criou, mas que, sem dúvida, terá muitas reviravoltas e ajustes da Intel; o que definiu a Intel para uma década de crescimento imparável.

Pilares da Computação

O que podemos dizer com certeza é que o Aurora é o primeiro sistema sobre o qual a Intel está falando que reflete os seis pilares de computação, armazenamento e rede que a empresa está focando no desenvolvimento de datacenters.

Rajeeb Hazra, agora gerente geral do Enterprise and Government Group na Intel e anteriormente encarregado do negócio de HPC, explicou esses pilares como parte da previsão do Aurora: isso será fundamental para todos os lançamentos da Intel daqui para frente, e você pode esperar que a Intel nunca fale sobre qualquer processador em particular, mas sim sobre o conjunto inteiro e como tudo se encaixa.

“Temos conversado muito recentemente sobre os seis pilares de inovação que devem se unir para criar sistemas e capacidades dessa escala”, explicou Hazra. “Inovações em energia e eficiência energética, desde as novas tecnologias de processo até o projeto de novos silícios e novas maneiras de unir o silício com as inovações de encapsulamento.”

Curiosamente, o segundo pilar, você verá, é o desempenho, e inclui uma “mistura diversa de arquiteturas escalares, vetoriais, matriciais e espaciais”, e achamos que a última inclui o Configurable Spatial Accelerator , um não-von Neumann configurável. Este é basicamente um mecanismo de computação que a Intel estava trabalhando no último verão. Eu não ficaria surpreso em ver um monte desses chips CSA espalhados em torno do núcleo do Aurora. Mas nós não achamos que eles serão fundamentais para o sistema.

Linux dominou os Supercomputadores

Já tem quase 1 ano desde que publicamos esta matéria sobre a onipresença do Linux no Top 500 dentre os 500 maiores e melhores supercomputadores no mundo.

E como não poderia deixar de ser, o Aurora vai utilizar Linux como seu sistema base, porém qual distro específica a ser usada só saberemos futuramente.

Enquanto isso, em terras tupiniquins, abordamos a presença do Brasil nesse mercado ao mostrar os nossos supercomputadores brasileiros!

#UrbanCompassPony

Fonte:
NextPlatform
alcf

Deixe um comentário