SoC Xbox Series X: compensações de energia, térmica e de rendimento
Esta semana, na ISSCC (Conferência Internacional de Circuitos em Estado Sólido), a Microsoft apresentou uma palestra intitulada '
Xbox Series X SoC: Um Console de Jogos de Próxima Geração', com apresentação do engenheiro de hardware Paul Paternoster. A apresentação de 30 minutos cobriu muito sobre o mais recente processador de console da Microsoft, a maior parte do qual foi uma repetição do
que vimos no Hot Chips em agosto do ano passado, no entanto, havia um novo elemento nesta apresentação falando sobre como a equipe de design do console equilibrou a acústica, potência, desempenho térmico e rendimento do processador, discutindo onde os pontos de acesso no design se originam e onde as metas de desempenho / potência do silício final foram otimizadas.
Recapitulação do SoC do Xbox Series X: Projeto Scarlett
Para começar, aqui está uma rápida atualização do processador dentro do
Xbox Series X, conhecido como 'Projeto Scarlett'. Scarlett é um sistema monolítico no chip construído no nó de processo N7 da TSMC. O projeto possui 15,3 bilhões de transistores, medindo 360,4 mm 2 , com dimensões de 15,831 x 22,765 mm2.
Dentro do chip estão oito núcleos Zen 2, configurados em dois grupos de quatro núcleos, cada um compartilhando 4 MB de cache L3 semelhante aos processadores mobile Renoir / Lucienne da AMD. Esses núcleos são conectados por meio do Scalable Data Fabric a uma GPU baseada em RDNA personalizada, capaz de 12 TFLOPS de desempenho de pico, permitindo sombreamento de taxa variável, ray tracing e outros novos recursos gráficos. Esta GPU é construída como um design de 56 unidades de computação, no entanto, apenas 52 são usadas no produto final (mais sobre isso mais tarde). Há mais detalhes sobre os recursos da GPU em nossa cobertura da
apresentação Hot Chips.
O sistema de memória possui 16 GB de GDDR6 a 20 x16 canais. 10 GB dessa memória é um desempenho superior, permitindo 560 GB / s de largura de banda de memória para jogos, enquanto os outros 6 GB têm desempenho inferior, em 336 GB / s de largura de banda de memória, para jogos ou circunstâncias em que a memória não é o fator limitante. Isso também permite um consumo menor de energia.
O suporte para codec de vídeo permite quatro planos de exibição com codificação e decodificação 4K / 8K AVC, decodificação HEVC / VP9 HDR e codificação AVC / HDR. Três coprocessadores de áudio permitem o descarregamento de computação para MOVAD (Opus / Vorbis), CFPU2 (processamento de domínio de frequência) e Logan IP para MEC (cancelamento de eco multicanal) para remoção de ruído de fundo dos microfones.
O Hardware Security Processor (HSP) ativa a raiz de confiança, bem como todas as funções criptográficas, como chaves criptográficas de hardware seguras. O HSP também faz parte da arquitetura Pluton da Microsoft, que veremos
chegar às CPUs modernas que usam o Windows nos próximos anos. O Media Streaming Processor (MSP) permite criptografia / descriptografia rápida e hashing de dispositivos de mídia externos por meio de AES, o suficiente para o armazenamento habilitado para PCIe 4.0 na plataforma. A Microsoft afirma que, em comparação com as unidades de 7200 RPM da geração anterior, sua nova
arquitetura Xbox Velocity (usando NAND sobre NVMe mais o MSP) permite tempos de carregamento mais rápidos juntamente com economia de espaço de 30-35% para jogos ainda não distribuídos em formatos compactados.
Em comparação com a geração anterior, a Microsoft está promovendo seu novo processador como tendo:
- 3x o desempenho da CPU,
- 2x o desempenho da GPU,
- 1,7x a largura de banda da memória,
- 2x a largura de banda IO,
- 0,9x o volume físico,
- Desempenho de 2,4x por watt,
- Mesmo desempenho acústico,
- Conformidade mais estrita para reprodução de mídia,
Tudo isso, de acordo com a Microsoft, foi alcançado com um aumento de potência energética de + 15% em relação ao chip de 2013.
Acreditamos que o limite superior do
Xbox Series X seja de ~ 270 W, conforme relatado pela
Eurogamer, com base em uma amostra de pré-produção com uma fonte de alimentação de 315 W (e que as fontes de alimentação terão algum espaço). Esse número de energia deve cobrir tudo dentro do sistema, então o Scarlett SoC provavelmente terá uma grande parte disso, mas não tudo. A Microsoft nunca deu um número oficial, declarando que não o fornecerá sem também descrever o ambiente técnico em que o chip está (das perguntas e respostas do Hot Chips). É importante notar que 20 canais do GDDR6 também consomem uma parte dessa energia, então mesmo se o sistema for 270 W, se retirarmos a maior parte do sistema, o chip Scarlett mais a memória poderia ter 225 W disso. O GDDR6 de 16 Gbps costuma ser cotado a 2,5 W por chip, e este tem 10, sugerindo que a memória poderia ser 25 W, deixando o SoC com 200 W para dividir entre CPU, GPU e interconexão.
Esses são números estimados, mas se a Microsoft quiser ponderar, terei prazer em atualizar este artigo.
Com tudo o que foi dito, em nossa análise do
Xbox Series X,
nunca vimos números de potência nem tão altos. Com um medidor na parede, o consumo de energia no painel era de 45 W, e o jogo mais exigente (Gears of War 5) atingiu apenas 202 W para o sistema completo.
Equilibrando acústica, energia e térmica
Como acontece com qualquer sistema independente como um console, encontrar o equilíbrio certo entre consumo de energia, térmicas e acústica é uma equação multidimensional, especialmente quando o sistema atualizado está indo para mais energia e o objetivo é um sistema mais fino. Paul Paternoster, o apresentador desta palestra, explicou que o objetivo com o
Xbox Series X era entregar algo com TDP 15% maior do que a geração anterior, mas ter algo 20% menor em volume com o mesmo desempenho acústico.
O resultado final foi quase um volume 10% menor, mas a Microsoft permitiu um design de fluxo de ar paralelo de três canais combinado com um resfriador de câmara de vapor para o SoC principal e memória, um defletor de fluxo de ar do chassi central que resfria os reguladores de tensão e outros relacionados à ponte sul IO e um ventilador axial personalizado de 130 mm com um motor elétrico CC trifásico sem escovas para alto desempenho, mas com baixo acústico e baixa manutenção.
Vale a pena dar um zoom naquela simulação térmica no canto.
À direita está o dissipador de calor principal de alumínio para o SoC, no meio está o defletor de fluxo de ar do chassi central e à esquerda está o resto do sistema, incluindo o segundo PCB com o IO. A Microsoft dividiu o sistema em dois PCBs, um para o Scarlett SoC e o segundo para todas as conexões relacionadas ao IO, a fim de distribuir as térmicas e permitir uma pegada menor. A única preocupação com um design como este é que a conectividade entre as placas frequentemente incorre em uma pequena penalidade de energia, com um conector de placa cruzada com largura de banda suficiente.
Impulsionando a eficiência por meio do gerenciamento de energia
Um dos objetivos ao projetar novos SoCs é tentar economizar energia em tantas áreas diferentes quanto possível. Mesmo pequenas economias de 1% aqui e ali aumentam quando você coleta alguns deles, e a Microsoft, trabalhando com a AMD, implementou uma série de novos recursos. Alguns desses recursos já vimos nos processadores da AMD, e poucos para os quais Scarlett foi o primeiro SoC baseado em Zen 2 a usar esse recurso na época. Paul Paternoster dividiu a economia de energia em três áreas principais: monitoramento e regulação de energia (~ 10%), otimização de processo (~ 10-15%) e gerenciamento de estado de energia (operacional).
Monitoramento e regulação de energia
Sob este título, a Microsoft listou uma série de recursos que vimos antes da AMD, como reguladores digitais de baixa queda, escala de frequência de tensão dinâmica e calibração de tempo de inicialização por corrente contínua.
Para o Power Supply Monitor, vimos isso implementado nos núcleos Zen da AMD desde a primeira geração, fornecendo informações extras relacionadas aos caminhos críticos dentro do núcleo de forma que as bandas de proteção de tensão possam ser otimizadas para uma determinada carga de trabalho. Isso pode ser usado com os reguladores DLDO, que fornecem controle de tensão por núcleo, em vez de por complexo. Para contextualizar, Scarlett usa um design baseado em Zen 2 semelhantes à plataforma móvel da AMD, semelhante ao Renoir, mas a AMD não implementou DLDO até Lucienne, o produto móvel Zen 2 de segunda geração. DLDOs estão no hardware AMD de desktop há pelo menos algumas gerações.
A escala de frequência de tensão dinâmica de granulação fina (DVFS) também é outro elemento que vimos nos processadores AMD Ryzen, tanto em desktops quanto em dispositivos móveis, permitindo um controle mais preciso da frequência da CPU, mas também movendo os estados de energia mais baixos em tensão para mais perto do silício real mínimos. Isso otimiza o desempenho por watt, diminuindo a tensão e, combinado com o DLDO, também pode ser feito por núcleo. DVFS funciona melhor com o controle de estado de energia CPPC2 da AMD, mas como veremos mais tarde, os consoles dependem de estados de energia fixos.
O Chip Low Dropout Regulator (CLDO) é algo que a AMD não mencionou como parte de seus processadores Zen, mas a Microsoft o está destacando aqui como uma forma de reduzir a potência dos caches L2 / L3. Isso obviamente se torna mais importante à medida que os caches ficam maiores - os processadores de desktop da AMD têm 4x o cache em comparação com os processadores móveis e em comparação com a Scarlett. No entanto, parece fazer uma diferença suficiente aqui que a Microsoft incluiu isso na conversa, embora quando eles dizem 'voltagem por chip' eu me pergunto se eles querem dizer por complexo quad-core ou por núcleo, em vez de um valor de chip completo.
O último nesta seção é DC-BTC, ou calibração em tempo de inicialização de tolerância de corrente e tensão. Isso foi desenvolvido durante a época do Bulldozer da AMD para permitir margens mais estreitas para quando os chips e componentes envelhecerem. À medida que os componentes envelhecem, devido à eletromigração e aos efeitos térmicos, normalmente é necessária uma tensão mais alta para o mesmo efeito. No entanto, sem um mecanismo de controle de idade, um SoC tem que aumentar artificialmente sua tensão desde o início, chamada de 'margem de envelhecimento', juntamente com a tolerância de regulação de alta tensão. A desvantagem disso é que a eletromigração acontece pior em tensões mais altas, então, ao fazer alguma forma de calibração antiga, o chip pode ter margens reduzidas, estar com energia mais baixa e, por fim, viver mais devido à tensão mais baixa.
Processo otimizado
Junto com as implementações no lado do design, há otimizações feitas no nível do processo de manufatura. Como muitos de nossos leitores sabem, a fabricação de um processador tem 1000 alavancas diferentes para puxar, todas as quais podem mudar a forma como as outras alavancas operam. Encontrar a combinação certa para habilitar o chip com o melhor desempenho, ou a melhor frequência, ou a melhor potência, ou a melhor eficiência, tudo envolve encontrar mínimos globais ou localizados no espaço de busca.
Com o Projeto Scarlett SoC, a Microsoft explicou que implementou dois métodos em um nível de fabricação, ambos com a AMD e o parceiro de fabricação TSMC, para obter um produto melhor. A recentralização do processo começa com a definição das tensões e valores mínimos de corrente necessários com relação à frequência e vazamento dos transistores.
A segunda parte é encontrar um mínimo de voltagem localizado naquele espaço de busca definido, conhecido como busca Vmin.
Combinados, esses dois elementos respondem por 10-15% da economia de energia feita pelo novo Scarlett SoC, e todas essas otimizações são baseadas na fabricação. A profundidade na qual essas otimizações podem ser capazes de encontrar os melhores resultados é muitas vezes limitada pelo tempo de colocação no mercado (quantos pontos de pesquisa você pode analisar antes de ter que decidir sobre um conjunto específico de valores) e quanto dinheiro está disposto a ser investido.
Estados de potência
Para qualquer sistema, a ativação de um estado de energia fornece uma janela de desempenho para o sistema com relação à energia, térmicas, acústica e exatamente qual desempenho é necessário para a tarefa em questão. Dizer a um sistema para operar em seu estado de pico de energia, por exemplo, completará qualquer carga de trabalho o mais rápido possível, às custas de energia, térmicas e acústica.
Um PC desktop moderno geralmente varia os estados de energia em tempo real, e a tecnologia CPPC2 da AMD permite que esses estados de energia sejam um fluxo contínuo para quando o desempenho for solicitado. Por outro lado, os consoles não podem usar isso devido à natureza de como o sistema funciona com os desenvolvedores de jogos.
A Microsoft define vários estados de energia no sistema para fornecer o desempenho correto para jogos, reprodução de vídeo, download de atualizações de jogos e outros recursos. Cada parte do sistema pode ter seu próprio conjunto de estados de energia:
- A CPU tem 8 estados de energia
- A GPU tem 5 estados de energia
- O tecido interno tem 4 estados de energia
- O GDDR tem 3 estados de energia
A Microsoft usa essas bandas para criar modos de operação de console específicos, permitindo que os desenvolvedores trabalhem e otimizem para um determinado poder e desempenho, em vez do alvo móvel dos PCs modernos. Nesses jogos de console, obter 30 FPS no mínimo com resolução de 1920x1080 é essencialmente a barra mínima, e se um desenvolvedor souber que o sistema terá um nível de desempenho garantido, ele pode ajustar esses números de desempenho.
Aqui estão os modos operacionais sobre os quais a Microsoft está nos falando - pode haver mais. No jogo, cada modo de energia é definido para o máximo, para que o sistema obtenha acesso total a todo o desempenho necessário. Na reprodução de vídeo, o console estará em vários modos operacionais diferentes com base no formato do conteúdo e, em seguida, haverá alguns modos de energia mais baixa para segundo plano e espera conectada. Pode haver outros modos de energia além desses, como para jogos 2D ou indie, ou se o sistema detectar que certos níveis de desempenho não são necessários.
Resolvendo Densidade Térmica e Rendimento
Densidade Térmica
Um dos elementos da palestra do ISSCC por Paul Paternoster relacionou-se ao quão diferente esta geração era para medições de densidade térmica em comparação com as gerações anteriores de console. No passado, como Paul explicou, uma vez que trabalhou em várias gerações de processadores Xbox, a GPU costuma ser o fator limitante da densidade térmica, o que limita as características acústicas da plataforma. A GPU costuma ter demandas de alto desempenho e, historicamente, tem estado onde os pontos principais estão. Paul observou que, para o SoC
Xbox Series X, as coisas são diferentes.
Para Scarlett, é na verdade a CPU que se torna o fator limitante. Usar os núcleos x86 Zen 2 de alto desempenho da AMD, em vez dos núcleos Jaguar de baixo consumo da geração anterior, combinado com a forma como as cargas de trabalho de jogos evoluíram nos 7 anos desde então, significa que quando uma carga de trabalho de jogos começa a aumentar, o dual 256- unidades de ponto flutuante de bits na CPU é onde ocorre o ponto de densidade térmica mais alto.
Neste slide mostrado, embora não indique que tipo de carga de trabalho está em jogo aqui, se é um jogo ativo ou um vírus de poder, a Microsoft está mostrando 87,4ºC no ponto de acesso no lado da CPU, enquanto a GPU tem apenas um Ponto de acesso de 80,9ºC. Agora, isso também se resume à escolha da frequência e ao ponto de design do hardware, e encontrar o equilíbrio certo entre a potência da CPU, a potência da GPU e as características térmicas e acústicas gerais.
A Microsoft afirmou que por causa dessa diferença e agora a CPU era o ponto quente térmico, a acústica agora gira em torno desse ponto. Como resultado dos testes da Microsoft, a empresa está declarando que a CPU é desproporcionalmente responsável pela acústica do design: cada Watt adicional que a CPU usa vale cinco vezes mais para o orçamento acústico do que a GPU.
É um ponto interessante que eu não havia considerado, mas significa que, para atingir os objetivos desejados, a Microsoft gastou tempo otimizando para a frequência correta da CPU, fazendo a troca entre desempenho e térmicas. É também por isso que o sistema funciona a 3,6 GHz quando o multithreading simultâneo está habilitado, mas pode ir mais alto para 3,8 GHz quando o multithreading simultâneo está desabilitado.
Resolvendo o rendimento: o efeito da GPU
Os processadores de console são diferentes dos processadores de desktop e móveis no sentido de que não há armazenamento de SoC. Para qualquer produto de silício fabricado, haverá tanto uma variabilidade no desempenho do transistor quanto defeitos definidos no projeto. O objetivo do processo de fabricação é fornecer o melhor de ambos, naturalmente! Para um determinado projeto, os processadores de consumo em PCs e laptops serão colocados em 'caixas' diferentes e atribuídos a nomes e valores diferentes com base no desempenho do transistor. Os processadores de console, por outro lado, têm que ter o mesmo desempenho para atender a um requisito mínimo de desempenho e não há binning. Um fabricante de console deve usar um design e um ponto de desempenho de forma que o maior número possível de processadores da linha de produção atenda a esse ponto. Isso faz parte da equação de rendimento de qualquer processador de console.
Abordamos acima uma série de opções de design que a Microsoft fez neste artigo, algumas das quais influenciam nessa equação de categorização e garantem que o design obtenha o maior rendimento possível. Outro fator que ainda não mencionamos especificamente é a GPU. O Scarlett SoC tem fisicamente 56 unidades de computação para gráficos, mas usa apenas 52 no produto de varejo. A apresentação no ISSCC passou algum tempo examinando as vantagens de ambas as opções, mas, em última análise, por que a Microsoft escolheu o 52.
A Microsoft aqui fala sobre Processadores de Grupo de Trabalho (WGP), que contêm duas unidades de computação e alguns recursos compartilhados. Isso significa que o design do chip completo tem 28 WGPs.
Paul Paternoster explicou que de chips saindo da linha de produção, um número substancial pode ser executado com todos os 28 WGPs habilitados. O objetivo dos gráficos era fornecer 12 TFLOPs de desempenho e, portanto, por meio de uma matemática simples, a Microsoft poderia fazer o seguinte para atingir esse número:
- 28 WGPs habilitados em 1675 MHz
- 26 WGPs habilitados em 1825 MHz
Ambas as configurações permitem 12 TFLOPs. Como a frequência do projeto 28 WGP é mais baixa, isso também permite uma tensão mais baixa, combinada para uma economia geral de energia de 20% se todos os 28 WGPs forem usados.
Claro, uma economia de energia de 20% é bastante substancial, já que permitiria melhor desempenho por watt ou permitiria desempenho superior. Mas o problema é que não havia processadores suficientes saindo da linha de produção com todos os 28 WGP rodando nesta frequência. A variabilidade dos processadores, devido ao desempenho e aos defeitos do transistor, significava que 28 versões do WGP não faziam sentido financeiramente.
A Microsoft está usando o melhor nó de processo de 7 nm (N7) apenas DUV da TSMC, que foi declarado como tendo uma taxa de defeito de 0,09 defeitos por centímetro quadrado.
- Um wafer de 300 mm tem 706,86 cm 2 de área
- Uma taxa de defeito de 0,09 defeitos por cm 2 significa ~ 64 defeitos por waffer
- Scarlett tem 306,4 mm2 (15,831 mm x 22,765 mm)
- Observe que os SoCs são retângulos e os wafers são circulares,
- Calculadoras de matriz de wafer mostram que 100% de rendimento deste tamanho de SoC daria 147 matrizes por wafer
- A Microsoft define a frequência / potência de forma que, se todas as matrizes estiverem boas, todas podem ser usadas
- Com uma taxa de defeito de 0,09 / cm 2, existem 107 matrizes boas por wafer
- Isso significa um rendimento de 73%, 107/147
Supondo que um defeito aconteça em uma das unidades de computação da GPU ou WGPs, o que é uma boa chance porque a GPU é a maior parte do processador, absorvendo esse defeito e desativando aquele WGP, aquele SoC pode ser usado em um console e o rendimento efetivo é maior.
Quando a taxa de defeitos é 0,09, o que é bom e baixo, as chances de ocorrerem dois defeitos no mesmo chip são muito pequenas. Mesmo assim, ao escolher executar um projeto com apenas 26 WGPs habilitados, dois a menos do que os 28 WGPs completos, quase tudo o que sai da linha de fabricação pode ser usado - um aumento de rendimento efetivo, reduzindo o custo médio por processador em um terço.
A Microsoft já explicou que o custo dos processadores para esta geração de consoles é muito maior do que o Xbox One X em 2017 e muito maior do que o Xbox One de 2013. Isso se resume a ter aproximadamente a mesma área de dados, mas em um nó de processo mais avançado, etapas e estruturas mais complexas, grandes blocos de IP (alguns dos quais podem ser licenciados), preço de wafer mais alto e rendimento mais baixo.
Portanto, a oportunidade de reduzir o custo do processador em até um terço, às custas de uma troca de energia de 20% na GPU para o mesmo desempenho, não é uma aposta a ser tomada de ânimo leve, e sem dúvida uma série de engenheiros e os contadores de feijão pesariam os prós e os contras. Diferentes departamentos de design podem ter escolhido ir na outra direção.
Um efeito indireto, no entanto, com a escolha do projeto 26 WGP é que isso significa que mais SoCs são fabricados em uma determinada unidade de tempo, permitindo que mais unidades cheguem ao mercado em tempo hábil, o que é especialmente importante se o seu produto está saindo do prateleiras e mais precisam ser feitas (como a situação hoje). Procurar números sobre as vendas exatas do
Xbox Series X é relativamente difícil - a maioria dos números citados combinam o Series X com o menor Xbox Series S. De várias fontes diferentes, esse número de vendas combinadas é de ~ 3,5 milhões, e com base por recomendação da GamesIndustry.biz, os dispositivos da Série X constituem cerca de dois terços de todas as unidades. Isso tornaria as vendas da Série X em torno de 2,33 milhões de CPUs, sugerindo um mínimo de 16.000 wafers no total com rendimento de 100%, ou até 21800 wafers com rendimento de 73%.
Material de origem:
68º ISSCC, 13 a 22 de fevereiro de 2021
www.anandtech.com
@armachad,
@Kise Ryota,
@LucianoBraga