Arquitetura RV770
A arquitetura da série 4800 da ATI/AMD sofreu uma série de modificações em relação aos projetos anteriores. Vamos detalhar os componentes principais da arquitetura, batizada pela ATI/AMD de RV770. Começamos pelo diagrama completo:

Na parte mais à esquerda do diagrama podemos ver 10 grupos. Esses grupos são chamados de “SIMD cores”, ou seja, é como se fossem 10 processadores gráficos trabalhando em paralelo e manipulando várias informações com apenas uma instrução (SIMD é a sigla de Single Instruction Multiple Data).
Cada “SIMD core” é composto por 16 grupos de 5 unidades. Cada um desses grupos de 5 unidades é chamado de “Streaming processor”. E cada unidade do grupo de 5 é chamada de “Streaming processor Unit – SPU” ou unidades para processamento gráfico. Assim sendo, temos 80 SPUs para cada “SIMD core”. São as SPUs que manipulam os dados gráficos propriamente ditos. A figura 2 a seguir mostra um grupo de 5 SPUs de forma mais detalhada (notem que são 16 grupos de 5 SPUs por SIMD core).

Voltando à figura 1, vemos que cada SIMD core tem acesso:
- a uma área de memória local compartilhada (Local Data Share – LDS)
- a uma unidade de textura (Texture Unit)
- a uma área de memória cache L1 para texturas (L1 TC)
Essas escolhas fizeram com que o processamento ficasse bem mais rápido, pois não se gasta muito tempo escrevendo/lendo dados na memória de vídeo principal. As informações gráficas mais utilizadas são armazenadas em uma das quatro áreas de memória disponíveis dentro da GPU: LDS, L1 TC, Vertex Cache (VC) ou ainda o Global Data Share (GDS).
Vamos examinar agora as Unidades de Textura (figura 3). cada uma dela possui quatro unidades de endereçamento e quatro unidades de filtros de textura. Essa relação um para um evita problemas com latência da memória cache. Cada “Streaming processor – SP” (grupo de 5 SPUs) pode fazer uma busca na memória pode ciclo de clock. Como temos 160 SPs podemos fazer 160 buscas na memória a cada clock. Impressionante!

As Unidades de Textura são ligadas a uma área de memória cache L1 para texturas (L1 TC) por um canal com 480 Gbps de banda (figura 4). É bom lembrar que cada L1 TC está ligado a uma Unidade de textura e a um SIMD core.

Os caches nível 2 (L2) são ligados aos caches nível 1 (l1) através de uma “crossbar” com banda de 384 Gbps. A ATI dividiu os caches L2 em quatro “partições” de memória para melhorar a sua eficiência. Cada partição está ligada a um controlador de memória (MC). (figura 5)

Com a arquitetura RV770 a ATI/AMD abandonou o antigo padrão de barramento em anel (“ring bus”) para adotar um novo barramento de comunicação entre a GPU e o exterior chamado de barramento “chaveado”(“switched bus”). Isso permitiu uma melhor distrinuição física dos componentes da GPU e um melhor aproveitamento do mesmo. Através de um “Hub” (concentrador) cada um dos componentes pode usar todos o barramento de uma só vez, maximizando o desempenho. A figura 6 mostra uma comparação entre a nova arquitetura RV770 e o antiga RV670.

Falaremos agora sobre o consumo da nova arquitetura (RV770). Através do uso de uma técnica chamada de “clock gating” onde partes do processador são “desligadas” quando não estão sendo usadas, a ATI/AMD conseguiu reduzir bastante o consumo da sua GPU. Na verdade o desempenho por watt, ou seja, a relação entre consumo e desempenho da placa quase quadriplicou em relação à arquitetura anterior. Mesmo assim a placa HD 4850 consome cerca de 110W e a HD 4870 chega a 160W. Haja fonte de alimentação! A figura 7 mostra a melhoria de consumo quando se usa o clock gating.

O processo de fabricação usado pela ATI/AMD para as GPUs da série 4800 é de 55 nm (nanômetros) isso faz com que o consumo também seja menor. A GPU da ATI/AMD tem 956 milhões de transistores que ocupam 260 mm2 enquanto que a GPU da série GTX 200 da NVidia tem 1,4 bilhões de transistores ocupando 576 mm2. Essa diferença é significativa, pois a série 4800 ATI/AMD consegue desempenho equivalente à série GTX 200 da NVidia. E como ocupa menos espaço, dá para fazer mais chips por wafer fabricando. E isso leva a um preço menor, que é o grande trunfo da ATI/AMD na briga por mercado.
A placa HD 4870 da ATI/AMD introduziu uma nova tecnologia para as memórias de vídeo. Como a arquitetura RV770 foi feita para trabalhar com uma grande largura de banda de memória a ATI/AMD lançou mão da tecnologia GDDR5, que permite a transferência de 4 dados a cada ciclo de clock. Assim, uma memória GDDR5 funcionando a 900 MHz tem o desempenho de uma funcionando a incríveis 3600 MHz. Faça a conta: 256 bits (32 bytes) x 4 x 900000000 = 115,2 Gigabytes/segundo de largura de banda! Além disso a GPU é capaz de executar 1 trilhão de operações em ponto flutuante (1 TeraFLOP). Em 1997 eram necessários quase 10000 processadores Pentium II para conseguir 1 TeraFLOP de capacidade!