從巴塞羅那到最新AMD45nm 上海處理器評測
事實上,“Shanghai”處理器的順利量產與其前輩“Barcelona”相比,最讓我們驚嘆的是其在65nm與45nm制程工藝間的順利過渡。這次“Shanghai”的順利發(fā)布可以說是AMD在工藝研發(fā)上的可喜成就,下面就讓我們先來看一下有關AMD制程工藝的最新信息。
2008 Financial Analyst Day上自AMD拆分出來的The Foundry Company公布了其process的roadmap,已經(jīng)在45nm“Shanghai”處理器制造上成功應用的沉浸式光刻技術(Immersion Lithography process)將在明年的32nm工藝上發(fā)揮至關重要的作用。
沉浸式光刻技術就是在鏡頭和晶片之間加入一種特殊的液體,使得材料特征更加精確和明顯,通過這種方式可以在提高制造能力的同時使生產流程更為高效。 #p#page_title#e#
盡管從“Barcelona”到“Shanghai”的最大技術改進是“Shanghai”處理器采用了45nm制程工藝,不過“Shanghai”處理器仍然有一些其他方面的改進之處(相對于Barcelona整體架構來說),這些改進的目的都是為了進一步增強處理器的性能。
L3 Cache增大
共享L3緩存設計是AMD繼集成內存控制器設計之后的又一經(jīng)典設計,Intel在最新的Nehalem處理器中便同時采用了共享L3緩存和集成內存控制器設計,這從側面也再一次印證了AMD設計理念的成功之處。“Shanghai”處理器的L3 Cache由Barcelona的2MB增加到了6MB,AMD宣稱增大的L3緩存容量可為“Shanghai”處理器帶來5%-10%的性能提升。
內存帶寬增大
AMD“Shanghai”處理器延續(xù)了“Barcelona”處理器的集成內存控制器設計,并對其進行了改良,主要表現(xiàn)在對內存的支持方面,由之前的DDR2 667提升至DDR2 800。AMD宣稱使用DDR2 800內存可使系統(tǒng)的內存帶寬相對之前提升10%左右。
Smart Fetch
該特性允許處理器關閉處于閑置狀態(tài)下的核心以降低處理器的整體功耗水平,根據(jù)AMD的介紹,該特性可以降低處理器功耗的21%,也就是15W左右。
虛擬化技術
“Barcelona”處理器在虛擬化技術方面相對之前的處理器有很大的改進,提供了極為出色的虛擬化性能,而此次的“Shanghai”處理器在虛擬化技術方面的改進則主要體現(xiàn)在兩個方面:增強的RVI、更快的World Switch。
RVI的全稱是Rapid Virtualization Indexing,即快速虛擬化索引技術。AMD虛擬化技術(AMD-V)的一項關鍵特性,即是RVI通過在硬件層執(zhí)行功能時,提高了虛擬地址到物理地址的轉換效能,進而縮短在虛擬主機之間的切換時間。當虛擬化產生的額外地址轉換層的工作由硬件而非軟件資源來完成時,即可簡化虛擬化環(huán)境中復雜的內存管理。RVI有助于改善由虛擬化引起的系統(tǒng)管理程序周期變長,及因此造成的降低效能等問題。“Shanghai”處理器對快速虛擬化索引技術進行了增強,從而能夠進一步提升轉換效能,縮短切換時間。
之前的“Barcelona”處理器曾經(jīng)引進了新的指令,用來縮短芯片的“world switch time”,即芯片在客座操作系統(tǒng)模式與hypervisor模式之間作切換所用的時間。這種切換過程通常需要大約1000到2000個處理器頻率周期,但用新指令可縮短25%左右。“Shanghai”處理器的“world switch”設計速度比“Barcelona”處理器要快25%左右。
#p#page_title#e#
測試機房環(huán)境:
測試地點:TMGLAB@BeiJing
溫度:23攝氏度(中央空調系統(tǒng))@Speed-High
Rack:APC Netshelter SX Enclosures AR3150
KVM:APC AP5401
測試服務器配置:
Chassis: SuperMicro SC825TQ-R700LPV 2U Chassis
Chassis Fans: 3x 80mm 6300 RPM Fans
Power Supply : SuperMicro 1200W w/PFC
System board: SuperMicro H8QM3-2
Memory: 32GB (Qty 16- 2GB RDIMM DDR2 800MHz Memory Modules)
Floppy: 3.5” 1.44MB Floppy
Hard Drive: 74GB 15k Fujitsu SAS Drive
CDROM: Slim DVD ROM
Benchmark Overview:
Spec JBB2005
SPECjbb2005是一種用于評估服務器端Java性能的基準測試軟件。和上一代的SPECjbb2000一樣,SPECjbb2005可以通過模擬一套三層式的客戶端/服務器系統(tǒng)來評估服務器端Java性能,而在模擬過程中最為強調的就是中間層。該基準實施了JVM(Java虛擬機)、JIT(Just-In-Time)編譯器、垃圾收集、線程和操作系統(tǒng)的某些方面。它還可測量CPU、緩存、內和共享內存處理器(SMP)的性能。SPECjbb2005提供了一種新的增強型工作負載,而且其實施方式更加客觀,可反映出真實環(huán)境中應用的設計方法。同時,這種增強型工作負載還引入了一些新的特性,如XML處理和BigDecimal計算,使基準測試可以更真實地反映出今天的各類應用。
Spec CPU2006
SPEC CPU 2006包括了CINT2006和CFP2006兩個子項目,SPECfp測試過程中同時執(zhí)行多個實例(instance),測量系統(tǒng)執(zhí)行計算密集型浮點操作的能力,比如CAD/CAM、DCC以及科學計算等方面應用可以參考這個結果。SPECint測試過程中同時執(zhí)行多個實例(instances),然后測試系統(tǒng)同時執(zhí)行多個計算密集型整數(shù)操作的能力,可以很好的反映諸如數(shù)據(jù)庫服務器、電子郵件服務器和Web服務器等基于整數(shù)應用的多處理器系統(tǒng)的性能。 #p#page_title#e#
JBB2005測試系統(tǒng)環(huán)境以及軟件環(huán)境配置
Software Vendor:BEA Systems, Inc.
JVM Version:
BEA JRockit(R) (R27.6.0-50_o-100423-1.6.0_05-20080626-2105-windows-x86_64)
JVM Command Line:
start /affinity %HEX% /b java -Xverbose:gc -Xms3500m -Xns2900m -Xmx3500m -XXaggressive -Xgc:genpar -XXgcthreads=4 -XXthroughputCompaction -XXlazyunlocking -XXtlasize:min=4k,preferred=512k spec.jbb.JBBmain -propfile SPECjbb_mu4.props
OS Version:Microsoft Windows Server 2008 Enterprise SP1 x64 Edition (64-bit)
系統(tǒng)及軟件環(huán)境關鍵配置
1, Enable the large pages in memory(打開程序使用內存限制,這個非常重要)
2, 通過加入編寫以下代碼參數(shù),把處理線程綁定在特定處理器上運行,這樣就可以省去程序在不同的處理器之間來回切換,減少了Overhead的產生。
set HEX=000f
:LOOP
set /a I=%I + 1
@echo on
start /affinity %HEX% /b %JAVA% %JAVAOPTIONS% spec.jbb.JBBmain -propfile %PROPFILE% -id %I% > multi.%I%
@echo off
IF %I% ==1 set HEX=00f0
IF %I% ==2 set HEX=0f00
IF %I% ==3 set HEX=f000
IF %I% == %JVM% GOTO END
GOTO LOOP
:END
我們的測試樣機SuperMicro SC825TQ-R700LPV(4路)上的shanghai處理器測試成績
我們選擇了AMD 上一代65nm“Barcelona”核心的Opteron 8360SE以及Intel 最新Dunnington 6核心的Xeon X7460來與“Shanghai”核心的Opteron 8384進行對比,搭載以上兩款處理器的均為4路服務器。他們分別是PowerEdge R905 (AMD Opteron 8360 SE, 2.50 GHz) 以及Dell PowerEdge R900 (Intel Xeon X7460, 2.66 GHz)。
從我們的測試成績可以看到,“Shanghai”核心的Opteron 8384其java性能比之前“Barcelona”核心的Opteron 8360SE要高出36%;比Intel 6核心的Xeon X7460要高出5%左右,性能相較于上一代產品的提升幅度非常大,并且超越了Intel當前最高端的4路7系列產品。在這里我們只發(fā)表結果,對于性能的分析本文最后會集中討論。#p#page_title#e#
硬件更改的說明
Chassis: SuperMicro SC825TQ-R700LPV 2U Chassis
Chassis Fans: 3x 80mm 6300 RPM Fans
Power Supply : SuperMicro 1200W w/PFC
System board: SuperMicro H8QM3-2
Memory: 32GB (Qty 16- 2GB RDIMM DDR2 800MHz Memory Modules)
Floppy: 3.5” 1.44MB Floppy
Hard Drive: SATA 80GB SSD
CDROM: Slim DVD ROM
因為與JBB2005的Win Server2008測試環(huán)境不同,SpecCPU2006的測試平臺我們使用Suse Linux10.3,但因為RAID卡沒有Linux版本的驅動,所以我們使用了南橋的SATA接口的固態(tài)硬盤代替了之前的SAS硬盤。
SpecCPU2006測試系統(tǒng)環(huán)境以及軟件環(huán)境配置
Operating System: SUSE Linux Enterprise Server 10 (x86_64) SP3,Kernel 2.6.16-60.0.21-smp
Compiler: PGI Server Complete Version 7.2 and PathScale Compiler Suite Version 3.2
File System: Ext3
System State: Run level 3 (multi-user)
Other Software: SmartHeap 8.1 Library for Linux
我們的測試樣機SuperMicro SC825TQ-R700LPV(4路)上的shanghai處理器SPECint_rate2006測試成績
在整數(shù)性能運算方面,“Shanghai”核心的Opteron 8384比“Barcelona”核心的Opteron 8360SE有接近20%的性能提升幅度,與Intel平臺的頂級產品X7460相比則仍然有著近20%的差距??紤]到Opteron8384功耗只有75W,而Xeon X7460則達到130W,因此在每瓦特性能方面,表現(xiàn)仍然更為出色。
我們的測試樣機SuperMicro SC825TQ-R700LPV(4路)上的shanghai處理器SPECfp_rate2006測試成績
通過以上的成績可以看到,“Shanghai”核心的Opteron 8384比“Barcelona”核心的Opteron 8360SE有接近20%的性能提升幅度,相對Intel四路平臺而言同樣達到了20%的性能領先幅度。 #p#page_title#e#
Java性能分析
AMD平臺的產品在java性能上一向落后于Intel平臺,此次“Shanghai”核心的Opteron 8384卻能夠一舉超越6核的Xeon X7460,的確令人感到意外,因為“Shanghai”對于“Barcelona”來說結構上并沒有革命性的改變,如此大的性能提升幅度著實讓我們有些琢磨不透。根據(jù)AMD的官方文檔,“Shanghai”相對“Barcelona”來說有以下幾個方面的改進:
從以上的文檔中我們不難發(fā)現(xiàn),在“上海”處理器的幾項新特性之中,有三項特性是用以提升性能:首先是45nm制程工藝所帶來的2.7GHz高頻率,其次是L3緩存由2MB增大至6MB(據(jù)稱有5-10%的性能提升),最后是Memory Bandwidth提高了10%。在以上3個方面之中又有哪些是對于提升Java性能有所幫助的呢?JBB2005是一個對于計算處理速度要求比較高的Benchmark,對于I/O的要求則不高,因此Memory Bandwidth的提升應不至于會造成Java性能有36%的巨大提升幅度,更多的可能性是之前的“Barcelona”在設計上有更大的提升空間,造成了性能瓶頸上的“短板效應”,“Shanghai”架構上的緩存結構以及容量正好彌補了這一設計缺陷。
整數(shù)及浮點計算性能分析
同樣地,整數(shù)以及浮點計算能力的提升也有賴于“Shanghai”在架構上解決了“短板效應”的問題,由于在浮點計算能力方面“Barcelona”架構有著128bit FPU Per Core以及4FLOPS/clk peak per core的專門優(yōu)化設計,因此“Shanghai”處理器自然也是一脈傳承。
除此之外,“Shanghai”架構還多了一項對于4路服務器來說非常重要的功能,就是其任意兩個處理器之間設計了直接連接的HT總線(在之前的“Barcelona”結構,呈對角線的兩個處理器不能直接相連),這項改進對于4路服務器來說有兩個明顯的好處:
1, 加快了處于對角線上兩片內存區(qū)域之間的數(shù)據(jù)通訊速度。
2, 有利于整體的服務器各處理做頻率同步。
測試總結
此次報告將要結束時,回顧過去幾個禮拜的測試過程,可說是一次非常難忘的體驗,因為我們在全球第一時間內見證了AMD新一代“Shanghai”架構所帶來的驚喜。
在此要特別提到的是,SPECCPU2006和SPECjbb2005的測試中,因為測試時間和工具庫的限制,這三個測試數(shù)據(jù)和AMD發(fā)布的數(shù)據(jù)有一定的差距,AMD公布的SPECjbb2005的數(shù)據(jù)為659034,我們的測試數(shù)據(jù)與AMD的官方值相差了23% ,AMD公布的SPECint_rate2006的數(shù)據(jù)為249,我們的測試數(shù)據(jù)為236,與AMD的官方值相差了5.5% ,AMD公布的SPECfp_rate2006的數(shù)據(jù)為210,我們的測試數(shù)據(jù)為204,與AMD的官方值相差了2.9% 。而Intel的數(shù)據(jù)來自官方,從官方的數(shù)據(jù)將,上海在Jbb和浮點的優(yōu)勢會更大,整形則相差16.8%, 但Intel 是六核,核心數(shù)量比上海多50%。
簡而言之,“Shanghai”的性能表現(xiàn)超出了我們的意料,它是趨于成熟的“Barcelona”,“Shanghai”不僅完善了“Barcelona”在設計上的可提升之處(Cache),而且還成功的應用了全新的45nm制程工藝,在效能、功耗、成本上等方面都擁有十分出色的表現(xiàn),是一款非常優(yōu)秀的處理器。