游戲引擎剖析(3)
發(fā)表時間:2024-06-09 來源:明輝站整理相關(guān)軟件相關(guān)文章人氣:
[摘要]原文作者:Jake Simpson 譯者: 向海 Email:GameWorldChina@myway.com 第3部份: 內(nèi)存使用,特效和API 關(guān)于內(nèi)存使用的思考 讓我們想一想,在今天實際上是如何使用3D 顯卡內(nèi)存的以及在將來又會如何使用。 如今絕大多數(shù)3D顯卡處理32位像素顏色,8位紅...
原文作者:Jake Simpson
譯者: 向海
Email:GameWorldChina@myway.com
第3部份: 內(nèi)存使用,特效和API
關(guān)于內(nèi)存使用的思考
讓我們想一想,在今天實際上是如何使用3D 顯卡內(nèi)存的以及在將來又會如何使用。 如今絕大多數(shù)3D顯卡處理32位像素顏色,8位紅色, 8位藍色,8 位綠色,和 8 位透明度。這些組合的紅,藍和綠256個色度,可以組成 16。7 百萬種顏色-- 那是你我可以在一個監(jiān)視器上看見的所有顏色。
那么,游戲設(shè)計大師John Carmack 為什么要求 64 位顏色分辨率呢? 如果我們看不出區(qū)別,又有什么意義呢? 意義是: 比如說, 有十幾個燈光照射模型上的點,顏色顏色各不相同。 我們?nèi)∧P偷淖畛躅伾,然后計算一個燈光的照射,模型顏色值將改變。 然后我們計算另外的一個燈光, 模型顏色值進一步改變。 這里的問題是,因為顏色值只有8位,在計算了4個燈光之后,8位的顏色值將不足以給我們最后的顏色較好的分辨率和表現(xiàn)。分辨率的不足是由量化誤差導(dǎo)致的,本質(zhì)原因是由于位數(shù)不足引起的舍入誤差。
你能很快地用盡位數(shù),而且同樣地,所有的顏色被清掉。每顏色16 或 32 位,你有一個更高分辨率,因此你能夠反復(fù)著色以適當(dāng)?shù)乇憩F(xiàn)最后的顏色。這樣的顏色深度很快就能消耗大量的存儲空間。我們也應(yīng)提到整個顯卡內(nèi)存與紋理內(nèi)存。這里所要說的是,每個3D 顯卡實際只有有限的內(nèi)存,而這些內(nèi)存要存儲前端和后端緩沖區(qū),Z 緩沖區(qū),還有所有的令人驚奇的紋理。最初的 Voodoo1 顯卡只有2MB顯存,后來 Riva TNT提高到16MB顯存。然后 GeForce 和 ATI Rage有32MB顯存, 現(xiàn)在一些 GeForce 2 到 4的顯卡和 Radeons 帶有 64MB 到128MB 的顯存。 這為什么重要? 好吧,讓我們看一些數(shù)字…
比如你想讓你的游戲看起來最好,所以你想要讓它以32位屏幕, 1280x1024分辨率和32位 Z- 緩沖跑起來。 好,屏幕上每個像素4個字節(jié),外加每個像素4字節(jié)的Z-緩沖,因為都是每像素32位。我們有1280x1024 個像素 – 也就是 1,310,720個像素;谇岸司彌_區(qū)和Z-緩沖區(qū)的字節(jié)數(shù),這個數(shù)字乘以8,是 10,485,760字節(jié)。包括一個后端緩沖區(qū),這樣是 1280x1024x12, 也就是 15,728,640 字節(jié), 或 15MB。 在一個 16MB 顯存的顯卡上,就只給我們剩下1MB 來存儲所有的紋理。 現(xiàn)在如果最初的紋理是真32 位或 4字節(jié)寬,那么我們每幀能在顯卡上存儲 1MB/4字節(jié)每像素 = 262,144個像素。這大約是4 個 256x256 的紋理頁面。
很清楚,上述例子表明,舊的16MB 顯卡沒有現(xiàn)代游戲表現(xiàn)其絢麗畫面所需要的足夠內(nèi)存。很明顯,在它繪制畫面的時候,我們每幀都必須重新把紋理裝載到顯卡。實際上,設(shè)計AGP總線的目的就是完成這個任務(wù),不過, AGP 還是要比 3D 掀卡的幀緩沖區(qū)慢,所以你會受到性能上的一些損失。很明顯,如果紋理由32位降低到16位,你就能夠通過AGP以較低的分辨率傳送兩倍數(shù)量的紋理。如果你的游戲以每個像素比較低的色彩分辨率跑, 那么就可以有更多的顯示內(nèi)存用來保存常用的紋理 (稱為高速緩存紋理) 。 但實際上你永遠不可能預(yù)知使用者將如何設(shè)置他們的系統(tǒng)。如果他們有一個在高分辨率和顏色深度跑的顯卡,那么他們將會更可能那樣設(shè)定他們的顯卡。
霧
我們現(xiàn)在開始講霧,它是某種視覺上的效果。如今絕大多數(shù)的引擎都能處理霧, 因為霧非常方便地讓遠處的世界淡出視野,所以當(dāng)模型和場景地理越過觀察體后平面進入視覺范圍內(nèi)時,你就不會看見它們突然從遠處跳出來了。 也有一種稱為體霧的技術(shù)。這種霧不是隨物體離照相機的距離而定,它實際上是一個你能看見的真實對象,并且可以穿越它,從另外一側(cè)出去 -- 當(dāng)你在穿越對象的時候,視覺上霧的可見程度隨著變化。想象一下穿過云團 -- 這是體霧的一個完美例子。體霧的一些好的實現(xiàn)例子是Quake III一些關(guān)卡中的紅色霧,或新的Rogue Squadron II 之 Lucas Arts的 GameCube 版本。其中有一些是我曾經(jīng)見過的最好的云--大約與你能看見的一樣真實。
在我們討論霧化的時候,可能是簡短介紹一下 Alpha 測試和紋理Alpha混合的好時機。當(dāng)渲染器往屏幕上畫一個特定像素時,假定它已經(jīng)通過 Z- 緩沖測試 (在下面定義),我們可能最后做一些Alpha測試。我們可能發(fā)現(xiàn)為了顯示像素后面的某些東西,像素需要透明繪制。這意味著我們必須取得像素的已有值,和我們新的像素值進行混和,并把混合結(jié)果的像素值放回原處。這稱為讀-修改-寫操作,遠比正常的像素寫操作費時。
你可以用不同類型的混合,這些不同的效果被稱為混合模式。直接Alpha混合只是把背景像素的一些百分比值加到新像素的相反百分比值上面。還有加法混合,將舊像素的一些百分比,和特定數(shù)量(而不是百分比)的新像素相加。 這樣效果會更加鮮明。 (Kyle's Lightsaber在 Jedi Knight II 中的效果)。
每當(dāng)廠商提供新的顯卡時,我們可以得到硬件支持的更新更復(fù)雜的混合模式,從而制作出更多更眩目的效果。GF3+4和最近的Radeon顯卡提供的像素操作,已經(jīng)到了極限。
模板陰影與深度測試
用模板產(chǎn)生陰影效果,事情就變得復(fù)雜而昂貴了。這里不討論太多細節(jié)(可以寫成一篇單獨的文章了),其思想是,從光源視角繪制模型視圖,然后用這個把多邊形紋理形狀產(chǎn)生或投射到受影響的物體表面。
實際上你是在視野中投射將會“落”在其他多邊形上面的光體。最后你得到看似真實的光照,甚至帶有視角在里面。因為要動態(tài)創(chuàng)建紋理,并對同一場景進行多遍繪制,所以這很昂貴。
你能用眾多不同方法產(chǎn)生陰影,情形時常是這樣一來,渲染質(zhì)量與產(chǎn)生效果所需要的渲染工作成比例。有所謂的硬陰影或軟陰影之分,而后者較好,因為它們更加準(zhǔn)確地模仿陰影通常在真實世界的行為。 通常有一些被游戲開發(fā)者偏愛的“足夠好”的方法。如要更多的了解陰影,請參考 Dave Salvator的 3D 流水線一文。
深度測試
現(xiàn)在我們開始討論深度測試, 深度測試丟棄隱藏的像素,過度繪制開始起作用。過度繪制非常簡單 – 在一幀中,你數(shù)次繪制一個像素位置。它以3D場景中Z(深度)方向上存在的元素數(shù)量為基礎(chǔ),也被稱為深度復(fù)雜度。如果你常常太多的過度繪制, -- 舉例來說, 符咒的眩目視覺特效,就象Heretic II,能讓你的幀速率變得很糟糕。當(dāng)屏幕上的一些人們彼此施放符咒時,Heretic II設(shè)計的一些最初效果造成的情形是,他們在一幀中對屏幕上每個相同的像素畫了40次! 不用說,這必須調(diào)整,尤其是軟件渲染器,除了將游戲降低到象是滑雪表演外,它根本不能處理這樣的負荷。深度測試是一種用來決定在相同的像素位置上哪些對象在其它對象前面的技術(shù),這樣我們就能夠避免繪制那些隱藏的對象。
看著場景并想想你所看不見的。 換句話說,是什么在其他場景對象前面,或者隱藏了其他場景對象? 是深度測試作出的這個決定。
我將進一步解釋深度深度如何幫助提高幀速率。想像一個很瑣細的場景,大量的多邊形 (或像素)位于彼此的后面,在渲染器獲得他們之間沒有一個快速的方法丟棄他們。對非Alpha混合的多邊形分類排序( 在Z- 方向上),首先渲染離你最近的那些多邊形,優(yōu)先使用距離最近的像素填充屏幕。所以當(dāng)你要渲染它們后面的像素(由Z或者深度測試決定)時,這些像素很快被丟棄,從而避免了混合步驟并節(jié)省了時間。如果你從后到前繪制,所有隱藏的對象將被完全繪制,然后又被其他對象完全重寫覆蓋。場景越復(fù)雜,這種情況就越糟糕,所以深度測試是個好東西。
抗鋸齒
讓我們快速的看一下抗鋸齒。當(dāng)渲染單個多邊形時,3D 顯卡仔細檢查已經(jīng)渲染的,并對新的多邊形的邊緣進行柔化,這樣你就不會得到明顯可見的鋸齒形的像素邊緣。兩種技術(shù)方法之一通常被用來處理。 第一種方法是單個多邊形層次,需要你從視野后面到前面渲染多邊形,這樣每個多邊形都能和它后面的進行適當(dāng)?shù)幕旌稀H绻话葱蜻M行渲染,最后你會看見各種奇怪的效果。在第二種方法中,使用比實際顯示更大的分辯率來渲染整幅幀畫面,然后在你縮小圖像時,尖銳的鋸齒形邊緣就混合消失了。這第二種方法的結(jié)果不錯,但因為顯卡需要渲染比實際結(jié)果幀更多的像素,所以需要大量的內(nèi)存資源和很高的內(nèi)存帶寬。
多數(shù)新的顯卡能很好地處理這些,但仍然有多種抗鋸齒模式可以供你選擇,因此你可以在性能和質(zhì)量之間作出折衷。對於當(dāng)今流行的各種不同抗鋸齒技術(shù)的更詳細討論請參見Dave Salvator 的3D 流水線一文。
頂點與像素著色
在結(jié)束討論渲染技術(shù)之前,我們快速的說一下頂點和像素著色,最近它們正引起很多關(guān)注。頂點著色是一種直接使用顯卡硬件特征的方式,不使用API。舉例來說,如果顯卡支持硬件 T & L ,你可以用DirectX或OpenGL編程,并希望你的頂點通過 T & L 單元 (因為這完全由驅(qū)動程序處理,所以沒有辦法確信),或者你直接利用顯卡硬件使用頂點著色。它們允許你根據(jù)顯卡自身特征進行特別編碼,你自己特殊的編碼使用T & L 引擎,以及為了發(fā)揮你的最大優(yōu)勢,顯卡必須提供的其他別的特征。 事實上,現(xiàn)在nVidia 和ATI 在他們大量的顯卡上都提供了這個特征。
不幸的是,顯卡之間表示頂點著色的方法并不一致。你不能象使用DirectX或者OpenGL 那樣,為頂點著色編寫一次代碼就可以在任何顯卡上運行,這可是個壞消息。然而,因為你直接和顯卡硬件交流,它為快速渲染頂點著色可能生成的效果提供最大的承諾。( 如同創(chuàng)造很不錯的特效 -- 你能夠使用頂點著色以API沒有提供的方式影響事物)。事實上,頂點著色正在真的將3D 圖形顯示卡帶回到游戲機的編碼方式,直接存取硬件,最大限度利用系統(tǒng)的必須知識,而不是依靠API來為你做一切。對一些程序員來說,會對這種編碼方式感到吃驚,但這是進步代價。
進一步闡述,頂點著色是一些在頂點被送到顯卡渲染之前計算和運行頂點效果程序或者例程。你可以在主CPU上面用軟件來做這些事情,或者使用顯卡上的頂點著色。 為動畫模型變換網(wǎng)格是頂點程序的主選。
像素著色是那些你寫的例程,當(dāng)繪制紋理時,這些例程就逐個像素被執(zhí)行。你有效地用這些新的例程推翻了顯卡硬件正常情況做的混合模式運算。這允許你做一些很不錯的像素效果, 比如,使遠處的紋理模糊,添加炮火煙霧, 產(chǎn)生水中的反射效果等。一旦 ATI 和 nVidia 能實際上就像素著色版本達成一致( DX9's 新的高級陰影語言將會幫助促進這一目標(biāo)), 我一點不驚訝DirectX 和OpenGL采用Glide的方式-- 有幫助開始, 但最終不是把任何顯卡發(fā)揮到極限的最好方法。我認為我會有興趣觀望將來。
最后(In Closing...)
最終,渲染器是游戲程序員最受評判的地方。在這個行業(yè),視覺上的華麗非常重要,因此它為知道你正在做的買單。對于渲染器程序員,最壞的因素之一就是3D 顯卡工業(yè)界變化的速度。一天,你正在嘗試使透明圖像正確地工作;第二天 nVidia 正在做頂點著色編程的展示。而且發(fā)展非?,大致上,四年以前為那個時代的 3D 顯卡寫的代碼現(xiàn)在已經(jīng)過時了,需要全部重寫。 甚至John Carmack 這樣描述過,他知道四年以前為充分發(fā)揮那個時期顯卡的性能所寫的不錯的代碼,如今很平凡 -- 因此他產(chǎn)生了為每個新的id項目完全重寫渲染器的欲望。Epic 的Tim Sweeney贊同 -- 這里是去年他給我的評論:
我們已經(jīng)足足花費了9個月時間來更換所有的渲染代碼。最初的 Unreal 被設(shè)計為軟件渲染和后來擴展為硬件渲染。下一代引擎被設(shè)計為 GeForce 及更好的圖形顯示卡,且多邊形吞吐量是Unreal Tournament的100倍。
這需要全部替換渲染器。很幸運,該引擎模塊化程度足夠好,我們可以保持引擎的其余部分—編輯器,物理學(xué),人工智能,網(wǎng)絡(luò)--不改動,盡管我們一直在以許多方式改進這些部分。
搭配長篇文章的短篇報導(dǎo)(Sidebar):API -- 祝福和詛咒
那么什么是API? 它是應(yīng)用程序編程接口,將不一致的后端用一致的前端呈現(xiàn)出來。舉例來說,很大程度上每種3D顯示卡的3D實現(xiàn)方式都有所差別。然而,他們?nèi)慷汲尸F(xiàn)一個一致的前端給最終使用者或者程序員,所以他們知道他們?yōu)閄 3D顯示卡寫的代碼將會在Y 3D顯示卡上面有相同的結(jié)果。好吧,不管怎樣理論上是那樣。 大約在三年以前這可能是相當(dāng)真實的陳述,但自那以后,在nVidia 公司的引領(lǐng)下,3D顯卡行業(yè)的事情發(fā)生了變化。
如今在PC領(lǐng)域,除非你正計劃建造自己的軟件光柵引擎,使用CPU來繪制你所有的精靈,多邊形和粒子 -- 而且人們?nèi)匀辉谶@樣做。跟Unreal一樣,Age of Empires II: Age of Kings有一個優(yōu)秀的軟件渲染器 – 否則你將使用兩種可能的圖形API,OpenGL或者 DirectX 之一。OpenGL是一種真正的跨平臺API (使用這種API寫的軟件可以在Linux,Windows和MacOS上運行。), 而且有多年的歷史了,為人所熟知,但也開始慢慢地顯示出它的古老。 大約在四年以前,定義OpenGL驅(qū)動特征集一直是所有顯示卡廠商工作的方向。
然而,一旦在目標(biāo)達成以后,沒有預(yù)先制定特征工作方向的路線圖,這時候,所有的顯卡開發(fā)商開始在特征集上分道揚鑣,使用OpenGL擴展。
3dfx 創(chuàng)造了T- 緩沖。 nVidia 努力尋求硬件變換和光照計算。Matrox努力獲取凹凸貼圖。等等。 我以前說過的一句話,"過去幾年以來,3D顯示卡領(lǐng)域的事情發(fā)生了變化。"委婉地說明了這一切。
無論如何,另一個可以選擇的API是 DirectX。這受Microsoft公司控制,且在PC 和 Xbox 上被完美地支持。由于明顯的原因,DirectX 沒有Apple或者 Linux 版本。因為Microsoft控制著 DirectX,大體上它容易更好地集成在Windows里面。
OpenGL和DirectX之間的基本差別是前者由‘社區(qū)’擁有,而后者由Microsoft擁有。如果你想要 DirectX 為你的 3D 顯示卡支持一個新的特征,那么你需要游說微軟,希望采納你的愿望,并等待新的 DirectX發(fā)行版本。對于OpenGL,由于顯示卡制造商為3D顯示卡提供驅(qū)動程序,你能夠通過OpenGL擴展立即獲得顯示卡的新特征。這是好,但作為游戲開發(fā)者,當(dāng)你為游戲編碼的時候,你不能指望它們很普遍。它們可能讓你的游戲速度提升50%,但你不能要求別人有一塊GeForce 3 來跑你的游戲。好吧,你可以這么做,但如果你想來年還在這個行業(yè)的話,這是個相當(dāng)愚蠢的主意。
這是對這個問題極大的簡單化,對我所有描述的也有各種例外情況,但這里一般的思想是很確實的。對于DirectX ,在任何既定時間你容易確切地知道你能從顯示卡獲得的特征,如果一個特征不能獲得,DirectX 將會用軟件模擬它(也不總是一件好事情,因為這樣有時侯非常的慢,但那是另外一回事)。對于OpenGL,你可以更加貼近顯示卡的特征,但代價是不能確定將會獲得的準(zhǔn)確特征。