亚洲欧美日韩精品,亚洲成aⅴ人片在线影院八,国产1024一区二区你懂的,欧美毛片一级的免费的

首頁(yè) > 實(shí)用技巧 > 干貨教程 > 探究P-GPU/D-CPU模式:與純CPU方案的性能差異及適用性分析

探究P-GPU/D-CPU模式:與純CPU方案的性能差異及適用性分析

發(fā)布時(shí)間:2025-06-17 20:09:29
上一篇文章中,我們已明確P-GPU/D-CPU模式相較于PD-GPU模式時(shí),Decode階段性能會(huì)顯著下降。但P-GPU/D-CPU模式通過(guò)GPU快速完成Prefill階段,從而能快速釋放GPU資源以處理更多新請(qǐng)求的Prefill階段,可能提升系統(tǒng)整體的TTFT(首個(gè)詞元生成時(shí)間)和并發(fā)能力,在特定場(chǎng)景下仍具應(yīng)用價(jià)值。
 
這些討論默認(rèn)GPU參與是既定事實(shí)。 但在完整的技術(shù)選型和成本效益分析中,不能僅停留在“有GPU時(shí)怎么做得更好”。一個(gè)更根本的問(wèn)題是:當(dāng)我們考慮將Prefill和Decode階段完全交由CPU處理(即PD-CPU模式)時(shí),P-GPU/D-CPU這種引入GPU硬件和跨設(shè)備復(fù)雜性的方案,其性能提升是否顯著到足以讓我們放棄純CPU方案的簡(jiǎn)潔與便捷?尤其是在處理長(zhǎng)輸入、短輸出(LISO)這類對(duì)首個(gè)詞元生成時(shí)間(TTFT)和GPU周轉(zhuǎn)率要求較高的場(chǎng)景時(shí),P-GPU/D-CPU模式的潛力值得深入探究。
 
換句話說(shuō),之前的實(shí)驗(yàn)只將P-GPU/D-CPU方案與全GPU的方案進(jìn)行了對(duì)比,但沒(méi)有與全CPU方案進(jìn)行對(duì)比。本文正是要補(bǔ)齊這一環(huán),通過(guò)新的實(shí)驗(yàn)數(shù)據(jù),考察P-GPU/D-CPU模式在面對(duì)純CPU方案時(shí),其性能表現(xiàn)和應(yīng)用價(jià)值究竟如何。
 
關(guān)于Prefill階段和Decode階段吞吐量的巨大差異的內(nèi)容,可以閱讀本篇文章
 
關(guān)于PD階段在CPU上運(yùn)行分析的內(nèi)容,可以閱讀本篇文章
 
實(shí)驗(yàn)設(shè)計(jì)與對(duì)比方案
本次實(shí)驗(yàn)的核心設(shè)計(jì)思路是分別測(cè)試長(zhǎng)輸入長(zhǎng)輸出(LILO)、長(zhǎng)輸入短輸出(LISO)、短輸入長(zhǎng)輸出(SILO)和短輸入短輸出(SISO)四種情況下,PD都在GPU上運(yùn)行、P在GPU,D在CPU上運(yùn)行,以及PD都在CPU上運(yùn)行的耗時(shí)。本文將重點(diǎn)分析長(zhǎng)輸入短輸出(LISO)的數(shù)據(jù),以評(píng)估P-GPU/D-CPU模式的特定優(yōu)勢(shì)。
 
實(shí)驗(yàn)使用gpt2模型,模擬 100 個(gè)并發(fā)用戶請(qǐng)求,長(zhǎng)輸入、長(zhǎng)輸出對(duì)應(yīng)的是512個(gè)token,而短輸入、短輸出都是對(duì)應(yīng)的64個(gè)token。
 
實(shí)驗(yàn)代碼已開源??梢允褂帽炬溄樱?/div>
https://github.com/chen-ace/LLM-Prefill-Decode-Benchmark。開源庫(kù)中提供了英偉達(dá)CUDA的腳本和Apple M系列芯片的代碼。方便蘋果筆記本的用戶也能運(yùn)行測(cè)試腳本。但由于Apple M系列設(shè)備的硬件資源有限,因此MPS版本的測(cè)試代碼只是用了gpt2模型進(jìn)行測(cè)試。
 
實(shí)驗(yàn)所要探究的核心問(wèn)題是:P-GPU/D-CPU模式在與純CPU(PD-CPU)模式的對(duì)比中,是否依然保有足夠的性能優(yōu)勢(shì)以證明其應(yīng)用價(jià)值。
 
P階段
我們將整個(gè)過(guò)程分兩階段分析,首先關(guān)注單獨(dú)的P階段數(shù)據(jù)。
 
 
如上圖所示,PD分離后,P階段可以充分利用GPU資源,在運(yùn)行效率上獲得了較大的提升,具體數(shù)值如表一所示,LILO模式下,P-GPU比P-CPU節(jié)省了4.59s;LISO模式下,P-GPU比P-CPU節(jié)省了5.51s;SILO模式下,P-GPU比P-CPU節(jié)省了0.56s;SISO模式下,P-GPU比P-CPU節(jié)省了0.72s;
 
表一 四種情況下P階段所消耗時(shí)間統(tǒng)計(jì)表
 
PD-GPU
 
P-GPU/D-CPU
 
PD-CPU
 
P階段在GPU比在CPU上節(jié)省的時(shí)間
 
LILO模式P階段耗時(shí)(s)
 
0.8322
 
0.797
 
5.3853
 
4.5883
 
LISO模式P階段耗時(shí)(s)
 
0.8158
 
0.8076
 
6.3184
 
5.5108
 
SILO模式P階段耗時(shí)(s)
 
0.1008
 
0.1083
 
0.6658
 
0.5575
 
SISO模式P階段耗時(shí)(s)
 
0.1008
 
0.1082
 
0.8291
 
0.7209
 
完整階段
從P階段的數(shù)據(jù)來(lái)看,即使是在CPU上運(yùn)行,最長(zhǎng)耗時(shí)也就6.32s,對(duì)于GPU資源的寶貴性醒來(lái)說(shuō),還是可以接受的范圍。但是如果加上D階段的耗時(shí)就是另外一回事了,數(shù)據(jù)如下表所示:
 
表二 四種情況下PD各階段所消耗時(shí)間統(tǒng)計(jì)表(比值均為PD-CPU與P-GPU/D-CPU的倍率)
 
PD-GPU
 
總耗時(shí)
 
P-GPU/D-CPU
 
總耗時(shí)
 
PD-CPU
 
總耗時(shí)
 
各階段倍率
 
總耗時(shí)倍率
 
LILO模式P階段耗時(shí)(s)
 
0.83
 
23.14
 
0.80
 
100.57
 
(含KV轉(zhuǎn)移時(shí)間)
 
5.39
 
162.02
 
 
 
6.76
 
1.61
 
LILO模式D階段耗時(shí)(s)
 
22.31
 
98.52
 
156.63
 
1.59
 
LISO模式P階段耗時(shí)(s)
 
0.82
 
2.06
 
0.81
 
18.47
 
(含KV轉(zhuǎn)移時(shí)間)
 
6.32
 
26.47
 
7.82
 
1.43
 
LISO模式D階段耗時(shí)(s)
 
1.24
 
16.40
 
20.15
 
1.23
 
SILO模式P階段耗時(shí)(s)
 
0.10
 
10.69
 
0.11
 
59.94
 
(含KV轉(zhuǎn)移時(shí)間)
 
0.67
 
55.02
 
6.15
 
0.92
 
SILO模式D階段耗時(shí)(s)
 
10.58
 
59.65
 
54.35
 
0.91
 
SISO模式P階段耗時(shí)(s)
 
0.10
 
0.56
 
0.11
 
6.40
 
(含KV轉(zhuǎn)移時(shí)間)
 
0.83
 
4.77
 
7.66
 
0.75
 
SISO模式D階段耗時(shí)(s)
 
0.46
 
6.16
 
3.94
 
0.64
 
 
實(shí)驗(yàn)數(shù)據(jù)如上圖所示:在SILO以及SISO模式下,P階段在GPU上的提升在整個(gè)PD過(guò)程中性能的提升可以忽略不計(jì)。但是在LISO模式下,P階段在P-GPU/D-CPU模式中消耗時(shí)間為0.8076s,而在PD-CPU模式中則消耗了6.3184s,速度提升了7.82倍,D階段在P-GPU/D-CPU模式中,消耗時(shí)間為16.3957s,PD-CPU模式中,D階段消耗時(shí)間為20.1514,速度提升了1.23倍。
 
從實(shí)驗(yàn)的數(shù)據(jù)中可以很明顯地得出以下結(jié)論:
 
LISO場(chǎng)景性能更優(yōu)
面對(duì)長(zhǎng)輸入序列(如512詞元),GPU在Prefill階段擁有顯著的速度優(yōu)勢(shì)。這一巨大優(yōu)勢(shì)足以彌補(bǔ)CPU Decode階段的相對(duì)緩慢,使得P-GPU/D-CPU模式在處理長(zhǎng)輸入時(shí),總耗時(shí)明顯優(yōu)于純CPU模式,例如在長(zhǎng)輸入長(zhǎng)輸出時(shí),實(shí)測(cè)速度提升可達(dá)約1.61倍,在長(zhǎng)輸入短輸出時(shí)也達(dá)到了約1.43倍的提升。
 
GPU資源緊張時(shí),優(yōu)化TTFT與并發(fā)能力
當(dāng)GPU資源成為瓶頸時(shí),P-GPU/D-CPU模式的價(jià)值尤為突出。它允許GPU在快速完成計(jì)算密集的Prefill階段后,立即將后續(xù)的Decode任務(wù)卸載給CPU處理。這樣能迅速釋放寶貴的GPU資源,使其能夠服務(wù)于更多新的并發(fā)請(qǐng)求,從而有效縮短用戶感知的首個(gè)詞元生成時(shí)間(TTFT)并提升系統(tǒng)的整體并發(fā)處理能力。這對(duì)于那些需要優(yōu)先保證眾多用戶快速獲得初步響應(yīng),而非追求單用戶極致長(zhǎng)序列生成速度的場(chǎng)景,是一個(gè)極具吸引力的平衡策略。
 
總結(jié)
P-GPU/D-CPU部署策略在處理LISO任務(wù)時(shí)表現(xiàn)最佳,能顯著優(yōu)化首個(gè)詞元生成時(shí)間(TTFT)和并發(fā)處理能力,尤其適合GPU資源瓶頸的場(chǎng)景。其優(yōu)勢(shì)源于GPU對(duì)Prefill階段的極致加速及后續(xù)CPU Decode階段的相對(duì)高效,總體性能明顯優(yōu)于純CPU方案。
 
盡管此策略也能加速LILO任務(wù),但考慮到LILO本身耗時(shí)較長(zhǎng)可能影響交互體驗(yàn),LISO更能發(fā)揮P-GPU/D-CPU在提升即時(shí)響應(yīng)方面的特長(zhǎng)。
 
但是P-GPU/D-CPU并非普適方案。對(duì)于短輸入任務(wù),純CPU因其簡(jiǎn)潔和低開銷反而更具優(yōu)勢(shì)。
 
因此,選擇部署策略時(shí),需權(quán)衡P-GPU/D-CPU的性能提升與實(shí)現(xiàn)復(fù)雜性、成本,并結(jié)合具體應(yīng)用場(chǎng)景、性能瓶頸和對(duì)復(fù)雜度的接受程度來(lái)綜合決策。

干貨教程更多>>

華為 WATCH 5 系列鴻蒙 AI 智能手表實(shí)況窗適配應(yīng)用公布 智界與尚界將獨(dú)立建網(wǎng),華為鴻蒙智行廣積糧“急”稱王 余承東回應(yīng)有iOS安卓為何還做鴻蒙:鴻蒙有三大優(yōu)勢(shì) iFixit 實(shí)測(cè)蘋果 iPad 自助維修服務(wù):拆卸屏幕就需 32 個(gè)步驟 惠普光影精靈9游戲本限時(shí)特惠3599元 聯(lián)想拯救者Y7000P游戲本直降1899元 從青銅到王者:《魔獸世界:WLK》四階段神器,你是哪個(gè)級(jí)別的英雄 《王者榮耀》馬年限定塵埃落定!周瑜紫焰突襲,多星元返場(chǎng),韓信新皮引期待 王者榮耀世界春溪原地區(qū)在哪里,春溪原具體位置一覽 王者榮耀中你的星座特點(diǎn)與哪一位本命英雄相似?我是處女座貂蟬 「王者榮耀」“海爾兄弟”混成“難兄難弟”,S40賽季趙云橘右京還是難玩啊 ‏“榮耀手機(jī)煥新”發(fā)力!400 系列首銷成績(jī)見證品牌逆襲崛起 王者榮耀「熱門套路評(píng)測(cè)」快跑小喬,跑的越快送的越快 《尋夢(mèng)絲路》手游:“絲路秘籍大公開:商隊(duì)馳騁,智取財(cái)富與榮耀!” 四十年沉淀,鑄就上汽大眾合資2.0時(shí)代傳奇 《尋夢(mèng)絲路》手游:“絲路秘籍大公開:商隊(duì)馳騁,財(cái)富與榮耀雙收!” 《王者榮耀》選擇大于努力,S39末期發(fā)育路英雄推薦,孫尚香下賽季更猛 《三角洲行動(dòng)》DAU破1200萬(wàn)!騰訊天美FPS《三角洲行動(dòng)》招聘中 《王者榮耀》英魂之刃2025HEL第四周賽果炸裂!“英魂第一C”助WDG挑落王者 榮耀集結(jié),深刻錘煉|高金MBA“2025品格領(lǐng)導(dǎo)力”訓(xùn)練營(yíng)燃情回顧 王者紛爭(zhēng)戰(zhàn)力提升綜合技巧與資源! 這陣容國(guó)服魯班七號(hào)來(lái)了都要挨揍,控場(chǎng)太多別拿呆射 王者榮耀前線-熾焰神殿試煉開啟! 2016年老皮爆殺2022年榮耀典藏,武圣為何逐漸沒(méi)落? 王者榮耀人機(jī)水平:起初為頂替掉線玩家,可秒殺比賽級(jí)玩家 王者對(duì)決高級(jí)招募刪除改動(dòng)詳解 《英雄聯(lián)盟》廣袤的符文之地中,每一位英雄都宛如一顆獨(dú)特的星辰,散發(fā)著迷人的魅力 王者榮耀:莊周沒(méi)了怎么爆殺鬼谷子?遇到奇葩輔助怎么玩好射手? 一汽紅旗:未來(lái)5年推出20余款新車并同步進(jìn)入海外市場(chǎng) 《劍星》閃耀登陸PC!極致劍術(shù)美學(xué),開啟你的高燃冒險(xiǎn)之旅
IGBT電子社區(qū) 車評(píng)報(bào) 嗨汽車 車圈人 播報(bào)網(wǎng) 觀經(jīng)濟(jì) 今日媒體 速推科技 北方報(bào) 家電庫(kù) 123懸賞網(wǎng) 有福吧 康百順 多趣味 檸檬網(wǎng) 樂(lè)趣幫 趣味課堂 返利翁 王晨云 招商牌 微學(xué)堂 看報(bào)紙 報(bào)紙迷 樂(lè)米多 商媒體 小麥多 聚賢班 北京日?qǐng)?bào)網(wǎng) 南極財(cái)經(jīng)網(wǎng) 華夏買賣網(wǎng) 新車庫(kù) 微推堂 團(tuán)結(jié)人 幫眾人 新車測(cè)評(píng)網(wǎng) 趣玩多 二手車測(cè)評(píng)網(wǎng) 點(diǎn)我98 新車測(cè)評(píng)網(wǎng) 321網(wǎng)址導(dǎo)航 聚財(cái)星 集奇豆 百萬(wàn)盟 我要98 金米豆 網(wǎng)優(yōu)村 查看網(wǎng) 百順樂(lè) 通順辦 杏園春 全職人才網(wǎng) 科技端 汽車星 聚人網(wǎng) 123670網(wǎng) 人才招聘網(wǎng) 起航網(wǎng) 筆下智慧網(wǎng) 明德語(yǔ)錄 大連人人網(wǎng) 邯鄲雅閣網(wǎng) 魅力自貢網(wǎng) 財(cái)經(jīng)團(tuán) 體育媒體網(wǎng) 廣大媒體網(wǎng) 房產(chǎn)知識(shí)網(wǎng) 北師學(xué)習(xí)網(wǎng) 財(cái)稅表 企稅策劃 手機(jī)星 我要久久發(fā) 兼職館 藍(lán)印網(wǎng)絡(luò) 藝首龍 今日招聘網(wǎng) 同城招聘網(wǎng) 酒仙橋 手游盟 久久發(fā) 分金子 一技網(wǎng) 阿里蜘蛛 賬本網(wǎng)