 |
|
|
| |
|
不止量化及LORA - 原生PyTorch性能及記憶體優化精解
|
|
|
|
|
|
出版日期:2025-04-16
|
|
ISBN:9786267569696
|
|
定價:790元
特價:90折!711元
|
|
|
|
參考分類(CAT):
|
|
參考分類(CIP): 電腦科學
|
|
|
|
|
|
|
|
|
內容簡介 不止量化及LORA - 原生PyTorch性能及記憶體優化精解
https://youtu.be/Fwnt1MQu4mc
✴︎深入介紹深度學習硬體,包括 CPU、GPU、記憶體與分散式系統。
✴︎系統化學習 PyTorch 張量、運算元、自動微分與動態圖機制。
✴︎提供 PyTorch 性能分析工具,幫助診斷與提升執行效率。
✴︎優化資料載入與前處理,提升 Dataset 與 DataLoader 效能。
✴︎介紹單卡 GPU 訓練最佳化,如 Batch Size 調整與同步減少。
✴︎探討 GPU 記憶體管理,降低訓練時的記憶體佔用與浪費。
✴︎解析分散式訓練,涵蓋資料平行、模型平行與多機多卡技術。
✴︎涵蓋高級最佳化,如混合精度、自訂運算元與計算圖優化。
✴︎深入解析 GPT-2 訓練最佳化,提供實戰經驗與效能提升。
✴︎從程式碼到硬體調校,建立高效 PyTorch 訓練與開發流程。 作者介紹 張愛玲
本科畢業於清華大學電子工程系,後在美國伊利諾伊大學香檳分校獲得計算機科學碩士學位,是AI系統工程領域的資深技術專家。作為深度學習框架PyTorch核心團隊成員,參與了多個關鍵組件的研發與優化工作。同時,她作為技術負責人主導了PyTorch/XLA和Taichi編譯器等多個具有廣泛影響力的開源項目。目前在工業界專註於大規模語言模型訓練的基礎設施開發與性能優化工作。
楊占略
清華大學本科,哥倫比亞大學碩士,資深技術專家。曾先後任職於蘋果、百度、太極圖形公司,分別從事深度學習推理框架、訓練框架PaddlePaddle以及Taichi編譯器的開發。現就職於大疆公司,聚焦於端側模型優化、推理部署相關工作。 目次 第 1 章 歡迎來到這場大模型競賽
1.1 模型規模帶來的挑戰
1.2 資料規模帶來的挑戰
1.3 模型規模與資料增長的應對方法
第 2 章 深度學習必備的硬體知識
2.1 CPU 與記憶體
2.1.1 記憶體
2.1.2 CPU
2.2 硬碟
2.3 GPU
2.3.1 CPU 的局限性
2.3.2 GPU 的硬體結構
2.3.3 GPU 程式設計模型及其硬體對應
2.3.4 GPU 的關鍵性能指標
2.3.5 顯示記憶體與記憶體間的資料傳輸
2.4 分散式系統
2.4.1 單機多卡的通訊
2.4.2 多機多卡的通訊
2.4.3 分散式系統的資料儲存
第 3 章 深度學習必備的 PyTorch 知識
3.1 PyTorch 的張量資料結構
3.1.1 張量的基本屬性及建立
3.1.2 存取張量的資料
3.1.3 張量的儲存方式
3.1.4 張量的視圖
3.2 PyTorch 中的運算元
3.2.1 PyTorch 的運算元函數庫
3.2.2 PyTorch 運算元的記憶體分配
3.2.3 運算元的呼叫過程
3.3 PyTorch 的動態圖機制
3.4 PyTorch 的自動微分系統
3.4.1 什麼是自動微分
3.4.2 自動微分的實現
3.4.3 Autograd 擴充自訂運算元
3.5 PyTorch 的非同步執行機制
第 4 章 定位性能瓶頸的工具和方法
4.1 配置性能分析所需的軟硬體環境
4.1.1 減少無關程式的干擾
4.1.2 提升PyTorch 程式的可重複性
4.1.3 控制GPU 頻率
4.1.4 控制CPU 的性能狀態和工作頻率
4.2 精確測量程式執行時間
4.2.1 計量CPU 程式的執行時間
4.2.2 程式預熱和多次執行取平均
4.2.3 計量GPU 程式的執行時間
4.2.4 精確計量GPU 的執行時間
4.3 PyTorch 性能分析器
4.3.1 性能分析
4.3.2 顯示記憶體分析
4.3.3 視覺化性能圖譜
4.3.4 如何定位性能瓶頸
4.4 GPU 專業分析工具
4.4.1 Nsight Systems
4.4.2 Nsight Compute
4.5 CPU 性能分析工具
4.5.1 Py-Spy
4.5.2 strace
4.6 本章小結
第 5 章 資料載入和前置處理專題
5.1 資料連線的準備階段
5.2 資料集的獲取和前置處理
5.2.1 獲取原始資料
5.2.2 原始資料的清洗
5.2.3 資料的離線前置處理
5.2.4 資料的儲存
5.2.5 PyTorch 與第三方函數庫的互動
5.3 資料集的載入和使用
5.3.1 PyTorch 的 Dataset 封裝
5.3.2 PyTorch 的 DataLoader 封裝
5.4 資料載入性能分析
5.4.1 充分利用CPU 的多核心資源
5.4.2 最佳化CPU 上的計算負載
5.4.3 減少不必要的CPU 執行緒
5.4.4 提升磁碟效率
5.5 本章小結
第 6 章 單卡性能最佳化專題
6.1 提高資料任務的平行度
6.1.1 增加資料前置處理的平行度
6.1.2 使用非同步介面提交資料傳輸任務
6.1.3 資料傳輸與GPU 計算任務平行
6.2 提高GPU 計算任務的效率
6.2.1 增大BatchSize
6.2.2 使用融合運算元
6.3 減少CPU 和GPU 間的同步
6.4 降低程式中的額外銷耗
6.4.1 避免張量的建立銷耗
6.4.2 關閉不必要的梯度計算
6.5 有代價的性能最佳化
6.5.1 使用低精度資料進行裝置間拷貝
6.5.2 使用性能特化的最佳化器實現
6.6 本章小結
第 7 章 單卡顯示記憶體最佳化專題
7.1 PyTorch 的顯示記憶體管理機制
7.2 顯示記憶體的分析方法
7.2.1 使用PyTorch API 查詢當前顯示記憶體狀態
7.2.2 使用PyTorch 的顯示記憶體分析器
7.3 訓練過程中的顯示記憶體佔用
7.4 通用顯示記憶體重複使用方法
7.4.1 使用原位操作運算元
7.4.2 使用共用儲存的操作
7.5 有代價的顯示記憶體最佳化技巧
7.5.1 跨批次梯度累加
7.5.2 即時重算前向張量
7.5.3 將GPU 顯示記憶體下放至CPU 記憶體
7.5.4 降低最佳化器的顯示記憶體佔用
7.6 最佳化Python 程式以減少顯示記憶體佔用
7.6.1 Python 垃圾回收機制
7.6.2 避免出現迴圈依賴
7.6.3 謹慎使用全域作用域
7.7 本章小結
第 8 章 分散式訓練專題
8.1 分散式策略概述
8.2 集合通訊基本操作
8.3 應對資料增長的平行策略
8.3.1 資料平行策略
8.3.2 手動實現資料平行算法
8.3.3 PyTorch 的DDP 封裝
8.3.4 資料平行的C/P 值
8.3.5 其他資料維度的切分
8.4 應對模型增長的平行策略
8.4.1 靜態顯示記憶體切分
8.4.2 動態顯示記憶體切分
8.5 本章小結
第 9 章 高級最佳化方法專題
9.1 自動混合精度訓練
9.1.1 浮點數的表示方法
9.1.2 使用低精度資料型態的優缺點
9.1.3 PyTorch 自動混合精度訓練
9.2 自訂高性能運算元
9.2.1 自訂運算元的封裝流程
9.2.2 自訂運算元的後端程式實現
9.2.3 自訂運算元匯入Python
9.2.4 自訂運算元匯入PyTorch
9.2.5 在Python 中使用自訂運算元
9.3 基於計算圖的性能最佳化
9.3.1 torch.compile 的使用方法
9.3.2 計算圖的提取
9.3.3 圖的最佳化和後端程式生成
9.4 本章小結
第 10 章 GPT-2 最佳化全流程
10.1 GPT 模型結構簡介
10.2 實驗環境與機器配置
10.3 顯示記憶體最佳化
10.3.1 基準模型
10.3.2 使用跨批次梯度累加
10.3.3 開啟即時重算前向張量
10.3.4 使用顯示記憶體友善的最佳化器模式
10.3.5 使用分散式方法降低顯示記憶體佔用—FSDP
10.3.6 顯示記憶體最佳化小結
10.4 性能最佳化
10.4.1 基準模型
10.4.2 增加 BatchSize
10.4.3 增加資料前置處理的平行度
10.4.4 使用非同步介面完成資料傳輸
10.4.5 使用計算圖最佳化
10.4.6 使用float16 混合精度訓練
10.4.7 (可選)使用自訂運算元
10.4.8 使用單機多卡加速訓練
10.4.9 使用多機多卡加速訓練
10.4.10 性能最佳化小結
結語
1、五南網路會員所購買的商品均享有取貨7天的鑑賞期﹝包含國定假日、例假日﹞,退換貨之商品必需於取貨7天內辦理退換貨,否則恕不接受退換貨。
2、依照消費者保護法規定,凡消費者於網站購物均享有7天商品鑑賞期,唯需注意辦理退貨商品需保留完整外包裝、附件、外盒等等,才可辦理退貨。
3、如欲退貨,請在鑑賞期內將商品連同發票寄回,每張訂單限退一次。
4、鑑賞期非試用期,若您收到商品經檢視後有任何不合意之處,請立即依照退貨規定辦理退貨
1、若本網站已設團購價,請直接下訂即可。
2、如您需要其他類型產品團購,則請聯繫客服或直接將需求e-mail
至wunan2351960@gmail.com即可
一、購物說明 1.本站商品近60萬筆。(商品圖片、出版日期等相關資訊僅供參考,出貨一律是最新版本) ◎請注意:上架商品不等於一定可以出貨。(會有缺書而訂不到書的狀況,敬請體諒) 2.當您下訂時,我們會向出版訂書(約7-10個工作天)(政府出版品因受限於採購程序,平均補貨作業時間約 2~6週)。如有久候,敬請見諒。當出版社回覆缺書時,我們只能取消您的訂單。 3.當您下訂時您必須同意:訂單成立的第14天起,因缺某一本書無法出貨的訂單,本站有權利自動取消您的訂單。◎請注意:缺書取消訂單我們統一發送簡訊通知。如果您要部份出貨者,請留言後再重新下單。 4.、本站保留出貨的權利。 二、運費說明 1.宅配到府:滿999元免運費,未滿則加收65元(台灣本島),離島一律加收120元 2.五南門市取貨:未滿350,運費20元 3.揪團:免運費 三、退貨與退款說明 五南會員所購買的商品均享有取貨7天的猶豫期﹝包含國定假日、例假日﹞,退換貨之商品必需於取貨7天內辦理退換貨,否則恕不接受退換貨。 1.請注意!下列商品購買後不提供7天的猶豫期,請務必詳閱商品說明並再次確認確實有購買該項商品之需求及意願時始下單購買,有任何疑問並請先聯繫客服詢問: (1)客製化之商品。 (2)買斷不退之商品。 (3)報紙、期刊或雜誌。 (4)經消費者拆封之影音商品或電腦軟體。 (5)下載版軟體、資訊及電子書。 (6)涉及個人衛生,並經消費者拆封之商品,如:內衣褲、刮鬍刀…等。 (7)藝文展覽票券、藝文表演票券。 (8)易於腐敗、保存期限較短或解約時即將逾期。 2.退貨退款詳細說明: (1)如欲退貨,請在鑑賞期內將商品連同發票寄回,每張訂單限退一次。 (2)退換貨政策:請在收到商品後,立刻檢查商品是否正確,如果有問題或瑕疵,請於7天猶豫期內完成退換貨申請手續。辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 (3)退款說明:請您填寫退貨退款書,若您採信用卡付款,由客服人員辦理刷退手續。若採其他付款方式,我們會將退款,匯款至指定帳戶。以上需要14個工作天。 (4)退貨退款書請至【客服中心】點選『退換商品】的說明中下載。
1.每日09:00前截止訂單,包含出貨通知、缺書通知等。 3.上午9:00點以前下單,可在當日下午17:00以後,查詢出貨進度。例假日除外 4.上午9:00以後在下單,需在隔日17:00以後,方能查詢訂單出貨進度。例假日除外 5.當你使匯款或轉帳時,請務必提供帳戶末5碼之資訊,請拍照email或傳真給我方,否則須等與銀行確認後,才能出貨。 6.出貨是以下單時間為出貨先後的順序,也就是請先下單再查詢庫存,因為就算查完庫存,也可能無法先為你保留書籍(政府出版品因受限於採購程序,平均補貨作業時間約 2~6週)。
|
|
|
|
|
|
 |
不止量化及LORA - 原生PyTorch性能及記憶體優化精解
出版日期:2025-04-16
ISBN:9786267569696
定價:790元
特價:90折!711元
參考分類(CAT):
參考分類(CIP): 電腦科學