

企業級 LLM 叢集部署實戰 (DeepSeek R1 671B)
觀看課程
總計 03:10:01
課程說明
你是否也曾有這樣的困擾?明明心中懷抱著無數創新的 AI 想法,卻受限於手邊的 GPU 資源,只能望著那些高階顯卡興嘆?您是否也曾為了訓練一個大型模型,耗費大量的時間與精力,最終卻因為算力不足而功虧一簣?在過去的一年裡,我們看到了量化模型的局限性,也體會到了滿血版全參數模型身為「教師模型」的重要性。然而,要如何駕馭這些強大的工具,卻成為了許多研究人員難以逾越的鴻溝。
我們深知,許多公司沒有足夠的硬體設備,但渴望學習如何建置和調教 H100 叢集。我們也知道,動輒上千萬的設備,很難在企業採購之前就讓資訊人員累積足夠的技術知識,因為連上手的機會都沒有。這不僅僅是一堂課程,更是一次難得的機會,讓您能夠親手體驗企業級 LLM 叢集部署的完整過程,掌握最新的 AI 技術,為台灣在 AI 模型推論與訓練上貢獻一份力量。讓我們一起突破算力的限制,釋放AI的無限潛能!👍
AI 的發展日新月異,但要在企業內部部署真正大規模的 LLM,依然是一個巨大的挑戰。在 AI 快速發展的今日,DeepSeek R1 的出現為產業帶來了重大突破。這個開源的大型語言模型不僅展現出優異的效能,更以其親民的價格與開放的特性,為 AI 領域開創了新的可能。
雖然說是「親民的價格」,但是你知道嗎?我們所熟知的 DeepSeek R1 滿血版(FP8),其實是一個擁有 6710 億 (671B) 個參數,光是模型的大小就高達 671GB。而要對滿血版的 DeepSeek R1 模型進行推論,更需要高達 1280GB 的 VRAM 才跑得動。由於一台搭載 H100 的伺服器最多只能裝 8 張顯卡,一張 H100 顯卡僅擁有 80GB VRAM,因此單一台主機最多只能提供 640GB 的 VRAM,這意味著要在企業內部部署 DeepSeek R1 671B 模型,至少需要 2 台 8x H100 的伺服器才能運行。重點是,光是一台插滿 8 張 H100 的主機(裸機),售價超過 1200 萬台幣,企業若要部署這樣的 AI 叢集,光硬體成本就要高達數千萬台幣,這還不包括其他硬體成本與維運成本。因此,要在企業級 GPU 叢集中部署與運行這樣的龐大模型,擁有相當高的資金與技術門檻。
我相信有很多人已經透過 Ollama 在家用 GPU 跑過量化版的 DeepSeek R1,但其實在企業級的 AI 應用中,建置滿血版的全參數模型有其必要性。因為我們可以透過全參數的模型擔任所謂的「教師模型」,協助企業蒸餾出各種中小型的專屬模型,再搭配 R1 或 s1 等技術,訓練出高品質的推理模型,此舉不但能大幅降低日後的企業在內部的推論成本,也能大幅提升推論的品質!
我這幾年在企業擔任顧問的過程中,發現許多高度管制的企業(如金融、保險、半導體業等等),其實都想要將 AI 技術應用在自己的業務上,但礙於資料不能外流,設備必須落地等因素,遲遲無法順利的展開 AI 的導入與應用。尤其是 GPU 的基礎建設成本高昂,相對的人才也極度缺乏,市場上真的有 GPU 叢集架設經驗的人猶如鳳毛麟角,導致許多企業即便有資源,也只能止步不前。
因此,本次的課程,我特別邀請到 APMIC 的共同創辦人暨工程副總 Dave 來為我們分享企業級 LLM 叢集部署實戰,我們會以 DeepSeek R1 671B 為例,詳細講解在企業內部架設模型推論叢集的完整過程。Dave 在 APMIC 擁有豐富的 GPU 叢集架設經驗,這次他將會在課堂上分享他多年來的心得與技巧,以及架設過程中可能遭遇到的問題與解決方法。
這應該是目前市面上唯一能夠深入解析 H100 多節點叢集推論的課程,這裡最難得的,就是能找到在業界擁有實務經驗,能抽出時間分享,還願意出來授課的講師。參加本次課程,還可以加入多奇教育訓練的 Discord 社群頻道,日後還能跟這些業界的 AI 菁英一起交流技術,這將是一個非常難得的學習機會,錯過就不知道要等多久!
課程特色
- 本課程將會分享企業級 LLM 部署在實務上最關鍵的知識儲備與實例展示
- 提供專屬 Discord 頻道,課後持續交流與學習,打造長效社群
- 課程提供 3 個月內可免費無限次重播!
課程主題
- 企業級 LLM 部署起手式
- 開源模型與推理模型
- 企業級部署考量要素
- 安全性與隱私性議題
- 規劃與設計硬體需求
- 規劃與設計軟體需求
- 規劃與設計網路拓樸
- 規劃與設計電力需求
- 部署策略深度剖析
- 分散式計算的理論基礎
- 部署方案比較
- Ollama 與 vLLM
- 從 NIM 到 vLLM 再到 Ray
- 從 SGL 到 RL
- 提升推論效能的關鍵知識 - 平行運算
- 將 70B 的模型跑在 8x H100 的環境以提升效能
- 將 8 張 H100 跑 4 個 70B 模型
- 提升推論效能的關鍵知識 - 分散式運算
- 將 1 個模型切成 8 等分,平均分散跑在不同的 H100
- 效能評估
- 如何對 H100 的算力進行 Benchmark
- 相同的硬體上在不同模型之間如何評估效能
- 展示 DeepSeek R1 671B 部署過程
- 示範透過 Ray 建立多節點叢集的過程
- 示範如何透過 vLLM 進行 DeepSeek R1 671B 推論
- 示範如何透過 SGL 進行 DeepSeek R1 671B 推論
- 介紹叢集多節點環境常見的部署問題與解決方案
適合對象
- 企業 IT 架構師 / 技術長 (CTO) / AI 領域決策者
- 機器學習工程師 / AI 研究員 / 資料科學家
- 雲端架構師 / 叢集運維工程師 / DevOps
- 對企業級 AI 叢集有興趣的資深工程師
- 企業內部 AI 專案負責人 / 產品經理
- 金融、保險、半導體等高度管制產業的技術人員
注意事項
- 本課程不適用於對 AI 技術完全陌生的初學者
預期效益
- 提升企業內部 AI 部署能力
- 模型部署的技術知識與實作能力提升
- 降低 AI 導入門檻,提升企業競爭力
- 瞭解如何掌控大規模 AI 基礎設施 (H100+)
- 本次課程的知識可運用在大型 GPU 叢集上
- 能夠了解透過叢集進行分散式推論的技巧
- 經驗也可用在微調、預訓練、後訓練等任務上
講者簡歷
多奇數位創意有限公司 技術總監 Will 保哥
- 2024 年獲選 ML/Gen AI (Google Developer Expert) 谷歌開發專家
- 2019 年獲選 Microsoft Regional Director (RD) 微軟技術社群區域總監
- 2018 年榮獲 Angular/Web GDE (Google Developer Expert) 谷歌開發專家
- 2008 至今連續 17 度當選 Microsoft MVP 微軟最有價值專家 (Developer Technologies)。
- 2013 年曾獲選第 6 屆iT邦幫忙鐵人賽【iT邦幫忙鐵人賽年度大獎】、【開發技術組年度鐵人】、【iT邦幫忙鐵人賽優選】三項殊榮。
- 熟悉 Angular、JavaScript、.NET、C#、ASP.NET MVC、Go、Docker、Kubernetes 相關技術。擅長 DevOps 與組織文化建立、軟體團隊建構與管理。
- 曾擔任 Visual Studio 2010 上市發表會講師、MSDN 講座講師、TechDays Taiwan 2010~2015 講師、TechEd China 2011, 2013 講師。
- 出版著作有 ASP.NET MVC 2 開發實戰、Windows Phone 開發實戰、ASP.NET MVC 4 開發實戰等書籍。
- 部落格: http://blog.miniasp.com/
- 粉絲頁: https://www.facebook.com/will.fans
APMIC 共同創辦人暨工程副總 宋豐价 (Dave)
超過七年的 AI 軟體開發經驗,因為負責管理大量的 GPU,開始玩起各種大型的語言模型,包含 Mistral 123B、Llama 400B、Deepseek R1 等,目前是 APMIC 的工程副總,負責管理 GPU 的大小事務,熟悉分散式推論、分散式訓練,最高曾擁有管理超過 40 台高階 GPU 節點,包含雲端跟地端,超過 300 片的 H100 使用經驗。