Course Image
Course Image

企業級 LLM 叢集部署實戰 (DeepSeek R1 671B)

課程說明

你是否也曾有這樣的困擾?明明心中懷抱著無數創新的 AI 想法,卻受限於手邊的 GPU 資源,只能望著那些高階顯卡興嘆?您是否也曾為了訓練一個大型模型,耗費大量的時間與精力,最終卻因為算力不足而功虧一簣?在過去的一年裡,我們看到了量化模型的局限性,也體會到了滿血版全參數模型身為「教師模型」的重要性。然而,要如何駕馭這些強大的工具,卻成為了許多研究人員難以逾越的鴻溝。

我們深知,許多公司沒有足夠的硬體設備,但渴望學習如何建置和調教 H100 叢集。我們也知道,動輒上千萬的設備,很難在企業採購之前就讓資訊人員累積足夠的技術知識,因為連上手的機會都沒有。這不僅僅是一堂課程,更是一次難得的機會,讓您能夠親手體驗企業級 LLM 叢集部署的完整過程,掌握最新的 AI 技術,為台灣在 AI 模型推論與訓練上貢獻一份力量。讓我們一起突破算力的限制,釋放AI的無限潛能!👍

AI 的發展日新月異,但要在企業內部部署真正大規模的 LLM,依然是一個巨大的挑戰。在 AI 快速發展的今日,DeepSeek R1 的出現為產業帶來了重大突破。這個開源的大型語言模型不僅展現出優異的效能,更以其親民的價格與開放的特性,為 AI 領域開創了新的可能。

雖然說是「親民的價格」,但是你知道嗎?我們所熟知的 DeepSeek R1 滿血版(FP8),其實是一個擁有 6710 億 (671B) 個參數,光是模型的大小就高達 671GB。而要對滿血版的 DeepSeek R1 模型進行推論,更需要高達 1280GB 的 VRAM 才跑得動。由於一台搭載 H100 的伺服器最多只能裝 8 張顯卡,一張 H100 顯卡僅擁有 80GB VRAM,因此單一台主機最多只能提供 640GB 的 VRAM,這意味著要在企業內部部署 DeepSeek R1 671B 模型,至少需要 2 台 8x H100 的伺服器才能運行。重點是,光是一台插滿 8 張 H100 的主機(裸機),售價超過 1200 萬台幣,企業若要部署這樣的 AI 叢集,光硬體成本就要高達數千萬台幣,這還不包括其他硬體成本與維運成本。因此,要在企業級 GPU 叢集中部署與運行這樣的龐大模型,擁有相當高的資金與技術門檻。

我相信有很多人已經透過 Ollama 在家用 GPU 跑過量化版的 DeepSeek R1,但其實在企業級的 AI 應用中,建置滿血版的全參數模型有其必要性。因為我們可以透過全參數的模型擔任所謂的「教師模型」,協助企業蒸餾出各種中小型的專屬模型,再搭配 R1 或 s1 等技術,訓練出高品質的推理模型,此舉不但能大幅降低日後的企業在內部的推論成本,也能大幅提升推論的品質!

我這幾年在企業擔任顧問的過程中,發現許多高度管制的企業(如金融、保險、半導體業等等),其實都想要將 AI 技術應用在自己的業務上,但礙於資料不能外流,設備必須落地等因素,遲遲無法順利的展開 AI 的導入與應用。尤其是 GPU 的基礎建設成本高昂,相對的人才也極度缺乏,市場上真的有 GPU 叢集架設經驗的人猶如鳳毛麟角,導致許多企業即便有資源,也只能止步不前。

因此,本次的課程,我特別邀請到 APMIC 的共同創辦人暨工程副總 Dave 來為我們分享企業級 LLM 叢集部署實戰,我們會以 DeepSeek R1 671B 為例,詳細講解在企業內部架設模型推論叢集的完整過程。Dave 在 APMIC 擁有豐富的 GPU 叢集架設經驗,這次他將會在課堂上分享他多年來的心得與技巧,以及架設過程中可能遭遇到的問題與解決方法。

這應該是目前市面上唯一能夠深入解析 H100 多節點叢集推論的課程,這裡最難得的,就是能找到在業界擁有實務經驗,能抽出時間分享,還願意出來授課的講師。參加本次課程,還可以加入多奇教育訓練的 Discord 社群頻道,日後還能跟這些業界的 AI 菁英一起交流技術,這將是一個非常難得的學習機會,錯過就不知道要等多久!

課程特色

  • 本課程將會分享企業級 LLM 部署在實務上最關鍵的知識儲備與實例展示
  • 提供專屬 Discord 頻道,課後持續交流與學習,打造長效社群
  • 課程提供 3 個月內可免費無限次重播!

課程主題

  • 企業級 LLM 部署起手式
    • 開源模型與推理模型
    • 企業級部署考量要素
    • 安全性與隱私性議題
    • 規劃與設計硬體需求
    • 規劃與設計軟體需求
    • 規劃與設計網路拓樸
    • 規劃與設計電力需求
  • 部署策略深度剖析
    • 分散式計算的理論基礎
    • 部署方案比較
      • Ollama 與 vLLM
      • 從 NIM 到 vLLM 再到 Ray
      • 從 SGL 到 RL
    • 提升推論效能的關鍵知識 - 平行運算
      • 將 70B 的模型跑在 8x H100 的環境以提升效能
      • 將 8 張 H100 跑 4 個 70B 模型
    • 提升推論效能的關鍵知識 - 分散式運算
      • 將 1 個模型切成 8 等分,平均分散跑在不同的 H100
    • 效能評估
      • 如何對 H100 的算力進行 Benchmark
      • 相同的硬體上在不同模型之間如何評估效能
  • 展示 DeepSeek R1 671B 部署過程
    • 示範透過 Ray 建立多節點叢集的過程
    • 示範如何透過 vLLM 進行 DeepSeek R1 671B 推論
    • 示範如何透過 SGL 進行 DeepSeek R1 671B 推論
    • 介紹叢集多節點環境常見的部署問題與解決方案

適合對象

  • 企業 IT 架構師 / 技術長 (CTO) / AI 領域決策者
  • 機器學習工程師 / AI 研究員 / 資料科學家
  • 雲端架構師 / 叢集運維工程師 / DevOps
  • 對企業級 AI 叢集有興趣的資深工程師
  • 企業內部 AI 專案負責人 / 產品經理
  • 金融、保險、半導體等高度管制產業的技術人員

注意事項

  • 本課程不適用於對 AI 技術完全陌生的初學者

預期效益

  • 提升企業內部 AI 部署能力
  • 模型部署的技術知識與實作能力提升
  • 降低 AI 導入門檻,提升企業競爭力
  • 瞭解如何掌控大規模 AI 基礎設施 (H100+)
  • 本次課程的知識可運用在大型 GPU 叢集上
  • 能夠了解透過叢集進行分散式推論的技巧
  • 經驗也可用在微調、預訓練、後訓練等任務上

講者簡歷

多奇數位創意有限公司 技術總監 Will 保哥

  • 2024 年獲選 ML/Gen AI (Google Developer Expert) 谷歌開發專家
  • 2019 年獲選 Microsoft Regional Director (RD) 微軟技術社群區域總監
  • 2018 年榮獲 Angular/Web GDE (Google Developer Expert) 谷歌開發專家
  • 2008 至今連續 17 度當選 Microsoft MVP 微軟最有價值專家 (Developer Technologies)。
  • 2013 年曾獲選第 6 屆iT邦幫忙鐵人賽【iT邦幫忙鐵人賽年度大獎】、【開發技術組年度鐵人】、【iT邦幫忙鐵人賽優選】三項殊榮。
  • 熟悉 Angular、JavaScript、.NET、C#、ASP.NET MVC、Go、Docker、Kubernetes 相關技術。擅長 DevOps 與組織文化建立、軟體團隊建構與管理。
  • 曾擔任 Visual Studio 2010 上市發表會講師、MSDN 講座講師、TechDays Taiwan 2010~2015 講師、TechEd China 2011, 2013 講師。
  • 出版著作有 ASP.NET MVC 2 開發實戰、Windows Phone 開發實戰、ASP.NET MVC 4 開發實戰等書籍。
  • 部落格: http://blog.miniasp.com/
  • 粉絲頁: https://www.facebook.com/will.fans

APMIC 共同創辦人暨工程副總 宋豐价 (Dave)

超過七年的 AI 軟體開發經驗,因為負責管理大量的 GPU,開始玩起各種大型的語言模型,包含 Mistral 123B、Llama 400B、Deepseek R1 等,目前是 APMIC 的工程副總,負責管理 GPU 的大小事務,熟悉分散式推論、分散式訓練,最高曾擁有管理超過 40 台高階 GPU 節點,包含雲端跟地端,超過 300 片的 H100 使用經驗。

企業級 LLM 叢集部署實戰 (DeepSeek R1 671B)

NT$ 4,500

購買課程
企業級 LLM 叢集部署實戰 (DeepSeek R1 671B)

NT$ 4,500