新書推薦:

《
消逝的韩光:华丽韩剧背后的血汗与悲鸣
》
售價:HK$
69.3

《
大学问·从“分治”到“整合”:明清湘黔边墙历史演进与结构变迁
》
售價:HK$
85.8

《
众神:四万年的人、物与信仰
》
售價:HK$
184.8

《
汗青堂丛书159·欧洲的熔炉:意大利文艺复兴与西方的崛起
》
售價:HK$
101.2

《
凌空之魂:五十岚大介短篇集 赠猫咪方银卡+鸮女明信片 自然寓言怪谈异色人外兽人都市奇谭漫画
》
售價:HK$
47.1

《
女性曼陀罗心理成长涂画书
》
售價:HK$
75.9

《
晚清困局:同治中兴的权力博弈与秩序重建
》
售價:HK$
85.8

《
BeamDojo原理与应用实践:构建具身智能系统
》
售價:HK$
119.9
|
| 編輯推薦: |
(1)作者经验丰富:一位作者是中国知名AI企业面壁智能的前开源技术社区负责人,一位作者是Meta前高级工程师和OPPO北美AI研究院的资深大模型专家。 (2)深入解读DS全系列模型底层技术创新:本书解读了DeepSeek的全系列模型,包括V2、V3、R1、Coder、和Math,深入挖掘DS核心技术背后的硬核创新。 (3)覆盖5大关键领域:针对DS全系列模型,深入剖析模型的架构设计、数据处理、基础设施、训练策略和模型量化,构建全面的知识体系。 (4)案例丰富,注重实战:从DS的代码实现到大模型的应用实践,本书提供丰富的案例分析和内容资源,帮助读者更好地理解和应用所学内容。 (5)逻辑严谨,条理清晰:内容结构精心设计,引导读者逐步从基础概念深入到高级主题,零基础的读者也能跟随书中思路,建立完整知识体系。
|
| 內容簡介: |
这是一本系统剖析DeepSeek系列大模型技术体系与实践路径的专著。本书立足于作者在大模型研发一线的深厚积累,结合深度学习、强化学习、分布式系统与模型优化等多领域知识,全面阐述 DeepSeek在模型架构、训练推理、基础设施及数据工程等方面的核心突破与工程实践。全书兼具理论严谨性与实践指导性,旨在帮助AI研究者、工程师和技术决策者深入理解当代大模型的关键技术,掌握高效、低成本构建和部署先进AI系统的方法。來源:香港大書城megBookStore,http://www.megbook.com.hk 本书分为两部分。 第一部分 DeepSeek学习前置知识(第1~5章)?? 从DeepSeek的模型概述和重要突破切入,系统介绍经典Transformer架构、强化学习基础、大语言模型中的RLHF和量化技术,以及分布式训练的基础知识,为读者奠定坚实的理论和技术基础。 第二部分 DeepSeek核心技术(第6~11章)?? 首先,深入解析DeepSeek的模型架构创新,包括 MoE、MLA与分词器设计,探讨跨模态对齐、负载均衡、基础设施优化及数据处理等关键议题,揭示其在高性能、低资源消耗背后的系统级工程实现。 然后,聚焦DeepSeek V3、VL2及开源推理模型的训练逻辑、推理及优化,涵盖训练策略、超参数设计、数据构建以及Prefill、Decode等推理阶段的深度优化,为构建高效、可扩展的AI系统提供完整方法论和实战参考。 本书不仅透彻解读技术报告,更重视将前沿理论与工业实践相结合,帮助读者理解AI系统构建的本质规律与发展趋势,为学术界和工业界提供了一条清晰、可复现的高效能人工智能研发路径。
|
| 關於作者: |
刘丹 大模型算法专家,面壁智能开源社区前技术负责人。先后在科大讯飞、面壁智能、国防科技大学等企业和高校担任算法专家和技术负责人。精通模型架构、模型训练、效率优化、前沿AI技术落地。热衷于技术布道,开源的技术报告浏览量超过30万人次,在GitHub上开源的项目获得了超过30k的星标(Star)。拥有丰富的军工级、重大企业级项目经验,多个重大项目进入央视直播。 尹俊希 大模型领域资深专家,在AI领域有多年的从业经验,在学术界和工业界均有广泛的影响力。曾任Facebook高级工程师及OPPO北美人工智能研究院研究员。精通算法设计、模型架构、模型训练及强化学习等前沿技术,尤其专注于大模型的技术探索与产业应用,近年来在该方向取得多项重要成果。
|
| 目錄:
|
前 言 第一部分 DeepSeek学习前置知识 第1章 认识DeepSeek3 1.1 DeepSeek的模型介绍4 1.2 DeepSeek的重要突破5 1.2.1 为开源做贡献5 1.2.2 性能大幅提升7 1.2.3 成本显著降低9 1.2.4 算法创新10 1.3 DeepSeek系列模型与其他大模型的 介绍13 1.3.1 DeepSeek系列模型13 1.3.2 国外知名大模型14 1.3.3 国内知名大模型18第2章 经典Transformer架构23 2.1 Transformer架构的特点23 2.2 Transformer的基本原理25 2.2.1 分词器26 2.2.2 词嵌入层26 2.2.3 位置编码模块27 2.2.4 自注意力模块30 2.2.5 多头注意力模块34 2.2.6 前馈神经网络模块36 2.2.7 残差连接和层归一化模块38 2.2.8 Encoder-Decoder架构44 2.3 Transformer架构下的计算 复杂度50 2.3.1 矩阵乘法的计算复杂度50 2.3.2 Transfomer架构下的计算量 推导51 2.4 Decoder模式下的推理与训练55 2.4.1 Mask矩阵详解55 2.4.2 具体训练和推理57 2.5 绝对位置编码与相对位置编码62 2.5.1 绝对位置编码62 2.5.2 相对位置编码63 2.5.3 绝对位置编码与相对位置 编码的对比65 第3章 强化学习基础67 3.1 基础概念68 3.2 大语言模型中的RLHF69 3.2.1 PPO69 3.2.2 DPO74 3.3 GRPO76 3.4 大语言模型中的强化学习训练 数据格式78 第4章 大语言模型量化85 4.1 大语言模型精度基础知识85 4.2 量化基础知识88 4.2.1 线性量化88 4.2.2 非线性量化88 4.2.3 对称量化89 4.2.4 非对称量化89 4.2.5 量化感知训练90 4.2.6 训练后量化90 4.2.7 反量化91 4.3 分组量化92 4.3.1 分组量化的优点92 4.3.2 分组量化的分组方式93 4.4 影响量化后模型精度与速度的 因素96 4.5 常见的量化算法98 4.5.1 LLM.INT898 4.5.2 AWQ102 4.5.3 GPTQ105 第5章 大语言模型分布式训练 基础知识108 5.1 通信原语108 5.1.1 Reduce109 5.1.2 Broadcast109 5.1.3 Gather110 5.1.4 Scatter111 5.1.5 All-Reduce112 5.1.6 All-Gather113 5.2 数据并行113 5.3 张量并行116 5.3.1 张量并行——行并行116 5.3.2 张量并行——列并行117 5.3.3 行并行与列并行的差别118 5.4 流水线并行120 5.5 序列并行121 5.6 “专家”并行122第二部分 DeepSeek核心技术 第6章 DeepSeek的模型架构128 6.1 MoE架构129 6.1.1 MoE的基本原理129 6.1.2 MoE架构下计算量下降的 分析137 6.2 MLA架构139 6.2.1 MHA140 6.2.2 GQA142 6.2.3 MLA145 6.3 分词器设计149 6.3.1 BPE149 6.3.2 BBPE154 6.3.3 分词器对模型性能的 影响158 6.4 DeepSeek VL2模型的原理159 6.4.1 什么是跨模态对齐160 6.4.2 DeepSeek VL2模型对高清 图像的处理160 第7章 MoE架构负载均衡技术 详解163 7.1 负载均衡的意义与挑战163 7.1.1 卡间负载均衡163 7.1.2 节点间负载均衡165 7.1.3 MoE架构的“专家”负载 均衡168 7.2 DeepSeek V3的负载均衡171 7.2.1 全局无损失负载均衡171 7.2.2 序列间负载均衡172 7.2.3 节点与卡间的通信负载 均衡175 7.3 DeepSeek V2的负载均衡176 7.3.1 设备级负载均衡176 7.3.2 “专家”级负载均衡176 7.3.3 通信负载均衡177 第8章 DeepSeek V3在基础 设施层的优化178 8.1 混合精度训练178 8.1.1 为什么要进行混合精度 训练178 8.1.2 传统的混合精度训练 框架179 8.1.3 DeepSeek V3的混合精度 训练181 8.2 Dualpipe183 8.3 分块量化计算188 8.3.1 Tensor Core的FP8数值 溢出188 8.3.2 DeepSeek V3的分块量化 计算原理190 第9章 数据处理与质量提升196 9.1 预训练数据工程196 9.1.1 预训练数据的一般处理 流程196 9.1.2 数据去重的常见算法197 9.1.3 数据质量保障198 9.1.4 预训练数据的格式198 9.1.5 DeepSeek预训练数据的 处理199 9.2 SFT数据的构建与处理201 9.2.1 SFT数据的一般格式和 内容201 9.2.2 基于教师模型的数据 蒸馏202 9.2.3 构建SFT数据的一般 原则203 9.3 RLHF数据进化203 9.3.1 RLHF的基本作用与 流程203 9.3.2 RLHF数据的格式与 构建204 9.4 DeepSeek Math的数据处理205 9.4.1 初始数据准备205 9.4.2 数据预处理与召回206 9.4.3 迭代优化206 9.4.4 基准污染过滤206 9.4.5 关键结果与收敛判断207 9.4.6 SFT数据构建207 第10章 DeepSeek的训练逻辑209 10.1 DeepSeek V3的训练逻辑209 10.1.1 FIM209 10.1.2 MTP210 10.1.3 超参数设计218 10.1.4 SFT数据构建218 10.1.5 强化学习220 10.2 DeepSeek开源推理模型的训练 逻辑222 10.2.1 推理模型的主要特点222 10.2.2 DeepSeek R1的构造 逻辑223 10.2.3 DeepSeek R1的奖励和 奖励模型224 10.2.4 Open-R1中的奖励225 10.2.5 DeepSeek R1-Zero为什么 跳过SFT231 10.2.6 DeepSeek R1为什么需要 进行少量Long-cot数据的 监督微调232 10.3 DeepSeek VL2的训练逻辑232 10.3.1 初始阶段:视觉-语言 对齐232 10.3.2 预训练阶段:多模态联合 学习233 10.3.3 微调阶段:指令跟踪和 对话能力增强233 第11章 DeepSeek的推理及优化235 11.1 DeepSeek推理阶段的报告 原文235 11.2 推理阶段的综合解读239 11.3 Prefill阶段的推理设计 及优化240 11.4 Decode阶段的推理设计 及优化241
|
| 內容試閱:
|
前言 为何写作本书 自2022年ChatGPT横空出世以来,大语言模型(Large Language Model,LLM,或简称大模型)的发展浪潮以惊人的速度席卷全球,彻底改变了人工智能领域的竞争格局。从国外的GPT、Llama、Claude,到国内的Qwen、GLM、Kimi、MiniMax等,各大模型在短短两年间展开了激烈的技术角逐。DeepSeek作为这一领域的先行者,从第一代产品的推出,到第二代在中文开源领域追平最强模型Qwen,再到DeepSeek V3和R1引发全球关注,成功复现了ChatGPT的辉煌时刻,展现了技术创新的强大潜力。然而,尽管大语言模型在自然语言处理、知识推理、代码生成等领域取得了突破性进展,通用人工智能(AGI)的实现仍然任重道远。当前的技术更多是在特定任务上表现出色,距离真正的“智能”还有很长的路要走。与此同时,行业竞争也远未结束,技术的迭代速度不断加快,新的挑战和机遇层出不穷。在这样的背景下,深入了解当前最先进的模型及其技术原理,不仅能够帮助我们把握人工智能领域的前沿动态,还能为职业发展提供强有力的支持。无论是从事算法研发、产品设计还是战略规划工作,对最新技术的深刻理解都将成为核心竞争力。此外,大语言模型的广泛应用也为各行各业带来了新的可能性,从教育、医疗到金融、娱乐,其潜在价值不可估量。本书旨在为读者提供一个深入技术底层的视角,帮助大家更好地理解大语言模型的技术演进、应用场景以及未来趋势。无论你是人工智能领域的研究者、从业者,还是对技术充满好奇的普通读者,相信都能从本书中获益,为未来的职业发展或学术研究奠定坚实的基础。 本书主要内容 本书内容围绕DeepSeek的底层技术创新展开,旨在帮助读者全面而深入地理解DeepSeek的工作机制和核心原理。为了确保所有读者都能顺利跟随书中的讲解节奏,我们首先介绍了必要的DeepSeek学习前置知识,涵盖基础概念和技术背景,为后续深入探讨奠定坚实的基础。在模型方面,本书对DeepSeek系列进行了全方位解读,包括但不限于: ●DeepSeek V2:探讨其改进之处和在性能提升上的具体表现。 ●DeepSeek Coder:专注于代码生成与理解能力的增强,展示其如何优化编程任务。 ●DeepSeek V3:深入分析最新版本的技术进步及其带来的新功能和应用场景。 ●DeepSeek Math:特别聚焦于数学问题解决能力的强化,解析其在处理复杂数学任务时的独特方法。 ●DeepSeek R1:探讨其强大的推理模型。从技术栈的角度看,本书覆盖了多个关键领域,以确保读者能够构建全面的知识体系。 ●模型结构:详细介绍不同DeepSeek版本的架构设计,帮助读者理解不同组件的功能及其相互作用。 ●数据处理:讨论数据预处理、特征工程等重要步骤,以及这些过程如何影响最终模型的性能。 ●基础设施:探索大语言模型训练和部署所需的硬件与软件环境。 ●训练策略:分享有效的训练方法和技巧,包括超参数调优、分布式训练等。 ●强化学习:解释强化学习在DeepSeek中的应用,以及如何通过它来提升模型的表现。 ●模型量化:探讨如何通过模型量化技术提高推理效率,同时保持模型的高性能。 本书读者对象 本书适合希望深入了解DeepSeek底层原理的人士,包括与大语言模型相关的高校教师、研究员、本科生、研究生以及算法工程师阅读。 本书内容特色 (1)深入解析底层创新技术本书专注于DeepSeek的核心技术,深入挖掘其背后的硬核创新。通过本书对底层原理的详细讲解,读者不仅能理解DeepSeek如何运作,还能洞察其设计哲学和技术突破点,为从事相关领域的研究和开发打下坚实的基础。(2)内容全面,案例丰富从代码实现到大语言模型的应用实践,本书提供了丰富的内容资源。无论你是对算法感兴趣的初学者,还是寻求进阶知识的专业人士,都能在本书中找到所需的信息。本书不仅涵盖了理论知识,还提供了大量案例分析,能帮助读者更好地理解和应用所学内容。(3)逻辑严谨,条理清晰为了确保读者能够系统地掌握DeepSeek的相关知识,本书在结构安排上力求逻辑严密、条理清晰。每一章都经过精心设计,引导读者逐步从基础概念深入到高级主题。通过这种方式,即使是初次接触该领域的读者也能轻松跟随书中的思路,建立起完整的知识体系。 资源和勘误 由于个人能力有限,书中难免存在疏漏或不足,请各位读者指正。欢迎加入QQ群(QQ号:1017387681)交流学习。 致谢 首先,我要感谢我的妻子杨院伶女士,她在背后付出太多并将追逐事业的宝贵机会让给我,激励我读研博得渺茫却珍贵的上升机会,放手让一个而立之年却仍未长大的孩子爸出来折腾。其中多少曲折与心酸,不足为外人道。其次,我要感谢本书另一作者——也是我的挚友尹俊希,他广阔的视野成为我寻找前路的灯塔。如果不是认识了俊希,或许我就没有勇气离开象牙塔从事这个行业。再次,我要感谢被大语言模型赋能的这个生机勃发的时代,如果不是大语言模型,可能我今天仍在某个四线城市的汽修厂拆轮胎,找不到自己的人生方向。最后,我要感谢面壁智能。在面壁智能负责开源工作的经历让我接受了开源精神,习惯于分享,这使我愿意在“世俗价值”不那么大的书籍撰写工作中投入巨大的精力。
|
|