新書推薦:

《
忌物堂诡谈
》
售價:HK$
49.5

《
大学问·太平天国的文献和历史:海外新文献刊布和文献史事研究
》
售價:HK$
118.8

《
汗青堂丛书158:唐朝的灭亡与欧亚东部 藩镇体制的通史性研究
》
售價:HK$
77.0

《
真菌的秘密生活
》
售價:HK$
63.8

《
财之道丛书·资本主义的终结:经济增长与气候变化的悖论
》
售價:HK$
74.8

《
唐代家庭:生活、生计与家风
》
售價:HK$
107.8

《
算法政治
》
售價:HK$
71.5

《
人论:人类文化哲学导论
》
售價:HK$
96.8
|
| 編輯推薦: |
1.首创性与系统性:首次系统化讲解“开源大模型+AIGC+Serverless API”的开发实战,这在市场上具有独特性,能够满足读者对这一新兴结合领域系统知识的需求。 2.实用性强:理论与实践紧密结合,案例真实、代码详尽,以实战为核心,读者可以快速上手并将所学应用于实际工作或教学中,对于提升读者的实操能力具有很强的帮助。 3.受众广泛:适合多层次读者,从初学者到资深开发者均可快速掌握,无论是人工智能开发者、软件工程师、高校师生,还是企业技术人员、AI技术初学者等,都能从书中获得相应的知识和技能。 4.市场优势显著:填补了市场上关于AIGC应用开发实战专著的空白,具有较强的市场竞争优势,能够在竞争激烈的市场中脱颖而出。 5.配套资源丰富:提供视频、配套PPT、代码及开发环境配置指南,为读者的学习提供了便利和支持,增强了读者的学习体验。
|
| 內容簡介: |
本书聚焦 AIGC 与智能体编程开发实战,围绕开源大模型与API调用展开。本书分为10章,从基础理论到实际开发,全面讲解基于开源大模型与Serverless API的智能应用开发。第1~3章介绍Serverless API、大模型应用架构和开发环境搭建;第 4~6 章以流行的开源模型(如DeepSeek、Stable Diffusion、Whisper 等)为基础,逐步指导读者掌握文本生成、图像生成、语音处理的 API 开发技能;第 7、8 章深入多模态应用开发,如视频生成与跨模态交互;第9、10 章讲述 AI Agent、检索增强生成(RAG)与微调技术的高阶实践,以及企业案例与未来趋势。來源:香港大書城megBookStore,http://www.megbook.com.hk 本书以实战为核心,案例丰富、通俗易懂,适合对 AIGC 与智能体编程开发感兴趣,具备基础编程知识的开发者、创业者以及技术爱好者快速上手并应用于实际工作或教学中。
|
| 關於作者: |
|
韩泽耀浙江大学信息与电子工程学系微电子系统设计专业博士,《AIGC从入门到实战》作者。曾在硕博连读期间入选清华大学计算机系EDA课题组、中国科学院高速高性能FX型处理机课题组。曾就职于华为技术有限公司、上海交通大学、阿尔卡特朗讯、贝尔实验室等。在无线通信系统、信号处理、算法设计与实现等领域拥有二十余年产业化研发经验,同时具备人工智能教育方向的一线创业与产品化实践经历。目前致力于算法应用创新与AI编程开发,重点推进AI Infra x AIGC/Al Agent的工程化实践与应用生态协同发展。孙国梁沐曦集成电路(上海)股份有限公司首席产品官、高级副总裁,清华大学车辆及运载学院机械工程博士。人工智能、芯片设计、电子系统及智算中心建设专家,拥有数十项个人发明专利与二十年系统及芯片开发经验。具备大型算力芯片、GPU算力集群、人工智能项目及电子系统设计的深厚技术积累,以及丰富国内外市场运作经验,曾主导多项国内外大型标杆性项目并取得圆满成功。张寅浙江大学计算机科学与技术学院教授,博士生导师。主要从事数据智能、多智能体、AIGC技术与系统领域的研究。
|
| 目錄:
|
第 1章 快速入门 AIGC 与 Serverless API 开发 / 1 1.1 AIGC 演进与开源大模型生态 / 2 1.1.1 AIGC:智能时代的内容生产革命 / 2 1.1.2 AIGC 的发展历程 / 3 1.1.3 AIGC/UGC/PGC 三类常见内容生成对比分析 / 3 1.1.4 主流 AIGC 技术类别与典型大模型简介 / 4 1.1.5 部署开源大模型及输出 API 对开发者的意义 / 7 1.2 Serverless API 和 OpenAI 兼容 API 的概念 / 10 1.2.1 Serverless 的定义与特征剖析 / 10 1.2.2 Serverless API 与传统架构的对比分析 / 11 1.2.3 OpenAI 兼容 API 的定义与核心要素 / 13 1.2.4 OpenAI 兼容 API 的典型落地路径 / 13 1.3 开源大模型与 Serverless API 架构融合的实际意义 / 14 1.3.1 Serverless API 架构解决开源大模型部署难题 / 15 1.3.2 开源生态与 Serverless API 的协同效应 / 15 1.3.3 国内外主流开源大模型 Token/API 服务平台 / 16 1.4 基于 API 调用开发在大模型编程开发中的层级 / 17 1.4.1 大模型应用开发的层次架构 / 17 1.4.2 API 层级调用架构在应用开发场景中的对比图示 / 19 1.4.3 API 调用开发的平台和入口 / 20 1.5 本章小结 / 22 第 2 章 快速理解 AIGC 与 API 开发的基础技术栈 / 23 2.1 快速入门 HTTP 协议中的 RESTful API / 24 2.1.1 RESTful API 和 CRUD(增删改查)的对应关系 / 24 2.1.2 HTTP requests 库和兼容 OpenAI SDK 调用方式对比 / 26 2.2 标准化的 API 调用流程以及简单错误快速处理 / 28 2.2.1 API 调用的基础规范与流程 / 28 2.2.2 API 调用简单代码示例 / 29 2.2.3 常见 API 错误与快速排错技巧 / 29 2.3 常见 AIGC API 的调用参数讲解 / 32 2.3.1 API 调用请求常用参数快速解析 / 32 2.3.2 常见 API 响应数据基础字段介绍 / 35 2.4 AI 辅助开发工具与平台快速认知 / 36 2.4.1 AI 辅助开发工具和平台的作用 / 36 2.4.2 AI 辅助编码类工具 / 37 2.4.3 AI 辅助平台类工具 / 38 2.5 本章小结 / 38 第 3 章 初步设置和使用 API 之实战入门 / 40 3.1 注册与登录以及如何获得 API Key / 41 3.1.1 Gitee AI 平台介绍 / 41 3.1.2 注册 Gitee AI 账号 / 42 3.1.3 创建 API 密钥 / 43 3.1.4 使用 API 密钥获取 Token / 44 3.2 开始使用 Serverless API / 45 3.2.1 选择模型和创建访问令牌 / 46 3.2.2 测试模型 API / 48 3.2.3 查看 API 文档和示例代码 / 50 3.2.4 cURL 命令行工具的常见用法举例 / 51 3.3 常见问题与解决方案 / 53 3.3.1 账号和访问问题 / 53 3.3.2 算力券和资源包问题 / 54 3.4 本章小结 / 54 第 4 章 基于 Serverless API 实现大模型编程初步 / 56 4.1 目标:调用模型接口,得到返回的交互结果 / 57 4.2 步骤:配置环境、安装库与获取 API Key / 57 4.2.1 创建项目并安装依赖 / 58 4.2.2 获取 Gitee Serverless API 的 API Key / 58 4.2.3 API Key 的 3 种管理方式 / 58 4.3 过程:核心代码(包括错误示例)详解 / 59 4.4 成功:正确示例及代码演示 / 60 4.5 改进:生成中文响应结果 / 65 4.6 精进:简练中文回馈内容 / 66 4.7 本章小结 / 66 第 5 章 多种模态 API 原子能力初级实战 / 68 5.1 开发环境配置与依赖库安装 / 69 5.1.1 Python 环境配置 / 70 5.1.2 安装必要的依赖库 / 71 5.1.3 配置 API 访问凭证 / 73 5.2 实现 Instruct 与 Chat 的文本生成 Hello World / 75 5.2.1 Instruct 模型与 Chat 模型的区别 / 75 5.2.2 使用 Instruct 模型生成 Hello World / 76 5.2.3 使用 Chat 模型生成 Hello World / 79 5.2.4 Instruct 与 Chat 模型的选择建议 / 81 5.3 实现 Stable Diffusion 的文生图 Hello World / 82 5.3.1 Gitee AI 平台的 Stable Diffusion 模型简介 / 82 5.3.2 配置 Stable Diffusion API / 83 5.3.3 使用 Stable Diffusion 生成第 一张图像 / 83 5.3.4 调整生成参数提升图像质量 / 86 5.4 实现 Whisper 的语音识别 Hello World / 87 5.4.1 Gitee AI 平台的 Whisper 模型简介 / 87 5.4.2 配置语音识别 API / 87 5.4.3 使用 Gitee AI 平台的 Whisper API 进行语音识别 / 87 5.4.4 使用本地音频文件进行语音识别 / 90 5.4.5 实时语音识别 / 92 5.5 本章小结 / 95 第 6 章 多种模态 API 调用及编排进阶实战 / 96 6.1 实现 DeepSeek+Stable Diffusion 的图像生成优化 / 97 6.1.1 DeepSeek 模型优化机制 / 97 6.1.2 API 编排实现协同 AIGC 图像生成 / 99 6.1.3 参数优化与问题排查 / 103 6.2 实现 Wan2.1-T2V 的文生视频 / 104 6.2.1 视频生成模型简介 / 104 6.2.2 使用 Wan2.1-T2V 生成视频 / 105 6.2.3 视频生成参数调优 / 111 6.3 实现 Hunyuan3D-2 的图生 3D / 111 6.3.1 Hunyuan 3D 生成模型简介 / 111 6.3.2 使用 Hunyuan3D-2 生成 3D 模型 / 111 6.3.3 使用 Open3D 查看和处理 3D 模型 / 116 6.4 API 调用常见错误与调试进阶 / 118 6.4.1 常见错误类型 / 119 6.4.2 API 调用调试技巧 / 119 6.4.3 实现请求重试和错误处理 / 120 6.4.4 API 调用性能优化 / 123 6.5 本章小结 / 124 第 7 章 辅助生成代码、打造多种形态及践行 Vibe Coding / 126 7.1 主流开源代码辅助生成大模型 / 127 7.1.1 回顾开源大语言模型的发展与意义 / 127 7.1.2 DeepSeek-V3/R1 模型回顾 / 128 7.1.3 CodeGeeX 模型详解 / 128 7.1.4 新一代开源 Coder 与数学 / 证明模型的发展 / 129 7.1.5 模型性能对比与选择建议 / 130 7.2 用文本 / 代码生成大模型 API 构建不同生成形态的工具 / 132 7.2.1 文本 / 代码生成工具的基本架构 / 132 7.2.2 智能对话工具的实现(命令行) / 132 7.2.3 文本摘要工具的实现(Web 网页端) / 134 7.2.4 文本续写工具的实现(API) / 136 7.3 AI 代码辅助工具实战 / 140 7.3.1 AI 代码辅助工具概述 / 140 7.3.2 GitHub Copilot 使用实战 / 141 7.3.3 Cline AI 代码助手使用实战 / 143 7.3.4 Trae AI 代码助手使用实战 / 144 7.3.5 Cursor 编译器使用实战 / 145 7.3.6 通义灵码代码助手使用实战 / 146 7.4 AI Coding 中 VSCode+Cline+Gitee.AI 的配置与实践 / 148 7.4.1 VSCode 中 AI 编程助手的选择 / 148 7.4.2 VSCode 中配置 Cline 第三方 API 的详细步骤 / 148 7.4.3 实用 VSCode 扩展组合推荐 / 150 7.4.4 常见问题与解决方案 / 150 7.5 如何提升 AI 代码生成的质量 / 151 7.5.1 面向代码生成的提示词工程技巧 / 151 7.5.2 行业案例分析 / 153 7.6 本章小结 / 154 第 8 章 图像生成与视觉识别 API 开发进阶实战 / 156 8.1 图像生成、图像识别、图像理解、图像处理技术简介 / 157 8.1.1 图像生成技术简介 / 157 8.1.2 图像识别技术简介 / 158 8.1.3 图像描述 / 理解和视觉问答技术简介 / 159 8.1.4 图像增强及图像超分技术简介 / 159 8.2 基于 Gitee 平台的 Serverless-API 实现图片生成及风格迁移 / 160 8.2.1 Serverless 架构在图像处理中的应用 / 161 8.2.2 基于 Gitee 平台 Stable Diffusion 的图像生成 API 实现 / 161 8.2.3 Kolors 中文图像生成 API 实现 / 166 8.2.4 基于 Kolors 的图像风格迁移 API 实现 / 169 8.3 通过图像识别和图像理解技术构建应用 / 173 8.3.1 InternVL 图像理解 / 173 8.3.2 3 个 AI 1.0 时代的图像识别开源项目 / 174 8.4 Real-ESRGAN 图像超分模型与传统 PIL 构建应用 / 177 8.4.1 两者在实现和解决问题上的差别和关系 / 177 8.4.2 用 Real-ESRGAN 大模型实现超分的应用 / 179 8.4.3 传统基于 PIL 实现的图像处理开源项目 / 180 8.5 本章小结 / 184 第 9 章 音频处理与视频生成 API 进阶开发实战 / 186 9.1 音频识别模型和语音合成模型解析 / 187 9.1.1 音频识别技术的发展与原理 / 187 9.1.2 Whisper 语音识别模型解析 / 187 9.1.3 Fish Speech 语音合成模型解析 / 188 9.1.4 ChatTTS 语音合成模型解析 / 188 9.1.5 语音识别、语音合成模型对比与选择建议 / 189 9.2 Serverless API 实现音频识别与语音合成 / 190 9.2.1 Serverless 架构在音频处理中的应用 / 190 9.2.2 基于 Whisper 的音频识别 API 实现 / 191 9.2.3 基于 ChatTTS、Fish Speech 的语音合成 API 实现 / 196 9.3 视频生成模型解析与 API 实现 / 200 9.3.1 视频生成技术的发展与原理 / 200 9.3.2 Wan2.1-T2V 模型解释 / 200 9.3.3 基于 Wan2.1-T2V 的视频生成 API 实现 / 200 9.4 音视频 API 的实际应用案例 / 204 9.4.1 基于录音 +Whisper+GUI 实现实时会议转录系统 / 204 9.4.2 基于 Whisper+ChatTTS/Fish Speech 实现多语言配音系统 / 209 9.4.3 基于 Wan2.1-T2V 实现节日祝福语视频生成器 / 213 9.5 本章小结 / 217 第 10 章 跨模态开发与应用集成实战 / 219 10.1 多模态大模型概述 / 220 10.1.1 多模态大模型定义和特点 / 220 10.1.2 多模态大模型的主要架构 / 220 10.1.3 主流多模态大模型对比 / 222 10.2 跨模态数据处理与融合技术 / 223 10.2.1 跨模态数据处理的关键技术 / 223 10.2.2 Python 实现跨模态数据处理与融合 / 225 10.3 基于跨模态大模型的应用开发 / 228 10.3.1 跨模态应用场景分析 / 228 10.3.2 多模态 RAG 系统 / 229 10.3.3 应用开发实战案例 / 230 10.4 多模态大模型应用的挑战与展望 / 235 10.4.1 当前面临的挑战 / 236 10.4.2 未来发展趋势 / 236 10.4.3 实践建议 / 237 10.5 本章小结 / 237 附录 A “兴智杯”全国人工智能创新应用大赛参赛报名及算力获取 / 238 A1 获取和兑换“兴智杯”大赛算力券 / 239 A1.1 “兴智杯”大赛简介 / 239 A1.2 算力券的获取方式 / 239 A1.3 算力券的兑换流程 / 239 A2 “兴智杯”大赛使用算力券购买 Serverless API / 241 A2.1 沐曦模型资源包介绍 / 241 A2.2 购买沐曦模型资源包的详细步骤 / 242 A2.3 查看购买记录和资源使用情况 / 244
|
|