大模型数据蒸馏--AI 数据湖服务-火山引擎

文档中心

AI 数据湖服务

最佳实践

大模型数据蒸馏

方案背景

随着大语言模型的快速发展和广泛应用，面临着诸多挑战，尤其是在模型规模不断扩大和计算需求日益增长的背景下。模型蒸馏技术作为一种有效的解决方案，通过将知识从大型复杂模型（教师模型）转移到较小、更高效模型（学生模型），在保持模型性能的同时，显著降低了计算资源的需求，因此备受关注。
模型蒸馏的核心思想是将大模型的知识迁移到小模型中，保留大模型的推理能力和准确性，同时大幅降低存储和推理成本。小模型对资源需求较低，易于在各种硬件平台上部署，大大扩展了实际应用的广度和深度。此外，在深度推理任务中，所需的思维链难以通过人工标注实现，将模型蒸馏与微调结合，可以最大化利用现有大模型资源，提升小模型的推理能力，弥补其处理复杂任务的不足，提供高效、可靠的推理服务。蒸馏可以具体指数据蒸馏和模型蒸馏两个方面。

模型蒸馏VS数据蒸馏

	数据蒸馏	模型蒸馏
定义	一种高质量数据获取技术，利用一个高性能的模型生成的数据来训练另一个模型	一种模型压缩技术，利用一个高性能的教师模型训练一个较小的学生模型，使得学生模型能够以接近教师模型的能力进行推理
解决问题	合成数据	降低模型尺寸
流程	首先使用大型模型生成高质量的文本数据，然后用这些数据来训练一个小模型。例如，可以使用大语言模型生成的文本作为训练数据，来训练一个特定任务的小模型，如文本分类或问答模型	教师模型首先在大规模数据集上进行训练，然后生成软标签（Soft Labels），这些软标签包含了类别之间的关系信息。学生模型通过学习这些软标签，以及可能的硬标签（Hard Labels），来优化自身的参数。例如，在自然语言处理任务中，教师模型对每个文本样本输出的属于不同类别的概率分布，能够帮助学生模型更好地理解文本的语义特征和类别边界，提高分类准确性
常用的技术手段
优势	数据蒸馏可以显著减少对人工标注数据的依赖	模型蒸馏可以在保持模型性能的同时显著减少模型的参数量和计算复杂度，使得模型更适合在资源受限的环境中部署
应用场景	能力对齐、数据飞轮、领域模型、业务模型	降低算力、特定资源受限环境部署
常见case	通过DeepSeek-R1获取高质数据用于通用模型训练	移动设备、嵌入式系统部署高性能模型

核心需求梳理

数据集需求
- QA数据记录收集困难：推理数据规模的庞大性给QA数据记录收集带来了巨大挑战。在模型蒸馏过程中，需要收集大量的QA数据记录数据，以对模型的性能和行为进行分析和优化。QA数据记录本质上是推理日志。
- 数据集多样：在模型蒸馏过程中，不同模型的输入输出参数存在较大差异，导致蒸馏过程复杂多样。为了确保数据收集和模型训练的顺利进行，数据版本血缘的精细化管理显得尤为重要。
- 转换格式：在模型蒸馏过程中，数据格式的转换是不可避免的。不同模型和框架可能使用不同的数据格式，为了确保数据在不同模型和框架之间的兼容性，需要进行格式转换。
- 探查筛选：在数据存储过程中，探查和筛选是确保数据质量和有效性的关键步骤。通过对数据进行探查，可以了解数据的分布、缺失值和异常值等情况，从而为后续的数据处理和模型训练提供依据。
- 多种存储介质转换：在模型蒸馏过程中，数据可能需要在不同的存储介质之间进行转换，如从硬盘存储到内存存储、从本地存储到云存储等。不同存储介质具有不同的性能和成本特点，因此需要根据实际需求选择合适的存储介质。
数据处理需求
- 蒸馏高质量问答（QA）对：高质量的QA对是模型蒸馏过程中不可或缺的一部分。通过蒸馏高质量的QA对，可以有效提升学生模型的性能。
- 数据清洗过程复杂：数据清洗是数据处理中的重要环节，旨在去除数据中的噪声、错误和不一致部分，以提高数据的质量和可用性。但在当前的应用场景下，数据清洗过程面临着复杂性高的挑战。数据来源的多样性以及数据本身的复杂结构，使得清洗工作需要耗费大量的时间和人力成本。
- 缺乏数据质量评估工具：在模型蒸馏过程中，数据质量的评估是确保模型性能的关键。然而，目前缺乏有效的数据质量评估工具，导致数据质量问题难以及时发现和解决。

火山引擎大模型数据蒸馏解决方案

整体功能架构

数据蒸馏流程

数据蒸馏链路图

数据收集：在数据收集阶段，将用户的推理服务日志高效采集至 LAS 系统中，确保数据的完整性与准确性，为后续流程奠定坚实基础。
数据探查筛选：进入数据探查筛选环节，依据特定需求，对采集到的日志数据进行深入探查与精细筛选，精准定位并选取适配模型训练的高质量 QA 对，保障数据的针对性与有效性。
数据预处理：在数据处理环节，针对筛选所得原始 QA 对，开展一系列专业操作，涵盖数据清洗、格式规范、内容增强、合成拓展等，旨在提升数据质量，扩充数据规模，优化数据结构，为模型训练提供更为优质、丰富的数据资源，助力模型性能提升与精准优化。
数据集管理：以数据集为载体，对数据进行系统化管理，确保数据的有序存储与高效利用。
数据蒸馏：借助 DeepSeek 等高质量模型，获取质量更高且更贴合业务需求的数据，进一步提升数据的价值与适用性。
数据后处理：针对模型蒸馏生成的问答（QA）对，进行相应的数据处理操作，以形成高质量的数据集，为后续应用奠定坚实基础。
模型训练：充分利用 MLP、方舟以及第三方平台的能力，对模型进行Post Pretraining/Continue training/SFT等训练操作。

资源消耗预估

数据蒸馏是基于业务不断提升模型效果的批式任务，一般根据数据配方情况会融合相关数据组成高质量数据集（蒸馏的数据+相关数据），用于模型的精调。

阶段	数据量	Token消耗	备注
QA数据记录	GB量级/日	无	与业务量相关
数据集存储	GB量级/日	无	与业务量相关
数据蒸馏	MB量级/次（千/万条数据）	千万-亿/次	与大模型request相关

QA数据记录收集和探查

QA数据记录收集
在线推理与批量推理场景中，针对推理日志收集需求，尤其是面对大数据量所带来的挑战，已设计出一套有效的架构方案。该架构旨在为相关应用提供切实可行的解决方案，助力应对海量数据情况下的日志收集难题，以保障业务的顺畅运行与数据的有效利用。
QA数据记录探查
在大数据应用场景中，当完成日志收集工作后，业务人员通常会基于日志数据本身开展筛选与探查工作，并据此构建预处理数据集。此方案旨在有效应对大数据场景下的日志探查难题，通过严谨的数据筛选与分析流程，构建出高质量的预处理数据集，为后续的工作奠定坚实基础，助力模型蒸馏的整体流程。

数据蒸馏（LAS）

DeepSeek-R1 等模型，凭借其卓越的推理能力。本文以DeepSeek为例，其他商业和开源大模型，请注意使用约束条款。
通过这一系列数据蒸馏，能够助力使用者借助更为强大的通用大模型，或是针对性的领域模型进行蒸馏操作，进而获取到高质量的数据资源，为不同应用场景下相关问题的解决提供有力支持。

数据处理（LAS）

LAS数据处理算子平台支持模型开发者构建和复用数据操作，配置相应的数据处理流程，并且可以评估在不同数据配方条件下，LLMs的数据管道对于训练所产生的影响。

工作流

LAS提供高效、灵活且强大的数据处理工作流服务。通过精心设计的架构，能够将内置算子、自定义算子以及第三方算子进行有机结合与串联，构建出不同应用场景的数据处理流程，满足多样化的数据处理需求。

在数据处理领域，算子承担着实现基础数据处理逻辑的关键职责。通过精心组合各类算子、科学优化算子的排列顺序以及执行模式，能够显著提升数据处理的效率与效果，面向数据蒸馏场景平台内置算子主要分为如下两类：

数据清洗：支持对训练集进行数据清洗，去除噪声数据、重复数据等，提高数据质量；
数据增强：通过数据增强技术，如文本的同义词替换、句子重组，图像的旋转、翻转、缩放等，增加数据的多样性和丰富性，从而提升模型的泛化能力和鲁棒性。

蒸馏数据预处理

数据预处理算子

类型	描述
文档信息提取	从非结构化文档中提取文本
转换	读取非结构化数据并转换成统一格式
文本修正	清除HTML、LaTeX、代码中的重复内容
语言识别	识别文档中的主要语言类型
提示词增强	从现有指令调优大模型创建高复杂性指令
模糊去重	根据文档上下文识别并去除重复或者相似内容
文档分割	将文档分割成多个子文档
个人信息移除	检测并替换文档中的个人信息
用户自定义转化	用简单的方式插入用户定义的映射函数
用户自定义过滤	用简单的方式插入用户定义的过滤函数
提示词增强	从现有指令调优大模型创建高复杂性指令
……	……

数据预处理链路示例

蒸馏数据后处理

数据后处理算子
LAS 内置100+数据处理算子，详情请参考附件。

类型	描述
全局去重	精确匹配完全相同的内容并去重
Rouge分数去重	通过计算大致分数来移除相似数据
重复移除	检测并减少重复的上下文
用户自定义转化	用简单的方式插入用户定义的映射函数
用户自定义过滤	用简单的方式插入用户定义的过滤函数
提示词增强	从现有指令调优大模型创建高复杂性指令
……	……

数据后处理链路示例

数据集管理（LAS）

LAS依托火山引擎数据湖存储，深度融合湖格式技术构建数据集管理功能模块。

基础功能 ：

支持便捷地创建各类结构化和非结构化数据集。
- 结构化数据：数据库中的表格数据，具备明确的字段、记录与关系定义；
- 非结构化数据：例如文本文件、图像、音频、视频等各种格式、以及无固定格式的数据。

数据标签 ：

提供对整个数据集进行标签标注与管理，在数据集中的每一个数据项进行精细化的标签操作；
支持批量打标功能，确保大量数据能够快速、准确地完成标签标注流程；
提供便捷的标签检索能力，可以通过标签快速定位和筛选出所需的数据集或数据项，以便支持数据挖掘应用。

版本管理 ：

每个数据集都配备有一个专属的 meta 文件，详细记录了数据集的相关元数据信息。
- 实现对数据集版本的有效管理，包括版本的创建、更新、回滚等操作；
- 追溯数据集的血缘关系，了解数据的来源、演变过程以及与其他数据之间的关联，为数据的可靠性评估、问题排查以及数据治理等工作提供坚实的基础保障。

模型蒸馏（LAS开发机、MLP、方舟）

将数据集挂载到LAS开发机、方舟或者机器学习平台等有算力资源的平台上，可依据具体任务目标与数据特性，用于模型预训练，模型精调，强化学习等训练方案。

解决方案优势

针对深度学习模型蒸馏过程中数据存储的复杂需求，火山引擎提供全面且细致的应对策略。

高效解决数据存储难题

从多种存储介质转换到数据版本血缘的精细化管理，确保在面对多样数据集和大规模推理数据时，能够高效存储与管理，为模型训练提供坚实的数据基础。

丰富的数据处理能力

数据处理算子平台涵盖了多种数据处理算子类型，从文档信息提取、格式转换到各类去重操作，以及用户自定义转化与过滤等功能，极大地提升了数据处理的灵活性和效率。能够满足不同场景下对数据质量的严格要求，助力生成高质量的蒸馏数据。

灵活的数据集管理体系

数据集管理模块提供了强大的功能，包括灵活的数据集创建方式，不增加额外存储负担；全面的数据标签管理，方便数据检索与分类；完善的版本管理与血缘追溯功能，确保数据的可追溯性和管理的规范性。

提升模型训练效率与质量

通过推理数据蒸馏获得高质量数据，并将数据集便捷地挂载到有算力资源的平台上，支持多种训练方案，能够有效提升模型训练的效率和质量，加速模型的优化与部署。

更低成本的数据蒸馏方案

内置算子，构建技术实力更强、运行更为稳定且功能更加丰富的开闭源大语言模型调用服务，为各类应用场景提供优质服务解决方案。在确保效果不打折扣的前提下，降低相关成本。

应用场景

智能客服
在智能客服系统中，大语言模型需要处理大量的用户咨询数据。利用本方案，可对复杂多样的对话数据进行高效存储和处理，通过模型蒸馏技术将大型模型的知识转移到小型高效模型上，提升智能客服的响应速度和准确性，同时降低部署成本。
在线教育：
采用本大模型数据蒸馏解决方案后，通过推理日志收集全面了解学生的学习行为数据，利用数据处理算子平台对数据进行清洗和转换，经过数据集管理模块对数据进行分类和版本管理，再通过推理数据蒸馏获得高质量数据用于模型训练。将大型复杂模型的知识转移到小型高效模型上，部署在智能教育系统中，提升了系统的响应速度和教学辅助的准确性，学生的学习效果得到显著提升。
金融风控
金融领域的数据具有多样性和实时性特点。方案中的数据处理和管理功能可对海量金融数据进行清洗、转换和分析，通过模型蒸馏训练出高效的风险预测模型，帮助金融机构及时发现潜在风险，做出合理决策。
工业检测
工业生产环境中产生大量设备运行数据，传统方法难以对这些数据进行有效处理和分析以实现准确的故障预测。通过推理日志收集设备运行的关键数据，运用数据处理算子平台对数据进行探查和处理，利用数据集管理模块对不同阶段的数据进行有效管理，通过推理数据蒸馏和模型训练，训练出能够更准确预测设备故障的模型。

操作演示

在火山方舟一键开启推理数据回流，自动采集数据到 LAS。

在 AI 数据湖服务(LAS)对回流数据进一步分析和处理成训练数据集。

回到火山方舟完成模型精调，优化模型效果，实现模型和数据互相驱动的数据飞轮。

同时可以通过LAS开发机功能进行模型微调。

最近更新时间：2025.08.27 15:20:13

这个页面对您有帮助吗？

有用

无用

AI 数据湖服务

方案背景 #

模型蒸馏VS数据蒸馏 #

核心需求梳理 #

火山引擎 大模型数据蒸馏解决方案 #

整体功能架构 #

数据蒸馏流程 #

数据蒸馏链路图

资源消耗预估

QA数据记录收集和探查 #

数据蒸馏（LAS） #

数据处理（LAS） #

工作流