You need to enable JavaScript to run this app.

从头开始,八步实现大模型接入|如何用好大模型

最近更新时间2023.10.30 10:37:54

首次发布时间2023.10.30 10:37:54

写在前面的话

要说2023年什么技术是最火的?大模型恐怕是绕不开的。相比前几年爆火的区块链、元宇宙等技术,大模型有着更明确的落地场景和应用价值,企业对大模型的关注度相比之前也更高。
但是,大模型的门槛也是其他技术所未有的。脱胎于机器学习的大模型,具有巨大量级的参数和复杂结构。那么,我们该如何参与到大模型应用的行列中呢?
火山引擎推出的一系列文章将帮助大家快速了解和应用大模型。文章将从企业需求、模型选型、模型评估、模型精调等一系列话题入手,以简单易懂的语言帮助大家学习和成长。


大模型带来了什么

我们常说的大模型其实就是一种有着大量参数和复杂结构的机器学习模型。
传统机器学习模型存在着种种限制,为提升模型精确度,我们采用的主要策略就是用“更多的数据,训练更大的模型”。而当模型达到了一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为“涌现能力”。而具备涌现能力的机器学习模型就被认为是独立意义上的大模型了。

此前,火山引擎也制作了一张图详解大模型,大家可以扫描上图二维码获取高清大图。我们说大模型时代已经到来,那么这会对我的工作生活带来哪些影响呢?我们分成两个角度来看。
个人方面可能是大家感知最明显的,无论是日常所需的资料查找,还是PPT、报表、文章、工作总结等能力,大模型都会成为高效的工具。
那么,大模型会替代我的工作吗?这种可能性并非完全不存在,但我们倒也不必太过担心。大模型始终是工具,他可能像织布机一样替代织工,却会创造出操作织布机、维修织布机、生成织布机的新岗位。但与工业革命取代体力劳动者不同,离电脑越近的信息搬运工,越容易被大模型替代。换句话说,大模型降低了人们通过网络获取信息的难度,想要不被大模型替代,就需要提升自己的创新价值。
企业方面,大模型将带来数智化升级的进一步加速。举几个例子,通过大模型可以实现:

  1. 金融领域中的投资组合优化、风险管理、欺诈检测等;

  2. 医疗领域中疾病预测、药物研发、医疗影像分析等;

  3. 制造业中的生产计划排程、质量控制、物流管理等;

  4. 交通运输领域中的自动驾驶、智能交通管理等;

  5. 娱乐领域中游戏开发、电影制作、音乐创作等。

……
包括这些在内,大量行业都可能会为大模型所颠覆,用户与服务之间的交互模式将继续升级。那么,大模型汹涌而来,我们要怎样才能拥抱大模型呢?自家企业如果要接入大模型,需要怎么做呢?我们将企业接入大模型的流程划分为八步。

如何接入大模型?

  1. 需求分析

第一步先了解企业的业务需求和目标,明确是否要上大模型。主要从成本、量化需求和部署方式三个方面来考虑。
成本不必多说,上大模型时需要综合考虑大模型的部署、维护、技术支持和运营等成本,进而根据成本明确需要接入大模型的场景需求。
很多企业在接入新技术之前,需求都是一笔糊涂账。往往接入的理由都是因为竞争对手在用、行业在用,所以自己也要用。但这种模式下往往会难以系统评估新技术的优势,导致企业发展疲于奔命。为了避免这种情况的出现,企业在选择大模型前首先要明确自身需求,然后基于需求场景制定可量化的评估指标。
场景则是需求的延续,根据企业应用场景的不同,需要考虑大模型应用和部署的方式。如果使用场景比较单一,一种大模型基本可以满足;但如果是多种类别需求,则企业往往需要考虑构建一个主力模型,并在不同场景中应用N个场景化模型,形成“1+N”的多云多模型部署方式。
在明确了企业需求和目标后,就可以着手选择合适的大模型和解决方案了。

  1. 模型选型

模型选型需要考虑的事情包括资源分析和模型挑选。
资源分析不难理解,主要是针对自身现有的数据资源、技术能力、部署场景和可投入成本进行整体分析。结合资源和此前分析的需求,形成对大模型挑选的定量标准。
模型挑选时,还需要进行系统的自建和采购分析。需要分析的事情主要包括了自身的成本、技术、运营、维护等能力,并需要综合长期收益进行决策。如果企业自身技术强大、财力雄厚、使用场景多样,且有着长期的需求,那么应该首先考虑自建。当然自建不一定是从0开始训练的,而是可以和已有的模型企业深度合作,未来可以在主要场景中应用的大模型。
从当今的大模型市场来看,绝大部分企业会选择以API接口方式使用外部大模型服务为主。此时就需要考虑第三方模型的挑选:

  • 如果企业自身对于大模型了解偏少,则先要对当前大模型市场进行整体认知。那么,国内大模型产业呈现百花齐放的状态,是否需要了解每一家大模型服务的优劣呢?当然不是,如今有很多第三方平台会对不同的大模型在不同赛道进行打分,可以根据自身需求选择平台已经测过的模型。

  • 如果企业对大模型有一些了解,则可以考虑仅对倾向的大模型进行整体的评测即可。模型评测的方法可以是直接通过招标等方式进行定向合作,也可以通过各类大模型服务平台进行广泛测试。

  1. 数据整理

数据是新时代的石油,也是大模型的石油。在应用侧,企业能够提供的数据集也是与模型效果相关度最高的内容。因此要用好大模型,就需要先整理好数据。
在数字化时代,很多企业都意识到了数据的重要性,并收集了大量的数据资源。这些资源具有明显的企业和行业特色,对于今后的大模型训练和精调都有重要价值。但是大模型对于数据的敏感度是不同的,新的数据在提供给大模型之前需要经过一系列的预处理,才能够让让大模型充分理解这些数据的价值,而且不会因为新的数据而产生过拟合等因问题。

过拟合:指为了得到一致假设而使假设变得过度严格。指模型泛化能力差,在训练数据上表现较好,但在测试数据上则表现不足。

而且,往往越是精细化处理过的数据,训练效果就越好。因此,企业往往还需要针对已有的数据进行数据标注,整体提升大模型训练效果。

  1. 模型评估

模型评估是进一步了解大模型效果的一环。
评价模型的好坏,一定要有可量化的指标。不同的需求、不同的行业,对大模型主要的关注点也不同,是关注逻辑推理能力?还是风险控制能力?企业需要根据自身需求进行系统性的量化模型评估指标,其中可能包括语言创作、知识能力、垂直应用、代码能力、推理数学等指标,当然也可以根据自身所处行业和企业特点打造更加聚焦的量化指标。
确认指标后就可以按照固定的方法去对自身比较感兴趣的模型进行评估了。模型评估主要包括了自动评估和人工评估两种,可以根据不同的场景选择。量级大、问题明确、答案也明确,就像数学题一样的可以用自动评估;量级小,问题及答案不好说的,就像作文评分的这种,就需要手动评估。
这里还会涉及更多好玩的评估方式,比如可以让大模型像打擂台一样进行PK对决,这些新的评估方式也可以有意想不到的效果。
最后,根据评估的结果进行总体得分比较,根据得分和企业个性化选择即可确认自身所需模型了。

  1. 模型精调

在确认模型之后就需要开始进行针对性的精调了。每家企业都有自身独有的业务诉求和数据,大模型对于此类深入到行业的数据往往缺乏积累,很难满足具体场景的使用需求,此时模型精调就派上用场了。
那么大模型要怎么精调呢?中小型的机器学习模型精调的一个重要议题就是调参,调整不同的参数,确认效果的改善。但在大模型参数动辄千亿,传统的调参就变的非常困难。这时,大模型独特的精调方法——Prompt就派上用场了。
Prompt可以理解为自然语言调优,也就是说我们通过和大模型不断的对话、引导、提示,逐渐帮助大模型提升处理效果,也可以让大模型更能满足企业的场景化需求。
但是,Prompt并不是万能的,有时候也需要采用其他精调手段,帮助大模型进一步成长,比如SFT或者RLHF等方法。此类方法都会以人工介入的形式,帮助大模型进一步成长为更适配企业应用场景的大模型。

SFT:监督微调,Supervised Fine-Tuning,是大语言模型中常用的一种深度学习策略,主要利用标记好的数据对模型进行微调,以使其适应特定的任务或领域。
RLHF:基于人类反馈的强化学习,Reinforcement Learning from Human Feedback,一种先进的AI系统训练方法,也是ChatGPT所用的训练技术,能帮助大模型更好地对齐用户意图。

一般来讲,无论是Prompt或是其他精调手段,企业都需要在精调结束后再对模型进行一次评估,以确认精调效果。

  1. 模型部署

在精调完成后,企业即可将模型部署到业务应用环境中了。此时需要重点关注内容包括了模型性能、稳定性表现和安全性表现。
模型性能和稳定性大家已经很熟悉了,而大模型的安全性则值得一谈。作为一种前沿技术,如何保障大模型的安全合规,如何推动大模型的三方互信,这需要企业、行业以及相关组织的持续努力。数据安全也需要注意,比如训练数据如何进行脱敏,脱敏后训练效果如何保障?再比如,如何对自家数据和其他数据之间进行数据隔离……
当然,大模型安全技术的发展也十分迅速,包括联邦学习、安全沙箱甚至基于硬件优化等方式均可在不同程度上解决以上问题。企业可以根据自身的需求选择不同的方法,安全、稳定地让大模型落地。

  1. 模型应用

模型应用主要考虑的是模型与用户之间的关系。这部分主要是将大模型落地到用户的应用场景中,需要重点考虑的是用户交互和反馈等问题。这部分内容相信大家不会陌生的。

  1. 持续优化

最后一步,就是长期投入的问题了。用户在使用的过程中必然会针对大模型提供大量的反馈,可以根据这些反馈不断升级大模型服务的效果,甚至企业也可以把Prompt的能力下放给用户,让用户帮忙不断提升大模型效果。

本期内容我们简单的帮助大家梳理了大模型接入从需求分析到持续优化的全流程。从下期开始,我们将对流程中所涉及的重点内容进行展开,欢迎大家持续关注!