科技

从原理到应用人人都懂的ChatGPT指南

作者:京东科技 何雨航

 

零、引言如何充分发挥ChatGPT潜能,已是众多企业关注的焦点。但是,这种变化对员工来说未必是好事情。IBM计划用AI替代7800个工作岗位,游戏公司使用MidJourney削减原画师人数……此类新闻屡见不鲜。理解并应用这项新技术,对于职场人来说重要性与日俱增。

一、GPT模型原理理解原理是有效应用的第一步。ChatGPT是基于GPT模型的AI聊天产品,后文均简称为GPT。

从技术上看,GPT是一种基于Transformer架构的大语言模型(LLM)。GPT这个名字,实际上是Generative Pre-trained Transformer的缩写,中文意为“生成式预训练变换器”。

1.大模型和传统AI的区别是什么?传统AI模型针对特定目标训练,因此只能处理特定问题。例如,很会下棋的AlphaGO。

而自然语言处理(NLP)试图更进一步,解决用户更为通用的问题。可以分为两个关键步骤:自然语言理解(NLU)和自然语言生成(NLG)。

大型语言模型(如GPT)采用了一种截然不同的策略,实现了NLG层的统一。秉持着“大力出奇迹”的理念,将海量知识融入到一个统一的模型中,而不针对每个特定任务分别训练模型,使AI解决多类型问题的能力大大加强。

第一层:聊天能力在此类用法中,GPT的回答就是给客户的交付物,是GPT模型最简单、最直观的用法。

1.套壳聊天机器人通过使用OpenAI官方接口,开发的套壳聊天机器人产品。这类产品之所以存在,原因懂得都懂。否则,用户为何不直接使用ChatGPT呢?此类产品难以形成现象级应用,且竞争激烈。由于比较灰色且内容未经过滤,网站被封后又换域名的故事将持续上演。

2.场景化问答这种模式对GPT的回复场景进行了约束。通过限定提示词、嵌入大量特定领域知识以及微调技术,使GPT能够仅基于某类身份回答特定类型的问题。对于其他类型的问题,机器人会告知用户不了解相关内容。这种用法可以有效约束用户的输入,降低许多不必要的风险,但是想训练一个出色的场景化机器人,也需要投入许多精力。典型应用包括智能客服、智能心理咨询和法律咨询等。微软的new Bing正是此类应用的杰出代表,其俏皮傲娇的回复风格,深受网友的喜爱。

第二层:语言能力在本层,我们充分发挥ChatGPT的语言天赋,辅助各种基于文字的处理工作。从这一层开始,需要使用one-shot或few-shot(在提示词中给ChatGPT一个或多个示例)来提升ChatGPT的表现。与用户的交互不再局限于聊天窗口,提前预制提示词模板,用户只能输入限定的信息,对应提示词的空槽位。

预制带槽位提示词模板的应用基本流程如下:

2.AI辅助决策以第一个阶段为基础,将对应页面的部分功能与GPT联动。这样,在员工执行操作时,部分功能可以由AI实现,成倍提升效率。微软Copilot正是这类产品的代表,比如可以实现在Excel中说明自己想要进行的数据分析,无需寻找相关公式,数据分析就自动做好了。

3.全自动AI工作流本阶段目前还处于演示层面,呈现了未来的愿景。如前文所述,GPT很难解决特定领域的细节问题,除非针对某个场景进行大量的微调与私有数据部署。AutoGPT、AgentGPT都属于此类。

第五层:国产大模型AI技术是科学而非神学,大模型的原理也不是秘密。美国能做到,我国不仅能,而且有必要。只要训练数据质量达标,模型参数突破千亿便具备推理能力,突破八千亿可与GPT-4匹敌。采用大量中文语料和中文微调,我国必将拥有符合本国文化背景、价值观的大模型。

然而,路漫漫其修远兮,困难也是极多的,如:训练成本极高、训练数据质量要求高、模型优化复杂、马太效应明显等。因此,预计在未来五年内,中国最多只会有3家知名大模型服务商。

大模型是AI时代的基础设施,大部分公司选择直接应用,直接获取商业价值。在这个大背景下,愿意投身自有大模型的公司就更加难能可贵了。在此,我谨代表个人向那些勇于投身于自有大模型建设的国内企业表示敬意。

四、总结总的来看,ChatGPT是一款跨时代的产品。不同层面对GPT技术的应用,体现出了一些共性的机会。我总结了三项未来具有巨大价值的能力。

1.问题分解技术鉴于GPT回复的限制在于最多只能基于32,000个tokens,因此有效地将问题分解成子问题并交由GPT处理显得尤为关键。未来的工作模式可能将问题拆解为子问题,再组装子问题的解决方案。在具体实施时,还需要对子问题的难度进行判断,有些问题可以交给一些小模型处理,这样就可以有效的控制应用成本。

2.三种调优方法想要让GPT在多个层面上发挥特定的作用,主要有三种交互方式,成本从低到高分别为:

调优方法

优势

缺点

提示词优化

提升效果明显成本极低

占用token多,影响上下文关联长度

embedding

扩展GPT知识调优成本较低

GPT并非真的理解了相关的内容,而是在遇到相关问题时,能够基于给定的知识库回答。

微调技术

搭建真正的私有模型,GPT能理解相关的问题。

成本较高,需要大量的“问答对”,训练过程非常消耗token。

①提示词优化

通过探索找到最优提示词模板,预留特定槽位以供用户输入。仅通过提示词优化就能实现广泛功能,许多基于GPT的产品,其底层就是基于特定提示词的包装。好的提示词需包含角色、背景、GPT需执行的任务、输出标准等。根据业界的研究,好的提示词能使GPT3.5结果的可用性由30%飙升至80%以上。提示词优化毫无疑问是这三种方法中最重要的。

②embedding

这是一种搭建自有知识库的方法,将自建知识库使用embedding技术向量化,这样GPT就能基于自有数据进行问答。

③微调(finetune)

通过输入大量问答,真正教会GPT如何回答某类问题,成本较前两者更高。优势在于将提示词的短期记忆转化为私有模型的长期记忆,从而释放宝贵的Token以完善提示词其他细节。

以上三种方式并不冲突,在工程实践中往往互相配合,特别是前两种。

3.私有数据积累私有数据集的价值得到进一步提升,各行业可基于此对GPT进行二次包装,解决特定领域问题。建议使用微软Azure提供的GPT接口,搭建带有私有数据的大语言模型产品。因微软面向B端的GPT服务为独立部署,不会将私有数据用于大模型训练,这样可以有效保护私有数据。毕竟私有数据一旦公开,价值将大打折扣。

凭借以上几项能力加持,大语言模型可以充分释放在解决依赖电脑的重复性劳动的生产力。我将下一个时代(3年内)的业务运转模式总结如下图:

企业会根据三大能力衍生出三大类角色:

①问题分解者

这类角色很清楚大语言模型能力的边界,能够将一个业务问题有效的分解为GPT能处理的子问题,并能根据问题结果,将子问题进行拼装。

②提示工程师

这类角色深谙与GPT沟通之道,能够根据不同的问题类型,给出有效的提示词模板,极大提升GPT的输出质量。

③知识拥有者

这类角色有大量的行业knowhow,并且能够将知识进行结构化,传授给GPT。对应现在的领域专家。

在这种模式的推动下,GPT将会成为企业提效的重要帮手,可以解决大量重复劳动,可以提供有价值的参考。但人的主观能动性仍起决定性作用。

五、写在最后即使以GPT-4为代表的AI技术保持当前的水平,带来的效率提升已经令人震惊,更遑论其仍以飞快的速度进化。从技术的发展史来看,一项大幅度提效的新技术出现,往往先惠及B端,而后才慢慢在C端开始释放巨大的价值。这是由企业对效率天然的敏感性所决定的,而改变C用户的习惯需要大量学习成本与场景挖掘,滞后效应较强。举三个例子大家就懂了:

1. 回顾第一次工业,内燃机的出现先导致了纺织女工的大量失业,而后才逐渐找到了各种C端场景,推动了社会生产力的大幅度上升。

2. ChatGPT可以更快的生成口水文,但是C端用户对阅读的诉求是没有增加的。对于营销号公司来说,效率提升了,所需要的人变少了。

3. MidJourney可以快速生成抱枕的图案,但是C端用户并不会购买更多的抱枕,那么需要作图的人员就少了。

一场信息化企业的內效就要到来了,依靠电脑的重复劳动将会消失,因为大模型最擅长学这个了。正如我文初所举得案例一样,像IBM公司缩减7800个编制的案例,只会发生的越来越频繁。

AI时代真的已经到来,每个岗位都需要思考,如何让AI成为工作上的伙伴。