本篇内容来自于文因互联上海举办的【文因金融大模型领域落地汇报会】,鲍捷博士作主题演讲。
1
大模型心理动荡:经历绝望之谷,目标开悟之坡
我相信业界很多做技术的同学看到这张图都会心一笑,目前显然有这样一个局面:面对大模型我们甚至不能够理解它的原理,也不能操作它,只是在祈祷这个东西能显灵,然而大多数时候它都不能显灵。
这种情况给大家带来很多对大模型不同的看法。
我们都会经历这样的过程:一件事的开始会抱着很多的幻想,当这种期望达到了一定高度之后,我们发现和想象的不一样,就会开始绝望,进入绝望之谷,经历过一个绝望的过程之后,才会进入开悟之坡。
我们看看过去这半年时间,大家经历了一个什么样的心路历程。
心路历程
2023.1-2023.2
大家觉得很充满期望。
2023.3-2023.4
大家还没有开始训练自己的私有化大模型,基本上都是来接ChatGPT的各种API,各种各样的小应用尝试。
2023.5
进入疯狂状态,在中国出现五六十家大模型,风投也非常激动,大家感觉这可能是一个新的时刻,一个“iPhone”时刻,各种各样的研讨会,各种各样的投资。
2023.6
我们发现很多事情开始转折了。其实在6月份的时候,OpenAI 的增长已经停滞了。
2
大模型落地六大鸿沟
今天我想跟大家探讨的重点是所有技术在发展中都会经历的鸿沟,在2022年11月份之前,只有1%-2%市场的时候,基本上是靠一群狂热的信念者支撑起这个领域。
过去这八个月的时间,应该进入第二个阶段——【早期使用】这个阶段,此时市场渗透率可能还不到10%,因为 OpenAI 的用户数大概只有10个亿,Midjourney 只有一个亿。对应在国内真正的 ToC 市场应该还没有落地情况,ToB 的市场还是属于迷茫的探索阶段,所以这个市场的落地也有很长的路要走。
我总结了这么几个不得不面对的问题:
1、部署要求
在中国,半年时间出现了100多个大模型,绝大多数是没有办法对 ToB 客户提供公有云服务的。但是出于对数据信息安全等方面的考虑,大中型客户更愿意接受私有化部署,这是中国的现状,如果不尊重私有化部署及数据监管的需求,大模型的发展堪忧。
2、投入
一次全参数微调最起码要花500万。用千万级的投入要做什么?百万级的投入要做什么?一张A100的显卡,80G的内存、十万多块钱、8张一组,一组一个机位能做什么?可能一个大模型在标准的细级别的一个情景跑一次,一个机位是远远不够的,至少要十几个。如果没有这样的规模,是否意味着在工业落地的时候,就没有办法去做这件事情?这是所有的 ToB 的客户,特别是金融的客户最关心的问题。
3、场景闭环
场景闭环怎么低成本完成?带着这个问题,春节后我拜访了30多位金融机构的同事,他们也参加了很多发布会,也有很多大型互联网平台的大模型请求他们来接入,但问题是不管是他们自己还是这些大厂都不知道怎么落地,都不知道场景是什么,也不知道场景落地管控的约束是什么,这就使得这个过程陷入了一个鸡生蛋和蛋生鸡的循环。当大模型的供应商不知道场景去怎么服务的时候,怎么去启发客户对这件事情投入的热情?当客户不知道大模型厂家能够给我提供什么服务的时候,我又怎么能够下决心去做这种探索?这就是场景落地过程中冷启动的困境。有很多金融机构对这件事情非常关注,有一家主流券商对我说他们的 CIO 一共提了57个场景,银行也是类似的。很多部门在之前的三四年时间里已经做了很多认知智能的投入了,大家都希望用大模型把这些场景重新做一遍,但问题是没有硬件。我在5月份去一个头部的财富管理公司的时候,问他们有多少张 A100 显卡,他说有5张,这是一个中国头部财富管理公司的情况,当然很多券商的显卡数量也不到10张。
4、信创
在国产的硬件上要做针对性适配,额外投入并且有些功能没有办法实现,比如说 PyTorch 最常用的 Python 的深度学习的框架。现在要想在国产的主流硬件上跑起来,必须重新编译一遍,这也是一个非常艰巨的任务。国产硬件现在还没有这么强大的生态,所以从底往上要做非常多的工作,才能够在信创的环境下运行,这也是我们逃不过的问题。即使我们有了软件,有了硬件,有了场景,硬件质量也是很重要的。
5、胡说八道
金融场景里面,我们经常会发现大模型看起来很神奇,但很多小学生会做的事情大模型不会。比如在3月份的时候,我问它一些小数点数比较多的加法,它都会加错,到了7月份的版本这个问题才得到了纠正。但是,那种比如说计算30年房贷利率的复利这种事情它还是会算错。所以尽管现在的大模型号称可以去解决很多数学推理的问题,甚至据说有一篇文章说它可以把一个数学的推理问题的交给系统,但是在金融领域我们所需要的高可靠的计算却发现AI做不到,更不用说它还会编造假的答案。有一次我去去某头部券商演讲,主持现场表演用ChatGPT 生产一段我的个人介绍,内容生成出来之后,除了性别都写错了。这种问题在金融领域下,不能容忍。我们金融行业对数据的标准化要求都是 4 个 99 以上:99.99% ,低于这个我们就不敢接受了。
6、数据
巧妇难为无米之炊。金融领域大模型没有大量金融语料进行训练是不行的,而且这个数据都要进行清洗,是每家都重新做,都投入几百万的投资?还是能有个行业基础设施?这个行业基础设施现在是没有的,包括我们自己内部把大量的 PDF 文件直接灌到大模型的效果也不是很好,这个问题应该怎么处理?大家没有有效的解决方案。这些拦路虎都是阻碍我们跨越鸿沟的一些技术层面上的问题。
3
有了大模型,AI持证上岗:金融业从业资格持证记

一是必须尊重国内客户的实际约束,比如说不允许用 ChatGPT ;
不允许使用任何云服务,必须是本地私有化部署的解决方案;
必须在国产硬件上能够跑起来;
必须能够在 10 万量级的投入内就把这件事情做起来。
本质上这件事是搭建一个在很多场景都能使用的知识库应用,所以它必须可以映射到很多券商的、银行的知识库场景上去。
一开始是准备语料,3000 道真题以及一些教辅材料,就跟咱们准备考试的时候一样,看真题、看教辅。找到当年新版的教辅资料,没找到电子版,只能买回纸质版后把它给切开,一页一页扫描,用我们自己的 OCR 引擎, PDF 解析引擎,把教辅材料的图表全都识别,这个工作我们用了一整天的时间。


4
大模型构建四大系统工程,像造车那样去落地
做完这个考试后,我画了这张图来理解一下从大模型到场景落地的概念是什么。
我们假设大模型是一辆汽车。
我们假设大模型就是一辆汽车。
汽车需要发动机,发动机是一辆汽车的灵魂,但只有发动机这个车也跑不起来,还需要一整套的操纵和电器系统,让整个动力系统能够传输到整车。想跑起来它就要吃燃料,所以要有燃油系统、冷却系统、排气系统,让燃料能够充分的被引擎使用。此外还需要对机器的制动、悬挂、刹车进行投入,让这个车子能够安全可靠地跑起来。还需要一系列的传动系统,提高能量传输效率,改变外形,让它更有效地降低风阻等等一系列的工程,这样一辆车才能够跑上路。
大模型也是一样的。
我们现在不管是私有化的大模型还是互联网的大模型SaaS服务,它只相当于引擎。要让大模型这辆车子发动起来就像一台车一样,也需要各种系统的配合。
1、语料工程
燃油冷却排气系统对于大模型来说是大模型怎么能够读懂领域文档里面的知识。尤其我们金融的语料跟一般的互联网语料不一样,互联网语料是一维的,小说、新闻是线性的序列、而金融文档里面有大量二维的表格,表格之间还有勾稽关系,所以金融领域的语料是三维的。金融语料是具备复杂的概念以及复杂概念之间联系的语料。如果把这种语料直接丢到大模型里面,相当于什么呢?相当于从油井里头把原油挖出来,直接灌到发动机里去,那发动机一定会爆掉,所以必须要经过炼油的过程,把原油炼成汽油,再把汽油放到发动机里面去。所以语料工程其实是一个非常复杂的工程。
2、质量工程
汽车的制动悬挂和刹车系统相当于大模型的质量工程,刚才我们说过大模型会一本正经地胡说八道,大模型还有所谓的幻觉现象,就是很多结果是它自己编造出来的。怎么去约束它,让它能够输出我们需要的质量?我相信在金融行业里品控的重要性是远远高于其他行业的。所以在这个方面必须大大加强金融大模型机器人的约束能力。
3、提示工程
传动装置类似于大模型的提示工程。涉及业务理解,还需要提供人机协同的数据校验解决方案,我们对所有在线的大模型包括 ChatGPT ,经过了各种子任务的实验,发现纯粹的大模型正确率不管怎么喂数据都只有百分之六七十。可能在知识库类的应用上,它的准确率大概都只能到达 80%。但是在精细的数据理解、数据抽取的场景下,只能做到 60%- 70% 的话,金融业的客户肯定是无法接受的。单靠大模型自己是不可能完成的,必须要一整套工程系统对它进行品控,才能够交付给业务系统。
4、运维工程
汽车的传动系统相当于大模型的运维工程,怎么降低成本?怎么提高传动的效率?以前我们在建设中台和智能化系统的过程中,所遇到的问题在大模型中都是存在的,我们叫烟囱式的开发。前天有一个券商的领导告诉我,他们内部光是投研建设的系统,在其他的底座全都打不通。所以投研系统、撰写系统、投顾系统之间的差距其实是很大的,怎么能够把他们汇总在一起呢?我们希望能有一个基座来支持所有不同的下游任务。我们会有上百个不同的能力中心和下游提示工程进行操作。怎么能够保证这些任务之间既能够隔离,又能够共用基础设施呢?以前银行都有 NLP 中台,有各种 NLP 的中间任务,包括文本分类、实体抽取等等,那现在这些中间任务可能不太需要了,但并不意味着这些中间能力是不需要的。我们能把这些任务汇聚成一个系统吗?这样的挑战都使得传统的MLOps(机器学习运维一体化),进入到了新的挑战,叫 LLMOps(大模型运维一体化)。这都是过去十年当中大家在工程里面天天遇到的问题,没有做到这种程度是不可能落地的。
5
大模型三大能力:
生成数据、生成知识、生成洞察
大家在大模型的各种场景上说了很多让人感觉很炫酷的内容以及场景的预期,但是太少的人去讲工程,太少的人去讲落地,尤其是这其中的细节,我认为这才是这个领域未来大家会关注的方向,这也是文因互联致力于解决的问题,扎扎实实做好落地的内容。我们的目标就是帮客户挣钱,计算投入产出比。我们产品的同事计算过,目前做财富管理的智能陪伴,生成一条视频需要6分钱,这个肯定要亏钱,能不能把这条视频的成本降到0.6 分钱呢?这个时候就要靠工程。在这个工程的过程当中,我们会把所有的能力总结三大部分的能力:
大模型生成数据
大模型能够帮助我们更高效地处理数据,其实这件事情我们以前也做了很多年了, 17 年我们帮助上交所进行公告的自动化处理开始,到 19 年做科创板的自动化处理、 21 年做北交所的自动化处理、22 年做了银行间的 ABS 自动化处理,这一系列的中国金融市场的文档处理。现在文因互联这方面在之前已经有了大量的成功的经验,但是大模型使得我们在同样的场景上面做同样的服务,现在的成本可以比以前降低 10 倍,这也就使得我们可以支持以前根本不能去服务的很多腰部的或者尾部的场景,之前因为成本问题无法实现的部分现在可以去尝试、去实现。
大模型生成知识
大模型它真正的威力其实在于帮助系统理解知识建模。我们第一次拥有在无标注的语料之上进行无监督学习的程序,在语料当中去挖掘隐含的约束知识,在很多金融场景上都需要这样的知识。比如在银行的【外规内化】场景,把行业的法规变成内部在合规场景中需要的规范,以前大家做这件事情都是用人工来做的。后来我们给江南行提出来一个建议:做业务分析不要完全手工来做,用大模型来帮你们处理一下,发现业务分析之后效率提高了10倍!原本需要一个下午做完的分析,现在一下子就能完成,可见内部的效率可以提高得非常多。
大模型生成洞察
我们做评级报告、投研报告都是一种洞察能力。我们辅助评级机构智能生成评级报告、帮助资产管理公司进行研报解析,生成摘要等,深度挖掘各类报告数据价值,沉淀指标数据,赋能业务场景,这些都是文因在智能生成领域的尝试,类似的场景还有很多。
这三点其实正好对应到我们在日常的办公室工作中的办公三套件:Word、Excel、PowerPoint 。
Word帮助我们去写文档、读文档;
Excel帮助我们去核查、计算以及进行业务的梳理;
PowerPoint 帮助我们把收集到的数据和知识呈现出来变成我们的决策的依据和更好跟别人沟通的一种方式。
所以我们把它戏称为三个做作业的系统,一个是读作业的 NLU ,一个是查作业的系统 BA ,还有一个写作业的系统 AIGC ,基于大模型我们可以构造成一整套帮助金融人的办公三套件。
从去年到现在,我们已经把文因互联的产品全面基于大模型进行改造,文因互联现在没有任何一款产品是与大模型无关的。
6
金融领域大模型:三大能力,数十个细分场景


BA-辅助信息分析,运用专业领域知识,开展多维度业务分析与智能审核
在BA场景方面,诸如投行发行场景、投资分析场景、风控场景、信息或者投研场景等各种场景中,涉及到很多底层的能力,包括交叉核验能力、数据计算能力、财务勾稽关系能力、一次性匹配的能力等。所有这些能力在我们有了大模型为基础之后,都值得重新做一遍。
我们现在已经开始用大模型做错别字检查任务,之前觉得麻烦的工作被大模型优化很多。
比如财务勾稽关系核查,只要把财务相关的数据输入到模型里面去,对于财务勾稽关系的建模的这个过程相比于以前是大大加速了。结合多年财务审查、法务审查、IPO 合规审查等多个产品的积累,通过大模型帮助我们高效地进行业务分析、规则的建立和规则的联想,以及从文本当中自动化学习规则。在类似的业务分析场景上面,我们现在可以拥有比以前更加完备的业务分析的工具系统。
对于投资分析的各种产品,比如信用评级场景、资产评估场景、审计场景、投研模型、量化分析、分享分析、外规内化场景、消费的审查场景、消保场景等等,每一个场景它都会有相应的能力。
比如消费者保护场景的流程是在银行里面特别关心的问题,但我要想做到消保产品需要哪些能力呢?
需要具备错别字检查的能力,因为需要生成一个跟客户投诉相关的文档;
需要交叉检验的能力,需要去判断客户投诉的内容和行内行外的各种法规之间的关联关系;
需要进行一致性判断的能力,客户的诉求可能包含一个计算公式的错误,一笔钱的错误,需要进行一致性的检查;
需要合规的检查等等。
在每一个场景上面都细拆解下来,你都可以把它应对到对应的这种能力上面来。

AIGC-提供背景知识、写作思路、内容大纲,提供结合业务逻辑的洞察
在内容生成场景当中,帮助客户撰写各类金融文档,比如跟券商合作,帮助撰招股说明书,债券募集说明书、ABS 专项产品说明书;帮助交易所生成公告摘要、问询函底稿;近期还帮助主流的财经媒体写财经新闻......
以评级报告生成为例,不同评级场景的文档众多、需求零散多变,占用大量人力成本;评级分析需要大量专业知识积累和数据查找,关键信息隐藏在海量的文档数据中,缺少数据加工生产线,将非结构化的文档,转换成可利用的数据和知识。基于大模型+文档生成场景插件,辅助评级报告素材收集、初稿写作、跟踪评级报告财务数据刷新、评级报告审核等全作业流程,深度挖掘评级报告数据价值,沉淀指标数据,赋能业务场景,实现完整闭环的评级报告生产流水线,提高工作效率。
有了大模型之后,这些工作会变得更加高效,也会启发很多新的产品,基于这些我们画出能力和场景对应关系表格。
以智能投顾为例,我们客户提出来,类似根据客户的持仓,为客户做专属财富管理的场景需求。能不能实现千人千面的投资顾问?能不能实现对于客户的长期陪伴?这都是从17年以来我们想做智能投顾的时候,大家最关心的问题。
是什么阻碍了我们做这件事?为什么很难做到千人千面?
首先是不理解产品,比如说一个财富管理上的产品,可能客户有一万个代理的资本计划或者基金,但每一个基金都有自己的描述文件。但如果你想让你的财富管理的一些投顾人员都知道每一个产品在做什么,显然不现实。
如何精准地匹配客户,甚至根据每一个客户自己的偏好和持仓情况,能够定制专属的营销话术,至少能生成长期有粘性的文档,要达到这种灵活机动性,在没有大模型之前是非常非常难做到的事情。
这种AIGC场景并不仅仅只是做一个研报的摘要和公告摘要这样很初步的场景,后来发现包括银行做场景银行的营销和在财富管理上面进行精细化的客户运营、在银行场景上来实现高价值客户,通过银行流水的分析来实现突破、就这些场景都在大模型之下,从不可能变成可能。
后来我就把这些整理成一张表,横的表头是场景,竖的部分是粒度。我们要想做金融的场景的服务,就必须细粒度的把每一个点给它勾上,那这样才是一个在金融领域真正能够跨越鸿沟的大模型。
金融这部分是我们应该是做得最好,因为我们文因互联从对金融文档的深度语义理解里起家,在这块我们非常的熟悉。
大模型可以帮助生成各种各样的文案。比如在零售场景中营销话术、服务的服务话术生成,在银行场景里面尽调报告、风险评估报告、不良资产的尽调报告、信贷准入审查报告、合规文件等一系列场景内容的生成。
对不同的报告我们也需要不同的能力。
复杂结构的文档,我们需要进行表格生成、结构生成、图表自动化生成等等一系列的能力。不同的场景上就需要不同的能力的对齐,跨越鸿沟没有任何捷径可以走,一个一个的细分的场景要不要做,需求怎样一点一点达成。大家看到这些的话跟主流的互联网大厂可能有很大的不同。
细分场景的落地需要的是精细化的核心分析能力,需要的是精细化的场景分析能力,这是一个非常深的领域的壁垒。
中国一直没有领域大模型不是因为做不出来,而是很多人不愿意去做,这个过程需要有长时间的领域沉淀才能实现。文因互联从成立到今天已经做了10年,正是这踏踏实实十年如一日的坚持才是们能够很自信地站在这里,把这些东西说出来的原因。
7
三大方案任你选:10-30万,30万到100万,100万到300万

涉及到 NLU,BA和内容生产AIGC各种场景,又细分为提示不同的子场景,刚才都已经向大家介绍过了,未来这些场景能力的组合就会去服务各种不同的任务,这就是我们整个的服务的框架。