excel学习库

excel表格_excel函数公式大全_execl从入门到精通

鲍捷:数十万级、百万级投入,金融机构可拥有自己的行业大模型

本篇内容来自于文因互联上海举办的【文因金融大模型领域落地汇报会】,鲍捷博士作主题演讲。







1

大模型心理动荡:经历绝望之谷,目标开悟之坡


大模型推出之后激起了整个学术界和各种应用领域的强烈关注。截至上个礼拜应该已经有107个大模型了,在这么多大模型当中是否还需要108个?
我觉得是不需要的。
坦率地说现在大家都属于一个比较茫然的状态,一个新技术刚起步的时候就好像早恋一样。

每个人都知道它
每个人都在讨论它
每个人都觉得别人已经做过了
所以每个人假装自己都在做
新技术出现时都是这样,今天的大模型也是这样。可是大模型在落地的过程中其实是非常困难的,从去年12月份大模型刚刚开始推出的时候,我们就决定所有的产品线必须基于大模型来开发,在这过程中就经历了许许多多的挫折尝试。

我相信业界很多做技术的同学看到这张图都会心一笑,目前显然有这样一个局面:面对大模型我们甚至不能够理解它的原理,也不能操作它,只是在祈祷这个东西能显灵,然而大多数时候它都不能显灵。

这种情况给大家带来很多对大模型不同的看法。

我们都会经历这样的过程:一件事的开始会抱着很多的幻想,当这种期望达到了一定高度之后,我们发现和想象的不一样,就会开始绝望,进入绝望之谷,经历过一个绝望的过程之后,才会进入开悟之坡。

我们看看过去这半年时间,大家经历了一个什么样的心路历程

心路历程



2023.1-2023.2

大家觉得很充满期望。


2023.3-2023.4

大家还没有开始训练自己的私有化大模型,基本上都是来接ChatGPT的各种API,各种各样的小应用尝试。




2023.5

进入疯狂状态,在中国出现五六十家大模型,风投也非常激动,大家感觉这可能是一个新的时刻,一个“iPhone”时刻,各种各样的研讨会,各种各样的投资。


2023.6

我们发现很多事情开始转折了。其实在6月份的时候,OpenAI 的增长已经停滞了。


OpenAI 的用户说在6月份已经下降。这就预示着大模型的发展未必如我们一开始设想的那样一帆风顺,通过这6个月的时间,我们发现美国大模型的落地方式不一定适合中国。因为中美两国的发展环境是完全不同的,所以在美国能够成功的商业模式在中国不一定能成功。
而相对应的,在美国能够成功的技术模式、产品架构在中国也不一定能成功,这是深植于两国的商业文化和整个社会治理体系的不同带来的深刻变化。
如果大模型不能在中国做一次深刻的本土化,也有可能水土不服逐渐淹没。那么大模型在两、三年之后是不是也会沉入水底?我觉得取决于我们自己的选择。

2

大模型落地六大鸿沟


今天我想跟大家探讨的重点是所有技术在发展中都会经历的鸿沟,在2022年11月份之前,只有1%-2%市场的时候,基本上是靠一群狂热的信念者支撑起这个领域。

过去这八个月的时间,应该进入第二个阶段——【早期使用】这个阶段,此时市场渗透率可能还不到10%,因为 OpenAI 的用户数大概只有10个亿,Midjourney 只有一个亿。对应在国内真正的 ToC 市场应该还没有落地情况,ToB 的市场还是属于迷茫的探索阶段,所以这个市场的落地也有很长的路要走。


我总结了这么几个不得不面对的问题:

1、部署要求

在中国,半年时间出现了100多个大模型,绝大多数是没有办法对 ToB 客户提供公有云服务的。但是出于对数据信息安全等方面的考虑,大中型客户更愿意接受私有化部署,这是中国的现状,如果不尊重私有化部署及数据监管的需求,大模型的发展堪忧。

2、投入

一次全参数微调最起码要花500万。用千万级的投入要做什么?百万级的投入要做什么?一张A100的显卡,80G的内存、十万多块钱、8张一组,一组一个机位能做什么?可能一个大模型在标准的细级别的一个情景跑一次,一个机位是远远不够的,至少要十几个。如果没有这样的规模,是否意味着在工业落地的时候,就没有办法去做这件事情?这是所有的 ToB 的客户,特别是金融的客户最关心的问题。

3、场景闭环

场景闭环怎么低成本完成?带着这个问题,春节后我拜访了30多位金融机构的同事,他们也参加了很多发布会,也有很多大型互联网平台的大模型请求他们来接入,但问题是不管是他们自己还是这些大厂都不知道怎么落地,都不知道场景是什么,也不知道场景落地管控的约束是什么,这就使得这个过程陷入了一个鸡生蛋和蛋生鸡的循环。当大模型的供应商不知道场景去怎么服务的时候,怎么去启发客户对这件事情投入的热情?当客户不知道大模型厂家能够给我提供什么服务的时候,我又怎么能够下决心去做这种探索?这就是场景落地过程中冷启动的困境。有很多金融机构对这件事情非常关注,有一家主流券商对我说他们的 CIO 一共提了57个场景,银行也是类似的。很多部门在之前的三四年时间里已经做了很多认知智能的投入了,大家都希望用大模型把这些场景重新做一遍,但问题是没有硬件。我在5月份去一个头部的财富管理公司的时候,问他们有多少张 A100 显卡,他说有5张,这是一个中国头部财富管理公司的情况,当然很多券商的显卡数量也不到10张。

4、信创

在国产的硬件上要做针对性适配,额外投入并且有些功能没有办法实现,比如说 PyTorch 最常用的 Python 的深度学习的框架。现在要想在国产的主流硬件上跑起来,必须重新编译一遍,这也是一个非常艰巨的任务。国产硬件现在还没有这么强大的生态,所以从底往上要做非常多的工作,才能够在信创的环境下运行,这也是我们逃不过的问题。即使我们有了软件,有了硬件,有了场景,硬件质量也是很重要的。

5、胡说八道

金融场景里面,我们经常会发现大模型看起来很神奇,但很多小学生会做的事情大模型不会。比如在3月份的时候,我问它一些小数点数比较多的加法,它都会加错,到了7月份的版本这个问题才得到了纠正。但是,那种比如说计算30年房贷利率的复利这种事情它还是会算错。所以尽管现在的大模型号称可以去解决很多数学推理的问题,甚至据说有一篇文章说它可以把一个数学的推理问题的交给系统,但是在金融领域我们所需要的高可靠的计算却发现AI做不到,更不用说它还会编造假的答案。有一次我去去某头部券商演讲,主持现场表演用ChatGPT 生产一段我的个人介绍,内容生成出来之后,除了性别都写错了。这种问题在金融领域下,不能容忍。我们金融行业对数据的标准化要求都是 4 个 99 以上:99.99% ,低于这个我们就不敢接受了。

6、数据

巧妇难为无米之炊。金融领域大模型没有大量金融语料进行训练是不行的,而且这个数据都要进行清洗,是每家都重新做,都投入几百万的投资?还是能有个行业基础设施?这个行业基础设施现在是没有的,包括我们自己内部把大量的 PDF 文件直接灌到大模型的效果也不是很好,这个问题应该怎么处理?大家没有有效的解决方案。这些拦路虎都是阻碍我们跨越鸿沟的一些技术层面上的问题。

3

有了大模型,AI持证上岗:金融业从业资格持证记


整个大模型怎么在中国市场落地?怎么在金融产业落地?这件事情还没有完全探索清楚。
我们从去年 12 月份开始启动大模型项目,到 5 月份的时候,其实也很迷茫,不知道能够在什么样的场景上面、在中国客户能够接受的约束条件下,把这件事情完成。后来有一个学金融的同学建议,要不把金融业从业资格的考试看一看。
于是就决定先从大家都比较熟悉的小场景开始做,在座的各位如果从事证券的话应该都参加过这个考试,这个考试主要是考两个内容:一个是法规,金融市场法规的要求,另一个是金融市场的常识知识。我对团队提出了几个要求:
  • 一是必须尊重国内客户的实际约束,比如说不允许用 ChatGPT ;

  • 不允许使用任何云服务,必须是本地私有化部署的解决方案;

  • 必须在国产硬件上能够跑起来;

  • 必须能够在 10 万量级的投入内就把这件事情做起来。

本质上这件事是搭建一个在很多场景都能使用的知识库应用,所以它必须可以映射到很多券商的、银行的知识库场景上去。

一开始是准备语料,3000 道真题以及一些教辅材料,就跟咱们准备考试的时候一样,看真题、看教辅。找到当年新版的教辅资料,没找到电子版,只能买回纸质版后把它给切开,一页一页扫描,用我们自己的 OCR 引擎, PDF 解析引擎,把教辅材料的图表全都识别,这个工作我们用了一整天的时间。

从 3000 多道真题添加到3万条,从两本教辅资料,到现在的上百本,这是整个约束条件,重点是整个搭配的环境都是充分尊重国内客户的实际硬件条件的,在训练时间上也有硬性要求,不能让客户一个月才能见到结果,必须保持每天都快速地去迭代。
day1 我们是用一个基础的大模型,这只是在中文语料上面,但并没有针对任何金融的语料做过微调,在这个基础的模型上面我们跑了 32 分。
day2 我们开始给它看题,看了 1000 多道题,涨到了 36 分,这里面我们用到的一种微调的技术叫 Lora 。
day3 继续看更多的题,之后给它上了一节课,目前仅仅只用了一张 A100 的显卡。
day4 我们开始给它读书了,读了两本书,提到46 分。day5-day6 读了全量的教材,硬件的训练精度也上升了。
day5 的时候,就通过了金融业从业资格考试,考了 60 分。
之后我们配了更多的材料,包括引入了更多的学习的办法,包括全参数训练,做一个底座的微调,引入了 PPO 算法,引入了人工对于答案的校对和对齐。
6月 23 号的时候,我们考了 81 分,这个分数还算不错,我在公司内部对参与过这个考试的同学们做了一个调研,大家都只考了 60 多分。
我觉得这个例子对我们也是非常有启发的,也增强了大家的信心。这是一个真实场景的约束,中国的金融客户现在并没拥有无限的预算,这跟很多互联网大厂对这件事情的想法是不一样的。
很多客户并不是不缺钱,比如我们在 6 月份接触到一个国有大行要做这个模型。他们给出的价格是多少?
150 万要做 5 个领域模型。
这可能是现在大家对市场上的期待,而这种期待是真实的,所以我们必须在这种约束条件下谈谈工作。跟美国是不一样的价格,不管是从硬件、还是从软件架构的优化,以及对于场景的理解上来说都是。
其实通过这个实验我们得到了大量的收获。金融机构 IT 部的专家们也或多或少经历过共同探索过程,包括分布式训练、在数据清洗的过程中进行提示词的优化和各种数据格式的约束、为达到更好的训练效果如何平衡全参数训练和提示工程的比例、降低成本,这些都是工程,所以问题就在于如何去进行工程。

4

大模型构建四大系统工程,像造车那样去落地


做完这个考试后,我画了这张图来理解一下从大模型到场景落地的概念是什么。

我们假设大模型是一辆汽车。

我们假设大模型就是一辆汽车。

汽车需要发动机,发动机是一辆汽车的灵魂,但只有发动机这个车也跑不起来,还需要一整套的操纵和电器系统,让整个动力系统能够传输到整车。想跑起来它就要吃燃料,所以要有燃油系统、冷却系统、排气系统,让燃料能够充分的被引擎使用。此外还需要对机器的制动、悬挂、刹车进行投入,让这个车子能够安全可靠地跑起来。还需要一系列的传动系统,提高能量传输效率,改变外形,让它更有效地降低风阻等等一系列的工程,这样一辆车才能够跑上路。

大模型也是一样的。

我们现在不管是私有化的大模型还是互联网的大模型SaaS服务,它只相当于引擎。要让大模型这辆车子发动起来就像一台车一样,也需要各种系统的配合。

1、语料工程

燃油冷却排气系统对于大模型来说是大模型怎么能够读懂领域文档里面的知识。尤其我们金融的语料跟一般的互联网语料不一样,互联网语料是一维的,小说、新闻是线性的序列、而金融文档里面有大量二维的表格,表格之间还有勾稽关系,所以金融领域的语料是三维的。金融语料是具备复杂的概念以及复杂概念之间联系的语料。如果把这种语料直接丢到大模型里面,相当于什么呢?相当于从油井里头把原油挖出来,直接灌到发动机里去,那发动机一定会爆掉,所以必须要经过炼油的过程,把原油炼成汽油,再把汽油放到发动机里面去。所以语料工程其实是一个非常复杂的工程。

2、质量工程

汽车的制动悬挂和刹车系统相当于大模型的质量工程,刚才我们说过大模型会一本正经地胡说八道,大模型还有所谓的幻觉现象,就是很多结果是它自己编造出来的。怎么去约束它,让它能够输出我们需要的质量?我相信在金融行业里品控的重要性是远远高于其他行业的。所以在这个方面必须大大加强金融大模型机器人的约束能力。

3、提示工程

传动装置类似于大模型的提示工程。涉及业务理解,还需要提供人机协同的数据校验解决方案,我们对所有在线的大模型包括 ChatGPT ,经过了各种子任务的实验,发现纯粹的大模型正确率不管怎么喂数据都只有百分之六七十。可能在知识库类的应用上,它的准确率大概都只能到达 80%。但是在精细的数据理解、数据抽取的场景下,只能做到 60%- 70% 的话,金融业的客户肯定是无法接受的。单靠大模型自己是不可能完成的,必须要一整套工程系统对它进行品控,才能够交付给业务系统。

4、运维工程

汽车的传动系统相当于大模型的运维工程,怎么降低成本?怎么提高传动的效率?以前我们在建设中台和智能化系统的过程中,所遇到的问题在大模型中都是存在的,我们叫烟囱式的开发。前天有一个券商的领导告诉我,他们内部光是投研建设的系统,在其他的底座全都打不通。所以投研系统、撰写系统、投顾系统之间的差距其实是很大的,怎么能够把他们汇总在一起呢?我们希望能有一个基座来支持所有不同的下游任务。我们会有上百个不同的能力中心和下游提示工程进行操作。怎么能够保证这些任务之间既能够隔离,又能够共用基础设施呢?以前银行都有 NLP 中台,有各种 NLP 的中间任务,包括文本分类、实体抽取等等,那现在这些中间任务可能不太需要了,但并不意味着这些中间能力是不需要的。我们能把这些任务汇聚成一个系统吗?这样的挑战都使得传统的MLOps(机器学习运维一体化),进入到了新的挑战,叫 LLMOps(大模型运维一体化)。这都是过去十年当中大家在工程里面天天遇到的问题,没有做到这种程度是不可能落地的。

5

大模型三大能力:

生成数据、生成知识、生成洞察


大家在大模型的各种场景上说了很多让人感觉很炫酷的内容以及场景的预期,但是太少的人去讲工程,太少的人去讲落地,尤其是这其中的细节,我认为这才是这个领域未来大家会关注的方向,这也是文因互联致力于解决的问题,扎扎实实做好落地的内容。我们的目标就是帮客户挣钱,计算投入产出比。我们产品的同事计算过,目前做财富管理的智能陪伴,生成一条视频需要6分钱,这个肯定要亏钱,能不能把这条视频的成本降到0.6 分钱呢?这个时候就要靠工程。在这个工程的过程当中,我们会把所有的能力总结三大部分的能力:

大模型生成数据

大模型能够帮助我们更高效地处理数据,其实这件事情我们以前也做了很多年了, 17 年我们帮助上交所进行公告的自动化处理开始,到 19 年做科创板的自动化处理、 21 年做北交所的自动化处理、22 年做了银行间的 ABS 自动化处理,这一系列的中国金融市场的文档处理。现在文因互联这方面在之前已经有了大量的成功的经验,但是大模型使得我们在同样的场景上面做同样的服务,现在的成本可以比以前降低 10 倍,这也就使得我们可以支持以前根本不能去服务的很多腰部的或者尾部的场景,之前因为成本问题无法实现的部分现在可以去尝试、去实现。

大模型生成知识

大模型它真正的威力其实在于帮助系统理解知识建模。我们第一次拥有在无标注的语料之上进行无监督学习的程序,在语料当中去挖掘隐含的约束知识,在很多金融场景上都需要这样的知识。比如在银行的【外规内化】场景,把行业的法规变成内部在合规场景中需要的规范,以前大家做这件事情都是用人工来做的。后来我们给江南行提出来一个建议:做业务分析不要完全手工来做,用大模型来帮你们处理一下,发现业务分析之后效率提高了10倍!原本需要一个下午做完的分析,现在一下子就能完成,可见内部的效率可以提高得非常多。

大模型生成洞察

我们做评级报告、投研报告都是一种洞察能力。我们辅助评级机构智能生成评级报告、帮助资产管理公司进行研报解析,生成摘要等,深度挖掘各类报告数据价值,沉淀指标数据,赋能业务场景,这些都是文因在智能生成领域的尝试,类似的场景还有很多。

三点其实正好对应到我们在日常的办公室工作中的办公三套件:Word、Excel、PowerPoint 。

Word帮助我们去写文档、读文档;

Excel帮助我们去核查、计算以及进行业务的梳理;

PowerPoint 帮助我们把收集到的数据和知识呈现出来变成我们的决策的依据和更好跟别人沟通的一种方式。

所以我们把它戏称为三个做作业的系统,一个是读作业的 NLU ,一个是查作业的系统 BA ,还有一个写作业的系统 AIGC ,基于大模型我们可以构造成一整套帮助金融人的办公三套件。

从去年到现在,我们已经把文因互联的产品全面基于大模型进行改造,文因互联现在没有任何一款产品是与大模型无关的。


6

金融领域大模型:三大能力,数十个细分场景


NLU-强领域理解能力,服务于海量复杂文本信息处理
对于 NLU 场景,底层需要很多场景和能力。比如对文本抽取符合能力的要求,涉及到各种细颗粒度的抽取,如段落的抽取、篇章结构的抽取、各种标题的抽取、基本概念的抽取、页眉页脚的抽取等等。
其中,表格抽取这一块是难题,做过金融信息抽取的人应该都知道,这个非常非常地复杂。涉及到整表抽取、各种列的抽取、单元格的理解、单元格的划分以及表格复杂的变形处理,如跨页表格、无边框表格、转制表格、嵌套等等一系列非常复杂的业务流程。
对表格理解和业务理解,就不仅仅是在文档的语法层面,还需要对文档有更深层次的理解,比如说同样的表格可能会重复,表头重复、单元重复。像三年一期的财务报表,就涉及到混合表头、对财务客户字段的对齐等等,都是非常偏金融行业业务的理解,为此我们做了大量的业务分析的工作。
有了大模型之后,每一个细分场景上都能够帮助我们大幅提升效率。比如大模型可以帮助我们更好地理解规则,不再需要专门训练一个系统,只用一些相对简单的提示工程和知识库的方法,一两天时间就可以做一个这样的小模型。
虽然有一种观点认为大模型本身可以把所有的智能全部都干掉,不需要放小模型了,我们在实践当中发现这样的想法是行不通的。这次我们想做好这种自然语言理解的工作,底层是有上百个子模型。
那种一统江湖的大模型,最终交付的产品质量只能达到60%-70%,没有任何客户愿意为60%-70%的产品质量买单。要想能够交付给客户,尤其是高质量的金融客户,就必须在预处理和后处理中做大量的工作。
大模型的价值是进行精细模型分解和核心构造的过程中大大降低成本的同时,提升可以服务的用户的场景。
基于大模型完全改造了底层的数据生产系统,不管是对银行领域、券商领域的财富管理中涉及到几十种金融场景的诸多底层数据我们都会基于大模型进行知识的抽取服务,可协助客户完成专属知识库构建,根据具体场景需求,提取关键信息,为后续工作开展提供数据支持。

BA-辅助信息分析,运用专业领域知识,开展多维度业务分析与智能审核

在BA场景方面,诸如投行发行场景、投资分析场景、风控场景、信息或者投研场景等各种场景中,涉及到很多底层的能力,包括交叉核验能力、数据计算能力、财务勾稽关系能力、一次性匹配的能力等。所有这些能力在我们有了大模型为基础之后,都值得重新做一遍。

我们现在已经开始用大模型做错别字检查任务,之前觉得麻烦的工作被大模型优化很多。

比如财务勾稽关系核查,只要把财务相关的数据输入到模型里面去,对于财务勾稽关系的建模的这个过程相比于以前是大大加速了。结合多年财务审查、法务审查、IPO 合规审查等多个产品的积累,通过大模型帮助我们高效地进行业务分析、规则的建立和规则的联想,以及从文本当中自动化学习规则。在类似的业务分析场景上面,我们现在可以拥有比以前更加完备的业务分析的工具系统。

对于投资分析的各种产品,比如信用评级场景、资产评估场景、审计场景、投研模型、量化分析、分享分析、外规内化场景、消费的审查场景、消保场景等等,每一个场景它都会有相应的能力。

比如消费者保护场景的流程是在银行里面特别关心的问题,但我要想做到消保产品需要哪些能力呢?

  • 需要具备错别字检查的能力,因为需要生成一个跟客户投诉相关的文档;

  • 需要交叉检验的能力,需要去判断客户投诉的内容和行内行外的各种法规之间的关联关系;

  • 需要进行一致性判断的能力,客户的诉求可能包含一个计算公式的错误,一笔钱的错误,需要进行一致性的检查;

  • 需要合规的检查等等。

在每一个场景上面都细拆解下来,你都可以把它应对到对应的这种能力上面来。

AIGC-提供背景知识、写作思路、内容大纲,提供结合业务逻辑的洞察

在内容生成场景当中,帮助客户撰写各类金融文档,比如跟券商合作,帮助撰招股说明书,债券募集说明书、ABS 专项产品说明书;帮助交易所生成公告摘要、问询函底稿;近期还帮助主流的财经媒体写财经新闻......

以评级报告生成为例,不同评级场景的文档众多、需求零散多变,占用大量人力成本;评级分析需要大量专业知识积累和数据查找,关键信息隐藏在海量的文档数据中,缺少数据加工生产线,将非结构化的文档,转换成可利用的数据和知识。基于大模型+文档生成场景插件,辅助评级报告素材收集、初稿写作、跟踪评级报告财务数据刷新、评级报告审核等全作业流程,深度挖掘评级报告数据价值,沉淀指标数据,赋能业务场景,实现完整闭环的评级报告生产流水线,提高工作效率。

有了大模型之后,这些工作会变得更加高效,也会启发很多新的产品,基于这些我们画出能力和场景对应关系表格。

以智能投顾为例,我们客户提出来,类似根据客户的持仓,为客户做专属财富管理的场景需求。能不能实现千人千面的投资顾问?能不能实现对于客户的长期陪伴?这都是从17年以来我们想做智能投顾的时候,大家最关心的问题。

是什么阻碍了我们做这件事?为什么很难做到千人千面?

首先是不理解产品,比如说一个财富管理上的产品,可能客户有一万个代理的资本计划或者基金,但每一个基金都有自己的描述文件。但如果你想让你的财富管理的一些投顾人员都知道每一个产品在做什么,显然不现实。

如何精准地匹配客户,甚至根据每一个客户自己的偏好和持仓情况,能够定制专属的营销话术,至少能生成长期有粘性的文档,要达到这种灵活机动性,在没有大模型之前是非常非常难做到的事情。

这种AIGC场景并不仅仅只是做一个研报的摘要和公告摘要这样很初步的场景,后来发现包括银行做场景银行的营销和在财富管理上面进行精细化的客户运营、在银行场景上来实现高价值客户,通过银行流水的分析来实现突破、就这些场景都在大模型之下,从不可能变成可能。

后来我就把这些整理成一张表,横的表头是场景,竖的部分是粒度。我们要想做金融的场景的服务,就必须细粒度的把每一个点给它勾上,那这样才是一个在金融领域真正能够跨越鸿沟的大模型。

金融这部分是我们应该是做得最好,因为我们文因互联从对金融文档的深度语义理解里起家,在这块我们非常的熟悉。

大模型可以帮助生成各种各样的文案。比如在零售场景中营销话术、服务的服务话术生成,在银行场景里面尽调报告、风险评估报告、不良资产的尽调报告、信贷准入审查报告、合规文件等一系列场景内容的生成。

对不同的报告我们也需要不同的能力。

复杂结构的文档,我们需要进行表格生成、结构生成、图表自动化生成等等一系列的能力。不同的场景上就需要不同的能力的对齐,跨越鸿沟没有任何捷径可以走,一个一个的细分的场景要不要做,需求怎样一点一点达成。大家看到这些的话跟主流的互联网大厂可能有很大的不同。

细分场景的落地需要的是精细化的核心分析能力,需要的是精细化的场景分析能力,这是一个非常深的领域的壁垒。

中国一直没有领域大模型不是因为做不出来,而是很多人不愿意去做,这个过程需要有长时间的领域沉淀才能实现。文因互联从成立到今天已经做了10年,正是这踏踏实实十年如一日的坚持才是们能够很自信地站在这里,把这些东西说出来的原因。

7

三大方案任你选:10-30万,30万到100万,100万到300万


支持私有化部署,尊重客户合规要求,我们提供三个不同的方案:
方案一,10万-30万。
类似于让机器考过金融业从业资格考试这样的任务,基本上只需要一个运行时刻的推理器,不需要高端显卡,如A100,你就可以立即拥有你自己的大模型。如小型知识库应用或者增强搜索类应用,之前要投入百万级,现在只需十分之一的成本,这就是大模型带来的巨大的成本的降低。
方案二,30万-100万。
这个预算范围下,我们就可以做一些提示工程,提示工程的成本相比于全参数训练的成本会低很多。
通过将原始的材料进行提示工程处理,转化成机器可以阅读的知识点。当然这个转化的过程是一个很高的行业壁垒,它不是一个通用的技术,而是必须建立在对金融的各个场景深刻理解之上的。
成本随输入知识点的数量增长,几十万或者百万个知识点足以支撑一个中等规模的应用,这些应用包括但不限于中级的知识库、行内的法规的知识库、投研的知识库、研报的知识库,还有文本解析应用,核查应用,摘要类应用等。
方案三,100万-300万。
有更多的预算,可以在文因互联已经精调过的文因模型上进行第二波的微调。底层模型,2000多万份金融的语料,100多万个金融的基础的概念,还有200万份原始的材料,大概6个T经过清洗的金融语料。可以去构建你的智能撰写系统、客服系统、投资研究系统、风险控制系统等等。
所以金融机构落地大模型不遥远,可以根据在业务的实际的需求,按需按预算尝试。比如,你可以先从方案一开始进行实验,快速拿到成果。
那最终我们把我们过去的6个月的成果总结做一个汇报,我们整个文因互联的大模型的方案底层会有各种各样的语料,2000多万的各种语料在做微调。
以上便是文因金融领域大模型成果汇报,我们从来不说发布了大模型,发布对于客户而言是没有意义的,客户最关心的是能够提供什么样的场景。

涉及到 NLU,BA和内容生产AIGC各种场景,又细分为提示不同的子场景,刚才都已经向大家介绍过了,未来这些场景能力的组合就会去服务各种不同的任务,这就是我们整个的服务的框架。

下一篇,我们将为大家展示大模型产品具体场景与功能demo

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接