【时代的样子】探路新质生产力·工匠先锋|再造“曹植”,跑通金融大模型赛道

来源:发布日期:2024-09-20

字号:      

WechatIMG3529.jpeg

        当前,上海正全面贯彻落实中央决策要求,构建现代化产业体系,推动新赛道和未来产业不断向前。在此过程中,人才无疑是关键要素和变量。上海市经信工作党委、上海市经济信息化委连续八年组织举办“智慧工匠”选树、“领军先锋”评选活动,挖掘出了一批在产业一线勇立潮头、矢志创新的企业领军人物和专业技术骨干,他们以胆识、智慧和汗水,正为新质生产力的形成和壮大贡献着力量。

        4月28日起,上海市经信工作党委、上海市经济信息化委携手文汇报共同推出全新专题报道——“探路新质生产力·智慧工匠/领军先锋风采”。今年,我们将持续关注在上海新质生产力发展进程中涌现的杰出人物,旨在通过文字的力量,展现他们的不凡业绩,领略他们的人格魅力、传递他们的职业精神。我们更期待能通过这一栏目,凝聚和激发全社会尊重人才、尊重创新的共识和热情,从而为发展新质生产力、推动高质量发展创造良好的环境。

 

达观数据联合创始人纪传俊

再造“曹植”,跑通金融大模型赛道

640-2.jpeg

纪传俊(右二)带领团队攀越文本智能的一座座高山。(受访者供图)

        纪传俊,达观数据联合创始人,上海市人工智能高级工程师职称获得者,中国计算机学会(CCF)会员。负责达观数据信息挖掘和金融智能产品研发,拥有10年以上架构设计和产品研发管理工作经验。上海市青年科技启明星获得者,获得2023上海城市数字化转型“智慧工匠”提名。

        达观数据的“曹植”大模型最近升级到7.4版本,经过层层迭代,这一金融垂类大模型逐渐展现出“惊鸿”之才:作为“考生”,“曹植”已顺利通过CFA(特许金融分析师)考试,专业技能获得认可;作为“员工”,“曹植”已在各大银行、券商等机构默默“上岗”,以智慧的长文本输出,帮助金融从业人员将繁杂的工作变得高效。

        有人说,大模型的“下半场”是落地应用。达观数据有限公司联合创始人纪传俊带领近60人的团队投身于这场数字化、智能化浪潮,以大模型的能力填补金融行业“痛点”,成为上海城市数字化转型的实践者和推动者。

      

“四倍速”里的加与减

        大模型时代,把行业竞争推向“四倍速”——从英特尔时代的每18个月成长一倍“快进”到现在的每年成长4倍。身处“四倍速”的竞争中,达观数据有自己的先发优势:基于大模型底座的技术能力和金融专业数据,去年很快推出“曹植”大模型。纪传俊如此形容它的特长:“曹植七步成诗,其代表作《洛神赋》则是首屈一指的长文本经典,这也是‘曹植’的专长——做金融领域长文档资料智能化的分析写作。”

        大模型“出生”是第一道关,在“四倍速”的竞争环境里,如果什么都抓,反而什么都抓不住,唯有走向专精尖才能脱颖而出。但这道“加减法”,考验的是团队领导者的精准判断。

        纪传俊还记得当时放在眼前的这道选择题:“曹植”已确定要跑金融赛道,但大模型面临的幻觉问题又与金融的严谨性相悖,在两者之间“搭桥”,纪传俊决定做加法。“我们很早就开始研究大模型的边界,第一时间决定研发RAG(检索增强生成)。”他当时很快拍板组建小分队,在一周内就把RAG的初级版本搭建出来,并在之后两个月内建立起业内最早带溯源的知识问答系统,最终沉淀成后续产品的基础。

        “今天,RAG被证明是解决幻觉和安全性问题的有效方案,但在当时,一切都是摸着石头过河。”他说,达观对B端做了很多技术性改造,反映在最新的版本中,“曹植”的写作能力更强了,而这种写作并非开放式生成,而是能结合数据、报告、历史材料整理后,输出符合银行、券商要求的可控生成,不仅具备从理解到生成的“思考”能力,也限制了“无序的想象力”。

        除了加法外,也要做减法。纪传俊说,最大的减法是技术路线的选择。在大模型出来之前,好几条技术路线都在向前延展,当时达观数据主攻的是BERT模型,这是一种预训练模型,在小模型阶段的阅读理解表现优异,且成本较低。但当大模型技术出现之后,纪传俊反复比较,毅然决定放弃BERT模型路线,“做这样的决定很艰难,当时也不知道是对是错,但现在看来,全力以赴转到大模型是一个正确选择。”

      

十年的坚守与奔跑

        翻阅纪传俊的履历,简单而清晰。作为复旦大学计算机专业硕士毕业生的他,是达观数据的初创团队成员之一,十年磨一剑,他始终坚守在技术开发的第一线。

        “我一直在关注文本智能的研发方向,坚持算法技术与实用性结合的路径。”回望过去10年,纪传俊坦言,技术的发展一日千里,文本智能的发展也越过了一座座看似难以攀登的高山,从文档资料输入到专业长文档输出,“一进一出”之间有很高的技术门槛,涉及计算机科学、人工智能、语言学等交叉领域,比如:机器要首先识别文档种类、进行版面分析、表格等特殊结构处理、印章处理等。而今年,企业正全力打造“曹植”的多模态能力,让“曹植”更加智能。

        在坚守既定目标的同时,也要快速奔跑。“做这个行业,不能一成不变,要有拥抱变化的心态。”纪传俊说,去年12月,在他的牵头下,达观数据与复旦大学携手共建“金融垂域应用大模型校企联合研究中心”,共同探索新的技术领域、解决实际问题,推动技术创新和进步;今年世界人工智能大会期间,达观数据与复旦大学金融科技研究院、国泰君安、燧原科技达成协议,四方签署战略合作协议,共同推进基于国产算力的金融行业大模型研发与应用。

        作为少见的计算机与金融复合型人才,更多时候,纪传俊则奔跑在业务一线。他喜欢去现场和客户打交道,在交流间体会对方的个性化需求,然后思考业务的匹配度。比如:“曹植”的最强技能之一,是在自然语言交流中判断业务流程、内部审计的合规问题。纪传俊说,他在业务一线交流时,经常会听到机构员工吐槽,查一个条例、规则需要花半天时间。这给了他新的启迪。如今,机构员工只需对着“曹植”阐述情况,大模型就会给出有着溯源功能的初步判断,大大节省了时间。

        十年如一日的技术积淀与匠心坚守,换来今天金融垂类大模型的高速成长。纪传俊判断认为,如今大模型应用落地百花齐放,明年一定会跑出一批“沪产大模型”,他期待“曹植”也能成就“仙才”之名。