【时代的样子】中国式现代化奋进者 | 商汤大装置团队落地多个千卡级别国产算力集群

来源:发布日期:2024-04-02

字号:      

    商汤科技SenseCore大装置事业群智算中心技术总监宋祎寓记得,作为大装置重要载体的人工智能计算中心(简称商汤临港AIDC),从一片瓜田到正式投用,用时仅18个月。

    最新数据显示,商汤大装置管理的总算力规模已高达1.2万petaFLOPS(千兆次浮点运算),其中临港AIDC就有8100petaFLOPS,且是立项规划时的2.17倍。大装置现已实现对万亿参数大模型的生产支持,能保持90%的加速效率,具有超30天稳定训练不间断能力,出现训练间断时的诊断恢复时长也被优化到了半小时内……

    这些数字,对于当下国内“百模争流”,有着至关重要的意义。

5d250edb55f6fcb249d82a6e82be388.png

前瞻性

    若将大模型训练过程比作炼丹,那么以GPU为核心的算力,便是炼丹炉下的柴火。谁储备得多,谁就占据主动。为训练GPT-3.5模型,OpenAI使用了约1万颗英伟达GPU。

    但单有芯片储备还不够,将千卡(训练消耗的算力卡数量)乃至万卡并联同样关键,否则大模型的训练推理仍无从谈起。事实上,2019年左右,商汤大装置便已具备了千卡并联能力。而当时,还没有ChatGPT。

    这并非幸运垂青,而是前瞻认知与实力使然。

    商汤科技以计算机视觉获得学术界和产业界广泛认可,对神经网络和深度学习始终有着最深积淀。而视觉信息本身比语音、文本来得复杂得多,其训练计算量巨大。“当年,我们在市场上始终找不到如此大规模互联、可用于AI的算力集群,甚至有云厂商说我们的需求太‘小众’。因此我们不得不自建大装置,以支撑公司更高维度的研发和业务需要。”商汤科技董秘办董事总经理盛世伟说。

    2018年起,商汤每年以数十亿元投入SenseCore大装置,并于2020年夏建设临港AIDC。这些举措起初并不为外界看懂及看好。谁能想到,当生成式AI大潮汹涌而来,尤其是海外高性能GPU芯片出口受限情况下,商汤曾经的“小众”需求,竟已演变为行业最主流最急迫的痛点。

 

硬功夫

    可见商汤大装置的问世与成长,也是其自用算力逐渐走向算力商业化的过程。这关乎一种担当,但更核心在于能力。

    “尽管5年前我们就实现了千卡并联,但要从千卡迈上万卡,绝非云淡风轻。”商汤科技大装置事业群智算中心总经理林海印象深刻,团队在组第一个3000卡集群时,整个团队没日没夜地加班了一个月。

    这种工程化的能力,没有作业可抄。从1000卡到3000卡、从3000卡到5000卡,每上一个台阶,都是对集群稳定性的巨大挑战。如何选择线缆、光模块以降低故障率,怎样从算力层面进行优化,怎样将散落在天南地北若干个机房的约3000petaFLOPS算力运载回上海主基地并搭建成群、实现测试和上线……面对这些难啃问题,在大装置首席科学家林华达的带领下,团队沉浸式攻关,坚信厚积才能薄发,集群稳定性及效率指标被一遍遍刷新。

    在加速国产算力布局及实现软硬件协同上,大装置团队同样付出不懈努力。国内大厂此前对英伟达芯片有较大依赖,不仅在于英伟达领先的GPU性能,也在于英伟达的可使GPU性能大幅提升的统一计算架构CUDA。近年来,商汤心心念念于加大国产芯片兼容适配,与上海人工智能实验室一同研发了DeepLink并行计算体系。这一国内并行计算平台的佼佼者,可确保国产芯片适配主流的大模型训练框架和算法库,如PyTorch、DeepSpeed等常见的开源训练框架,以及商汤的OpenMMLab、OpenDILab等开源算法库。目前,CUDA所能支持的AI大模型计算需求,DeepLink的覆盖率已在99.5%以上。

    目前,包括华为、寒武纪、壁仞、沐曦等国产芯片在内,商汤大装置已可深度适配20余款国产芯片,已落地多个千卡级别国产算力集群,国产算力商业化进程俨然加速。

 

强赋能

    随着大模型时代到来,算力即服务,模型即服务。去年,商汤作出重大变轨,其业务板块由过去以AI 1.0为主,切换到AI 2.0。商汤最新财报显示,2023年,商汤生成式AI业务从无到有,收入已达12亿元。这是商汤自2014年成立以来最快破10亿元收入体量的新业务。

    据介绍,去年以来,已有上千个参数量数十亿至上千亿的大模型,在SenseCore商汤大装置上完成训练,其中不乏京东、小米、阅文、金山办公等灯塔客户,以及澜舟科技、Tiamat等AI初创公司。一些头部金融机构及医院,正调用商汤模型,或依靠商汤大装置能力,训练其自身垂类模型。包括蛋白质折叠等多领域的重大基础科学研究,也获得了商汤的算力助力。

    如在气象领域,由上海人工智能实验室联合中国科学技术大学等高校院所推出的全球中期气象预报AI大模型“风乌”,在商汤大装置助力之下,首次实现对关键气象要素的有效预报时长达10.75天。而此前,全球范围内最好的物理模型HRES的有效预报时长为8.5天。另外,“风乌”在80%的评估指标上超越谷歌旗下DeepMind气象大模型GraphCast。

    大装置同样支持了商汤自己的“日日新”大模型体系的高速迭代。据透露,今年2月推出的“日日新4.0”版本,在代码编写、数据分析和医疗问答等多场景中,已达到与GPT-4相匹配的能力。“日日新5.0”版本预计今年4月将发布,性能全面对标GPT-4 Turbo。

    临港AIDC如今13万平方米的整体规模中已投用7万平方米,但未来算力扩容的潜力依然令人振奋。大装置团队正继续以奋进者姿态,为大模型时代贡献战略价值。