本刊记者 贾璇
夜幕降临,粤港澳大湾区数据应用产业园的算力监测调度管理工作区域内,巨幅屏幕闪动着多种颜色——蓝色代表通用算力,橙色代表智能算力,密密麻麻的数据流交织涌动。值班的算力调度员坐在工位上,目光在屏幕上的不同区块之间快速游走。
几分钟前,一家自动驾驶企业的实时推理请求接入系统,位于产业园中的韶关公共算力服务平台需要在毫秒级时间内,从韶关数据中心集群多元异构的万卡算力资源池中挑选出最匹配的智能算力卡。
“匹配”并非易事。智能医疗、生物识别、智能制造……越来越多行业的发展正在依赖算力支撑,不同企业对算力需求也千差万别。
“建立虚拟环境训练车辆自动驾驶能力,要求的算力是高性能、低延迟、实时响应;企业知识库用到的大语言模型训练,则需要大量GPU卡并行计算、组网合理;对边缘计算要求高的客户,则希望能就近找到算力进行业务的分布式处理。”韶关数据产业投资发展有限公司副总经理何智坚说。
公共算力服务平台中的调度系统要做的,就是对多样化需求方与算力供应商之间做好匹配——把对的算力,在对的时间,送给对的人。

算力监测调度管理工作区域
算法背后的补位者
“很多人觉得算力调度像调度水电一样,但实际上,两者有很大不同。”何智坚解释说,因为芯片、服务器和机房设施是无法移动的,所以算力调度的并不是物理形态的算力,其实质是需求方的数据和任务在算力网中传输流转,供给方则利用自身的基础设施、算力资源等能力进行处理。
严格来说,算力调度的是“计算任务”,通过网络将任务和数据分发到不同算力节点执行,最终实现算力资源的灵活分配。
目前,日常的核心算力调度已由平台算法自动完成。系统7×24小时运转,实时做好企业对算力接入需求的准备。
但系统并非万能。何智坚说,平台实际运营中,算力调度常遇到三类难以仅通过系统算法就能独立处理的难题。每当此时,就需要算力调度员的人工介入。
第一类是供需时段矛盾。上游算力资源固定,但下游企业的AI应用对智算算力需求的昼夜波动剧烈。比如,白天自动驾驶团队需要大量低延迟算力进行实时推理以确保车辆行驶过程中安全;深夜,大模型研发团队启动了高强度的离线训练任务。系统的算法虽然可以执行一定的算力调度指令,却难以研判不同团队对算力需求的峰谷变化。
算力调度员的人工动态调配干预,可以把算力资源白天优先分配给实时推理业务,深夜则可将此算力资源释放出来给大模型训练任务。
第二类是算力计量标准不统一。不同算力服务商对算力的硬件配置、计费方式、交付时段要求各不相同。如算力计费,有的按卡计费,有的按使用时长计费,有的按算力节点计费。系统算法虽然是在确定了计量标准后的最优解,却难以应对商务谈判中的各种复杂博弈,这时就需要算力调度员出面协调处理。现在的Token词元,应该就是解决算力计量的路径之一。
第三类是个性化业务无法自动化匹配。特殊科研项目、企业定制化管理对算力的需求,往往没有现成的算力调度模板与之相符。
“比如,某高校实验室需要临时调用一批GPU进行3天的大模型微调训练,其间对GPU卡数量及类型要不定时动态调整。这种‘非标’算力需求,系统算法没有预设流程,必须由人工介入设计好算力调度方案。”何智坚举例说。
目前,整个公共算力服务平台有30余人,以开发、运维和运营人员为主;算力调度团队6人,主要侧重于算力的管控、优化和应急处置。
小调度,大效益
算法自动调度与人工介入的默契配合,撑起了韶关算力调度的日常运转,其背后的经济价值则是直观可见。
韶关电价为广东全省最低,每度电比珠三角地区低0.134元。数据中心约六成的运营成本来自电力,这个价差乘以24小时、乘以365天、乘以数万台服务器,就是可观的成本差。加上绿电充沛、土地便宜,韶关的算力综合成本只有大湾区城市的六成。
“此外,广东省还通过‘算力券’等政策工具,对符合条件的企业予以支持,进一步降低了企业使用算力的成本。”何智坚说。
作为粤港澳大湾区最大算力集群,韶关目前已建成可承载12万标准机架、18万P智算的承载能力以及13条400G全光运力网络,构建起了算力、存力和运力的数据产业新业态。接下来,韶关将进一步发力打造“智算之城”,算力调度这个新职业也将站上更广阔的舞台。
何智坚认为,一名优秀的算力调度员需要具备3种能力:熟练处置平台故障的运维能力、上下游算力供需对接的沟通能力、快速迭代的自主学习能力。“值得注意的是,供需统筹协调能力,是传统IT岗位较少强调的。”
对于有志投身这一新兴领域的年轻人,他建议要先把云计算、大数据的知识基础底座打牢,同时也要加强学习,要懂产业图谱及运行规律、要将上下游市场需求摸清楚。“数据产业一直在放大人才缺口,只要踏实肯干,新职业一定能带来成长的新机遇。”
