在人工智能、机器学习和高性能计算领域对强大算力的需求日益迫切下,全球GPU巨头英伟达推出的A100及最新款H100芯片凭借其出彩的性能表现备受业界关注。由于国际政策限制,H100尚未在我国市场上市。然而,高昂的价格标签和运营成本却使得这类顶级芯片更像是专为大厂打造的“奢侈品”,尤其对于初创公司和小企业而言,想要利用这些顶级算力资源实现技术突破并非易事。
A100芯片不仅在购买成本上令人咋舌,实际运行时的能源消耗更是不容忽视。一台搭载八个A100芯片的DGX服务器,功率高达6.5千瓦。这意味着连续运行一小时将消耗大约6.5度电,同时考虑到维持服务器稳定运行所需的散热设备,整体能耗相当大。按照我国一般工业用电价格约为0.63元/度来计算,单台服务器24小时全负荷运转,电费就接近200元。如果要组建一个由1000台此类服务器构成的集群,并且全天候运行,每日电费支出将达到惊人的20万元,这无疑为众多初创公司和中小型企业设置了难以逾越的成本门槛。
这种经济壁垒意味着,没有足够的硬件投入,尤其是GPU资源,小公司就难以在大规模模型训练等前沿技术研发上取得重大突破,进而与那些拥有大量资源投入的行业巨头展开有效竞争。以OpenAI为例,据SemiAnalysis的研究推测,OpenAI为了训练出更强大的AI模型,使用了大约3617台搭载A100 GPU的高性能服务器,总计接近3万块GPU。但是仅有硬件基础还不够,微软作为投资方助力OpenAI打造了一套定制化的大规模计算集群,以及对数据资源从采集、标注、清洗到整理优化等一系列环节的持续性投入,包括一支庞大的人才队伍和技术支持。
而在市场购买方面,A100的价格在2023年几乎翻了一倍,使得只有阿里巴巴、腾讯、字节跳动、百度等业务需求强烈且资金实力雄厚的大厂才有能力进行大量采购。对于预算相对紧张的企业,云服务租赁成为了另一种选择。阿里云、腾讯云、AWS等知名云服务商提供A100算力租赁服务,但即便是租用方式,过去一年中租金也呈现猛烈上涨趋势,进一步加大了中小企业获取尖端算力的成本压力。
英伟达A100芯片无疑是当前顶级的算力工具,但在现实应用中却无形中筑起了一道经济高墙,将许多初创公司和小型研发机构挡在了高端计算资源之外。要打破这一局面,除了需要再企业自身经营策略上寻找更为经济高效的解决方案外,政策引导、技术创新等方面也要同步推进,从而让更多企业能够跨越算力成本的鸿沟,参与到这场影响未来的科技变革之中。