阿里云创始人王坚:从代码开源到资源开源,AI正经历革命性转变

对于“‘开源’这个词大家有不同的理解,我们今天正在经历一个从代码开放、开源,到资源开放、开源的革命性变化。”9日,阿里云创始人、之江实验室主任王坚 Inclusion·外滩大会上表示,“开放”已是人工智能背景下一个绕不开的话题。
王坚强调,“开放资源”的理念并非因“开源”概念的兴起而产生。事实上,在科学探索的漫长历程中,诸多先驱早已践行过类似实践。但在当时,“资源”的概念并未深入人心,核心原因在于数据量有限、模型复杂度不足,算力也远未达到如今的规模——例如,某些标志性研究发表时,仅使用了两块普通的游戏GPU,这与当前的技术体量相去甚远。
“2017年成为了关键的转折点。彼时,研究者们提出了‘Transformer’架构与‘Tokenization’(即如今常说的Token技术)。”王坚表示,“Tokenization作为一项核心技术,真正实现了数据的资源化,堪称里程碑式的突破。”
他进一步分析,2012年以来的数据、模型与算力被乘上了一个更关键的变量——“规模”。正是数据、模型与算力的千倍乃至万倍级增长,使得人工智能不仅在理论原理上实现了突破,更在实际应用中发生了翻天覆地的变化。当技术规模达到这一量级时,“资源”的重要性便愈发凸显。王坚举例说明,“如今模型权重的开放,本质上是数据资源与计算资源的开放。借助开放的模型,个体无需再投入巨额成本重复建设已有成果。”
不过,王坚也明确指出,“资源的开放并不意味着大规模计算失去了价值,而是个体无需再重复投入基础资源——这部分成本已由先行者承担。反之,若要研发更先进的模型,仍需更多主体投入更大规模的资源。”
在他看来,人工智能时代的“开源”已被赋予了全新的内涵:“到今天,仅靠开放源代码,已无法解决软件时代曾攻克的问题。而开放资源(尤其是数据与计算资源),已成为推动行业持续发展的不可或缺的环节。这正是人工智能时代‘开源’的重要特点。”
王坚更倾向于将其定义为“Open Resource”(开放资源)。他认为,尽管“Open Source”(开放源代码)与“Open Resource”在中文里都可译作“开源”,但前者已无法涵盖当下的核心内涵。