Scale AI: AI 产业链的“隐形军火商”

  • 2025-07-06 01:07:09
  • 792

在AI大模型的聚光灯之外,有一家公司低调却关键地撑起了整个产业链的“地基”——它就是ScaleAI。从数据标注到模型评估,从政府合同到硅谷独角兽,这家“隐形军火商”如何在AI竞赛中扮演幕后操盘手?

今天的主角是:ScaleAI,网址

https://scale.com/

之前跟大家分享了很多AI应用和企业级AIAgent都集中在应用层,今天的主角专注于AI基础设施层。

先来解释下标题,为什么说ScaleAI是“隐形军火商”:2025年6月,ScaleAI被Meta以143亿美元收购49%股份,公司估值约290亿美元。

290亿美元是什么概念呢,截至2025年6月20日,百度市值287.5亿美元,理想汽车263.6亿美元,科大讯飞160亿美元,OpenAI最大竞对Anthropic(ClaudeAI的开发者),2025年估值约300亿美元。

把ScaleAI比作AI产业链的“隐形军火商”,不过分。

01ScaleAI是什么

简单来说,ScaleAI是提供数据标注服务的,数据标注(DataLabeling)就是给原始数据(图片、文本、语音等)打标签的过程。

就像教孩子看图识物时指着猫说“这是猫”,数据标注员就是在数字世界里做同样的事,使AI模型能够理解这些数据的含义。比如:

图像标注:框出图中的猫、标记肿瘤CT区域;

文本标注:标注句子情感倾向(正面/负面/中性);

语音标注:转写并标记说话人情绪;

视频标注:追踪车辆运动轨迹;

需要做数据标注的场景非常多:

自动驾驶:一辆L4级自动驾驶车需标注1亿+张图像;

大模型需求:ChatGPT需人类标注员排序答案质量;

医疗AI:肿瘤影像标注市场年增45%;

根据麦肯锡预测,2030年AI数据基础设施市场(含标注、清洗、合成等)将达到420亿美元。而ScaleAI所在的基础标注服务市场,2023年的市场规模是22亿美元,2030年将达到102亿美元。

02ScaleAI团队、估值和市场表现

了解完什么是数据标注后,我们回到ScaleAI。

ScaleAI成立于2016年,创始人兼CEOAlexandrWang17岁从MIT辍学,是前Quora工程师,23岁时入选并成本福布斯“30under30”最年轻入选者。创始人可以说是技术极客,深谙AI行业“数据饥渴”的痛点,将枯燥的数据标注变为了百亿生意。

正如他所说:“没有高质量标注,AI就是瞎子聋子——只要AI需要训练,数据标注就永不消失,但形态将持续进化。”

融资历程:

2019年B轮融资1亿美元,估值10亿美元;

2021年D轮融资3.25亿美元,估值上涨至73亿美元;

2024年后连续融资,估值高达138亿美元;

2025年6月,被Meta以143亿美元收购49%股份,估值约290亿美元。

核心客户和市场表现:

客户涵盖OpenAI、谷歌、特斯拉、美国国防部等顶级机构,2024年营收8.7亿美元,Google单一客户的贡献约1.5亿美元,2025年预计突破20亿美元(年增超100%)。

数据标注这样的“脏活累活”,ScaleAI的毛利高达80%,净利高达40%,分布在全球100+国家的数据标注师超50万人。

03ScaleAI的核心能力

资本市场对ScaleAI的估值反映了数据在AI竞赛中的战略地位——当算力军备竞赛陷入瓶颈,高质量数据成为巨头争夺的下一个高地。

而高质量标注数据是训练大模型的核心瓶颈,Scale通过“人力标注+AI质检+合成数据”三位一体模式,成为AI产业链的“隐形军火商”。

相较于竞品的“纯人工标注的人力服务商”,Scale已成AI数据基础设施:

Human‑in‑the‑loop模式:AI预标注+人类校对,强化数据质量与效率;

主动学习:自动识别模型难例(如模糊交通标志)→优先标注,数据价值提升300%;

Zero-Shot质检:AI模型检测标注错误(如漏标行人),人工复核量减少70%;

多模态兼容:支持复杂任务如医学影像、视频理解、LLM强化标注等;

垂直场景拓展:从自动驾驶扩展至更高价值的数据科学与RLHF(人类反馈强化学习)应用。

一个典型场景,自动驾驶极端天气数据标注

客户:特斯拉(2023年订单)

需求:标注10万张暴雨夜间行车图像,识别模糊行人/故障车

Scale解决方案:

数据增强:ScaleGen生成合成数据(如暴雨+霓虹光干扰),补足真实数据缺口;

AI预标:预标注行人/车辆→准确率75%→人工修正重点;

全球众包调度:基础框选(菲律宾$1.8/时)→3D融合(波兰$4.5/时)→军事级质检(美国$22/时);

主动学习迭代:发现模型漏检“撑伞行人”→新增5万张专项标注;

结果:标注成本:$0.18/张(特斯拉自建团队成本$1.2/张);模型误检率下降37%;

最后,查了下Meta为什么会143亿豪赌ScaleAI,媒体是这样报道的:Meta的Llama4模型表现未达预期,急需通过Scale的数据能力补强模型性能,同时将创始人,28岁的天才CEOAlexandrWang纳入麾下,领导Meta“超级智能”部门。

当然,随着Meta的入股,谷歌、OpenAI等巨头也马上宣布了和ScaleAI终止合作。

ScaleAI的290亿美元估值,已超越百度、理想汽车等科技巨头,逼近Anthropic(300亿)与寒武纪(330亿),尽管只是一家数据标注公司,但它已从单纯的数据标注公司转型为能够深度参与数据管理与模型训练流程的数据基础设施企业。