埃隆·马斯克同意其他人工智能专家的观点,即几乎没有现实世界的数据可以用来训练人工智能模型。 周三晚些时候,马斯克在与Stagwell董事长Mark Penn的直播对话中表示:“在人工智能训练中,我们基本上已经耗尽了人类知识的累积总和。”。“这基本上发生在去年。” 拥有人工智能公司xAI的马斯克在12月的一次演讲中呼应了前OpenAI首席科学家Ilya Sutskever在机器学习会议NeurIPS上提到的主题。Sutskever表示,人工智能行业已经达到了他所谓的“峰值数据”,他预测,缺乏训练数据将迫使人们改变目前开发模型的方式。 事实上,马斯克表示,人工智能模型本身生成的合成数据是前进的道路。他说:“补充(现实世界数据)的唯一方法是使用合成数据,人工智能会创建(训练数据)。”。“有了合成数据……人工智能会自我评分,并经历这个自我学习的过程。” 其他公司,包括微软、Meta、OpenAI和Anthropic等科技巨头,已经在使用合成数据来训练旗舰AI模型。Gartner估计,2024年用于人工智能和分析项目的数据中有60%是合成的。 微软的Phi-4于周三早些时候开源,在合成数据和真实数据的基础上进行了训练。谷歌的Gemma模型也是如此。Anthropic使用了一些合成数据来开发其最具性能的系统之一Claude 3.5 Sonnet。Meta使用人工智能生成的数据对其最新的Llama系列模型进行了微调。 对合成数据进行培训还有其他优势,比如节省成本。人工智能初创公司Writer声称,其几乎完全使用合成来源开发的Palmyra X 004模型的开发成本仅为70万美元,而同等规模的OpenAI模型的估计成本为460万美元。 但也有缺点。一些研究表明,合成数据可能会导致模型崩溃,模型在输出中变得不那么“有创意”,更有偏见,最终严重损害其功能。因为模型创建了合成数据,如果用于训练这些模型的数据有偏差和局限性,它们的输出也会受到类似的污染。 |