科技

推特被马斯克限流后GPT-4等大模型的训练数据没了

在马斯克的领导下,我们见证了推特的一次又一次改革。上周末,马斯克再次带来了让人惊讶的消息:推特被限流了。那么,这次推特的变化究竟意味着什么,尤其是对于那些依赖推特数据的大模型,比如OpenAI的GPT-4,会有什么影响?从6 月 30 日起,推特用户陆续发现无法在未登录状态下查看推文。对此,马斯克在推文中回应称,这是为应对「数据掠夺」而采取的“临时紧急措施”;“数百个组织(也许更多)正在极其活跃地抓取 推特数据,导致影响了真实用户的体验”。这并不是推特近几个月来遇到的第一个技术问题,也不是第一个为解决问题而设计的非常规解决方案。本周早些时候,推特开始限制未登录帐户的用户通过桌面和移动设备上的网络浏览器访问推文和个人资料。而除了自己声称的“限制第三方抓取推特数据”这一理由外,马斯克还转发了一位高仿号的推文,内容是:“我设置推文浏览量限制的原因是因为我们都是‘推特成瘾者’,每天大家都恍惚于网络世界,我这是在为世界做一件好事。”仅仅一天之后,马斯克进一步宣布了对于已登录用户浏览量的所谓“临时限制”:新注册未认证用户、现有未认证用户和已认证用户每天分别最多能浏览 300、600 和 6000 条推文,但将很快“提高”到 400、800 和 8000 条。马斯克的决策转变是否预示着推特的商业模式正在发生根本性的改变,寻求以更高效的方式从社交媒体平台上获得收益,还是说他对数据的未来有着不一样的洞察,看到了大众还未意识到的东西?

想用数据训练大模型?可以,但要先交钱此前,马斯克曾多次指责人工智能公司抓取推特数据训练大语言模型的做法。虽然马斯克没有透露谁在抓取推特的数据,也没有说明这个问题持续了多长时间和详细解释系统如何被操纵。但在此前,马斯克曾对推特上的数据抓取表示担忧,并暗示他可能会对不良行为者采取行动。今年4月,他就对微软“非法”使用推特数据表示愤怒,显然是指微软与人工智能公司OpenAI的合作。OpenAI在“来自互联网的大量不同文本数据集”上训练人工智能模型,马斯克表示,“他们非法使用推特数据进行模型训练,这次诉讼时间到了。”在过去,大型数据集通常来自于公开可用的信息,如推特等社交媒体的推文、Wikipedia的文章、超大型公开数据集Common Crawl等等。然而,随着数据隐私的问题越来越受到关注,以及各大公司的政策改变,未来是否还能继续使用这些数据来源呢?在推特更改它的政策之前,国外知名论坛Reddit也宣布了类似的策略。今年4月,Reddit决定对其API的使用开始收费。这并不是一项全面的政策改变,Reddit的API仍然对希望构建帮助人们使用Reddit的应用和机器人的开发者以及希望出于严格的学术或非商业目的研究Reddit的研究者免费开放。不过,对Reddit进行数据抓取并且“不将任何价值回馈给用户”的公司将需要付费。

截至 2019 年,Reddit 每月拥有超过 4.3 亿活跃用户,覆盖超过 120 万个特殊兴趣社区,其中活跃用户达 13.8 万人。由于Reddit的数据更新非常频繁,更适合进行真实的对话,甚至某些内容是用户绝不会公开表达的,因此这些数据被认为具有特别的价值,而Reddit也希望通过这种方式防止将这些价值免费提供给全球最大的一些公司。如今,Reddit 正在寻找方法将其大量用户生成的内容货币化,这些内容已经越来越多地用于训练各类文本生成机器学习模型,例如 OpenAI 的 ChatGPT 和 GPT-4,甚至未来的 GPT-5。大模型狂奔之下,数据“枯竭”隐忧显现一直以来,人工智能的发展都离不开大量的数据。无论是图像识别、自然语言处理,还是复杂的决策制定,数据都是研究人员训练这些模型的基石。然而,随着模型的规模越来越大,训练它们所需的数据也在增加,而数据的来源、数据的质量以及数据的使用权限等问题也都在慢慢浮现。如今,推特阻止未注册用户查看推文的政策很可能会对大模型的训练数据产生影响。无论用户用哪种方式尝试访问网站,通过主页或是直接链接到一条推文或个人资料,都会立即遇到一个登录提示,完全遮挡了用户的视线。马斯克在推特上表示,这些变化是为了“解决数据抓取和系统操纵的极端程度”。他也曾表达过对OpenAI等人工智能公司使用推特的数据来训练他们的大模型的不满。而现在,由于推特的新政策,这些公司可能会发现获取训练数据更加困难。这一变化的背后,可能正是对数据枯竭的担忧。推特的这一改变不仅对AI领域的开发者带来了挑战,也提出了一个更大的问题:未来的数据从哪里来?根据Data Reportal公布的数据,2021年全球互联网人均单日使用时长为6小时58分钟,较2020年增加4分钟,同比上升0.97%。用户更多的行为才会在互联网上产生更多的数据,但从使用时长来看,继续大幅度增加已经不再可能。但对于大模型来说,虽然短期内参数量的指数级增长也希望渺茫,但是十倍甚至百倍的扩张依然可以做到。根据模型的缩放定律——模型规模的大小取决于数据的量级,因此,在最近几年里,大部分大模型是通过扩大训练使用的数据量来提升性能的。去年,一项来自 Epoch AI Research 团队的研究指出了一个残酷的事实:模型还要继续做大,但数据却可能不够用了。研究人员预测了 2022 年至 2100 年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。在该团队的实验中,要预测数据累积率,就需要先确定哪些因素会导致数据的增长。由于大部分数据是用户生成的并被存储在互联网上,所以决定某一时期产生多少数据的因素就包括人口数量、互联网普及率和每个互联网用户产生的平均数据量,这些因素相乘并稍加调整后就可以得到一个用户生成内容累积率的模型。

结果表明,高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。这意味着,如果数据效率没有显著提高或有新的数据源可用,那么到 2040 年,模型规模的增长将会放缓。

写在最后虽然数据增长放缓的长期趋势是不可避免的,但数据使用效率的提升可能成为解决问题的最佳途径,未来大模型有可能并不需要更多数据就能实现同等的性能,单纯拼参数量的时代也终将结束。近年来,无监督学习取得了一定的突破,允许模型使用少量标注数据和大量未标注数据来针对多项任务进行微调,无监督模型也被证明能够为未标注数据生成有价值的伪标签。而多模态模型的快速发展更是让模型能够对同一数据从不同角度进行考虑,实现了比单一模态更好的性能。同时,随着科技的进一步发展,物联网、自动驾驶等以前未曾有过数据积累的行业也在产生新的数据种类,各类传感器的使用也在让数据的获取变得更加简单,这些行业有望实现数据量的指数级增长,也将为大模型训练提供更多的数据来源。