logo

  • 联系我们
  • APP
  • 简体中文

“白嫖”结束?推特之后,Reddit 也要加入大语言模型收费队伍

Reddit表示,正在计划对外部访问其应用程序的编程接口(API)的行为进行收费,目前已经讨论具体细节,预计将在未来几周内公布。

418日,国外知名论坛Reddit创始人霍夫曼在接受专访时表示,不愿意再为AI产品在其论坛上爬取数据进行语言学习提供免费服务。

霍夫曼指出,Reddit拥有极其有价值的数据库,但这些数据没有必要白白地提供给这些世界上最大的公司。

有消息指出,近年来,霍夫曼创始的Reddit论坛一直在免费为谷歌,OpenAI,微软等人工智能头部公司的AI产品提供免费的语言学习环境,这些公司开发的语言爬取程序可以抓取论坛上的对话、评论、提问,甚至是用户之间的争论,进而丰富其AI产品的大语言模型。

在中国,该论坛被亲切的称为“美国贴吧”。据统计,该论坛的日活用户数达到了5700万,语言数据相当庞大,且能实时更新。

Reddit表示,正在计划对外部访问其应用程序的编程接口(API)的行为进行收费。据解释,公司外部实体可以通过访问API的方式下载和处理社交网络的大量面板对话,进行语言学习。

分析人士认为,Reddit此举可能出于经济上的考量。

今年214日,美国科技媒体The Information报道,Reddit计划在今年下半年上市,但是公司还远未实现盈利。目前,该平台的大部分收入来自于论坛的广告投放和平台电子商务交易,假如Reddit能增加其API接口收费项目,凭借Reddit的日活用户和语料规模,将帮助其提前完成盈利目标,为日后上市做好准备。

其次,Reddit可能也在通过向科技巨头们收费的方式,间接打压竞争对手。

近期,在Reddit论坛上,就有诸多用户表示,当美国的人工智能巨头的AI产品逐渐壮大起来之后,会为Reddit这种论坛平台创造许多竞争对手,因为他们之间将拥有“相似的用户交流模式、相似的用户评论文案和相似的资料语料库”。

据报道,目前AI的技术瓶颈在于两方面,其一是计算机算力是否足够强大,其二就是机器学习数据是否充足。在算力方面,各大互联网公司都有自己的看家本领,各显神通。以谷歌为例,2020年该公司就已经在自家的数据中心上部署了当时的最强AI芯片——TPUv4。根据谷歌最新披露的数据显示,对于规模相当的系统,TPUv4可以提供比英伟达A1001.7倍的性能,同时在能效上也能提高1.9倍。正是搭载了这一强大算力工具,谷歌旗下Bard才有机会同微软系ChatGPT叫一叫板。

竞争之下,微软也不甘示弱。日前,这家科技巨头也宣布即将推出代号为“雅典娜”的AI芯片。 据消息人士透露,研发“雅典娜”芯片耗时接近5年,其性能将完全适配大语言模型训练。此外,“雅典娜”将基于5nm工艺生产,能为ChatGPT背后的所有AI软件提供动力。

相比较于算力的“军备竞赛”,在数据学习方面,各家公司的选择范围就相对有限。目前,各AI的大语言数据库基本来源于四个渠道。第一,各类百科网站;第二,数以百万计的电子化书籍;第三,各类学术文章;第四,像Reddit这样的用户自讨论平台。其中,Reddit就因为其语料库的实时性,被现有AI团队青睐有加。

霍夫曼表示,和网络上其他地方不同的是,Reddit是一个原创性真实对话的家园。

其实,在Reddit之前,已经有其他原创内容平台开始珍视自己平台内容的价值。

去年10月,美国知名商业摄影供稿网站Shutterstock就表示,将用售卖平台图像数据的方式,允许Open AI对其用户稿件进行学习。这项合作后来促成了Open AI的人工智能绘图工具DALLE的诞生,用户只需要敲打几行指令,DALLE自我创作其理解范围内的用户需求图形。

今年2月,推特首席执行官马斯克宣布将停止用户对推特的免费 API 访问,表示免费 API 正被机器人骗子和操纵者严重滥用,以影响公众舆论。马斯克还表示,计划对 API 访问每月收取 100 美元的费用,然而,目前推特对 API 的定价为每月 4.2 万美元。419日,推特再度爆出新闻,据外媒报道,马斯克指责微软非法使用推特上的数据,以训练其AI模型,并暗示将起诉微软。

种种迹象表明,社交平台原创内容的价值在一步步被珍视,知识被免费抓取学习的日子即将过去,未来机器们也将面临人类世界的“版权”问题。

最新消息显示,Reddit目前已经在敲定其API端访问收费的具体细节,预计将在未来几周内公布。

reddit

 

 

免责声明:本文观点来自原作者,不代表Hawk Insight的观点和立场。文章内容仅供参考、交流、学习,不构成投资建议。如涉及版权问题,请联系我们删除。