互联网档案馆旗下的”网页时光机”(Wayback Machine)是网络世界最具价值的免费服务之一,致力于保护重要信息资源免受技术变迁与商业公司政策的影响。
该服务原本能完整存档Reddit平台内容,但随着这家商业化社区论坛最新限制政策的实施,这种情况已发生改变…
互联网档案馆
该机构自1996年开始运营。
我们始于1996年,当时互联网刚进入普及阶段。与报纸不同,网络内容具有瞬时性却无人保存。如今我们通过网页时光机保存了28年以上的网络历史,并与1200多家图书馆等合作伙伴通过Archive-It项目共同甄别重要网页。
目前已存档8350亿个网页,以及书籍、音视频、应用程序等数字资源,每日服务数百万研究者、历史学者及普通用户。
Reddit实施访问限制
据Engadget报道,Reddit几乎完全禁止网页时光机抓取其平台内容。
该公司对存档网站的访问权限实施新限制,这将显著削弱网页时光机保存Reddit信息的能力。
新规实施后,由非营利组织互联网档案馆运营的该项目仅能抓取Reddit首页,无法再访问评论、子论坛页面、帖子详情及用户资料等数据。
此举与Reddit去年承诺不限制”善意机构”的声明相悖——当时明确将互联网档案馆列入豁免范围。
在更新robots.txt文件的同时,我们将继续对未知爬虫实施速率限制或封禁。本次更新不影响绝大多数正常用户。研究机构等善意使用者——包括互联网档案馆——仍可非商业使用Reddit内容。
商业化战略驱动
这是Reddit通过用户内容获利的最新举措。该公司自IPO以来持续收紧免费访问权限,转向付费模式。
谷歌每年支付超6000万美元获取Reddit用户内容用于AI训练,OpenAI也签署类似协议。完成与谷歌交易后,Reddit开始封锁其他搜索引擎抓取。
有分析指出,部分AI公司可能通过网页时光机间接获取Reddit内容,这或是新限制政策的直接诱因。
此前Reddit曾因激进API改革引发版主与用户大规模抗议,导致第三方应用消亡。该公司虽确认将推出付费子论坛计划,但目前该项目暂缓实施。