RedditがInternet Archiveをブロック、AI企業によるWayback Machineのアーカイブ不正利用を阻止するため

1 : 2025/08/12(火) 11:31:15.43 ID:UGBlV3/k9

GIGAZINE
https://gigazine.net/news/20250812-reddit-block-internet-archive-ai-scraping/

2025年08月12日 11時16分

Internet Archiveはインターネット上のあらゆるコンテンツをアーカイブするWayback Machineを運営しており、ソーシャル掲示板・Reddit上のコンテンツもアーカイブ対象となっています。しかし、スクレイピングを禁止しているRedditのコンテンツを、Wayback Machineのアーカイブ経由でAIのトレーニングに利用する企業が存在することがわかり、RedditがWayback Machineによるコンテンツのアーカイブをブロックし始めたことが明らかになりました。

Reddit blocks Internet Archive to end sneaky AI scraping – Ars Technica
https://arstechnica.com/tech-policy/2025/08/reddit-blocks-internet-archive-to-end-sneaky-ai-scraping/

Reddit will block the Internet Archive | The Verge
https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit

Wayback Machineはインターネット上のあらゆるコンテンツをアーカイブするという使命の一環として、Reddit上のページやプロフィール、コメントをアーカイブしてきました。しかし、今後はRedditのスクリーンショットのみがアーカイブされるようになるとArs Technicaは報じています。

RedditはWayback MachineからデータをスクレイピングしていたAI企業の名前を明らかにしていませんが、同社の広報担当であるティム・ラスシュミット氏は「Redditは、AI企業がプラットフォームのポリシー(Redditのポリシーを含む)に違反し、Wayback Machineからデータをスクレイピングしている事例を認識しています」とArs Technicaにコメントしています。

ラスシュミット氏はAIスクレイピングに対する防御を強化するため、Internet Archive側が講じるべき対策があると示唆し、「Internet Archiveがサイトを守り、プラットフォームのポリシー(ユーザーのプライバシーの尊重、削除されたコンテンツの削除など)を遵守できるようになるまで、私たちはRedditユーザーを守るためにInternet ArchiveによるRedditデータへのアクセスを一部制限します」と言及しています。

なお、Redditユーザーの中には既に削除されている投稿やコメントを調べるために、Wayback Machineを利用している人もいるとArs Technicaは指摘。こういったユーザーは、削除済みの投稿やコメントを閲覧するためのツールは他にも無数に存在しており、Wayback Machineはそのような目的で利用するのに適したプラットフォームではないとも言及しているそうです。

(略)

※全文はソースで。

レス1番のリンク先のサムネイル画像
3 : 2025/08/12(火) 11:34:26.60 ID:i21+VT/50
なにい!レイプだあ!?
4 : 2025/08/12(火) 11:43:16.68 ID:4oHvDFxN0
AI凄い俺スゴイ
AI凄い俺頭イイ

パクリんちょん!

5 : 2025/08/12(火) 11:45:45.18 ID:9UIIstI10
Redditが何らかの障害でバックアップ消失したらどうするの?
と思ったけど内容が便所の落書きだからどうでもいいか、問答なし
6 : 2025/08/12(火) 11:46:47.27 ID:3nmOYoYZ0
>>1
えまって
Internet Archiveってやばいの?
データ拾う時めっちゃ利用してんだが
7 : 2025/08/12(火) 11:49:30.75 ID:ovBhaK1A0
redditってそんな高尚なサイトだったっけ?
8 : 2025/08/12(火) 11:49:53.84 ID:RWYZ2ZPj0
archive.org重宝してるぜ
絶版になったお宝も手に入るし
12 : 2025/08/12(火) 11:56:15.83 ID:i21+VT/50
>>8
なんだこりゃ
なんでも落とし放題じゃねえか
22 : 2025/08/14(木) 09:15:47.47 ID:CuBZi8KM0
>>8
雑誌についてるCDのisoもアップされてたりするな
9 : 2025/08/12(火) 11:50:55.38 ID:dG8Pp+6q0
我が身に起きた恐怖体験みたいなスレッドはずーっと読んでしまうな
10 : 2025/08/12(火) 11:51:40.95 ID:252QYfXe0
えまって(笑)
気持ち悪ー
11 : 2025/08/12(火) 11:52:02.11 ID:iUUgi0kP0
AIって勝手に借りパクしてるだけだからな
13 : 2025/08/12(火) 12:02:19.92 ID:NA4Rxf1I0
よくわからんけどchatgptは大丈夫?
結構PCのエラー情報とかここから拾ってくること多いけど
14 : 2025/08/12(火) 12:29:04.46 ID:AUFi5g7F0
Internet Archiveはキャッシュと証して違法アップロードされた映画などがダウンロードし放題になってる
配信には無い物とかもあって便利なんだが完全に違法
15 : 2025/08/12(火) 12:34:05.21 ID:mFINy2y40
>>1
さっきキチゲェと喧嘩になったのはAIがここから盗んできてるからなのかな
18 : 2025/08/12(火) 17:13:31.41 ID:7QlT//Pf0
>Wayback Machineはインターネット上のあらゆるコンテンツをアーカイブするという使命の一環として、Reddit上のページやプロフィール、コメントをアーカイブしてきました。

ひょっとして5chのおれらのクソレスもアーカイブされてんの?(; ・`д・´)ゴクリ

19 : 2025/08/12(火) 17:17:30.73 ID:7QlT//Pf0
インターネットアーカイブって今まで集めたデータだけで何テラバイトあんだろ?(´・ω・`)いや、もはやその上のヨタとかロナとかクエタとかの単位か
20 : 2025/08/12(火) 19:47:18.22 ID:tMMYU6Tw0
AIとwaybackって相性いいよな(利用者にとっては)
21 : 2025/08/14(木) 01:19:21.78 ID:6XgUaZKJ0
数年あったサイトなのにインターネットアーカイブにも部分的にしか残ってなくて絶望した
23 : 2025/08/14(木) 15:02:28.15 ID:ip/Wz1AY0
Grokヌード解禁おめ
あとでサブスクするわ

photorealistic志向のartistの声聞いたな
geminiでヌード作れる人なら、気楽につくれる

24 : 2025/08/14(木) 18:36:44.03 ID:XQFYl1GX0
ひろゆきがredditはアメリカのなんJって言ってたぞ
25 : 2025/08/14(木) 20:29:05.19 ID:4XctO6HZ0
Redditは気に食わない派閥の書き込みを消しまくると聞いてから5以下の存在へ格下げしたw
26 : 2025/08/14(木) 20:57:12.98 ID:CHL7Qnry0
Skebもスクレイピング対策でクッションページ挟むようになったからキャッシュに載らなくなったな
28 : 2025/08/16(土) 23:12:45.62 ID:YchCsVOh0
既存のスクレイピングって糞遅い、たとえると歩行者が高速道路占有してるようなもん、AI 企業は高速なのを自作してんのかね?今時の有能SI屋は自作なんて愚の骨頂といって省みないアホが99.99999%なのに
まあこういう現状が付け焼き刃の素人がスクレイピングを悪用するのを防いでる面もある
29 : 2025/08/17(日) 01:45:29.92 ID:vXRroKYC0
避けられないオーバーヘッドがあるから並列で実行するしか無い
30 : 2025/08/17(日) 01:56:22.33 ID:uGrLZo0v0
google検索とか検索結果を視覚できない部分を遅延して順次ストリーム転送してきてるから、避けられないオーバーヘッドが存在するけど、
そうでないサイトも糞遅いのが既存のスクレイピング

コメント

タイトルとURLをコピーしました