- 1 : 2025/08/12(火) 11:31:15.43 ID:UGBlV3/k9
-
GIGAZINE
https://gigazine.net/news/20250812-reddit-block-internet-archive-ai-scraping/2025年08月12日 11時16分
Internet Archiveはインターネット上のあらゆるコンテンツをアーカイブするWayback Machineを運営しており、ソーシャル掲示板・Reddit上のコンテンツもアーカイブ対象となっています。しかし、スクレイピングを禁止しているRedditのコンテンツを、Wayback Machineのアーカイブ経由でAIのトレーニングに利用する企業が存在することがわかり、RedditがWayback Machineによるコンテンツのアーカイブをブロックし始めたことが明らかになりました。
Reddit blocks Internet Archive to end sneaky AI scraping – Ars Technica
https://arstechnica.com/tech-policy/2025/08/reddit-blocks-internet-archive-to-end-sneaky-ai-scraping/Reddit will block the Internet Archive | The Verge
https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limitWayback Machineはインターネット上のあらゆるコンテンツをアーカイブするという使命の一環として、Reddit上のページやプロフィール、コメントをアーカイブしてきました。しかし、今後はRedditのスクリーンショットのみがアーカイブされるようになるとArs Technicaは報じています。
RedditはWayback MachineからデータをスクレイピングしていたAI企業の名前を明らかにしていませんが、同社の広報担当であるティム・ラスシュミット氏は「Redditは、AI企業がプラットフォームのポリシー(Redditのポリシーを含む)に違反し、Wayback Machineからデータをスクレイピングしている事例を認識しています」とArs Technicaにコメントしています。
ラスシュミット氏はAIスクレイピングに対する防御を強化するため、Internet Archive側が講じるべき対策があると示唆し、「Internet Archiveがサイトを守り、プラットフォームのポリシー(ユーザーのプライバシーの尊重、削除されたコンテンツの削除など)を遵守できるようになるまで、私たちはRedditユーザーを守るためにInternet ArchiveによるRedditデータへのアクセスを一部制限します」と言及しています。
なお、Redditユーザーの中には既に削除されている投稿やコメントを調べるために、Wayback Machineを利用している人もいるとArs Technicaは指摘。こういったユーザーは、削除済みの投稿やコメントを閲覧するためのツールは他にも無数に存在しており、Wayback Machineはそのような目的で利用するのに適したプラットフォームではないとも言及しているそうです。
(略)
※全文はソースで。
- 3 : 2025/08/12(火) 11:34:26.60 ID:i21+VT/50
- なにい!レイプだあ!?
- 4 : 2025/08/12(火) 11:43:16.68 ID:4oHvDFxN0
- AI凄い俺スゴイ
AI凄い俺頭イイパクリんちょん!
- 5 : 2025/08/12(火) 11:45:45.18 ID:9UIIstI10
- Redditが何らかの障害でバックアップ消失したらどうするの?
と思ったけど内容が便所の落書きだからどうでもいいか、問答なし - 6 : 2025/08/12(火) 11:46:47.27 ID:3nmOYoYZ0
- >>1
えまって
Internet Archiveってやばいの?
データ拾う時めっちゃ利用してんだが - 7 : 2025/08/12(火) 11:49:30.75 ID:ovBhaK1A0
- redditってそんな高尚なサイトだったっけ?
- 8 : 2025/08/12(火) 11:49:53.84 ID:RWYZ2ZPj0
- archive.org重宝してるぜ
絶版になったお宝も手に入るし - 12 : 2025/08/12(火) 11:56:15.83 ID:i21+VT/50
- >>8
なんだこりゃ
なんでも落とし放題じゃねえか - 22 : 2025/08/14(木) 09:15:47.47 ID:CuBZi8KM0
- >>8
雑誌についてるCDのisoもアップされてたりするな - 9 : 2025/08/12(火) 11:50:55.38 ID:dG8Pp+6q0
- 我が身に起きた恐怖体験みたいなスレッドはずーっと読んでしまうな
- 10 : 2025/08/12(火) 11:51:40.95 ID:252QYfXe0
- えまって(笑)
気持ち悪ー - 11 : 2025/08/12(火) 11:52:02.11 ID:iUUgi0kP0
- AIって勝手に借りパクしてるだけだからな
- 13 : 2025/08/12(火) 12:02:19.92 ID:NA4Rxf1I0
- よくわからんけどchatgptは大丈夫?
結構PCのエラー情報とかここから拾ってくること多いけど - 14 : 2025/08/12(火) 12:29:04.46 ID:AUFi5g7F0
- Internet Archiveはキャッシュと証して違法アップロードされた映画などがダウンロードし放題になってる
配信には無い物とかもあって便利なんだが完全に違法 - 15 : 2025/08/12(火) 12:34:05.21 ID:mFINy2y40
- >>1
さっきキチゲェと喧嘩になったのはAIがここから盗んできてるからなのかな - 18 : 2025/08/12(火) 17:13:31.41 ID:7QlT//Pf0
- >Wayback Machineはインターネット上のあらゆるコンテンツをアーカイブするという使命の一環として、Reddit上のページやプロフィール、コメントをアーカイブしてきました。
ひょっとして5chのおれらのクソレスもアーカイブされてんの?(; ・`д・´)ゴクリ
- 19 : 2025/08/12(火) 17:17:30.73 ID:7QlT//Pf0
- インターネットアーカイブって今まで集めたデータだけで何テラバイトあんだろ?(´・ω・`)いや、もはやその上のヨタとかロナとかクエタとかの単位か
- 20 : 2025/08/12(火) 19:47:18.22 ID:tMMYU6Tw0
- AIとwaybackって相性いいよな(利用者にとっては)
- 21 : 2025/08/14(木) 01:19:21.78 ID:6XgUaZKJ0
- 数年あったサイトなのにインターネットアーカイブにも部分的にしか残ってなくて絶望した
- 23 : 2025/08/14(木) 15:02:28.15 ID:ip/Wz1AY0
- Grokヌード解禁おめ
あとでサブスクするわphotorealistic志向のartistの声聞いたな
geminiでヌード作れる人なら、気楽につくれる - 24 : 2025/08/14(木) 18:36:44.03 ID:XQFYl1GX0
- ひろゆきがredditはアメリカのなんJって言ってたぞ
- 25 : 2025/08/14(木) 20:29:05.19 ID:4XctO6HZ0
- Redditは気に食わない派閥の書き込みを消しまくると聞いてから5以下の存在へ格下げしたw
- 26 : 2025/08/14(木) 20:57:12.98 ID:CHL7Qnry0
- Skebもスクレイピング対策でクッションページ挟むようになったからキャッシュに載らなくなったな
- 28 : 2025/08/16(土) 23:12:45.62 ID:YchCsVOh0
- 既存のスクレイピングって糞遅い、たとえると歩行者が高速道路占有してるようなもん、AI 企業は高速なのを自作してんのかね?今時の有能SI屋は自作なんて愚の骨頂といって省みないアホが99.99999%なのに
まあこういう現状が付け焼き刃の素人がスクレイピングを悪用するのを防いでる面もある - 29 : 2025/08/17(日) 01:45:29.92 ID:vXRroKYC0
- 避けられないオーバーヘッドがあるから並列で実行するしか無い
- 30 : 2025/08/17(日) 01:56:22.33 ID:uGrLZo0v0
- google検索とか検索結果を視覚できない部分を遅延して順次ストリーム転送してきてるから、避けられないオーバーヘッドが存在するけど、
そうでないサイトも糞遅いのが既存のスクレイピング
RedditがInternet Archiveをブロック、AI企業によるWayback Machineのアーカイブ不正利用を阻止するため
ニュー速+

コメント