Lightnews — Scholar-powered news

塀（へい）＠2026年上伊那ぼたんアニメ放送🎉

@tonarinohey.bsky.social

Wikipedia、AI企業に「無償の搾取」停止を要求：無断スクレイピングに終止符、有料API利用とクレジット表記を求める | XenoSpectrum xenospectrum.com/wikipedia-de...

Wikipedia、AI企業に「無償の搾取」停止を要求：無断スクレイピングに終止符、有料API利用とクレジット表記を求める | XenoSpectrum

生成AIが生成するその「知識」は、一体どこから来ているのか？インターネットユーザーの誰もが一度は考えたであろうこの問いに、Web最大の知識源であるWikipediaが、静かだが極めて重い回答を突きつけた。

xenospectrum.com

November 11, 2025 at 1:15 AM

ペンギン

@penpenguin2023.bsky.social

『今回のWikimediaの動きは、単なる一組織の声明ではなく、AI時代の情報生態系のあり方を定義する、重要な転換点と分析できる。』

Wikipedia、AI企業に「無償の搾取」停止を要求：無断スクレイピングに終止符、有料API利用とクレジット表記を求める
xenospectrum.com/wikipedia-de...

Wikipedia、AI企業に「無償の搾取」停止を要求：無断スクレイピングに終止符、有料API利用とクレジット表記を求める | XenoSpectrum

生成AIが生成するその「知識」は、一体どこから来ているのか？インターネットユーザーの誰もが一度は考えたであろうこの問いに、Web最大の知識源であるWikipediaが、静かだが極めて重い回答を突きつけた。

xenospectrum.com

November 11, 2025 at 1:04 AM

うしげん（Ushigen）

@ushigen.bsky.social

WikipediaのAIモデルのトレーニングを目的としたデータ収集（スクレイピング）停止およびAPIの有償化について、トランプとその政権が何かにつけてWikipediaを攻撃していたのは、自身に利益を供給してくれるテックオリガルヒ共に対する便宜を図るためのものだったのかなぁと思ったり。 gigazine.net/news/2025042...

トランプ政権がWikipediaの運営団体を脅迫

ドナルド・トランプ大統領がワシントン連邦地検の検事正代行に指名したエド・マーティン氏が、Wikipediaの運営組織であるウィキメディア財団に対し、非営利団体としての地位に疑問を呈する書簡を送付したことが明らかになりました。マーティン氏はWikipediaに対して、「アメリカの免税組織法における義務に違反する可能性のある一連の活動を行っている」と指摘しています。

gigazine.net

November 11, 2025 at 2:55 AM

むにゃ

@nemukewokutiku.bsky.social

pixiv非公開は

・サーバー内部にデータはある（当然）
・非公開はpixivサービス上から表示されないようににしてるだけ
・でもhtmlソースコードには画像のリンクが残ってるので実は直接アクセス可能（らしい）
・悪質すぎるクローラーは一部弾いてるが割と普通にスクレイピングはされまくってる
・つまりpixivサービス上以外からアクセスすればデータはとれる
・非公開の意味は基本何もない

って感じであってますかね…？

November 10, 2025 at 2:44 PM

地雷魚

@jiraygyo.bsky.social

Wikipedia、AI企業に「無償の搾取」停止を要求：無断スクレイピングに終止符、有料API利用とクレジット表記を求める | XenoSpectrum xenospectrum.com/wikipedia-de...
Wikipedia財団は「お金にうるさい（婉曲な表現）」人たちなので、「生成LLMにデータ提供して見返りを得るよりも停止して厳しく対応迫ったほうが金になる」と踏んだのだろうね。
テキスト分野のLLMのソースがほぼWikipedia由来（笑）なので、かなりの打撃になると思う。そうとうふっかけてやれ（笑）

Wikipedia、AI企業に「無償の搾取」停止を要求：無断スクレイピングに終止符、有料API利用とクレジット表記を求める | XenoSpectrum

生成AIが生成するその「知識」は、一体どこから来ているのか？インターネットユーザーの誰もが一度は考えたであろうこの問いに、Web最大の知識源であるWikipediaが、静かだが極めて重い回答を突きつけた。

xenospectrum.com

November 11, 2025 at 2:24 AM

GIGAZINE

@gigazine.net

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている
https://gigazine.net/news/20251105-common-crawl-web-scraping/

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデル(LLM)の訓練に利用していることが物議を醸していると、アメリカの月刊雑誌・The Atlanticが指摘しています。

gigazine.net

November 5, 2025 at 12:01 PM

Bookness and Thereness　本と出版と情報とその周辺のニュースまとめ

@bookness.bsky.social

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている
gigazine.net/news/2025110...

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデル(LLM)の訓練に利用していることが物議を醸していると、アメリカの月刊雑誌・The Atlanticが指摘しています。

gigazine.net

November 5, 2025 at 11:07 PM

Tech Trending

@tech-trending.bsky.social

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている
https://gigazine.net/news/20251105-common-crawl-web-scraping/

OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデル(LLM)の訓練に利用していることが物議を醸していると、アメリカの月刊雑誌・The Atlanticが指摘しています。

gigazine.net

November 5, 2025 at 11:04 PM

ゆらびでお

@yuravideo.bsky.social

ノリでKo-Fiに登録したが()
help.ko-fi.com/hc/en-us/art...

・スクレイピング禁止
・追加学習生成AI投稿禁止

help.ko-fi.com/hc/en-us/art...
生成AIに対する姿勢…

ちょっと気に入ったぜ！まぁ
まだ読めてない部分が多いかもだけど

Ko-fi Content Guidelines

Last updated 6th February 2024 Here at Ko-fi, we're committed to creator freedom. We want you to be able to produce the content you want and share it with your fans and supporters. At the same time...

help.ko-fi.com

October 26, 2025 at 9:28 PM

９畳

@qjou9.bsky.social

○模様みたいなWMだと剥がしにくい
【追記】
・i2i対策には、ハーフトーン、トーンなどが有効
・サインは人体か背景に被り、尚且つ模様と同系色だと消えにくい。ただし背景だけ消された場合を考えると人物にかかっていたほうがいい。
スクレイピング対策ならNS推奨

October 23, 2025 at 4:05 AM

日経電子版

@nikkei.com

AI検索Perplexity、米掲示板Redditが提訴
www.nikkei.com/article/DGXZQO...

レディットはパープレキシティが同意を得ることなく掲示板上のデータを違法に収集したと主張。グーグルの検索結果ページからもレディットのコンテンツを不正にスクレイピングしたと指摘しています。

掲示板で交わされる膨大な会話データはAI学習に役立ちます。レディットはデータを有償で提供し、AI開発企業が対価を支払うビジネスも手掛けています。

米掲示板レディット、AI検索のパープレキシティを提訴 - 日本経済新聞

【シリコンバレー=中藤玲】米インターネット掲示板のレディットは22日、生成AI（人工知能）を使った検索サービスを提供する米新興パープレキシティなどを提訴した。AIの学習などに使うために、レディットの同意を得ることなく掲示板上のデータを違法に収集したと主張している。レディットが米東部ニューヨーク州の連邦地裁で訴訟を起こした。レディットは、ネット上から大量の情報を収集する「スクレイピング」という手

www.nikkei.com

October 23, 2025 at 8:00 AM

フタガワカサラ

@futagawakasara.bsky.social

人様のリプライを秒でスクレイピングするなやって言いたいところかも知れませんがこれが念頭にありました
x.com/komukaepapa/...

𝒏𝒂𝒌𝒂𝒎𝒖𝒌𝒂𝒆 on X: "たった45分でAIって汚染されるんだな。 https://t.co/nCNsIg8hlk" / X

たった45分でAIって汚染されるんだな。 https://t.co/nCNsIg8hlk

x.com

October 20, 2025 at 1:23 PM

ふにゃ

@hunyamero.bsky.social

「実際はスクレイピングや無断AIトレーニングを防ぐことができないから無駄」
っていう冷笑は無視していいんだよ。

問題周知しないと何も始まらない。

オプトイン（AIトレーニングへの積極的な同意）でないデータを使っている生成AIは著作権を侵害しているんだ、それは大きな問題なんだってのを知ってもらうのが第一。

October 19, 2025 at 8:15 AM

Panzergraf

@panzergraf.bsky.social

「オーストラリアのアルバニージー首相ら主要な政治家の携帯電話の番号がウェブサイトに公開されていると、現地の複数のメディアが伝えました。このウェブサイトではAI＝人工知能を使ってインターネット上から集めた個人情報を公開しているということで、オーストラリアの警察は削除を要請しています」

「インターネット上で情報を収集する手法はスクレイピングと呼ばれるということで、AIの技術開発が加速する中、インターネット上に拡散される個人情報をどう保護していくかが課題となっています」
（NHK｜2025年10月15日午後7時48分）
news.web.nhk/newsweb/na/n...

豪首相らの携帯番号ウェブサイトに警察が削除要請 | NHKニュース

【NHK】オーストラリアのアルバニージー首相ら主要な政治家の携帯電話の番号がウェブサイトに公開されていると、現地の複数のメディアが

news.web.nhk

October 15, 2025 at 12:15 PM

Natsujirushi 🌻夏じるし

@natsu0625.bsky.social

SNSに写真類載せたくないが
今はちょっと、発信しないとまずいと考えて載せてます。
スクレイピング対策になるべく背景にコーラン入る様にしてる。

細部が見たかったら
東京ジャーミィ
トルコ文化センターまでおいで！！！

今のアレコレが落ち着いても、日々発信しないとアカンかもとは思ってる。

October 12, 2025 at 7:06 AM

元気のないおさむ

@nogenki036.bsky.social

RP
最近は、A型・B型作業所で、動画編集などの作業を安価で請け負ってるところもある。いずれは、AI企業の下請けの下請けの下請け……みたいなかたちで、スクレイピング作業とかもやらされそう。

October 8, 2025 at 12:33 AM

元気のないおさむ

@nogenki036.bsky.social

最新のテクノロジーに関われるお仕事です！AIの品質改善のためのスクレイピング作業を行なっていただきます！PCを使ってのデスクワークなので、体力が少ない利用者さんでも無理なく続けられます◎

October 8, 2025 at 12:44 AM

静々

@shizu-shizu.bsky.social

極端な話……でもないと思うけど、結局もう作品をどこにも何にも発表しないことが一番安全だし（それでも安全が担保されているわけではない）、ゆくゆくは生成AI壊滅への近道になるのよね。

人間の手がけたデータがなくなり、生成AI出力物をスクレイピングするしかなくなれば、アレらは共食いを始めて勝手に崩壊する。

私は崩壊させたほうが良いと思っている。
人類に必要な技術ではないだろ、生成AIは……核兵器と同じだ。

October 8, 2025 at 12:04 AM

ペンギン

@penpenguin2023.bsky.social

🔒記事
『AIボットのトラフィックが急増している。コンテンツクリエイターたちはAIによる知的財産の無断収集、いわゆる「AIスクレイピング」に備え、対策を講じはじめた。』

大手パブリッシャーだけではない　 AIスクレイピングに警戒を強め始めたクリエイターたち
digiday.jp/publishers/c...

大手パブリッシャーだけではない　 AIスクレイピングに警戒を強め始めたクリエイターたち | DIGIDAY［日本版］

パブリッシング業界はこの1年、AI技術の侵食と格闘してきた。しかしながら、AIボットのトラフィックが急増している。いまや大手パブリッシャーだけではなく、個人のコンテンツクリエイターたちもAIによる知的財産の無断収集、いわゆる「 AIスクレイピング」に備え、対策を講じはじめた。

digiday.jp

October 7, 2025 at 8:45 AM

buncho108

@buncho108.bsky.social

たまたまLAION-5Bが可視化されているので例に上げているだけです。WEBからデータをスクレイピングして使うデータセット、それを利用するモデルは同じ問題を抱えています。2022年9月にLAION-5Bを検索するツールを開発して公開し、訴訟にも協力したのはAI開発側のスタートアップ企業です。技術者が先に権利問題を意識していて（外野のクリエイターが知るはずもありません）外部に情報を公開しています。技術者の問題意識が先です。権利問題をクリアしようとする人もいます。反AI、というのは問題意識を持った技術者も愚弄する言葉です。
site.spawning.ai/browser-exte...

October 4, 2025 at 3:37 AM

朽木桜斎（くちき　おうさい）

@kuchiki-ohsai.bsky.social

お疲れ様です🙋‍♂️
久しぶりにお客様、メインで書いている小説を一気に読んでくださった方がいらっしゃり足取りも軽くなっております
某サイト様ではときどき一瞬で全部読まれます
スクレイピングの類なのかなと

のらくらも　激動したり　秋の暮

みなさんどうかご自愛してお過ごしください🙏

桜の朽木に虫の這うこと - カクヨム kakuyomu.jp/works/168180...

桜の朽木に虫の這うこと（朽木桜斎（くちき　おうさい）） - カクヨム

４０万文字後に魔堕ちする主人公

kakuyomu.jp

October 3, 2025 at 6:15 AM

ディープブリザード✨

@deepblizzard.bsky.social

めっちゃ勘繰ると
「無料漫画アプリにSNSついてて広告も少ない！」
とちゃんといえばそれなりに人は来るけれども

絵描きのためのSNS！転載防止がすごい！
しか言わないから逆に怪しまれているのかのう…と

使いたい人は使うといいよってなるアプリだけれどXやブルスカよりいいかと言われたら
収益化とかスパチャとかは一瞬だけ盛り上がりそうである

スクレイピング対策やアプリ中のスクショ禁止が徹底しているのは強いけれど（無断転載防止などで）
コレはコレで逆に不自由さを感じてしまう我儘な気持ち…

September 22, 2025 at 5:28 AM

あり魚/有魚

@ariu0.bsky.social

Wickっていうスクレイピング対策してあるSNSがちょうど出たのか。うーんいやしかし

September 20, 2025 at 5:29 AM

GIGAZINE

@gigazine.net

AI学習目的のスクレイピングに対して利用条件や利用料金を通知する仕組み「RSL」が開発される、すでにYahoo・Reddit・オライリーなどが採用を表明
https://gigazine.net/news/20250911-ai-rsl-really-simple-licensing/

AI学習目的のスクレイピングに対して利用条件や利用料金を通知する仕組み「RSL」が開発される、すでにYahoo・Reddit・オライリーなどが採用を表明

AIの開発には膨大なデータが必要であり、AI開発企業はインターネット上に存在するありとあらゆる情報を自動ボット(スクレイパー)を用いて収集しています。このスクレイパーに対して利用条件や利用料金を提示できる仕組み「Really Simple Licensing(RSL)」が開発されました。開発にはRSSの開発陣やO’Reilly Mediaの創業者であるティム・オライリー氏などが関わっており、すでにYahooやReddit、O’Reilly Media、Quora、Mediumなどのサービスが採用を表明しています。

gigazine.net

September 11, 2025 at 3:36 AM

ペンギン

@penpenguin2023.bsky.social

Billboardが、国際音楽出版社連合(ICMP)が収集した証拠を公表。Google、Microsoft、Meta、X、OpenAIを含む世界有数のテック企業が、AIモデルのトレーニングのため、数百万のアーティストや作詞家の著作権で保護された楽曲を不正にスクレイピングしていたとのこと。

www.musicradar.com/music-indust...

“The largest intellectual property theft in human history”: Big tech companies accused of scraping millions of copyrighted songs to train AI models

Billboard publishes dossier fingering Google, Meta, Microsoft and X

www.musicradar.com

September 11, 2025 at 3:07 AM

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news