www.msn.com/en-us/money/...
www.msn.com/en-us/money/...
These websites can then be found in CommonCrawl dumps that are generally used for pretraining data curation...
These websites can then be found in CommonCrawl dumps that are generally used for pretraining data curation...
These websites can then be found in CommonCrawl dumps that are generally used for pretraining data curation...
These websites can then be found in CommonCrawl dumps that are generally used for pretraining data curation...
www.theatlantic.com/technology/2...
www.theatlantic.com/technology/2...
Generative AI in its current form would probably not be possible without #CommonCrawl
www.theatlantic.com/technology/2...
Generative AI in its current form would probably not be possible without #CommonCrawl
www.theatlantic.com/technology/2...
hai.stanford.edu/events/commo... @commoncrawl.bsky.social #AI #commoncrawl #datasets #data
hai.stanford.edu/events/commo... @commoncrawl.bsky.social #AI #commoncrawl #datasets #data
arxiv.org/pdf/2509.16506
arxiv.org/pdf/2509.16506
www.lalettre.fr/fr/medias_pr...
www.lalettre.fr/fr/medias_pr...
Besonders im Fokus stehen frei zugängliche Datenbanken wie #commoncrawl, deren Inhalte zum Training von #sprachmodellen genutzt werden.
Die #Verlage fordern die Entfernung […]
Besonders im Fokus stehen frei zugängliche Datenbanken wie #commoncrawl, deren Inhalte zum Training von #sprachmodellen genutzt werden.
Die #Verlage fordern die Entfernung […]
Parce ce que je savais déjà pour les dialogues des films US.
Et pour CommonCrawl.
Et pour la presse.
Et pour mon blog.
La liste (du pillage) est sans fin.
Et la loi ne couvre que très mal les créateurs :
www.precisement.org/blog/Les-IA-...
Parce ce que je savais déjà pour les dialogues des films US.
Et pour CommonCrawl.
Et pour la presse.
Et pour mon blog.
La liste (du pillage) est sans fin.
Et la loi ne couvre que très mal les créateurs :
www.precisement.org/blog/Les-IA-...
bootstrapping a large *and* quality URL crawl list is hard, and a barrier to entry. you can spider top stuff from, eg, Alexa top million, wikidata, and commoncrawl. but true long tail is important and hard: "not linked-to but good"
sometimes via old tweet links, reddit, etc
bootstrapping a large *and* quality URL crawl list is hard, and a barrier to entry. you can spider top stuff from, eg, Alexa top million, wikidata, and commoncrawl. but true long tail is important and hard: "not linked-to but good"
sometimes via old tweet links, reddit, etc
en.wikipedia.org/wiki/Common_...
Beaucoup de bruit pour rien ?
5/5
en.wikipedia.org/wiki/Common_...
Beaucoup de bruit pour rien ?
5/5
CommonCrawl, cette "pompeuse", alimentait déjà les moteurs de rech. (GG, BG ...) dans les années 2000.
Simple particulier, je m'en suis fait retirer il y a 2 ans.
2/
CommonCrawl, cette "pompeuse", alimentait déjà les moteurs de rech. (GG, BG ...) dans les années 2000.
Simple particulier, je m'en suis fait retirer il y a 2 ans.
2/
Ce faisant, elle attaque une institution : CommonCrawl et ses dérivés existent depuis ... 18 ans !
1/
Ce faisant, elle attaque une institution : CommonCrawl et ses dérivés existent depuis ... 18 ans !
1/
しかし、laionがcommonCrawlのデータ(大量のhtmlファイルでしょうか)を分析して、画像のリンクとaltタグの内容を取得し、加えて画像をclipによって分別することで新たにアノテーションを生成したのであれば、件の裁判で裁判所が「クローラは画像ストックサイトの利用規約に自然言語で示された「ボットによるスクレイピング禁止」のような規約を認識できるから、robots.txtでなくても十分オプトアウトの要件を満たす」というようなことを述べているのと辻褄が合っていないような気がします
しかし、laionがcommonCrawlのデータ(大量のhtmlファイルでしょうか)を分析して、画像のリンクとaltタグの内容を取得し、加えて画像をclipによって分別することで新たにアノテーションを生成したのであれば、件の裁判で裁判所が「クローラは画像ストックサイトの利用規約に自然言語で示された「ボットによるスクレイピング禁止」のような規約を認識できるから、robots.txtでなくても十分オプトアウトの要件を満たす」というようなことを述べているのと辻褄が合っていないような気がします
laion.ai/faq/
gigazine.net/news/2022121...
クローラがページ内のHTMLのALT属性の値を抽出できるのなら、他のテキストも取得できるでしょうし、
また、「CLIPモデルを使用して画像とALT属性の値=自然言語の結びつきをフィルタリング」しているのなら、画像内やALT属性の値での自然言語のテキストでのAI学習の拒否(TDMの権利留保)の明示も理解できるだろう、と思われますね。
laion.ai/faq/
gigazine.net/news/2022121...
クローラがページ内のHTMLのALT属性の値を抽出できるのなら、他のテキストも取得できるでしょうし、
また、「CLIPモデルを使用して画像とALT属性の値=自然言語の結びつきをフィルタリング」しているのなら、画像内やALT属性の値での自然言語のテキストでのAI学習の拒否(TDMの権利留保)の明示も理解できるだろう、と思われますね。