Yusuke (Protein) Sakai
@yusuke1997.bsky.social
自然言語処理やってるはず...週8筋トレゴリラ。進捗は筋肉です!将来の夢はボディービルダー! NAIST
いや、これ言い切るのむずいな...やるとしたら、next tokenが該当トークンである確率が他のものと同程度であること示したらいいんかな。帰無仮説でいけるんか?その場合、conditionalで何トークン必要みたいな分析できるんかな。そのトークン数までなら著作権を侵害しないデータって言い張れるか?著作権を侵害しないチャンク単位とか研究題材になりそう。なんかもうすでにありそうだけど。
November 9, 2025 at 2:55 PM
いや、これ言い切るのむずいな...やるとしたら、next tokenが該当トークンである確率が他のものと同程度であること示したらいいんかな。帰無仮説でいけるんか?その場合、conditionalで何トークン必要みたいな分析できるんかな。そのトークン数までなら著作権を侵害しないデータって言い張れるか?著作権を侵害しないチャンク単位とか研究題材になりそう。なんかもうすでにありそうだけど。
数式的にはギリセーフだけど、なんか色々取り繕わないとやっぱ厳しい...なんとかなりそうだけど、その道筋がまだはっきりと見えていないみたいな。今年対応ミスって落としてる例、多発してるので、ちょっと怖すぎる...
November 8, 2025 at 3:04 PM
数式的にはギリセーフだけど、なんか色々取り繕わないとやっぱ厳しい...なんとかなりそうだけど、その道筋がまだはっきりと見えていないみたいな。今年対応ミスって落としてる例、多発してるので、ちょっと怖すぎる...