などと言い始めました。
今後のコツは「少数のパターンに絞る」「重要なものは直接確認」だそうです。
多くのパターンを見た方が「注意分散」になるというのは
なんともattentionという感じで面白かったです。
可能性ですが、Transformerアーキテクチャに起因した
1. Attentionの分散: 20項目を指示すると各項目への注意重みが約1/20に
2. Softmaxの性質: 重要項目が多いほど各スコアが相対的に低下
3. 作業記憶の限界: 人間のワーキングメモリと同様の制約
です。
「徹底」という言葉が精度をさげて面白かった。
などと言い始めました。
今後のコツは「少数のパターンに絞る」「重要なものは直接確認」だそうです。
多くのパターンを見た方が「注意分散」になるというのは
なんともattentionという感じで面白かったです。
可能性ですが、Transformerアーキテクチャに起因した
1. Attentionの分散: 20項目を指示すると各項目への注意重みが約1/20に
2. Softmaxの性質: 重要項目が多いほど各スコアが相対的に低下
3. 作業記憶の限界: 人間のワーキングメモリと同様の制約
です。
「徹底」という言葉が精度をさげて面白かった。