Amory
banner
amoryquiet.bsky.social
Amory
@amoryquiet.bsky.social
コーヒー、科学、テクノロジー、読書、自然、動物、考えることが好き
フェイクニュースや疑似科学、差別が嫌い
最近はLLMを中心として生成AI全般に強い興味があります。
GPT-5くん質問多いよ。ずっと俺のターンとは言わないけどさ。ちょっと質問減らしてよ。カスタムプロンプトの言うこと聞いてくれないか。
August 22, 2025 at 9:54 AM
#keep4o 私は実用重視だったから予想外の運動。本当に面白い世の中になったと思う。とても未来感がある。依存は精神的なリスクもあるだろうけど、なにかしら依存しなければという人は多い。依存先候補の中で4oが比較的健全ならば、やはりあったほうが良いんだろうな。
August 11, 2025 at 2:16 AM
GPT-5最高!

・GPT-5は数理・コーディング・マルチモーダルの主要ベンチで前世代を上回り、*幻覚と“できたフリ”*が大幅減。AIME 2025(数理)94.6%、SWE-bench Verified(実世界バグ修正)74.9%、MMMU(視覚含む学術)84.2%。
・医療系(HealthBench)では特に差が大きく、難問セットで46.2%(o3: 31.6%、GPT-4o: 0%)。難問での“幻覚”エラーは1.6%(o3: 12.9%、4o: 15.8%)
・“欺瞞的ふるまい”は*2.1% ← o3の4.8%*に低減。
August 8, 2025 at 12:57 AM
GPT4oの挙動が変わった?気のせい?ハルシネーションが多い気がする。プロンプトの問題か、そのときのテーマの相性かもしれないが。
July 22, 2025 at 11:35 AM