フェイクニュースや疑似科学、差別が嫌い
最近はLLMを中心として生成AI全般に強い興味があります。
・GPT-5は数理・コーディング・マルチモーダルの主要ベンチで前世代を上回り、*幻覚と“できたフリ”*が大幅減。AIME 2025(数理)94.6%、SWE-bench Verified(実世界バグ修正)74.9%、MMMU(視覚含む学術)84.2%。
・医療系(HealthBench)では特に差が大きく、難問セットで46.2%(o3: 31.6%、GPT-4o: 0%)。難問での“幻覚”エラーは1.6%(o3: 12.9%、4o: 15.8%)
・“欺瞞的ふるまい”は*2.1% ← o3の4.8%*に低減。
・GPT-5は数理・コーディング・マルチモーダルの主要ベンチで前世代を上回り、*幻覚と“できたフリ”*が大幅減。AIME 2025(数理)94.6%、SWE-bench Verified(実世界バグ修正)74.9%、MMMU(視覚含む学術)84.2%。
・医療系(HealthBench)では特に差が大きく、難問セットで46.2%(o3: 31.6%、GPT-4o: 0%)。難問での“幻覚”エラーは1.6%(o3: 12.9%、4o: 15.8%)
・“欺瞞的ふるまい”は*2.1% ← o3の4.8%*に低減。