Lightnews — Scholar-powered news

Amory

@amoryquiet.bsky.social

20 followers 23 following 4 posts

コーヒー、科学、テクノロジー、読書、自然、動物、考えることが好き
フェイクニュースや疑似科学、差別が嫌い
最近はLLMを中心として生成AI全般に強い興味があります。

Posts Replies Media Videos

Amory

@amoryquiet.bsky.social

GPT-5くん質問多いよ。ずっと俺のターンとは言わないけどさ。ちょっと質問減らしてよ。カスタムプロンプトの言うこと聞いてくれないか。

August 22, 2025 at 9:54 AM

Amory

@amoryquiet.bsky.social

#keep4o 私は実用重視だったから予想外の運動。本当に面白い世の中になったと思う。とても未来感がある。依存は精神的なリスクもあるだろうけど、なにかしら依存しなければという人は多い。依存先候補の中で4oが比較的健全ならば、やはりあったほうが良いんだろうな。

August 11, 2025 at 2:16 AM

Amory

@amoryquiet.bsky.social

GPT-5最高！

・GPT-5は数理・コーディング・マルチモーダルの主要ベンチで前世代を上回り、*幻覚と“できたフリ”*が大幅減。AIME 2025（数理）94.6%、SWE-bench Verified（実世界バグ修正）74.9%、MMMU（視覚含む学術）84.2%。
・医療系（HealthBench）では特に差が大きく、難問セットで46.2%（o3: 31.6%、GPT-4o: 0%）。難問での“幻覚”エラーは1.6%（o3: 12.9%、4o: 15.8%）
・“欺瞞的ふるまい”は*2.1% ← o3の4.8%*に低減。

August 8, 2025 at 12:57 AM

Amory

@amoryquiet.bsky.social

GPT4oの挙動が変わった？気のせい？ハルシネーションが多い気がする。プロンプトの問題か、そのときのテーマの相性かもしれないが。

July 22, 2025 at 11:35 AM

Add to Home Screen

Light up
your news

Add to Home Screen

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news