Lightnews — Scholar-powered news

Kajitaka

@kajitaka.bsky.social

120 followers 61 following 130 posts

プログラミング、AI系が趣味の日本人です。
I'm Japanese. I'm interested in programming and AI.

Github: https://github.com/kajitaka1201
Note: https://note.com/kajitaka1201

Posts Replies Media Videos

Kajitaka

@kajitaka.bsky.social

追加情報

Claude Sonnet 4.5、Gemini 2.5 Flash、Gemini 2.5 Proでも同じ指示で作らせた

* ClaudeはHaikuとあまり差がない印象
* Gemini Flashは、そもそもデザインが破綻するので、話にならない
* Gemini Proは、品質はトップといってもいいが、他のモデルより、格段に遅い

全体的には、速度重視なら、Claude Haiku 4.5が良さげ、性能なら、Sonnetなり、Gemini Proなりといった感じ。

October 16, 2025 at 4:26 AM

Kajitaka

@kajitaka.bsky.social

おそらくですが、無料版などで使用されるGemini 2.5 Flashというモデルが新しくなって、生成速度が速くなったことが原因だと思います。

一応、Googleによると、性能は上がっているらしいです(自分が少し使った感想や、ネットでの意見も性能は上がっていそうという感じです)。

October 1, 2025 at 8:58 AM

Kajitaka

@kajitaka.bsky.social

一応nano bananaの補足をしておきます。。

簡単に言うと、「nano bananaとは、Googleが作成したテキストと画像の出力に対応した新しい生成AIのモデル」といった感じです。
現在は、Gemini( gemini.google.com )等で使用できます。

詳しい方向けですが、nano bananaはGemini 2.5 Flash Image PreviewのLMArenaでテストしたときのコードネームです。昔のGemini 2.0 Flash Preview Image Generationと同じ立ち位置のモデルです。

September 22, 2025 at 9:42 AM

Kajitaka

@kajitaka.bsky.social

こちらで、Gemini Diffusionを使ってやってみたら、9.9 - 9.11の計算も、大小比較も、どちらも正解しました。

日本語だと、計算は正解するが、大小比較は間違えました。

August 21, 2025 at 10:59 AM

Kajitaka

@kajitaka.bsky.social

ちゃんと考えさせると、基本的には正解します(その場合、筆算みたいなものを書いてやっていることが多い気がします)。

一方、推論をせずに、速く生成される時に、間違えることがあるといった感じです。
(個人の推測ですが、ただの引き算の計算だから、推論はそこまで必要ないという結論に至っているのだと思います)

August 9, 2025 at 9:44 AM

Kajitaka

@kajitaka.bsky.social

GPT-5や他のモデルもですが、9.9 - 9.11でも、正解するときもあります。

9.90 - 9.11だと、LMArenaでやった感じは、正解率は上がっている気がします(というか、ほぼ全てのモデルが正解します)。

August 9, 2025 at 9:40 AM

Kajitaka

@kajitaka.bsky.social

一応、GPT-5もGmeini 2.5 Proも間違っていることを指摘すれば、正しい0.79という答えにはたどり着いた。

August 8, 2025 at 11:50 AM

Kajitaka

@kajitaka.bsky.social

Microsoftはこういうところありますよ。

ユーザー数増えるどころか、イメージが悪くなり、余計減りそうな感じがするんですが、どうなんでしょうね。

一応、CopilotはChatGPTに入っているモデルと同じなので、無料でもChatGPTでは有料のモデルが使えたりする、良いサービスのはずなのに。

August 4, 2025 at 8:03 AM

Kajitaka

@kajitaka.bsky.social

自分も色々なモデルが使えるのは、便利だと思います。
ただ、個人的には、全員が全てのモデルの得意不得意を理解しているとは思い難く、その様なことを教えない限り、結局は初期設定のもので使われるといったことが起きそうな感じがします。

もちろん、それらを教えた場合には、1つのモデルや1社のモデルしか使えないのと比べて圧倒的に便利になるのはそうなのですが。

June 25, 2025 at 10:10 AM

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news