Lightnews — Scholar-powered news

Kajitaka

@kajitaka.bsky.social

Claude Haiku 4.5を使ってみた。

電卓を、"Create a calculation app."という指示のみで作らせた。

* スピードは速い
* デザインに大きな破綻がない(最上位モデルでなく、破綻がないのは珍しいのでは)
* 四則演算などで、大きなバグはなさそう
* 演算記号を押した後も、もとの入力が保持されていて、同じ数が入る場合などでは、入力しずらい(9*9とか)
* 0で割ったときに、Infinityと出るが、その後は数字を入力したら、新しい計算が始まる

全体としては、一部使いづらい部分があったりするものの、結構いいし、スピードも速いので、プログラミングは強め。

Calculation app by Claude Haiku 4.5 / Claude Haiku 4.5が作成した電卓アプリ

October 16, 2025 at 4:24 AM

Kajitaka

@kajitaka.bsky.social

今更な感じですが、自作イラストをnano bananaでフィギュア化しました。

プロンプトはGoogleが公開しているものを使いました。

現在少し問題となっている、ある企業のロゴっぽいものが生成される問題が発生したので、手動で編集してあります(白塗りしたため、若干違和感があると思います)

※生成AIの画像であり、販売するものではありません。

September 22, 2025 at 9:32 AM

Kajitaka

@kajitaka.bsky.social

似たことを、やってみた。
GPT-5で9.9-9.11を計算するように言った結果が画像の通り。
間違った、-0.21という結果を出してきた。

ちなみに、Gemini 2.5 Flashは、-0.02というまた別の間違いを、Gemini 2.5 Proも-0.21という結果を出した。

LMArenaでも少しやってみたが、-0.21という結果を出すモデルもそれなりに存在することが分かった。

9.9と9.11の大きさの比較はできても何故か計算ができないモデルたち...

a screenshot of a chat with GPT-5, GPT-5 said that 9.9 - 9.11 = -0.21

August 8, 2025 at 11:34 AM

Kajitaka

@kajitaka.bsky.social

GPT-5が発表されて、LMArenaでトップになっているものの(画像1つ目)、Gemini 2.5 Proとの直接対戦では、勝った割合が0.33とGemini 2.5 Proに負けている(画像2枚目)。

a screenshot of leaderboard of LMArena. GPT-5 is at the top, followedby Gemini 2.5 Pro

a screen shot of win rate table in LMArena. GPT-5 is at the top, but loses to Gemini 2.5 Pro in head-to-head battles

August 7, 2025 at 9:06 PM

Kajitaka

@kajitaka.bsky.social

Gemini 2.5 Flash Liteに電卓作らせてみた。

プロンプトは前のNoteのものです。

得点は20点満点中18点だった。

* デザインが、若干ボタンの間などが分かりづらい。
* エラーが表示される方法が、今までにない方法で、また、個人的に気に入った(画像の通り)
* thinkingもないため、13.1sで完成した(めちゃくちゃ速い)。

全体としては、thinkingがなくても、それなりにプログラミングの能力があり、ちょっとしたことなら、直ぐに完成するので、役に立ちそう。

Gemini 2.5 Flash Lite Preview 06-17が作成した電卓のスクリーンショット。0で割ったときのエラーが表示されている。 / a screenshot of a calculator made by Gemini 2.5 Flash Lite Preview 06-17. the error when divinding by 0 is displayed.

June 18, 2025 at 10:53 AM

Kajitaka

@kajitaka.bsky.social

Gemini 2.5 Flashの正式版に電卓作らせてみた。

プロンプトは前のNoteのやつです。

得点付けをすると、20点満点中17点。

* デザインは結構特殊だが、文字も見やすいし、何をホバーしているのかなどが分かりやすい。
* スピードは、Proよりは速いが、thinkingをオンにしているため、1分ほどかかる。

プレビューの時と同じく、それなりのプログラミング能力はありそう。
それなりに簡単なタスクで、Proほどの時間をかけたくないときには便利になりそう。

Gemini 2.5 Flashが作成した電卓アプリのスクリーンショット / a screenshot of a calculator made by Gemini 2.5 Flash

June 18, 2025 at 10:41 AM

Kajitaka

@kajitaka.bsky.social

Gemini 2.5 Proの正式版で電卓タスクをやってみた。

プロンプトは前のNoteと同じもの。

Noteと同じ評価(プラスの得点なし)をすると、20点満点中19点。

* デザインが見たことのないもので、最新っぽい感じではないが、背景色と文字とのコントラストがちゃんと合って、文字が見えやすくなっている
* スピードは、thinkingで相当考えていることもあり、結構かかる(スピード重視用ではないのはプレビューと同じく)。

インターネットの意見を見ても、前のバージョンと大きな変化はないそうで、少し変更を加えて、正式版にしたといった感じだと思われる。

Gemini 2.5 Proが作成した電卓のスクリーンショット / a screenshot of a calculator made by Gemini 2.5 Pro

June 18, 2025 at 10:23 AM

Kajitaka

@kajitaka.bsky.social

Gemini Diffusionに電卓アプリを作らせてみた。

いつもと同じタスク(プロンプトはいつもは日本語ですが、今回は英語で書きました)。

* デザインに大きな破綻はない(若干直せそうだが)
* 計算はちゃんとできる
* 0で割ると、エラーが出るが、エラーを表示する文字が多く、スタイルが壊れる
* 浮動小数点数への計算は表示上9桁に丸めているため、対策はされているが、"0.200000000"みたいな感じの結果となるので惜しい
* 速度は意味が分からないほど速い(2.26sで、速度は697tokens/s)

ちゃんとしたものが、数秒で出来るので、簡単なタスクにはめっちゃ役に立ちそう。

a screenshot of a calculator made by Gemini Diffusion / Gemini Diffusionが作成した電卓アプリのスクリーンショット

June 9, 2025 at 11:20 PM

Kajitaka

@kajitaka.bsky.social

Gemini 2.5 Pro Preview 0605が出ていたので使ってみた。

いつもの電卓。

* デザインは問題はない(もう少し使いやすくは出来るが、及第点)
* 0で割ると、アラートが出てくる
* 浮動小数点計算は対応していない(写真の通り)
* かかった時間はthinkingを含めて51.1sで、特別速くもないが遅くもない

全体としては、それなりのプログラミング能力を持っていることは分かる(それ以上は、このプロンプトでは分からない)。
プロンプトも適当で、最新のモデルでは、基本的に合格してしまうので、新しいのを考えないと(キーボードショートカットの機能追加をお願いしたりとか?)。

a screenshot of a calculator made by Gemini 2.5 Pro Preview 0605 / Gemini 2.5 Pro Preview 0605が作った電卓のスクリーンショット

June 5, 2025 at 11:26 PM

Kajitaka

@kajitaka.bsky.social

Chatbot ArenaでClaude 4 Opusを使ってみた。

いつもの電卓アプリ

* デザインは大きな問題はないが、若干使いづらい
* 0で割るとInfinityとなるが、その後数字を打ったら、新しい計算ができるようになる
* 浮動小数点数への対策はなし
* 速度は爆速(非推論モデル)

全体的には、非推論系モデルでは、トップレベルのコーディング能力を持っていることは、1回だけでも分かった。
ただ、SonnetやGemini 2.5 Proとの性能の違いは微妙(もっとやれば分かるかもだし、SonnetではClaudeのArtifactsを使っていたため、それも影響しているかも)。

a screenshot of a calculator mady by Claude 4 Opus / Claude 4 Opusが作成した電卓のスクリーンショット

May 29, 2025 at 11:38 AM

Kajitaka

@kajitaka.bsky.social

Claude Sonnet 4が出たので使ってみた。

いつもの電卓タスク

* デザインは申し分ない(今までの中で一番好き)
* スピードは速い
* ちゃんと動く
* 0で割ったときにはErrorもInfinityも出ず、ただ0と出るので、計算できているのかが分からない
* 浮動小数点数の計算は対策ができている(多分四捨五入している)

デザインは問題がなく、基本的な使用では問題がないものが、thinkingを使わずとも作れるので、結構すごい。
更に、これはSonnetなので、Opusだともっとすごいことを考えると、Geminiよりもすごいかも。

a screenshot of a calculator made by Claude Sonnet 4 / Claude Sonnet 4が作った電卓のスクリーンショット

May 23, 2025 at 7:31 AM

Kajitaka

@kajitaka.bsky.social

Gemini 2.5 Flash Preview 05-20が公開されたので、使ってみた。

いつもの電卓を作らせた。
* デザインは若干壊れている(今までの壊れ方とは少し違って、一応使えるレベル)
* 0で割ったときにはErrorと出た
* 浮動小数点数には対応していなかった(画像から分かる通り)
* thinkingも合わせて49.9秒だった

全体を通して、流石にGemini 2.5 Proなどと比べると、プログラミング能力は劣っているが、このスピードでこのクオリティーなら、場合によっては使えそうといった感じ。

a screenshot of a calculator made by Gemini 2.5 Flash Preview 05-20 / Gemini 2.5 Flash Preview 05-20が作った電卓のスクリーンショット

May 21, 2025 at 4:29 AM

Kajitaka

@kajitaka.bsky.social

GPT 4.1 mini使ってみた。

いつもの電卓を作らせた。

* デザインは少し壊れている
* 回答生成が異常に速い(Geminiとかと比べても、結構速い)
* 0で割ることへの対応はなかった
* 小数点機能はなかった

全体としては、プログラミングの能力では、微妙だが、スピードも考えると、結構良さげ。

a image of a calculator made by GPT-4.1-mini

May 15, 2025 at 10:54 AM

Kajitaka

@kajitaka.bsky.social

Google AI Studioで、自動保存時の名前が日本語になっている。

Gemini 2.5 Pro Preview 05-06を使っていたので、それが原因かも(ただ、thinkingが日本語でも保存の名前が英語になることもある)

2.5 Flashだと、thinkingが日本語でも自動保存の名前は英語だった

日本でGoogle AI Studioを使っているユーザーには嬉しいかも。

a screenshot of Google AI Studio, the name of the auto-save is in Japanese

May 6, 2025 at 11:14 PM

Kajitaka

@kajitaka.bsky.social

Gemini 2.5 Pro Preview 05-06使ってみた。

いつもの電卓アプリでコーディング能力を測る。
* デザインはそれなりに壊れている
* 小数点機能はなし
* それ以外で、問題は基本的になし
* thinkingに99.8秒、生成に129.3秒と相当時間がかかった

前のモデルと比べて、コーディング能力は上がったらしいが、今回のテストでは、それが確認できなかった(というよりかは、前回よりも悪い気がする)。

a image of calculator mady by Gemini 2.5 Pro Preview 05-06

May 6, 2025 at 11:08 PM

Kajitaka

@kajitaka.bsky.social

Qwen 3 使ってみた。

Hugging FaceのSpacesを使ってやっています。
* 9.11と9.9の比較はreasoningモデルだけあって英語、日本語どちらでも正解
* strawberryのrの個数も英語、日本語どちらでも正解(reasoning部分が英語で内容も殆ど同じ)
* 電卓を作らせても、デザインは問題なし(括弧閉じが使えない、0除算でInfinityと出る、浮動小数点数計算への対応がなし)

全体として、モデルがオープンのものとしてはトップレベル(というかトップでは?)
Geminiやo系のモデルには劣るかもというレベルで、ぜんぜん使える。

a image of a calculator made by Qwen3-235B-A22B

April 28, 2025 at 10:53 PM

Kajitaka

@kajitaka.bsky.social

Gemini 2.5 Flashに電卓アプリ作らせてみた。

* デザインに大幅な破綻はないが、演算記号の中に複数あるものもあったりなどはする
* 0で割ったときはErrorとなる
* 浮動小数点数の計算への対策はできていない
* thinkingのtokens/sの数値としては速い（104.6）が、凄く長く、結果としては162.1秒かかった
* thinkingの後のoutputはtokens/sが20.6と遅くなっているので、そっちにも203.0秒と凄く時間がかかっている

thinkingの長さを指定できる機能があったりするので、上手く使えば安い割に性能がいいというモデルになりそう。

a picture of a calculator made by Gemini 2.5 Flash Preview 04-17

April 18, 2025 at 4:14 AM

Kajitaka

@kajitaka.bsky.social

Llama 4 Maverickに電卓アプリを作らせてみた。

* デザインは壊れていない。
* カッコの機能があって、動く
* 浮動小数点数計算と0で割ることへの対応はなし
* 回答生成のスピードが速い

Gemini 2.5 Proには敵わないかもだが、それ以外のモデルにはコーディングでも勝っていそう。

a image of calculator mady by Llama 4 Maverick

April 5, 2025 at 11:12 PM

Kajitaka

@kajitaka.bsky.social

Quasar Alphaに文字起こし（英語）させてみた。

文字起こししたのはMicrosoft Copilotの画面で、Copilotの返答を全て文字起こしさせた。

結果は若干間違えているところはあるが、そもそも画像が粗いので、しょうがないという感じ。正確にできているところもあれば、全然できていないところもあったり、正確性を求めるのであれば、このモデルはあまりおすすめしないが、内容確認等だったら、問題ないという感じ。

対して、Gemini 2.0 Flashだと精度100%で、スピードもそっちのほうが速かった（比較対象としては強すぎるモデルな気はするが）。

April 5, 2025 at 11:20 AM

Kajitaka

@kajitaka.bsky.social

Quasar Alphaがマルチモーダルということで、ChromeOSのデフォルトの壁紙（画像）が何か分かると質問をした。

何かの壁紙だということは理解しているが、具体的に何かまでは分かっていなかった。

比較対象として、Gemini 2.5 Proでは、正確に分かっていた。
Gemini 2.0 Flashでは、1回目で壁紙と言って、その後何の壁紙と聞いたら、正確に答えた。

もちろん、これでマルチモーダル性能は図れるわけはないが、画像の説明からして、ちゃんと読めている感じ。

a image of default wallpaper of ChromeOS

April 5, 2025 at 11:09 AM

Kajitaka

@kajitaka.bsky.social

OpenRouterで無料で使える謎の高性能モデル"Quasar Alpha"を使ってみた。

1Mコンテキストウィンドウを持つ（OpenRouter公式が明言）
スピードは相当速い（130tokes/sは出る）
コーディングの性能も良い（電卓アプリを作らせたら、デザインの問題はないものを作ってきた、浮動小数点・0で割るへの対応はなし）

非公式では、OpenAIのモデルかもと言われており、そうだとしたら、Googleに続く1Mコンテキストウィンドウを持つモデルを持つ企業となり、競争が激化することが予想される。

a image of a calculator made by Quasar Alpha on OpenRouter

April 5, 2025 at 10:43 AM

Kajitaka

@kajitaka.bsky.social

初めてGeminiのCanvasを使ってみた。

電卓アプリを作らせてみたが、モデルがGemini 2.0 Flashなので、デザインは壊れてしまった。
ただ、生成されるスピードが速い気がするのと、プレビューができるのは便利（多分、この機能には関係ないと思うが、計算を表示する部分の数字のフォントが今までにないもので面白い）。
無料ユーザーのため、使うことができないが、2.5 Proなどのプログラミングが得意なモデルを使えたりすると、便利かも（consoleの機能もあったりと）。

a picture of calculator made by Gemini 2.0 Flash using Gemini Canvas

March 26, 2025 at 10:42 PM

Kajitaka

@kajitaka.bsky.social

Gemini 2.5 Proを使ってみた。

いつものように電卓を作らせたら、画像の通りデザインに関しては大幅なミスは見当たらなかった（若干変な気もするが、崩れているというほどではない）。
また、0で割った際もErrorと表示され、またその後に数字などを打った場合は今までの殆どのAIが"Error1"などとその後に数字が打たれていたのが、数字を打つと、エラーが消え、次の計算に移るようになっていた（今までのAIで初）。
更に、小数点以下を10桁までに丸めているため、浮動小数点数に関する計算（0.3-0.1など）も正確な値を返している（今までのAIで初）。

プログラミングにおいては相当有能そう。

a image of a calculator made by Gemini 2.5 Pro Experimental 03-25

March 26, 2025 at 11:08 AM

Kajitaka

@kajitaka.bsky.social

Gemma 3 27Bを使ってみた。

日本語の性能はぱっと使った感じでは特別変に感じるみたいなことはなかった。

プログラミング能力を測るために、電卓アプリを作らせたら、デザインは大きな破綻がなく、また0で割ったときには"Error"と出るものが出てきた（他のLLMではデザインの破綻やら0で割ったら"infinity"になるやらで、この2つができたのは多分こいつが最初）。浮動小数点数の計算の対策はやっていなかった。

言語能力的には他のモデルに劣るのかもしれないが、オープンモデルとしてはすごく良いと思う（事実Chatbot Arenaでも高得点を出している）。

Gemma 3 27Bの作った電卓アプリのデザイン
a image of calculator app made by "Gemma 3 27B"

March 12, 2025 at 10:58 PM

Kajitaka

@kajitaka.bsky.social

Grok3がChatbot Arenaで使えたので、Gemini 2.0 Pro Experimentalと電卓を作らせて、比較してみた。

Grok3: デザインは1枚目の写真の様になった（”1”の位置が変な所になっているが、概ねは問題ない?）。
浮動小数点、0で割るはどちらも対策がなされていなかった。

Gemini: デザインは2枚目の写真の様になった（"7","4","1"の位置が変なところに来ている。動作には問題ないが、結構違和感がある。）。
浮動小数点は対策されていなかったが、0で割った時にはErrorと出た（対策がされている）。

February 18, 2025 at 11:43 AM

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news