Kajitaka
@kajitaka.bsky.social
プログラミング、AI系が趣味の日本人です。
I'm Japanese. I'm interested in programming and AI.
Github: https://github.com/kajitaka1201
Note: https://note.com/kajitaka1201
I'm Japanese. I'm interested in programming and AI.
Github: https://github.com/kajitaka1201
Note: https://note.com/kajitaka1201
Claude Haiku 4.5を使ってみた。
電卓を、"Create a calculation app."という指示のみで作らせた。
* スピードは速い
* デザインに大きな破綻がない(最上位モデルでなく、破綻がないのは珍しいのでは)
* 四則演算などで、大きなバグはなさそう
* 演算記号を押した後も、もとの入力が保持されていて、同じ数が入る場合などでは、入力しずらい(9*9とか)
* 0で割ったときに、Infinityと出るが、その後は数字を入力したら、新しい計算が始まる
全体としては、一部使いづらい部分があったりするものの、結構いいし、スピードも速いので、プログラミングは強め。
電卓を、"Create a calculation app."という指示のみで作らせた。
* スピードは速い
* デザインに大きな破綻がない(最上位モデルでなく、破綻がないのは珍しいのでは)
* 四則演算などで、大きなバグはなさそう
* 演算記号を押した後も、もとの入力が保持されていて、同じ数が入る場合などでは、入力しずらい(9*9とか)
* 0で割ったときに、Infinityと出るが、その後は数字を入力したら、新しい計算が始まる
全体としては、一部使いづらい部分があったりするものの、結構いいし、スピードも速いので、プログラミングは強め。
October 16, 2025 at 4:24 AM
Claude Haiku 4.5を使ってみた。
電卓を、"Create a calculation app."という指示のみで作らせた。
* スピードは速い
* デザインに大きな破綻がない(最上位モデルでなく、破綻がないのは珍しいのでは)
* 四則演算などで、大きなバグはなさそう
* 演算記号を押した後も、もとの入力が保持されていて、同じ数が入る場合などでは、入力しずらい(9*9とか)
* 0で割ったときに、Infinityと出るが、その後は数字を入力したら、新しい計算が始まる
全体としては、一部使いづらい部分があったりするものの、結構いいし、スピードも速いので、プログラミングは強め。
電卓を、"Create a calculation app."という指示のみで作らせた。
* スピードは速い
* デザインに大きな破綻がない(最上位モデルでなく、破綻がないのは珍しいのでは)
* 四則演算などで、大きなバグはなさそう
* 演算記号を押した後も、もとの入力が保持されていて、同じ数が入る場合などでは、入力しずらい(9*9とか)
* 0で割ったときに、Infinityと出るが、その後は数字を入力したら、新しい計算が始まる
全体としては、一部使いづらい部分があったりするものの、結構いいし、スピードも速いので、プログラミングは強め。
今更な感じですが、自作イラストをnano bananaでフィギュア化しました。
プロンプトはGoogleが公開しているものを使いました。
現在少し問題となっている、ある企業のロゴっぽいものが生成される問題が発生したので、手動で編集してあります(白塗りしたため、若干違和感があると思います)
※生成AIの画像であり、販売するものではありません。
プロンプトはGoogleが公開しているものを使いました。
現在少し問題となっている、ある企業のロゴっぽいものが生成される問題が発生したので、手動で編集してあります(白塗りしたため、若干違和感があると思います)
※生成AIの画像であり、販売するものではありません。
September 22, 2025 at 9:32 AM
今更な感じですが、自作イラストをnano bananaでフィギュア化しました。
プロンプトはGoogleが公開しているものを使いました。
現在少し問題となっている、ある企業のロゴっぽいものが生成される問題が発生したので、手動で編集してあります(白塗りしたため、若干違和感があると思います)
※生成AIの画像であり、販売するものではありません。
プロンプトはGoogleが公開しているものを使いました。
現在少し問題となっている、ある企業のロゴっぽいものが生成される問題が発生したので、手動で編集してあります(白塗りしたため、若干違和感があると思います)
※生成AIの画像であり、販売するものではありません。
似たことを、やってみた。
GPT-5で9.9-9.11を計算するように言った結果が画像の通り。
間違った、-0.21という結果を出してきた。
ちなみに、Gemini 2.5 Flashは、-0.02というまた別の間違いを、Gemini 2.5 Proも-0.21という結果を出した。
LMArenaでも少しやってみたが、-0.21という結果を出すモデルもそれなりに存在することが分かった。
9.9と9.11の大きさの比較はできても何故か計算ができないモデルたち...
GPT-5で9.9-9.11を計算するように言った結果が画像の通り。
間違った、-0.21という結果を出してきた。
ちなみに、Gemini 2.5 Flashは、-0.02というまた別の間違いを、Gemini 2.5 Proも-0.21という結果を出した。
LMArenaでも少しやってみたが、-0.21という結果を出すモデルもそれなりに存在することが分かった。
9.9と9.11の大きさの比較はできても何故か計算ができないモデルたち...
August 8, 2025 at 11:34 AM
似たことを、やってみた。
GPT-5で9.9-9.11を計算するように言った結果が画像の通り。
間違った、-0.21という結果を出してきた。
ちなみに、Gemini 2.5 Flashは、-0.02というまた別の間違いを、Gemini 2.5 Proも-0.21という結果を出した。
LMArenaでも少しやってみたが、-0.21という結果を出すモデルもそれなりに存在することが分かった。
9.9と9.11の大きさの比較はできても何故か計算ができないモデルたち...
GPT-5で9.9-9.11を計算するように言った結果が画像の通り。
間違った、-0.21という結果を出してきた。
ちなみに、Gemini 2.5 Flashは、-0.02というまた別の間違いを、Gemini 2.5 Proも-0.21という結果を出した。
LMArenaでも少しやってみたが、-0.21という結果を出すモデルもそれなりに存在することが分かった。
9.9と9.11の大きさの比較はできても何故か計算ができないモデルたち...
GPT-5が発表されて、LMArenaでトップになっているものの(画像1つ目)、Gemini 2.5 Proとの直接対戦では、勝った割合が0.33とGemini 2.5 Proに負けている(画像2枚目)。
August 7, 2025 at 9:06 PM
GPT-5が発表されて、LMArenaでトップになっているものの(画像1つ目)、Gemini 2.5 Proとの直接対戦では、勝った割合が0.33とGemini 2.5 Proに負けている(画像2枚目)。
Gemini 2.5 Flash Liteに電卓作らせてみた。
プロンプトは前のNoteのものです。
得点は20点満点中18点だった。
* デザインが、若干ボタンの間などが分かりづらい。
* エラーが表示される方法が、今までにない方法で、また、個人的に気に入った(画像の通り)
* thinkingもないため、13.1sで完成した(めちゃくちゃ速い)。
全体としては、thinkingがなくても、それなりにプログラミングの能力があり、ちょっとしたことなら、直ぐに完成するので、役に立ちそう。
プロンプトは前のNoteのものです。
得点は20点満点中18点だった。
* デザインが、若干ボタンの間などが分かりづらい。
* エラーが表示される方法が、今までにない方法で、また、個人的に気に入った(画像の通り)
* thinkingもないため、13.1sで完成した(めちゃくちゃ速い)。
全体としては、thinkingがなくても、それなりにプログラミングの能力があり、ちょっとしたことなら、直ぐに完成するので、役に立ちそう。
June 18, 2025 at 10:53 AM
Gemini 2.5 Flash Liteに電卓作らせてみた。
プロンプトは前のNoteのものです。
得点は20点満点中18点だった。
* デザインが、若干ボタンの間などが分かりづらい。
* エラーが表示される方法が、今までにない方法で、また、個人的に気に入った(画像の通り)
* thinkingもないため、13.1sで完成した(めちゃくちゃ速い)。
全体としては、thinkingがなくても、それなりにプログラミングの能力があり、ちょっとしたことなら、直ぐに完成するので、役に立ちそう。
プロンプトは前のNoteのものです。
得点は20点満点中18点だった。
* デザインが、若干ボタンの間などが分かりづらい。
* エラーが表示される方法が、今までにない方法で、また、個人的に気に入った(画像の通り)
* thinkingもないため、13.1sで完成した(めちゃくちゃ速い)。
全体としては、thinkingがなくても、それなりにプログラミングの能力があり、ちょっとしたことなら、直ぐに完成するので、役に立ちそう。
Gemini 2.5 Flashの正式版に電卓作らせてみた。
プロンプトは前のNoteのやつです。
得点付けをすると、20点満点中17点。
* デザインは結構特殊だが、文字も見やすいし、何をホバーしているのかなどが分かりやすい。
* スピードは、Proよりは速いが、thinkingをオンにしているため、1分ほどかかる。
プレビューの時と同じく、それなりのプログラミング能力はありそう。
それなりに簡単なタスクで、Proほどの時間をかけたくないときには便利になりそう。
プロンプトは前のNoteのやつです。
得点付けをすると、20点満点中17点。
* デザインは結構特殊だが、文字も見やすいし、何をホバーしているのかなどが分かりやすい。
* スピードは、Proよりは速いが、thinkingをオンにしているため、1分ほどかかる。
プレビューの時と同じく、それなりのプログラミング能力はありそう。
それなりに簡単なタスクで、Proほどの時間をかけたくないときには便利になりそう。
June 18, 2025 at 10:41 AM
Gemini 2.5 Flashの正式版に電卓作らせてみた。
プロンプトは前のNoteのやつです。
得点付けをすると、20点満点中17点。
* デザインは結構特殊だが、文字も見やすいし、何をホバーしているのかなどが分かりやすい。
* スピードは、Proよりは速いが、thinkingをオンにしているため、1分ほどかかる。
プレビューの時と同じく、それなりのプログラミング能力はありそう。
それなりに簡単なタスクで、Proほどの時間をかけたくないときには便利になりそう。
プロンプトは前のNoteのやつです。
得点付けをすると、20点満点中17点。
* デザインは結構特殊だが、文字も見やすいし、何をホバーしているのかなどが分かりやすい。
* スピードは、Proよりは速いが、thinkingをオンにしているため、1分ほどかかる。
プレビューの時と同じく、それなりのプログラミング能力はありそう。
それなりに簡単なタスクで、Proほどの時間をかけたくないときには便利になりそう。
Gemini 2.5 Proの正式版で電卓タスクをやってみた。
プロンプトは前のNoteと同じもの。
Noteと同じ評価(プラスの得点なし)をすると、20点満点中19点。
* デザインが見たことのないもので、最新っぽい感じではないが、背景色と文字とのコントラストがちゃんと合って、文字が見えやすくなっている
* スピードは、thinkingで相当考えていることもあり、結構かかる(スピード重視用ではないのはプレビューと同じく)。
インターネットの意見を見ても、前のバージョンと大きな変化はないそうで、少し変更を加えて、正式版にしたといった感じだと思われる。
プロンプトは前のNoteと同じもの。
Noteと同じ評価(プラスの得点なし)をすると、20点満点中19点。
* デザインが見たことのないもので、最新っぽい感じではないが、背景色と文字とのコントラストがちゃんと合って、文字が見えやすくなっている
* スピードは、thinkingで相当考えていることもあり、結構かかる(スピード重視用ではないのはプレビューと同じく)。
インターネットの意見を見ても、前のバージョンと大きな変化はないそうで、少し変更を加えて、正式版にしたといった感じだと思われる。
June 18, 2025 at 10:23 AM
Gemini 2.5 Proの正式版で電卓タスクをやってみた。
プロンプトは前のNoteと同じもの。
Noteと同じ評価(プラスの得点なし)をすると、20点満点中19点。
* デザインが見たことのないもので、最新っぽい感じではないが、背景色と文字とのコントラストがちゃんと合って、文字が見えやすくなっている
* スピードは、thinkingで相当考えていることもあり、結構かかる(スピード重視用ではないのはプレビューと同じく)。
インターネットの意見を見ても、前のバージョンと大きな変化はないそうで、少し変更を加えて、正式版にしたといった感じだと思われる。
プロンプトは前のNoteと同じもの。
Noteと同じ評価(プラスの得点なし)をすると、20点満点中19点。
* デザインが見たことのないもので、最新っぽい感じではないが、背景色と文字とのコントラストがちゃんと合って、文字が見えやすくなっている
* スピードは、thinkingで相当考えていることもあり、結構かかる(スピード重視用ではないのはプレビューと同じく)。
インターネットの意見を見ても、前のバージョンと大きな変化はないそうで、少し変更を加えて、正式版にしたといった感じだと思われる。
Gemini Diffusionに電卓アプリを作らせてみた。
いつもと同じタスク(プロンプトはいつもは日本語ですが、今回は英語で書きました)。
* デザインに大きな破綻はない(若干直せそうだが)
* 計算はちゃんとできる
* 0で割ると、エラーが出るが、エラーを表示する文字が多く、スタイルが壊れる
* 浮動小数点数への計算は表示上9桁に丸めているため、対策はされているが、"0.200000000"みたいな感じの結果となるので惜しい
* 速度は意味が分からないほど速い(2.26sで、速度は697tokens/s)
ちゃんとしたものが、数秒で出来るので、簡単なタスクにはめっちゃ役に立ちそう。
いつもと同じタスク(プロンプトはいつもは日本語ですが、今回は英語で書きました)。
* デザインに大きな破綻はない(若干直せそうだが)
* 計算はちゃんとできる
* 0で割ると、エラーが出るが、エラーを表示する文字が多く、スタイルが壊れる
* 浮動小数点数への計算は表示上9桁に丸めているため、対策はされているが、"0.200000000"みたいな感じの結果となるので惜しい
* 速度は意味が分からないほど速い(2.26sで、速度は697tokens/s)
ちゃんとしたものが、数秒で出来るので、簡単なタスクにはめっちゃ役に立ちそう。
June 9, 2025 at 11:20 PM
Gemini Diffusionに電卓アプリを作らせてみた。
いつもと同じタスク(プロンプトはいつもは日本語ですが、今回は英語で書きました)。
* デザインに大きな破綻はない(若干直せそうだが)
* 計算はちゃんとできる
* 0で割ると、エラーが出るが、エラーを表示する文字が多く、スタイルが壊れる
* 浮動小数点数への計算は表示上9桁に丸めているため、対策はされているが、"0.200000000"みたいな感じの結果となるので惜しい
* 速度は意味が分からないほど速い(2.26sで、速度は697tokens/s)
ちゃんとしたものが、数秒で出来るので、簡単なタスクにはめっちゃ役に立ちそう。
いつもと同じタスク(プロンプトはいつもは日本語ですが、今回は英語で書きました)。
* デザインに大きな破綻はない(若干直せそうだが)
* 計算はちゃんとできる
* 0で割ると、エラーが出るが、エラーを表示する文字が多く、スタイルが壊れる
* 浮動小数点数への計算は表示上9桁に丸めているため、対策はされているが、"0.200000000"みたいな感じの結果となるので惜しい
* 速度は意味が分からないほど速い(2.26sで、速度は697tokens/s)
ちゃんとしたものが、数秒で出来るので、簡単なタスクにはめっちゃ役に立ちそう。
Gemini 2.5 Pro Preview 0605が出ていたので使ってみた。
いつもの電卓。
* デザインは問題はない(もう少し使いやすくは出来るが、及第点)
* 0で割ると、アラートが出てくる
* 浮動小数点計算は対応していない(写真の通り)
* かかった時間はthinkingを含めて51.1sで、特別速くもないが遅くもない
全体としては、それなりのプログラミング能力を持っていることは分かる(それ以上は、このプロンプトでは分からない)。
プロンプトも適当で、最新のモデルでは、基本的に合格してしまうので、新しいのを考えないと(キーボードショートカットの機能追加をお願いしたりとか?)。
いつもの電卓。
* デザインは問題はない(もう少し使いやすくは出来るが、及第点)
* 0で割ると、アラートが出てくる
* 浮動小数点計算は対応していない(写真の通り)
* かかった時間はthinkingを含めて51.1sで、特別速くもないが遅くもない
全体としては、それなりのプログラミング能力を持っていることは分かる(それ以上は、このプロンプトでは分からない)。
プロンプトも適当で、最新のモデルでは、基本的に合格してしまうので、新しいのを考えないと(キーボードショートカットの機能追加をお願いしたりとか?)。
June 5, 2025 at 11:26 PM
Gemini 2.5 Pro Preview 0605が出ていたので使ってみた。
いつもの電卓。
* デザインは問題はない(もう少し使いやすくは出来るが、及第点)
* 0で割ると、アラートが出てくる
* 浮動小数点計算は対応していない(写真の通り)
* かかった時間はthinkingを含めて51.1sで、特別速くもないが遅くもない
全体としては、それなりのプログラミング能力を持っていることは分かる(それ以上は、このプロンプトでは分からない)。
プロンプトも適当で、最新のモデルでは、基本的に合格してしまうので、新しいのを考えないと(キーボードショートカットの機能追加をお願いしたりとか?)。
いつもの電卓。
* デザインは問題はない(もう少し使いやすくは出来るが、及第点)
* 0で割ると、アラートが出てくる
* 浮動小数点計算は対応していない(写真の通り)
* かかった時間はthinkingを含めて51.1sで、特別速くもないが遅くもない
全体としては、それなりのプログラミング能力を持っていることは分かる(それ以上は、このプロンプトでは分からない)。
プロンプトも適当で、最新のモデルでは、基本的に合格してしまうので、新しいのを考えないと(キーボードショートカットの機能追加をお願いしたりとか?)。
Chatbot ArenaでClaude 4 Opusを使ってみた。
いつもの電卓アプリ
* デザインは大きな問題はないが、若干使いづらい
* 0で割るとInfinityとなるが、その後数字を打ったら、新しい計算ができるようになる
* 浮動小数点数への対策はなし
* 速度は爆速(非推論モデル)
全体的には、非推論系モデルでは、トップレベルのコーディング能力を持っていることは、1回だけでも分かった。
ただ、SonnetやGemini 2.5 Proとの性能の違いは微妙(もっとやれば分かるかもだし、SonnetではClaudeのArtifactsを使っていたため、それも影響しているかも)。
いつもの電卓アプリ
* デザインは大きな問題はないが、若干使いづらい
* 0で割るとInfinityとなるが、その後数字を打ったら、新しい計算ができるようになる
* 浮動小数点数への対策はなし
* 速度は爆速(非推論モデル)
全体的には、非推論系モデルでは、トップレベルのコーディング能力を持っていることは、1回だけでも分かった。
ただ、SonnetやGemini 2.5 Proとの性能の違いは微妙(もっとやれば分かるかもだし、SonnetではClaudeのArtifactsを使っていたため、それも影響しているかも)。
May 29, 2025 at 11:38 AM
Chatbot ArenaでClaude 4 Opusを使ってみた。
いつもの電卓アプリ
* デザインは大きな問題はないが、若干使いづらい
* 0で割るとInfinityとなるが、その後数字を打ったら、新しい計算ができるようになる
* 浮動小数点数への対策はなし
* 速度は爆速(非推論モデル)
全体的には、非推論系モデルでは、トップレベルのコーディング能力を持っていることは、1回だけでも分かった。
ただ、SonnetやGemini 2.5 Proとの性能の違いは微妙(もっとやれば分かるかもだし、SonnetではClaudeのArtifactsを使っていたため、それも影響しているかも)。
いつもの電卓アプリ
* デザインは大きな問題はないが、若干使いづらい
* 0で割るとInfinityとなるが、その後数字を打ったら、新しい計算ができるようになる
* 浮動小数点数への対策はなし
* 速度は爆速(非推論モデル)
全体的には、非推論系モデルでは、トップレベルのコーディング能力を持っていることは、1回だけでも分かった。
ただ、SonnetやGemini 2.5 Proとの性能の違いは微妙(もっとやれば分かるかもだし、SonnetではClaudeのArtifactsを使っていたため、それも影響しているかも)。
Claude Sonnet 4が出たので使ってみた。
いつもの電卓タスク
* デザインは申し分ない(今までの中で一番好き)
* スピードは速い
* ちゃんと動く
* 0で割ったときにはErrorもInfinityも出ず、ただ0と出るので、計算できているのかが分からない
* 浮動小数点数の計算は対策ができている(多分四捨五入している)
デザインは問題がなく、基本的な使用では問題がないものが、thinkingを使わずとも作れるので、結構すごい。
更に、これはSonnetなので、Opusだともっとすごいことを考えると、Geminiよりもすごいかも。
いつもの電卓タスク
* デザインは申し分ない(今までの中で一番好き)
* スピードは速い
* ちゃんと動く
* 0で割ったときにはErrorもInfinityも出ず、ただ0と出るので、計算できているのかが分からない
* 浮動小数点数の計算は対策ができている(多分四捨五入している)
デザインは問題がなく、基本的な使用では問題がないものが、thinkingを使わずとも作れるので、結構すごい。
更に、これはSonnetなので、Opusだともっとすごいことを考えると、Geminiよりもすごいかも。
May 23, 2025 at 7:31 AM
Claude Sonnet 4が出たので使ってみた。
いつもの電卓タスク
* デザインは申し分ない(今までの中で一番好き)
* スピードは速い
* ちゃんと動く
* 0で割ったときにはErrorもInfinityも出ず、ただ0と出るので、計算できているのかが分からない
* 浮動小数点数の計算は対策ができている(多分四捨五入している)
デザインは問題がなく、基本的な使用では問題がないものが、thinkingを使わずとも作れるので、結構すごい。
更に、これはSonnetなので、Opusだともっとすごいことを考えると、Geminiよりもすごいかも。
いつもの電卓タスク
* デザインは申し分ない(今までの中で一番好き)
* スピードは速い
* ちゃんと動く
* 0で割ったときにはErrorもInfinityも出ず、ただ0と出るので、計算できているのかが分からない
* 浮動小数点数の計算は対策ができている(多分四捨五入している)
デザインは問題がなく、基本的な使用では問題がないものが、thinkingを使わずとも作れるので、結構すごい。
更に、これはSonnetなので、Opusだともっとすごいことを考えると、Geminiよりもすごいかも。
Gemini 2.5 Flash Preview 05-20が公開されたので、使ってみた。
いつもの電卓を作らせた。
* デザインは若干壊れている(今までの壊れ方とは少し違って、一応使えるレベル)
* 0で割ったときにはErrorと出た
* 浮動小数点数には対応していなかった(画像から分かる通り)
* thinkingも合わせて49.9秒だった
全体を通して、流石にGemini 2.5 Proなどと比べると、プログラミング能力は劣っているが、このスピードでこのクオリティーなら、場合によっては使えそうといった感じ。
いつもの電卓を作らせた。
* デザインは若干壊れている(今までの壊れ方とは少し違って、一応使えるレベル)
* 0で割ったときにはErrorと出た
* 浮動小数点数には対応していなかった(画像から分かる通り)
* thinkingも合わせて49.9秒だった
全体を通して、流石にGemini 2.5 Proなどと比べると、プログラミング能力は劣っているが、このスピードでこのクオリティーなら、場合によっては使えそうといった感じ。
May 21, 2025 at 4:29 AM
Gemini 2.5 Flash Preview 05-20が公開されたので、使ってみた。
いつもの電卓を作らせた。
* デザインは若干壊れている(今までの壊れ方とは少し違って、一応使えるレベル)
* 0で割ったときにはErrorと出た
* 浮動小数点数には対応していなかった(画像から分かる通り)
* thinkingも合わせて49.9秒だった
全体を通して、流石にGemini 2.5 Proなどと比べると、プログラミング能力は劣っているが、このスピードでこのクオリティーなら、場合によっては使えそうといった感じ。
いつもの電卓を作らせた。
* デザインは若干壊れている(今までの壊れ方とは少し違って、一応使えるレベル)
* 0で割ったときにはErrorと出た
* 浮動小数点数には対応していなかった(画像から分かる通り)
* thinkingも合わせて49.9秒だった
全体を通して、流石にGemini 2.5 Proなどと比べると、プログラミング能力は劣っているが、このスピードでこのクオリティーなら、場合によっては使えそうといった感じ。
GPT 4.1 mini使ってみた。
いつもの電卓を作らせた。
* デザインは少し壊れている
* 回答生成が異常に速い(Geminiとかと比べても、結構速い)
* 0で割ることへの対応はなかった
* 小数点機能はなかった
全体としては、プログラミングの能力では、微妙だが、スピードも考えると、結構良さげ。
いつもの電卓を作らせた。
* デザインは少し壊れている
* 回答生成が異常に速い(Geminiとかと比べても、結構速い)
* 0で割ることへの対応はなかった
* 小数点機能はなかった
全体としては、プログラミングの能力では、微妙だが、スピードも考えると、結構良さげ。
May 15, 2025 at 10:54 AM
GPT 4.1 mini使ってみた。
いつもの電卓を作らせた。
* デザインは少し壊れている
* 回答生成が異常に速い(Geminiとかと比べても、結構速い)
* 0で割ることへの対応はなかった
* 小数点機能はなかった
全体としては、プログラミングの能力では、微妙だが、スピードも考えると、結構良さげ。
いつもの電卓を作らせた。
* デザインは少し壊れている
* 回答生成が異常に速い(Geminiとかと比べても、結構速い)
* 0で割ることへの対応はなかった
* 小数点機能はなかった
全体としては、プログラミングの能力では、微妙だが、スピードも考えると、結構良さげ。
Google AI Studioで、自動保存時の名前が日本語になっている。
Gemini 2.5 Pro Preview 05-06を使っていたので、それが原因かも(ただ、thinkingが日本語でも保存の名前が英語になることもある)
2.5 Flashだと、thinkingが日本語でも自動保存の名前は英語だった
日本でGoogle AI Studioを使っているユーザーには嬉しいかも。
Gemini 2.5 Pro Preview 05-06を使っていたので、それが原因かも(ただ、thinkingが日本語でも保存の名前が英語になることもある)
2.5 Flashだと、thinkingが日本語でも自動保存の名前は英語だった
日本でGoogle AI Studioを使っているユーザーには嬉しいかも。
May 6, 2025 at 11:14 PM
Google AI Studioで、自動保存時の名前が日本語になっている。
Gemini 2.5 Pro Preview 05-06を使っていたので、それが原因かも(ただ、thinkingが日本語でも保存の名前が英語になることもある)
2.5 Flashだと、thinkingが日本語でも自動保存の名前は英語だった
日本でGoogle AI Studioを使っているユーザーには嬉しいかも。
Gemini 2.5 Pro Preview 05-06を使っていたので、それが原因かも(ただ、thinkingが日本語でも保存の名前が英語になることもある)
2.5 Flashだと、thinkingが日本語でも自動保存の名前は英語だった
日本でGoogle AI Studioを使っているユーザーには嬉しいかも。
Gemini 2.5 Pro Preview 05-06使ってみた。
いつもの電卓アプリでコーディング能力を測る。
* デザインはそれなりに壊れている
* 小数点機能はなし
* それ以外で、問題は基本的になし
* thinkingに99.8秒、生成に129.3秒と相当時間がかかった
前のモデルと比べて、コーディング能力は上がったらしいが、今回のテストでは、それが確認できなかった(というよりかは、前回よりも悪い気がする)。
いつもの電卓アプリでコーディング能力を測る。
* デザインはそれなりに壊れている
* 小数点機能はなし
* それ以外で、問題は基本的になし
* thinkingに99.8秒、生成に129.3秒と相当時間がかかった
前のモデルと比べて、コーディング能力は上がったらしいが、今回のテストでは、それが確認できなかった(というよりかは、前回よりも悪い気がする)。
May 6, 2025 at 11:08 PM
Gemini 2.5 Pro Preview 05-06使ってみた。
いつもの電卓アプリでコーディング能力を測る。
* デザインはそれなりに壊れている
* 小数点機能はなし
* それ以外で、問題は基本的になし
* thinkingに99.8秒、生成に129.3秒と相当時間がかかった
前のモデルと比べて、コーディング能力は上がったらしいが、今回のテストでは、それが確認できなかった(というよりかは、前回よりも悪い気がする)。
いつもの電卓アプリでコーディング能力を測る。
* デザインはそれなりに壊れている
* 小数点機能はなし
* それ以外で、問題は基本的になし
* thinkingに99.8秒、生成に129.3秒と相当時間がかかった
前のモデルと比べて、コーディング能力は上がったらしいが、今回のテストでは、それが確認できなかった(というよりかは、前回よりも悪い気がする)。
Qwen 3 使ってみた。
Hugging FaceのSpacesを使ってやっています。
* 9.11と9.9の比較はreasoningモデルだけあって英語、日本語どちらでも正解
* strawberryのrの個数も英語、日本語どちらでも正解(reasoning部分が英語で内容も殆ど同じ)
* 電卓を作らせても、デザインは問題なし(括弧閉じが使えない、0除算でInfinityと出る、浮動小数点数計算への対応がなし)
全体として、モデルがオープンのものとしてはトップレベル(というかトップでは?)
Geminiやo系のモデルには劣るかもというレベルで、ぜんぜん使える。
Hugging FaceのSpacesを使ってやっています。
* 9.11と9.9の比較はreasoningモデルだけあって英語、日本語どちらでも正解
* strawberryのrの個数も英語、日本語どちらでも正解(reasoning部分が英語で内容も殆ど同じ)
* 電卓を作らせても、デザインは問題なし(括弧閉じが使えない、0除算でInfinityと出る、浮動小数点数計算への対応がなし)
全体として、モデルがオープンのものとしてはトップレベル(というかトップでは?)
Geminiやo系のモデルには劣るかもというレベルで、ぜんぜん使える。
April 28, 2025 at 10:53 PM
Qwen 3 使ってみた。
Hugging FaceのSpacesを使ってやっています。
* 9.11と9.9の比較はreasoningモデルだけあって英語、日本語どちらでも正解
* strawberryのrの個数も英語、日本語どちらでも正解(reasoning部分が英語で内容も殆ど同じ)
* 電卓を作らせても、デザインは問題なし(括弧閉じが使えない、0除算でInfinityと出る、浮動小数点数計算への対応がなし)
全体として、モデルがオープンのものとしてはトップレベル(というかトップでは?)
Geminiやo系のモデルには劣るかもというレベルで、ぜんぜん使える。
Hugging FaceのSpacesを使ってやっています。
* 9.11と9.9の比較はreasoningモデルだけあって英語、日本語どちらでも正解
* strawberryのrの個数も英語、日本語どちらでも正解(reasoning部分が英語で内容も殆ど同じ)
* 電卓を作らせても、デザインは問題なし(括弧閉じが使えない、0除算でInfinityと出る、浮動小数点数計算への対応がなし)
全体として、モデルがオープンのものとしてはトップレベル(というかトップでは?)
Geminiやo系のモデルには劣るかもというレベルで、ぜんぜん使える。
Gemini 2.5 Flashに電卓アプリ作らせてみた。
* デザインに大幅な破綻はないが、演算記号の中に複数あるものもあったりなどはする
* 0で割ったときはErrorとなる
* 浮動小数点数の計算への対策はできていない
* thinkingのtokens/sの数値としては速い(104.6)が、凄く長く、結果としては162.1秒かかった
* thinkingの後のoutputはtokens/sが20.6と遅くなっているので、そっちにも203.0秒と凄く時間がかかっている
thinkingの長さを指定できる機能があったりするので、上手く使えば安い割に性能がいいというモデルになりそう。
* デザインに大幅な破綻はないが、演算記号の中に複数あるものもあったりなどはする
* 0で割ったときはErrorとなる
* 浮動小数点数の計算への対策はできていない
* thinkingのtokens/sの数値としては速い(104.6)が、凄く長く、結果としては162.1秒かかった
* thinkingの後のoutputはtokens/sが20.6と遅くなっているので、そっちにも203.0秒と凄く時間がかかっている
thinkingの長さを指定できる機能があったりするので、上手く使えば安い割に性能がいいというモデルになりそう。
April 18, 2025 at 4:14 AM
Gemini 2.5 Flashに電卓アプリ作らせてみた。
* デザインに大幅な破綻はないが、演算記号の中に複数あるものもあったりなどはする
* 0で割ったときはErrorとなる
* 浮動小数点数の計算への対策はできていない
* thinkingのtokens/sの数値としては速い(104.6)が、凄く長く、結果としては162.1秒かかった
* thinkingの後のoutputはtokens/sが20.6と遅くなっているので、そっちにも203.0秒と凄く時間がかかっている
thinkingの長さを指定できる機能があったりするので、上手く使えば安い割に性能がいいというモデルになりそう。
* デザインに大幅な破綻はないが、演算記号の中に複数あるものもあったりなどはする
* 0で割ったときはErrorとなる
* 浮動小数点数の計算への対策はできていない
* thinkingのtokens/sの数値としては速い(104.6)が、凄く長く、結果としては162.1秒かかった
* thinkingの後のoutputはtokens/sが20.6と遅くなっているので、そっちにも203.0秒と凄く時間がかかっている
thinkingの長さを指定できる機能があったりするので、上手く使えば安い割に性能がいいというモデルになりそう。
Llama 4 Maverickに電卓アプリを作らせてみた。
* デザインは壊れていない。
* カッコの機能があって、動く
* 浮動小数点数計算と0で割ることへの対応はなし
* 回答生成のスピードが速い
Gemini 2.5 Proには敵わないかもだが、それ以外のモデルにはコーディングでも勝っていそう。
* デザインは壊れていない。
* カッコの機能があって、動く
* 浮動小数点数計算と0で割ることへの対応はなし
* 回答生成のスピードが速い
Gemini 2.5 Proには敵わないかもだが、それ以外のモデルにはコーディングでも勝っていそう。
April 5, 2025 at 11:12 PM
Llama 4 Maverickに電卓アプリを作らせてみた。
* デザインは壊れていない。
* カッコの機能があって、動く
* 浮動小数点数計算と0で割ることへの対応はなし
* 回答生成のスピードが速い
Gemini 2.5 Proには敵わないかもだが、それ以外のモデルにはコーディングでも勝っていそう。
* デザインは壊れていない。
* カッコの機能があって、動く
* 浮動小数点数計算と0で割ることへの対応はなし
* 回答生成のスピードが速い
Gemini 2.5 Proには敵わないかもだが、それ以外のモデルにはコーディングでも勝っていそう。
Quasar Alphaに文字起こし(英語)させてみた。
文字起こししたのはMicrosoft Copilotの画面で、Copilotの返答を全て文字起こしさせた。
結果は若干間違えているところはあるが、そもそも画像が粗いので、しょうがないという感じ。正確にできているところもあれば、全然できていないところもあったり、正確性を求めるのであれば、このモデルはあまりおすすめしないが、内容確認等だったら、問題ないという感じ。
対して、Gemini 2.0 Flashだと精度100%で、スピードもそっちのほうが速かった(比較対象としては強すぎるモデルな気はするが)。
文字起こししたのはMicrosoft Copilotの画面で、Copilotの返答を全て文字起こしさせた。
結果は若干間違えているところはあるが、そもそも画像が粗いので、しょうがないという感じ。正確にできているところもあれば、全然できていないところもあったり、正確性を求めるのであれば、このモデルはあまりおすすめしないが、内容確認等だったら、問題ないという感じ。
対して、Gemini 2.0 Flashだと精度100%で、スピードもそっちのほうが速かった(比較対象としては強すぎるモデルな気はするが)。
April 5, 2025 at 11:20 AM
Quasar Alphaに文字起こし(英語)させてみた。
文字起こししたのはMicrosoft Copilotの画面で、Copilotの返答を全て文字起こしさせた。
結果は若干間違えているところはあるが、そもそも画像が粗いので、しょうがないという感じ。正確にできているところもあれば、全然できていないところもあったり、正確性を求めるのであれば、このモデルはあまりおすすめしないが、内容確認等だったら、問題ないという感じ。
対して、Gemini 2.0 Flashだと精度100%で、スピードもそっちのほうが速かった(比較対象としては強すぎるモデルな気はするが)。
文字起こししたのはMicrosoft Copilotの画面で、Copilotの返答を全て文字起こしさせた。
結果は若干間違えているところはあるが、そもそも画像が粗いので、しょうがないという感じ。正確にできているところもあれば、全然できていないところもあったり、正確性を求めるのであれば、このモデルはあまりおすすめしないが、内容確認等だったら、問題ないという感じ。
対して、Gemini 2.0 Flashだと精度100%で、スピードもそっちのほうが速かった(比較対象としては強すぎるモデルな気はするが)。
Quasar Alphaがマルチモーダルということで、ChromeOSのデフォルトの壁紙(画像)が何か分かると質問をした。
何かの壁紙だということは理解しているが、具体的に何かまでは分かっていなかった。
比較対象として、Gemini 2.5 Proでは、正確に分かっていた。
Gemini 2.0 Flashでは、1回目で壁紙と言って、その後何の壁紙と聞いたら、正確に答えた。
もちろん、これでマルチモーダル性能は図れるわけはないが、画像の説明からして、ちゃんと読めている感じ。
何かの壁紙だということは理解しているが、具体的に何かまでは分かっていなかった。
比較対象として、Gemini 2.5 Proでは、正確に分かっていた。
Gemini 2.0 Flashでは、1回目で壁紙と言って、その後何の壁紙と聞いたら、正確に答えた。
もちろん、これでマルチモーダル性能は図れるわけはないが、画像の説明からして、ちゃんと読めている感じ。
April 5, 2025 at 11:09 AM
Quasar Alphaがマルチモーダルということで、ChromeOSのデフォルトの壁紙(画像)が何か分かると質問をした。
何かの壁紙だということは理解しているが、具体的に何かまでは分かっていなかった。
比較対象として、Gemini 2.5 Proでは、正確に分かっていた。
Gemini 2.0 Flashでは、1回目で壁紙と言って、その後何の壁紙と聞いたら、正確に答えた。
もちろん、これでマルチモーダル性能は図れるわけはないが、画像の説明からして、ちゃんと読めている感じ。
何かの壁紙だということは理解しているが、具体的に何かまでは分かっていなかった。
比較対象として、Gemini 2.5 Proでは、正確に分かっていた。
Gemini 2.0 Flashでは、1回目で壁紙と言って、その後何の壁紙と聞いたら、正確に答えた。
もちろん、これでマルチモーダル性能は図れるわけはないが、画像の説明からして、ちゃんと読めている感じ。
OpenRouterで無料で使える謎の高性能モデル"Quasar Alpha"を使ってみた。
1Mコンテキストウィンドウを持つ(OpenRouter公式が明言)
スピードは相当速い(130tokes/sは出る)
コーディングの性能も良い(電卓アプリを作らせたら、デザインの問題はないものを作ってきた、浮動小数点・0で割るへの対応はなし)
非公式では、OpenAIのモデルかもと言われており、そうだとしたら、Googleに続く1Mコンテキストウィンドウを持つモデルを持つ企業となり、競争が激化することが予想される。
1Mコンテキストウィンドウを持つ(OpenRouter公式が明言)
スピードは相当速い(130tokes/sは出る)
コーディングの性能も良い(電卓アプリを作らせたら、デザインの問題はないものを作ってきた、浮動小数点・0で割るへの対応はなし)
非公式では、OpenAIのモデルかもと言われており、そうだとしたら、Googleに続く1Mコンテキストウィンドウを持つモデルを持つ企業となり、競争が激化することが予想される。
April 5, 2025 at 10:43 AM
OpenRouterで無料で使える謎の高性能モデル"Quasar Alpha"を使ってみた。
1Mコンテキストウィンドウを持つ(OpenRouter公式が明言)
スピードは相当速い(130tokes/sは出る)
コーディングの性能も良い(電卓アプリを作らせたら、デザインの問題はないものを作ってきた、浮動小数点・0で割るへの対応はなし)
非公式では、OpenAIのモデルかもと言われており、そうだとしたら、Googleに続く1Mコンテキストウィンドウを持つモデルを持つ企業となり、競争が激化することが予想される。
1Mコンテキストウィンドウを持つ(OpenRouter公式が明言)
スピードは相当速い(130tokes/sは出る)
コーディングの性能も良い(電卓アプリを作らせたら、デザインの問題はないものを作ってきた、浮動小数点・0で割るへの対応はなし)
非公式では、OpenAIのモデルかもと言われており、そうだとしたら、Googleに続く1Mコンテキストウィンドウを持つモデルを持つ企業となり、競争が激化することが予想される。
初めてGeminiのCanvasを使ってみた。
電卓アプリを作らせてみたが、モデルがGemini 2.0 Flashなので、デザインは壊れてしまった。
ただ、生成されるスピードが速い気がするのと、プレビューができるのは便利(多分、この機能には関係ないと思うが、計算を表示する部分の数字のフォントが今までにないもので面白い)。
無料ユーザーのため、使うことができないが、2.5 Proなどのプログラミングが得意なモデルを使えたりすると、便利かも(consoleの機能もあったりと)。
電卓アプリを作らせてみたが、モデルがGemini 2.0 Flashなので、デザインは壊れてしまった。
ただ、生成されるスピードが速い気がするのと、プレビューができるのは便利(多分、この機能には関係ないと思うが、計算を表示する部分の数字のフォントが今までにないもので面白い)。
無料ユーザーのため、使うことができないが、2.5 Proなどのプログラミングが得意なモデルを使えたりすると、便利かも(consoleの機能もあったりと)。
March 26, 2025 at 10:42 PM
初めてGeminiのCanvasを使ってみた。
電卓アプリを作らせてみたが、モデルがGemini 2.0 Flashなので、デザインは壊れてしまった。
ただ、生成されるスピードが速い気がするのと、プレビューができるのは便利(多分、この機能には関係ないと思うが、計算を表示する部分の数字のフォントが今までにないもので面白い)。
無料ユーザーのため、使うことができないが、2.5 Proなどのプログラミングが得意なモデルを使えたりすると、便利かも(consoleの機能もあったりと)。
電卓アプリを作らせてみたが、モデルがGemini 2.0 Flashなので、デザインは壊れてしまった。
ただ、生成されるスピードが速い気がするのと、プレビューができるのは便利(多分、この機能には関係ないと思うが、計算を表示する部分の数字のフォントが今までにないもので面白い)。
無料ユーザーのため、使うことができないが、2.5 Proなどのプログラミングが得意なモデルを使えたりすると、便利かも(consoleの機能もあったりと)。
Gemini 2.5 Proを使ってみた。
いつものように電卓を作らせたら、画像の通りデザインに関しては大幅なミスは見当たらなかった(若干変な気もするが、崩れているというほどではない)。
また、0で割った際もErrorと表示され、またその後に数字などを打った場合は今までの殆どのAIが"Error1"などとその後に数字が打たれていたのが、数字を打つと、エラーが消え、次の計算に移るようになっていた(今までのAIで初)。
更に、小数点以下を10桁までに丸めているため、浮動小数点数に関する計算(0.3-0.1など)も正確な値を返している(今までのAIで初)。
プログラミングにおいては相当有能そう。
いつものように電卓を作らせたら、画像の通りデザインに関しては大幅なミスは見当たらなかった(若干変な気もするが、崩れているというほどではない)。
また、0で割った際もErrorと表示され、またその後に数字などを打った場合は今までの殆どのAIが"Error1"などとその後に数字が打たれていたのが、数字を打つと、エラーが消え、次の計算に移るようになっていた(今までのAIで初)。
更に、小数点以下を10桁までに丸めているため、浮動小数点数に関する計算(0.3-0.1など)も正確な値を返している(今までのAIで初)。
プログラミングにおいては相当有能そう。
March 26, 2025 at 11:08 AM
Gemini 2.5 Proを使ってみた。
いつものように電卓を作らせたら、画像の通りデザインに関しては大幅なミスは見当たらなかった(若干変な気もするが、崩れているというほどではない)。
また、0で割った際もErrorと表示され、またその後に数字などを打った場合は今までの殆どのAIが"Error1"などとその後に数字が打たれていたのが、数字を打つと、エラーが消え、次の計算に移るようになっていた(今までのAIで初)。
更に、小数点以下を10桁までに丸めているため、浮動小数点数に関する計算(0.3-0.1など)も正確な値を返している(今までのAIで初)。
プログラミングにおいては相当有能そう。
いつものように電卓を作らせたら、画像の通りデザインに関しては大幅なミスは見当たらなかった(若干変な気もするが、崩れているというほどではない)。
また、0で割った際もErrorと表示され、またその後に数字などを打った場合は今までの殆どのAIが"Error1"などとその後に数字が打たれていたのが、数字を打つと、エラーが消え、次の計算に移るようになっていた(今までのAIで初)。
更に、小数点以下を10桁までに丸めているため、浮動小数点数に関する計算(0.3-0.1など)も正確な値を返している(今までのAIで初)。
プログラミングにおいては相当有能そう。
Gemma 3 27Bを使ってみた。
日本語の性能はぱっと使った感じでは特別変に感じるみたいなことはなかった。
プログラミング能力を測るために、電卓アプリを作らせたら、デザインは大きな破綻がなく、また0で割ったときには"Error"と出るものが出てきた(他のLLMではデザインの破綻やら0で割ったら"infinity"になるやらで、この2つができたのは多分こいつが最初)。浮動小数点数の計算の対策はやっていなかった。
言語能力的には他のモデルに劣るのかもしれないが、オープンモデルとしてはすごく良いと思う(事実Chatbot Arenaでも高得点を出している)。
日本語の性能はぱっと使った感じでは特別変に感じるみたいなことはなかった。
プログラミング能力を測るために、電卓アプリを作らせたら、デザインは大きな破綻がなく、また0で割ったときには"Error"と出るものが出てきた(他のLLMではデザインの破綻やら0で割ったら"infinity"になるやらで、この2つができたのは多分こいつが最初)。浮動小数点数の計算の対策はやっていなかった。
言語能力的には他のモデルに劣るのかもしれないが、オープンモデルとしてはすごく良いと思う(事実Chatbot Arenaでも高得点を出している)。
March 12, 2025 at 10:58 PM
Gemma 3 27Bを使ってみた。
日本語の性能はぱっと使った感じでは特別変に感じるみたいなことはなかった。
プログラミング能力を測るために、電卓アプリを作らせたら、デザインは大きな破綻がなく、また0で割ったときには"Error"と出るものが出てきた(他のLLMではデザインの破綻やら0で割ったら"infinity"になるやらで、この2つができたのは多分こいつが最初)。浮動小数点数の計算の対策はやっていなかった。
言語能力的には他のモデルに劣るのかもしれないが、オープンモデルとしてはすごく良いと思う(事実Chatbot Arenaでも高得点を出している)。
日本語の性能はぱっと使った感じでは特別変に感じるみたいなことはなかった。
プログラミング能力を測るために、電卓アプリを作らせたら、デザインは大きな破綻がなく、また0で割ったときには"Error"と出るものが出てきた(他のLLMではデザインの破綻やら0で割ったら"infinity"になるやらで、この2つができたのは多分こいつが最初)。浮動小数点数の計算の対策はやっていなかった。
言語能力的には他のモデルに劣るのかもしれないが、オープンモデルとしてはすごく良いと思う(事実Chatbot Arenaでも高得点を出している)。
Grok3がChatbot Arenaで使えたので、Gemini 2.0 Pro Experimentalと電卓を作らせて、比較してみた。
Grok3: デザインは1枚目の写真の様になった(”1”の位置が変な所になっているが、概ねは問題ない?)。
浮動小数点、0で割るはどちらも対策がなされていなかった。
Gemini: デザインは2枚目の写真の様になった("7","4","1"の位置が変なところに来ている。動作には問題ないが、結構違和感がある。)。
浮動小数点は対策されていなかったが、0で割った時にはErrorと出た(対策がされている)。
Grok3: デザインは1枚目の写真の様になった(”1”の位置が変な所になっているが、概ねは問題ない?)。
浮動小数点、0で割るはどちらも対策がなされていなかった。
Gemini: デザインは2枚目の写真の様になった("7","4","1"の位置が変なところに来ている。動作には問題ないが、結構違和感がある。)。
浮動小数点は対策されていなかったが、0で割った時にはErrorと出た(対策がされている)。
February 18, 2025 at 11:43 AM
Grok3がChatbot Arenaで使えたので、Gemini 2.0 Pro Experimentalと電卓を作らせて、比較してみた。
Grok3: デザインは1枚目の写真の様になった(”1”の位置が変な所になっているが、概ねは問題ない?)。
浮動小数点、0で割るはどちらも対策がなされていなかった。
Gemini: デザインは2枚目の写真の様になった("7","4","1"の位置が変なところに来ている。動作には問題ないが、結構違和感がある。)。
浮動小数点は対策されていなかったが、0で割った時にはErrorと出た(対策がされている)。
Grok3: デザインは1枚目の写真の様になった(”1”の位置が変な所になっているが、概ねは問題ない?)。
浮動小数点、0で割るはどちらも対策がなされていなかった。
Gemini: デザインは2枚目の写真の様になった("7","4","1"の位置が変なところに来ている。動作には問題ないが、結構違和感がある。)。
浮動小数点は対策されていなかったが、0で割った時にはErrorと出た(対策がされている)。