メインコンテンツへスキップ
カテゴリ
技術

LLM 記事

大規模言語モデルの最新の手法、ツール、研究動向をチェックしましょう。私たちのブログでは、データサイエンス、活用事例、責任あるAIの実践について取り上げています。
その他の技術:
Group2人以上をトレーニングしますか?DataCamp for Businessを試す

Claude Opus 4.8 と Gemini 3.5 Flash の比較:ベンチマークとユースケース

Claude Opus 4.8 と Gemini 3.5 Flash を MCP Atlas、SWE-bench Pro、GDPval の各ベンチマークと価格・速度で比較し、業務に最適なモデルを見つけましょう。

2026年6月16日

Claude Fable 5 vs GPT-5.5:ベンチマーク、価格、どちらを選ぶべきか

Claude Fable 5 は生の能力ベンチマークで優位。一方 GPT-5.5 はアクセス性と価格、クラス分類の介入が少ない点で優勢。選び方の指針を解説。

2026年6月10日

Claude Opus 4.8 と GPT-5.5 の比較:ベンチマーク、テスト、どちらを選ぶべきか

Anthropic の Claude Opus 4.8 と OpenAI の GPT-5.5 を、コーディング、推論、エージェント型タスク、価格で徹底比較。

2026年6月1日

Codex vs Cursor: 委任か、協働か?

Codex はクラウドサンドボックスで実行して放置できるエージェント、Cursor は VS Code ベースの IDE でリアルタイム制御。エージェント、モデル、料金、ワークフローを比較。

2026年6月1日

Gemini 3.5 Flash vs GPT-5.5:万能ツールと大槌の対比

一方は大規模なツール呼び出しに強い多用途モデル、もう一方は最難関の推論を力技で攻略。Google の Gemini 3.5 Flash と OpenAI の GPT-5.5 を、コーディング、エージェントワークフロー、マルチモーダル、価格で比較します。

2026年5月26日

Gemini 3.5 Flash vs Claude Opus 4.7:短距離走者と外科医

Google の速度最適化モデルが、Anthropic の深いコーディング能力を持つ旗艦と、エージェント型ワークフロー、推論、マルチモーダル機能、価格で対決します。

2026年5月25日

Composer 2.5:ベンチマーク、価格、そして比較

Cursorの最新プロプライエタリモデル「Composer 2.5」は、ターゲット型RLフィードバック、より多くの合成学習タスク、そしてフロンティアモデルより低いトークン単価を実現しました。

2026年5月22日

インタラクションモデル:TML-Interaction-Small の強み

Mira Murati の Thinking Machines Lab は、同時に「聞いて話す」モデルを構築しました。本記事ではその機能を分解し、GPT-Realtime-2 と比較ベンチマークします。

2026年5月13日

AI学習ロードマップ2026:初心者に最適なリソース

Pythonの基礎からLLMやエージェント型AIまで、AIをゼロから学ぶための最適なコースとリソースを網羅した体系的なAI学習ロードマップ。

2026年5月13日

SubQ AI 徹底解説:1200万トークンのコンテキストウィンドウ LLM はどれほど優れているのか

Subquadratic の SubQ モデルは、1200万トークンのコンテキストウィンドウ、52倍の効率、そしてフロンティア級の性能を主張します。ここでは SSA アーキテクチャの仕組みと、ベンチマークが実際に示すものを解説します。

2026年5月12日

GPT-5.5 と Gemini 3.1 Pro の比較:どのフロンティアモデルを使うべきか

OpenAI の GPT-5.5 と Google の Gemini 3.1 Pro を、コーディング、推論、エージェント系ベンチマーク、料金、コンテキスト上限で比較し、最適なモデル選びを支援します。

2026年5月11日

DeepSeek V4:機能、ベンチマーク、比較

DeepSeek V4 の機能、価格、100 万トークン文脈効率を紹介。V4 Pro と Flash のベンチマークを、GPT-5.5 や Opus 4.7 といった最前線モデルと比較します。

2026年5月4日