LLM 記事

大規模言語モデルの最新の手法、ツール、研究動向をチェックしましょう。私たちのブログでは、データサイエンス、活用事例、責任あるAIの実践について取り上げています。

その他の技術：

2人以上をトレーニングしますか?DataCamp for Businessを試す

Claude Opus 4.8 と Gemini 3.5 Flash の比較：ベンチマークとユースケース

Claude Opus 4.8 と Gemini 3.5 Flash を MCP Atlas、SWE-bench Pro、GDPval の各ベンチマークと価格・速度で比較し、業務に最適なモデルを見つけましょう。

2026年6月16日

Claude Fable 5 は生の能力ベンチマークで優位。一方 GPT-5.5 はアクセス性と価格、クラス分類の介入が少ない点で優勢。選び方の指針を解説。

2026年6月10日

Anthropic の Claude Opus 4.8 と OpenAI の GPT-5.5 を、コーディング、推論、エージェント型タスク、価格で徹底比較。

2026年6月1日

Codex はクラウドサンドボックスで実行して放置できるエージェント、Cursor は VS Code ベースの IDE でリアルタイム制御。エージェント、モデル、料金、ワークフローを比較。

2026年6月1日

一方は大規模なツール呼び出しに強い多用途モデル、もう一方は最難関の推論を力技で攻略。Google の Gemini 3.5 Flash と OpenAI の GPT-5.5 を、コーディング、エージェントワークフロー、マルチモーダル、価格で比較します。

2026年5月26日

Google の速度最適化モデルが、Anthropic の深いコーディング能力を持つ旗艦と、エージェント型ワークフロー、推論、マルチモーダル機能、価格で対決します。

2026年5月25日

Cursorの最新プロプライエタリモデル「Composer 2.5」は、ターゲット型RLフィードバック、より多くの合成学習タスク、そしてフロンティアモデルより低いトークン単価を実現しました。

2026年5月22日

Mira Murati の Thinking Machines Lab は、同時に「聞いて話す」モデルを構築しました。本記事ではその機能を分解し、GPT-Realtime-2 と比較ベンチマークします。

2026年5月13日

Pythonの基礎からLLMやエージェント型AIまで、AIをゼロから学ぶための最適なコースとリソースを網羅した体系的なAI学習ロードマップ。

2026年5月13日

Subquadratic の SubQ モデルは、1200万トークンのコンテキストウィンドウ、52倍の効率、そしてフロンティア級の性能を主張します。ここでは SSA アーキテクチャの仕組みと、ベンチマークが実際に示すものを解説します。

2026年5月12日

OpenAI の GPT-5.5 と Google の Gemini 3.1 Pro を、コーディング、推論、エージェント系ベンチマーク、料金、コンテキスト上限で比較し、最適なモデル選びを支援します。

2026年5月11日

DeepSeek V4 の機能、価格、100 万トークン文脈効率を紹介。V4 Pro と Flash のベンチマークを、GPT-5.5 や Opus 4.7 といった最前線モデルと比較します。

2026年5月4日