カテゴリ
技術
LLM 記事
大規模言語モデルの最新の手法、ツール、研究動向をチェックしましょう。私たちのブログでは、データサイエンス、活用事例、責任あるAIの実践について取り上げています。
その他の技術:
2人以上をトレーニングしますか?DataCamp for Businessを試す
Claude Opus 4.8 と Gemini 3.5 Flash の比較:ベンチマークとユースケース
Claude Opus 4.8 と Gemini 3.5 Flash を MCP Atlas、SWE-bench Pro、GDPval の各ベンチマークと価格・速度で比較し、業務に最適なモデルを見つけましょう。
2026年6月16日
Claude Fable 5 vs GPT-5.5:ベンチマーク、価格、どちらを選ぶべきか
Claude Fable 5 は生の能力ベンチマークで優位。一方 GPT-5.5 はアクセス性と価格、クラス分類の介入が少ない点で優勢。選び方の指針を解説。
2026年6月10日
Claude Opus 4.8 と GPT-5.5 の比較:ベンチマーク、テスト、どちらを選ぶべきか
Anthropic の Claude Opus 4.8 と OpenAI の GPT-5.5 を、コーディング、推論、エージェント型タスク、価格で徹底比較。
2026年6月1日
Codex vs Cursor: 委任か、協働か?
Codex はクラウドサンドボックスで実行して放置できるエージェント、Cursor は VS Code ベースの IDE でリアルタイム制御。エージェント、モデル、料金、ワークフローを比較。
2026年6月1日
Gemini 3.5 Flash vs GPT-5.5:万能ツールと大槌の対比
一方は大規模なツール呼び出しに強い多用途モデル、もう一方は最難関の推論を力技で攻略。Google の Gemini 3.5 Flash と OpenAI の GPT-5.5 を、コーディング、エージェントワークフロー、マルチモーダル、価格で比較します。
2026年5月26日
Gemini 3.5 Flash vs Claude Opus 4.7:短距離走者と外科医
Google の速度最適化モデルが、Anthropic の深いコーディング能力を持つ旗艦と、エージェント型ワークフロー、推論、マルチモーダル機能、価格で対決します。
2026年5月25日
Composer 2.5:ベンチマーク、価格、そして比較
Cursorの最新プロプライエタリモデル「Composer 2.5」は、ターゲット型RLフィードバック、より多くの合成学習タスク、そしてフロンティアモデルより低いトークン単価を実現しました。
2026年5月22日
インタラクションモデル:TML-Interaction-Small の強み
Mira Murati の Thinking Machines Lab は、同時に「聞いて話す」モデルを構築しました。本記事ではその機能を分解し、GPT-Realtime-2 と比較ベンチマークします。
2026年5月13日
AI学習ロードマップ2026:初心者に最適なリソース
Pythonの基礎からLLMやエージェント型AIまで、AIをゼロから学ぶための最適なコースとリソースを網羅した体系的なAI学習ロードマップ。
2026年5月13日
SubQ AI 徹底解説:1200万トークンのコンテキストウィンドウ LLM はどれほど優れているのか
Subquadratic の SubQ モデルは、1200万トークンのコンテキストウィンドウ、52倍の効率、そしてフロンティア級の性能を主張します。ここでは SSA アーキテクチャの仕組みと、ベンチマークが実際に示すものを解説します。
2026年5月12日
GPT-5.5 と Gemini 3.1 Pro の比較:どのフロンティアモデルを使うべきか
OpenAI の GPT-5.5 と Google の Gemini 3.1 Pro を、コーディング、推論、エージェント系ベンチマーク、料金、コンテキスト上限で比較し、最適なモデル選びを支援します。
2026年5月11日
DeepSeek V4:機能、ベンチマーク、比較
DeepSeek V4 の機能、価格、100 万トークン文脈効率を紹介。V4 Pro と Flash のベンチマークを、GPT-5.5 や Opus 4.7 といった最前線モデルと比較します。
2026年5月4日