LLM 教程

紧跟大语言模型的最新资讯、技术与资源。我们的教程包含大量实用的演练与用例，助您提升技能。

其他技术：

如何使用 DFlash 试探式解码加速本地 LLM

学习如何在单张 RTX 4090 上，使用 DFlash 试探式解码与 Flash Attention 加速本地 Gemma 4 31B 推理，并与基线设置对比。

2026年6月17日

GGUF 将模型权重、分词器数据与元数据打包为一个可携带文件。了解如何选择合适的量化等级，并使用 Ollama 快速上手。

2026年6月17日

了解 Claude Code 例行任务如何在云端按计划或基于 GitHub 事件运行您的编码代理，让 PR 审查与审计在您合上电脑后也能完成。

2026年6月17日

搭建具备张量并行与 EAGLE 试探式解码的多 GPU Docker 环境，通过兼容 OpenAI 的 API 部署 Mistral Medium 3.5 128B。

2026年6月1日

通过使用 Supabase Python 库的实战示例，学习如何使用 Anthropic 的 Claude Code 改进软件开发工作流。

2026年5月28日

在 RTX 3090 上运行 Qwen3.6 27B，学习如何通过 llama.cpp 启用多标记预测（MTP），在不升级 GPU 的情况下将本地 LLM 推理提速近 2 倍。

2026年5月14日

了解 OpenAI 的 gpt-realtime-2、gpt-realtime-translate 和 gpt-realtime-whisper 有何不同，并使用可运行的 Python WebSocket 代码逐一测试。

2026年5月12日

在这份实践教程中，学习如何使用修改版的 llama.cpp 构建和兼容的 GGUF 文件，在单张 GPU 上运行完整的 DeepSeek V4 Flash 模型。

2026年5月5日

学习如何在 RTX 3090 GPU 上，使用 LoRA 与 TRL 微调 NVIDIA Nemotron-3-Nano-4B 于心理学问答数据集，并从 Hugging Face 下载模型后完成训练。

2026年4月29日

学习如何使用阿里巴巴的 Qwen 3.6 Plus、Python 与 OpenAI SDK，构建一个具备原生视觉与工具调用的自动化发票处理流水线。

2026年4月27日

全面了解谷歌最新的图像生成模型 Nano Banana 2，包括如何使用 Python 通过 API 构建可迭代的聊天式图像编辑器。

2026年4月22日