#Inference • 2026年6月17日
LMCache 实用指南:vLLM 推理服务如何复用 KV Cache
LMCache 将重复 prefill 的 KV Cache 抽成可复用缓存层,降低 vLLM 推理 TTFT,适合长 prompt 与高重复前缀场景。
阅读全文 arrow_right_altLMCache 将重复 prefill 的 KV Cache 抽成可复用缓存层,降低 vLLM 推理 TTFT,适合长 prompt 与高重复前缀场景。
阅读全文 arrow_right_alt把 spec、plan、build、test、review、ship 等工程阶段做成可复用 Agent 技能,让 AI 编码更接近真实团队节奏。
阅读全文 arrow_right_altAI Agent 从「写好一个提示词」转向「设计反馈系统」:验证、重试、状态与停止条件构成可靠 Loop。
阅读全文 arrow_right_altopendatalab/MinerU 将 PDF、Office 与图片解析为 Markdown/JSON,支持表格、公式、OCR 与本地部署,面向 RAG 数据准备。
阅读全文 arrow_right_alt免费免登录的在线 AI 生图工具:浏览器直接用,适合灵感图、文章配图与社媒草稿。
阅读全文 arrow_right_alt