Baolong Mao (Tencent), Chunxiao Zheng (Tencent), Weishu Deng (Tensormesh), Darren Peng (Tensormesh), Samuel Shen (Tensormesh) What is P2P and what does it promise? In this blog post, we will go over: a…
Baolong Mao (Tencent), Chunxiao Zheng (Tencent), Weishu Deng (Tensormesh), Darren Peng (Tensormesh), Samuel Shen (Tensormesh) What is P2P and what does it promise? In this blog post, we will go over: a…
With inference making up about 90% of #ML costs and #AI spending expected to hit $307B in 2025, efficient #KV caching is vital.
Read more: t.ly/KVCachCeph
#Ceph #OpenSourceStorage #CephCommunity
With inference making up about 90% of #ML costs and #AI spending expected to hit $307B in 2025, efficient #KV caching is vital.
Read more: t.ly/KVCachCeph
#Ceph #OpenSourceStorage #CephCommunity
作者:Yihua Cheng 、Yuhan Liu 、 Jiayi Yao * 、Yuwei An、Xiaokun Chen、Shaoting Feng 、 Yuyang Huang、Samuel Shen、Kuntai Du、Junchen Jiang 单位:TensorMesh&芝加哥大学 摘要 如今的大语言模型(LLM)推理系统为简化设计,将各个推理引擎和请求独立处理,这导致了严重的资源效率低下问题。尽管已有相关方案提出通过跨请求复用KV Cache来避免冗余计算,并通过将单个请求拆分到不同推理引擎来提高 GPU…
作者:Yihua Cheng 、Yuhan Liu 、 Jiayi Yao * 、Yuwei An、Xiaokun Chen、Shaoting Feng 、 Yuyang Huang、Samuel Shen、Kuntai Du、Junchen Jiang 单位:TensorMesh&芝加哥大学 摘要 如今的大语言模型(LLM)推理系统为简化设计,将各个推理引擎和请求独立处理,这导致了严重的资源效率低下问题。尽管已有相关方案提出通过跨请求复用KV Cache来避免冗余计算,并通过将单个请求拆分到不同推理引擎来提高 GPU…
作者:Junchen Jiang 发布Tensormesh 首先我想要在这里重申一遍我上周在LMCache #general Slack频道中发布的一条新闻: “我非常高兴的宣布我们LMCache的创始团队已经在几个月前决定成立名为 Tensormesh 的公司。作为我们第一款产品 Beta 版本的发布,我们决定让Tensormesh正式亮相! 我们与公司同名的产品TensorMesh是一款 SaaS 前端,他允许您在我们所支持的不同硬件厂商的GPU上启动任何开源权重模型,同时对 LMCache 和…
作者:Junchen Jiang 发布Tensormesh 首先我想要在这里重申一遍我上周在LMCache #general Slack频道中发布的一条新闻: “我非常高兴的宣布我们LMCache的创始团队已经在几个月前决定成立名为 Tensormesh 的公司。作为我们第一款产品 Beta 版本的发布,我们决定让Tensormesh正式亮相! 我们与公司同名的产品TensorMesh是一款 SaaS 前端,他允许您在我们所支持的不同硬件厂商的GPU上启动任何开源权重模型,同时对 LMCache 和…
() ( ( ( ( 作者:Kuntai Du 简要总结:🚀LMCache Lab 通过投机解码技术,将代码/文本编辑任务中的解码延迟降低了60%!⚡ --- 你可能是因为 KV cache优化而认识了 LMCache Lab——它让LLM的prefilling变得轻而易举。但这并不是全部!我们现在也专注于加速decoding阶段,让你的LLM智能体生成新内容的速度再上一个台阶。换句话说:在同样的工作量下,你可以少租几台机器,从而省下 LLM…
() ( ( ( ( 作者:Kuntai Du 简要总结:🚀LMCache Lab 通过投机解码技术,将代码/文本编辑任务中的解码延迟降低了60%!⚡ --- 你可能是因为 KV cache优化而认识了 LMCache Lab——它让LLM的prefilling变得轻而易举。但这并不是全部!我们现在也专注于加速decoding阶段,让你的LLM智能体生成新内容的速度再上一个台阶。换句话说:在同样的工作量下,你可以少租几台机器,从而省下 LLM…
() ( ( ( ( ( ( ( 作者:Yihua, Kobe LMCache 现已第一时间支持 OpenAI 最新发布的 GPT-OSS 模型(200 亿与 1200 亿参数)! 本文提供完整指南,教你如何用 vLLM + LMCache 部署 GPT-OSS 模型,并通过 CPU offloading能力获得显著性能提升。 ## 步骤 1:安装 vLLM GPT-OSS 版 ### 安装 ```bash uv pip install --pre vllm==0.10.1+gptoss \…
() ( ( ( ( ( ( ( 作者:Yihua, Kobe LMCache 现已第一时间支持 OpenAI 最新发布的 GPT-OSS 模型(200 亿与 1200 亿参数)! 本文提供完整指南,教你如何用 vLLM + LMCache 部署 GPT-OSS 模型,并通过 CPU offloading能力获得显著性能提升。 ## 步骤 1:安装 vLLM GPT-OSS 版 ### 安装 ```bash uv pip install --pre vllm==0.10.1+gptoss \…
That's golden to our community and everyone
@tensormesh
#kubecon #cncf #AI #LLM #inference
That's golden to our community and everyone
@tensormesh
#kubecon #cncf #AI #LLM #inference
Announcing Tensormesh First I wanted to repeat here what I posted on the LMCache #general Slack channel last week: I am delighted to…
https://blog.lmcache.ai/en/2025/10/31/tensormesh-unveiled-and-lmcache-joins-the-pytorch-foundation/
Announcing Tensormesh First I wanted to repeat here what I posted on the LMCache #general Slack channel last week: I am delighted to…
https://blog.lmcache.ai/en/2025/10/31/tensormesh-unveiled-and-lmcache-joins-the-pytorch-foundation/
tensormesh.ai/blog-posts/t...
#llm #ai #kvcache #lmcache #vllm #benchmarking
tensormesh.ai/blog-posts/t...
#llm #ai #kvcache #lmcache #vllm #benchmarking
arxiv.org/pdf/2510.096...
arxiv.org/pdf/2510.096...
arxiv.org/abs/2510.09665
arxiv.org/abs/2510.09665
LMCache boosts LLM inference with efficient KV caching, offering up to 15x throughput improvements & streamlining enterprise AI deployments. Explore this open-source solution!
LMCache boosts LLM inference with efficient KV caching, offering up to 15x throughput improvements & streamlining enterprise AI deployments. Explore this open-source solution!
Each year, this conference keeps getting better with more energy, more innovation, and more inspiring people driving open technology forward.
Each year, this conference keeps getting better with more energy, more innovation, and more inspiring people driving open technology forward.
#LMCache
#LMCache
📖 𝐯𝐋𝐋𝐌 𝐩𝐫𝐨𝐝𝐮𝐜𝐭𝐢𝐨𝐧-𝐬𝐭𝐚𝐜𝐤: AI inference for enterprises💫
🏢Production-stack is the K8s-native, enterprise-ready inference setup that supercharges vLLM inference at scale, across Clouds.
👉Start here: cloudthrill.ca/vllm-product...
#AI #LLM #vLLM #Kubernetes #MLOps #KVCache #LMCache
📖 𝐯𝐋𝐋𝐌 𝐩𝐫𝐨𝐝𝐮𝐜𝐭𝐢𝐨𝐧-𝐬𝐭𝐚𝐜𝐤: AI inference for enterprises💫
🏢Production-stack is the K8s-native, enterprise-ready inference setup that supercharges vLLM inference at scale, across Clouds.
👉Start here: cloudthrill.ca/vllm-product...
#AI #LLM #vLLM #Kubernetes #MLOps #KVCache #LMCache
Part1️⃣: 𝐅undamentals cloudthrill.ca/what-is-vllm
Part2️⃣: 𝐊ey 𝐅eatures cloudthrill.ca/what-is-vllm...
part3️⃣: 𝐃eployment 𝐎ptions cloudthrill.ca/vllm-deloyment
#vllm_project #lmcache #LLMs
Part1️⃣: 𝐅undamentals cloudthrill.ca/what-is-vllm
Part2️⃣: 𝐊ey 𝐅eatures cloudthrill.ca/what-is-vllm...
part3️⃣: 𝐃eployment 𝐎ptions cloudthrill.ca/vllm-deloyment
#vllm_project #lmcache #LLMs