support fp8 per token quant for deepep low latency two stage #76863

Sunny-bot1 · 2025-12-11T08:04:53Z

PR Category

Performance Optimization

PR Types

New features

Description

为DeepEP ll two stage适配激活per-token量化

paddle-bot · 2025-12-11T08:04:58Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

carryyu · 2025-12-12T11:22:31Z

paddle/fluid/distributed/collective/deep_ep/kernels/internode_ll_two_stage.cu

-      sizeof(int4) + (kUseFP8 ? (kHidden + kNumScales * sizeof(float))
-                              : (kHidden * sizeof(nv_bfloat16)));
+      sizeof(int4) + (kUseFP8
+                          ? (kHidden + (kNumScales + 3) / 4 * 4 * sizeof(float))


最好不要硬编码成和4对齐，constexpr ALIGN_ELEMS=xxx，类似这种再对齐。

别的地方也一样

最好不要硬编码成和4对齐，constexpr ALIGN_ELEMS=xxx，类似这种再对齐。

done

这个是由于一次load 16字节，4个float，所以需要4个float 对齐，不要用环境变量

carryyu · 2025-12-12T11:25:00Z

paddle/fluid/distributed/collective/deep_ep/deep_ep.cpp

  auto num_tokens = static_cast<int>(x.size(0)),
       hidden = static_cast<int>(x.size(1));
-  auto num_scales = hidden / 128, num_topk = static_cast<int>(topk_idx.size(1));
+  auto num_scales = num_per_channel == -1 ? 1 : hidden / 128,


如果引入了num_per_channel，这里是不是改成hidden / num_per_channel

如果引入了num_per_channel，这里是不是改成hidden / num_per_channel

这样的话，per-token的num_per_channel需要传hidden_size进来，参数会有点繁琐

yangjianfengo1 · 2025-12-16T03:16:02Z

LGTM

support per token quant in two stage

2c44878

Sunny-bot1 requested review from ForFishes and sneaxiy as code owners December 11, 2025 08:04

Sunny-bot1 added 4 commits December 11, 2025 17:16

fix

5b0d394

fix

a8aeecb

stash

585e74f

fix combine

4745ea6

Sunny-bot1 changed the title ~~support fp8 per token quant for deepep two stage~~ support fp8 per token quant for deepep low latency two stage Dec 12, 2025

carryyu reviewed Dec 12, 2025

View reviewed changes

fix

2bed72f

yangjianfengo1 approved these changes Dec 16, 2025

View reviewed changes

lshpku approved these changes Dec 16, 2025

View reviewed changes

gongweibao approved these changes Dec 17, 2025

View reviewed changes

yuanlehome merged commit 5e27f87 into PaddlePaddle:develop Dec 17, 2025
77 of 83 checks passed

Sunny-bot1 mentioned this pull request Dec 17, 2025

[Quantization] Support w4afp8 DeepEP low latency two stage PaddlePaddle/FastDeploy#5608

Open

5 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

support fp8 per token quant for deepep low latency two stage #76863

support fp8 per token quant for deepep low latency two stage #76863

Sunny-bot1 commented Dec 11, 2025 •

edited

Loading

Uh oh!

paddle-bot bot commented Dec 11, 2025

Uh oh!

carryyu Dec 12, 2025

Uh oh!

carryyu Dec 12, 2025

Uh oh!

Sunny-bot1 Dec 15, 2025

Uh oh!

yangjianfengo1 Dec 16, 2025 •

edited

Loading

Uh oh!

carryyu Dec 12, 2025

Uh oh!

Sunny-bot1 Dec 15, 2025

Uh oh!

yangjianfengo1 commented Dec 16, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

7 participants

support fp8 per token quant for deepep low latency two stage #76863

support fp8 per token quant for deepep low latency two stage #76863

Conversation

Sunny-bot1 commented Dec 11, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

PR Category

PR Types

Description

Uh oh!

paddle-bot bot commented Dec 11, 2025

Uh oh!

carryyu Dec 12, 2025

Choose a reason for hiding this comment

Uh oh!

carryyu Dec 12, 2025

Choose a reason for hiding this comment

Uh oh!

Sunny-bot1 Dec 15, 2025

Choose a reason for hiding this comment

Uh oh!

yangjianfengo1 Dec 16, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

carryyu Dec 12, 2025

Choose a reason for hiding this comment

Uh oh!

Sunny-bot1 Dec 15, 2025

Choose a reason for hiding this comment

Uh oh!

yangjianfengo1 commented Dec 16, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

7 participants

Sunny-bot1 commented Dec 11, 2025 •

edited

Loading

yangjianfengo1 Dec 16, 2025 •

edited

Loading