ri938 · ri938 · Aug 24, 2023 · Aug 24, 2023
diff --git a/vllm/awq_quantization/kernels/csrc/layernorm/layernorm.cu b/vllm/awq_quantization/kernels/csrc/layernorm/layernorm.cu
diff --git a/vllm/awq_quantization/kernels/csrc/layernorm/layernorm.h b/vllm/awq_quantization/kernels/csrc/layernorm/layernorm.h
diff --git a/vllm/awq_quantization/kernels/csrc/layernorm/reduction.cuh b/vllm/awq_quantization/kernels/csrc/layernorm/reduction.cuh
diff --git a/vllm/awq_quantization/kernels/csrc/position_embedding/pos_encoding.h b/vllm/awq_quantization/kernels/csrc/position_embedding/pos_encoding.h
diff --git a/vllm/awq_quantization/kernels/csrc/position_embedding/pos_encoding_kernels.cu b/vllm/awq_quantization/kernels/csrc/position_embedding/pos_encoding_kernels.cu
diff --git a/vllm/awq_quantization/kernels/csrc/pybind.cpp b/vllm/awq_quantization/kernels/csrc/pybind.cpp
@@ -2,13 +2,9 @@
 
 #include <pybind11/pybind11.h>
 #include <torch/extension.h>
-#include "layernorm/layernorm.h"
 #include "quantization/gemm_cuda.h"
-#include "position_embedding/pos_encoding.h"
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m)
 {
-    m.def("layernorm_forward_cuda", &layernorm_forward_cuda, "FasterTransformer layernorm kernel");
     m.def("gemm_forward_cuda", &gemm_forward_cuda, "Quantized GEMM kernel.");
-    m.def("rotary_embedding_neox", &rotary_embedding_neox, "Apply GPT-NeoX style rotary embedding to query and key");
 }
diff --git a/vllm/awq_quantization/kernels/setup.py b/vllm/awq_quantization/kernels/setup.py
@@ -17,8 +17,6 @@
             sources=[
                 "csrc/pybind.cpp", 
                 "csrc/quantization/gemm_cuda_gen.cu",
-                "csrc/layernorm/layernorm.cu",
-                "csrc/position_embedding/pos_encoding_kernels.cu"
             ],
             extra_compile_args=extra_compile_args,
         ),