🐛 [Bug] group_norm implementation may slows down SD vae

##  Bug Description

We noticed VAE Perf Gap b/w Torch-TRT and ONNX-TRT. ONNX-TRT is about 30-40% faster than Torch-TRT. We found that for group_norm layer, ONNX-TRT is using a workaround provided by TensorRT team, InstanceNormalization. Torch-TensorRT uses `add_normalization`  for direct conversion.