Pytorch 推理优化细节

总结Pytorch推理过程中的一些细节。

同步

优化手段

  1. 减少内存操作:尽量避免在循环或频繁调用的函数中创建和释放大量的torch.Tensor
  2. 重复使用Tensor:在可能的情况下,尽量重复使用已经分配的torch.Tensor,而不是频繁地创建新的Tensor。
  3. 使用in-place操作:尽可能使用in-place操作,如torch.Tensor.fill_()torch.Tensor.copy_(),以减少内存分配。
  4. 手动释放内存:在不再需要的torch.Tensor上调用.detach().detach_()方法,手动释放内存。

相关资源

参考