FAQ

  • 问:当程序报错时,如何排查错误?

  • 答:首先查看日志,是否可以可以定位错误的信息,如显存不够OOM等。

  • 问:如果程序hang,如何排查出错原因?

  • 答:一般引起程序hang的问题,都是通信问题。比如,两个进程同步不一致:一个进程等待同步A数据,而另一个进程却在等待同步B数据,从而导致程序hang。一般排查步骤是定位进程hang的位置,然后具体分析导致hang的原因。可以通过设置如下环境变量查看程序hang时执行的算子:export GLOG_v=3; export FLAGS_benchmark=1

  • 问:程序中报错,显示NCCL相关错误,怎么排查原因?

  • 答:可以通过设置如下环境变量查看程序错误信息:export NCCL_DEBUG=INFO。并重点关注NCCL WARN相关信息。