大佬,训练loss=nan.0 是什么情况? #17

Chenhuaqi6 · 2023-06-08T07:24:14Z

ssbuild · 2023-06-08T07:29:56Z

切换优化器试一下

Chenhuaqi6 · 2023-06-08T07:49:44Z

切换优化器测试一下

大佬,优化器改用什么最合适呢? 还有我训练moss-moon-003-sft-int4 的时候显存不够我把n_layer改成了24 有影响吗?

ssbuild · 2023-06-08T08:09:07Z

你这个loss 是一开始就是nan吗，还是训练过程中出现nan ，试一下 adamw

Chenhuaqi6 · 2023-06-08T08:39:04Z

你这个loss 是一开始就是nan吗，还是训练过程中出现nan ，试一下 adamw

好的一开始就是 nan 我试下adamw, 还有这个./zero_to_fp32.py 文件我怎么没找到在哪里

ssbuild · 2023-06-08T08:42:32Z

你这个loss 是一开始就是nan吗，还是训练过程中出现nan ，试一下 adamw

好的一开始就是 nan 我试下adamw, 还有这个./zero_to_fp32.py 文件我怎么没找到在哪里

lora 不需要转换权重了。全参数开启deepspeed 才需要。

Chenhuaqi6 · 2023-06-08T08:50:36Z

我用的ptv2,我看你代码里面 int4模型不支持lora

Chenhuaqi6 · 2023-06-08T08:51:25Z

你这个loss 是一开始就是nan吗，还是训练过程中出现nan ，试一下 adamw

好的一开始就是 nan 我试下adamw, 还有这个./zero_to_fp32.py 文件我怎么没找到在哪里

lora 不需要转换权重了。全参数开启deepspeed 才需要。
adamw 也是 loss=nan,这个是什么情况? 大佬

ssbuild · 2023-06-08T08:52:54Z

ptv2 权重也不用转了， trainer 精度改成 32试试

Chenhuaqi6 · 2023-06-08T08:56:01Z

好的我试试

wangyou0804 · 2023-06-18T14:53:23Z

请问这个问题有解决方案吗，我也遇到了loss为nan的情况，把precision调为32过后报错：
│ /home/user1/.conda/envs/moss/lib/python3.9/site-packages/deep_training/nlp/models/moss/custom_ │
│ autotune.py:93 in run │
│ │
│ 90 │ │ │ │ │ │ │ for config in pruned_configs} │
│ 91 │ │ │ │ bench_end = time.time() │
│ 92 │ │ │ │ self.bench_time = bench_end - bench_start │
│ ❱ 93 │ │ │ │ self.cache[key] = builtins.min(timings, key=timings.get) │
│ 94 │ │ │ │ self.hook(args) │
│ 95 │ │ │ │ self.configs_timings = timings │
│ 96 │ │ │ config = self.cache[key] │
╰──────────────────────────────────────────────────────────────────────────────────────────────────╯
TypeError: '<' not supported between instances of 'tuple' and 'float'

我修改的配置文件包括：
main.py:
enable_deepspeed = False
enable_ptv2 = True
enable_lora = False
enable_int8 = False # qlora int8
enable_int4 = False # qlora int4

sft_config_ptv2.py:
'optimizer': 'adamw'

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

大佬,训练loss=nan.0 是什么情况? #17

大佬,训练loss=nan.0 是什么情况? #17

Chenhuaqi6 commented Jun 8, 2023

ssbuild commented Jun 8, 2023

Chenhuaqi6 commented Jun 8, 2023

ssbuild commented Jun 8, 2023

Chenhuaqi6 commented Jun 8, 2023

ssbuild commented Jun 8, 2023

Chenhuaqi6 commented Jun 8, 2023

Chenhuaqi6 commented Jun 8, 2023

ssbuild commented Jun 8, 2023 •

edited

Chenhuaqi6 commented Jun 8, 2023

wangyou0804 commented Jun 18, 2023

大佬,训练loss=nan.0 是什么情况? #17

大佬,训练loss=nan.0 是什么情况? #17

Comments

Chenhuaqi6 commented Jun 8, 2023

ssbuild commented Jun 8, 2023

Chenhuaqi6 commented Jun 8, 2023

ssbuild commented Jun 8, 2023

Chenhuaqi6 commented Jun 8, 2023

ssbuild commented Jun 8, 2023

Chenhuaqi6 commented Jun 8, 2023

Chenhuaqi6 commented Jun 8, 2023

ssbuild commented Jun 8, 2023 • edited

Chenhuaqi6 commented Jun 8, 2023

wangyou0804 commented Jun 18, 2023

ssbuild commented Jun 8, 2023 •

edited