File tree Expand file tree Collapse file tree 2 files changed +51
-48
lines changed Expand file tree Collapse file tree 2 files changed +51
-48
lines changed Original file line number Diff line number Diff line change @@ -217,6 +217,57 @@ DPO是最新的最高效的RLHF训练方法。RLHF一直是生成式AI训练的
217
217
218
218
具体详见:[ 这里] ( https://github.com/lyogavin/Anima/tree/main/rlhf ) 。
219
219
220
+
221
+ # Troubleshooting
222
+
223
+ ### 1. cuda lib 路径问题
224
+
225
+ 如果training或者inference碰到以下的问题:可能是cuda lib的路径问题:
226
+
227
+
228
+ ``` bash
229
+ libbitsandbytes_cpu.so: undefined symbol: cquantize_blockwise_fp16_nf4
230
+ ```
231
+
232
+ ``` bash
233
+ ERROR: python: undefined symbol: cudaRuntimeGetVersion
234
+ ```
235
+
236
+ ``` bash
237
+ CUDA SETUP: libcudart.so path is None
238
+ ```
239
+ 解决方法:
240
+ 把以下代码加入到 in .bashrc
241
+
242
+ ``` bash
243
+ export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
244
+ ```
245
+
246
+ 然后:
247
+
248
+ ``` bash
249
+ source ~ /.bashrc
250
+ ```
251
+
252
+ 可以参考:
253
+ https://github.com/TimDettmers/bitsandbytes/issues/85
254
+
255
+ ### 2. cuda 问题
256
+ 如果碰到以下问题:
257
+
258
+ ``` bash
259
+ RuntimeError: " addmm_impl_cpu_" not implemented for ' Half'
260
+ ```
261
+ 可能是cuda驱动或者toolkit安装问题,请查看cuda是否安装成功。可以运行一下命令查看是不是cuda安装成功:
262
+
263
+ ``` bash
264
+ nvidia-smi
265
+ ```
266
+
267
+ 可以参考:
268
+ https://stackoverflow.com/q/73530569/21230266
269
+
270
+
220
271
# 参与贡献
221
272
222
273
欢迎大家参与贡献本项目 🙏
Original file line number Diff line number Diff line change @@ -118,54 +118,6 @@ run_dpo_training.sh 中的参数大部分和Anima的训练参数一致。有几
118
118
119
119
我们认为提升模型的基础推理能力和编码基础的knowledge储备更适合通过大规模与训练进行。而DPO和RLHF更适合进行模型的输出控制,或者领域知识的训练。
120
120
121
- # Troubleshooting
122
-
123
- ### 1. cuda lib 路径问题
124
-
125
- 如果training或者inference碰到以下的问题:可能是cuda lib的路径问题:
126
-
127
-
128
- ``` bash
129
- libbitsandbytes_cpu.so: undefined symbol: cquantize_blockwise_fp16_nf4
130
- ```
131
-
132
- ``` bash
133
- ERROR: python: undefined symbol: cudaRuntimeGetVersion
134
- ```
135
-
136
- ``` bash
137
- CUDA SETUP: libcudart.so path is None
138
- ```
139
- 解决方法:
140
- 把以下代码加入到 in .bashrc
141
-
142
- ``` bash
143
- export LD_LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
144
- ```
145
-
146
- 然后:
147
-
148
- ``` bash
149
- source ~ /.bashrc
150
- ```
151
-
152
- 可以参考:
153
- https://github.com/TimDettmers/bitsandbytes/issues/85
154
-
155
- ### 2. cuda 问题
156
- 如果碰到以下问题:
157
-
158
- ``` bash
159
- RuntimeError: " addmm_impl_cpu_" not implemented for ' Half'
160
- ```
161
- 可能是cuda驱动或者toolkit安装问题,请查看cuda是否安装成功。可以运行一下命令查看是不是cuda安装成功:
162
-
163
- ``` bash
164
- nvidia-smi
165
- ```
166
-
167
- 可以参考:
168
- https://stackoverflow.com/q/73530569/21230266
169
121
170
122
# 参与贡献
171
123
You can’t perform that action at this time.
0 commit comments