首页
起源大模型
文档中心
交流社区
应用中心
公共资源
资讯
关于我们
为什么需要算力测评
大模型和人类社会的未来
全部资讯
发布
创建话题
创建版块
发布帖子
登录
注册
找回密码
首页
起源大模型
文档中心
交流社区
应用中心
公共资源
资讯
关于我们
为什么需要算力测评
大模型和人类社会的未来
全部资讯
登录
注册
找回密码
AheadAI 社区
算力出租 / 模型微调 / 需求外包 / 资源互换 / 模型定制
Find what you want
热门搜索
分享
算力
A100
2024
图标卡片
这是一个图标卡片示例
原创作品
这是一个图标卡片示例
灵感来源
NEW
这是一个图标卡片示例
系统工具
GO
这是一个图标卡片示例
分享
创建新版块
模型训练
模型训练
帖子 17
互动 3
关注 1
模型训练教程解答
超级版主
申请版主
发布
全部
最新发布
最新回复
热门
精华
jiangce
4个月前发布
539次阅读
关注
私信
no_sync 与 ZeRO Stage 3 冲突
如遇报错:AssertionError: no_sync context manager is incompatible with gradient partitioning logic of ZeRO stage 3这个错误是由于在 ZeRO Stage 3(DeepSpeed 的梯度优化阶段 3)中,使用了 no_sync 上下文管理器,而 no_sync 与 ZeRO Stage 3 的梯度...
5
回复
分享
jiangce
4个月前发布
112次阅读
关注
私信
使用DeepSpeed遇到object has no attribute train
使用DeepSpeed运行项目时遇到报错:deepspeedzerooptimizer_stage3' object has no attribute train这可能是由于版本不兼容导致的问题。可以尝试将 transformers 模块版本降级到 4.44.2 pip install transformers==4.44.2
评分
回复
分享
2217814016ltj
4个月前更新
62次阅读
关注
私信
安装mamba时报错bare_metal_version
Pip subprocess error: error: subprocess-exited-with-error × python setup.py egg_info did not run successfully. │ exit code: 1 ╰─> [13 lines of output] /tmp/pip-install-7e7f_vg1/causal-conv1d_3fd110caa2f74677ba1ef37b4d457a12/setup.py:...
评分
回复
分享
2217814016ltj
4个月前发布
49次阅读
关注
私信
mamba报错 No module named ‘basicsr’
在运行MambaIR项目脚本的时候,尽管按照作者要求配置环境如下:conda env update --name mambair --file environment.yaml还是会报错找不到'basicsr'?(mambair) root@autodl-container-18b640a1a0-4f72471d:~/autodl-tmp/MambaIR# python basicsr/test.py -o...
5
回复
分享
syliu
5个月前发布
43次阅读
关注
私信
深度学习中,训练精度是什么?
概述在深度学习训练中,训练精度决定了模型计算过程中所使用的浮点数位数。不同的训练精度会直接影响显存占用、计算速度以及训练的稳定性。主流的浮点数精度有以下两种:FP32(单精度浮点数):即 32 位浮点数,是传统深度学习中最常用的精度类型。FP16(半精...
评分
回复
分享
syliu
5个月前发布
42次阅读
关注
私信
训练日志设置:更新了log的名字和路径,为什么没有生效?
问题:我在训练脚本中将log的命名更改如下,logging.basicConfig(filename="training_log_large.log", level=logging.INFO, form...
评分
回复
分享
syliu
5个月前更新
41次阅读
关注
私信
Huggingface的日志系统和Python 标准日志系统的区别
我们在学习或者开发大模型的时候,经常会用到Huggingface的模型和工具,甚至Huggingface有专门的log系统。那么它和传统的Python标准日志有神区别呢?1. 什么是 Huggingface?Huggingface 是一个专门做自然语言处理(NLP)的开源平台,提供了很多现成的模型和工...
评分
回复
分享
syliu
5个月前更新
29次阅读
关注
私信
OpenCV 报错问题及解决方案
问题描述:在已经pip安装了 opencv-python 的情况下,运行程序时依然报错如下:ImportError: libGL.so.1: cannot open shared ob...
4
1
分享
xjxjxj
4个月前发布
28次阅读
关注
私信
MAX_STEPS 和 NUM_EPOCHS 的定义
在深度学习中,"迭代"(iteration)通常指的是step,也就是每一次参数更新的过程。下面两个是训练模型时常见的参数。1. MAX_STEPS ...
1
1
分享
2217814016ltj
4个月前发布
22次阅读
关注
私信
模块不在python搜索路径中?
在复现sam2Long项目中报错:Traceback (most recent call last): File "/data/coding/./tools/vos_inference.py", line 14, in <module> from sam2.build_sam import build_sam2_video_predictor
ModuleNotFoundError: No module named 'sam2' 报错原...
评分
回复
分享
jiangce
4个月前发布
21次阅读
关注
私信
安装pydensecrf报错Preparing metadata (pyproject.toml) error
安装pydensecrf的时候直接采用:pip install pydensecrf或者通过下载到本地手动安装都会报错:Preparing metadata (pyproject.toml) error这里首先考虑python版本问题,考虑使用python10.0或者python3.7.或者,输入:python -c "import platform; print(platf...
5
回复
分享
syliu
5个月前发布
17次阅读
关注
私信
模型训练时,验证集是什么?验证的过程是推理吗?
出现此错误的原因是 evaluation_strategy="epoch" 指定了每个 epoch 后进行验证,但 Trainer 未传入 eval_dataset,导致验证数据...
8
1
分享
syliu
5个月前更新
14次阅读
关注
私信
ModuleNotFoundError: No module named ‘tensorflow’解决方案
问题描述:模型训练运行 `transformers` 库时,尽管未直接使用 TensorFlow,仍出现以下错误:ModuleNotFoundError: No module named 'tensorflow'原因分析:`transformers` 库支持多个深度学习框架(如 PyTorch、TensorFlow、Flax)。即使只使用 PyTorch,...
评分
回复
分享
2217814016ltj
4个月前发布
13次阅读
关注
私信
监督or半监督or无监督
1. 监督学习模型定义:监督学习使用标注数据进行训练,即每个输入样本都对应一个已知的正确输出(标签)。模型的目标是学习输入与输出之间的映射关系。优点:准确性高: 因为使用了标注数据,模型通常能取得高预测性能。目标明确: 直接优化任务相关的指标(...
评分
回复
分享
2217814016ltj
4个月前发布
8次阅读
关注
私信
pip._vendor.urllib3.exceptions.ReadTimeoutError解析
是不是经常遇到过这种报错:pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out. [end of output] note: This error originates from a subprocess, and is likely not a prob...
评分
回复
分享
2217814016ltj
4个月前发布
6次阅读
关注
私信
conda create报错’conda init –help’
conda create创建conda环境时报错如下:See 'conda init --help' for more information and options.
IMPORTANT: You may need to close and restart your shell after running 'conda init'. 说明当前环境conda还未正确配置,需要根据当前的环境来配置conda...
5
回复
分享
xjxjxj
4个月前发布
3次阅读
关注
私信
Git LFS (Large File Storage) 使用笔记
Git LFS 用于管理 Git 仓库中的大文件。如果你看到你本来下载的文件应该很大,但是使用ll命令发现文件很小,那说明你并没有成功地完整下载你的文件。以下是使用 git lfs pull 命令的基本笔记和示例:1. 安装 Git LFS首先需要确保你已经安装了 Git LFS。如果没...
评分
回复
分享
1人已关注
分享
创建新版块
模型训练
模型训练教程解答
发布
关注
帖子
17
互动
3
阅读
1049
本版版主
申请版主
admin
超级版主
关注
创建话题
创建版块
发布帖子
在手机上浏览此页面
登录
没有账号?立即注册
用户名/手机号/邮箱
登录密码
记住登录
找回密码
登录
注册
已有账号,立即登录
设置用户名
手机号
验证码
发送验证码
设置密码
注册