首页
起源大模型
文档中心
交流社区
应用中心
公共资源
资讯
关于我们
为什么需要算力测评
大模型和人类社会的未来
全部资讯
发布
创建话题
创建版块
发布帖子
登录
注册
找回密码
首页
起源大模型
文档中心
交流社区
应用中心
公共资源
资讯
关于我们
为什么需要算力测评
大模型和人类社会的未来
全部资讯
登录
注册
找回密码
AheadAI 社区
算力出租 / 模型微调 / 需求外包 / 资源互换 / 模型定制
Find what you want
热门搜索
分享
算力
A100
2024
图标卡片
这是一个图标卡片示例
原创作品
这是一个图标卡片示例
灵感来源
NEW
这是一个图标卡片示例
系统工具
GO
这是一个图标卡片示例
AheadAI 公告1
AheadAI 公告2
综合
关注
版块
热门
精华
问答
投票
最新回复
最高评分
jiangce
4个月前发布
539次阅读
关注
私信
no_sync 与 ZeRO Stage 3 冲突
如遇报错:AssertionError: no_sync context manager is incompatible with gradient partitioning logic of ZeRO stage 3这个错误是由于在 ZeRO Stage 3(DeepSpeed 的梯度优化阶段 3)中,使用了 no_sync 上下文管理器,而 no_sync 与 ZeRO Stage 3 的梯度...
模型训练
5
回复
分享
jiangce
4个月前发布
190次阅读
关注
私信
is not supported for `4-bit` or `8-bit` bitsandbytes models
用huggingface框架项目遇到报错:ValueError: `.to` is not supported for `4-bit` or `8-bit` bitsandbytes models. Please use the model as it is, since the model has already been set to the correct devices and casted to the correct `dtype`.解决...
HuggingFace
评分
回复
分享
jiangce
4个月前发布
112次阅读
关注
私信
使用DeepSpeed遇到object has no attribute train
使用DeepSpeed运行项目时遇到报错:deepspeedzerooptimizer_stage3' object has no attribute train这可能是由于版本不兼容导致的问题。可以尝试将 transformers 模块版本降级到 4.44.2 pip install transformers==4.44.2
模型训练
评分
回复
分享
2217814016ltj
4个月前更新
62次阅读
关注
私信
安装mamba时报错bare_metal_version
Pip subprocess error: error: subprocess-exited-with-error × python setup.py egg_info did not run successfully. │ exit code: 1 ╰─> [13 lines of output] /tmp/pip-install-7e7f_vg1/causal-conv1d_3fd110caa2f74677ba1ef37b4d457a12/setup.py:...
模型训练
评分
回复
分享
2217814016ltj
4个月前发布
49次阅读
关注
私信
mamba报错 No module named ‘basicsr’
在运行MambaIR项目脚本的时候,尽管按照作者要求配置环境如下:conda env update --name mambair --file environment.yaml还是会报错找不到'basicsr'?(mambair) root@autodl-container-18b640a1a0-4f72471d:~/autodl-tmp/MambaIR# python basicsr/test.py -o...
模型训练
5
回复
分享
jiangce
4个月前发布
43次阅读
关注
私信
unexpected keyword argument ‘padding_side’
用huggingface框架跑Chatglm项目遇到报错:TypeError: ChatGLMTokenizer._pad() got an unexpected keyword argument 'padding_side'解决方案:将 transformers 下降版本到 4.34.0或者 考虑pip install transformers==4.44.2pip install transformers==4.34.0
...
HuggingFace
评分
回复
分享
syliu
5个月前发布
43次阅读
关注
私信
深度学习中,训练精度是什么?
概述在深度学习训练中,训练精度决定了模型计算过程中所使用的浮点数位数。不同的训练精度会直接影响显存占用、计算速度以及训练的稳定性。主流的浮点数精度有以下两种:FP32(单精度浮点数):即 32 位浮点数,是传统深度学习中最常用的精度类型。FP16(半精...
模型训练
评分
回复
分享
syliu
5个月前发布
42次阅读
关注
私信
训练日志设置:更新了log的名字和路径,为什么没有生效?
问题:我在训练脚本中将log的命名更改如下,logging.basicConfig(filename="training_log_large.log", level=logging.INFO, form...
模型训练
评分
回复
分享
syliu
5个月前更新
41次阅读
关注
私信
Huggingface的日志系统和Python 标准日志系统的区别
我们在学习或者开发大模型的时候,经常会用到Huggingface的模型和工具,甚至Huggingface有专门的log系统。那么它和传统的Python标准日志有神区别呢?1. 什么是 Huggingface?Huggingface 是一个专门做自然语言处理(NLP)的开源平台,提供了很多现成的模型和工...
模型训练
评分
回复
分享
2217814016ltj
4个月前发布
36次阅读
关注
私信
是什么量化蒸馏?
简单介绍量化蒸馏是指一种结合了模型压缩技术(量化)和知识蒸馏方法的技术,旨在同时减小模型的大小并保持其性能。说白了,量化蒸馏就是一种类似“压缩”的过程,对模型的权重大小进行压缩,以提高推理速度。详细内容首先要了解什么是“量化”与“蒸馏”?这...
深度学习微科普
4
回复
分享
syliu
5个月前更新
29次阅读
关注
私信
OpenCV 报错问题及解决方案
问题描述:在已经pip安装了 opencv-python 的情况下,运行程序时依然报错如下:ImportError: libGL.so.1: cannot open shared ob...
模型训练
4
1
分享
jiangce
4个月前发布
28次阅读
关注
私信
unexpected keyword argument ‘standardize_cache_format’
用huggingface框架跑项目遇到报错:TypeError: GenerationMixin._extract_past_from_model_output() got an unexpected keyword argument 'standardize_cache_format'解决方案:将 transformers 下降版本到 4.43.0 或 4.40.2pip install transformers==4.43.0...
HuggingFace
评分
回复
分享
xjxjxj
4个月前发布
28次阅读
关注
私信
MAX_STEPS 和 NUM_EPOCHS 的定义
在深度学习中,"迭代"(iteration)通常指的是step,也就是每一次参数更新的过程。下面两个是训练模型时常见的参数。1. MAX_STEPS ...
模型训练
1
1
分享
jiangce
4个月前发布
25次阅读
关注
私信
如何使用HuggingFace镜像站
HuggingFace镜像站:https://hf-mirror.com首先将环境变量的配置命令写入到终端的配置文件中,使得终端自动加载该环境变量:export HF_ENDPOINT="https://hf-mirror.com"Linux 写入到~/.bashrc中:echo 'export HF_ENDPOINT="https://hf-mirror.com"' >>...
HuggingFace
评分
回复
分享
2217814016ltj
4个月前发布
22次阅读
关注
私信
模块不在python搜索路径中?
在复现sam2Long项目中报错:Traceback (most recent call last): File "/data/coding/./tools/vos_inference.py", line 14, in <module> from sam2.build_sam import build_sam2_video_predictor
ModuleNotFoundError: No module named 'sam2' 报错原...
模型训练
评分
回复
分享
jiangce
4个月前发布
21次阅读
关注
私信
安装pydensecrf报错Preparing metadata (pyproject.toml) error
安装pydensecrf的时候直接采用:pip install pydensecrf或者通过下载到本地手动安装都会报错:Preparing metadata (pyproject.toml) error这里首先考虑python版本问题,考虑使用python10.0或者python3.7.或者,输入:python -c "import platform; print(platf...
模型训练
5
回复
分享
syliu
5个月前发布
17次阅读
关注
私信
模型训练时,验证集是什么?验证的过程是推理吗?
出现此错误的原因是 evaluation_strategy="epoch" 指定了每个 epoch 后进行验证,但 Trainer 未传入 eval_dataset,导致验证数据...
模型训练
8
1
分享
syliu
5个月前更新
14次阅读
关注
私信
ModuleNotFoundError: No module named ‘tensorflow’解决方案
问题描述:模型训练运行 `transformers` 库时,尽管未直接使用 TensorFlow,仍出现以下错误:ModuleNotFoundError: No module named 'tensorflow'原因分析:`transformers` 库支持多个深度学习框架(如 PyTorch、TensorFlow、Flax)。即使只使用 PyTorch,...
模型训练
评分
回复
分享
2217814016ltj
4个月前发布
13次阅读
关注
私信
监督or半监督or无监督
1. 监督学习模型定义:监督学习使用标注数据进行训练,即每个输入样本都对应一个已知的正确输出(标签)。模型的目标是学习输入与输出之间的映射关系。优点:准确性高: 因为使用了标注数据,模型通常能取得高预测性能。目标明确: 直接优化任务相关的指标(...
模型训练
评分
回复
分享
2217814016ltj
2个月前发布
12次阅读
关注
私信
推理、演绎、归纳:为何只有神经网络一家独大?
前言:机器学习算法思想归类在神经网络火起来之间前,其实由各种流派的存在,而不仅仅是神经网络一家独大。在机器学习中,我们学过许多分类聚类问题的解决办法,比如:纯概率论的K均值聚类、基于先验知识的贝叶斯分类、支持向量机、神经网络等等。那为什么到...
深度学习微科普
评分
1
分享
1
2
下一页
HI!请登录
登录
注册
创建话题
创建版块
发布帖子
在手机上浏览此页面
登录
没有账号?立即注册
用户名/手机号/邮箱
登录密码
记住登录
找回密码
登录
注册
已有账号,立即登录
设置用户名
手机号
验证码
发送验证码
设置密码
注册