社区 | AheadAI

AheadAI 社区

算力出租 / 模型微调 / 需求外包 / 资源互换 / 模型定制

热门搜索

分享算力 A100 2024

等级-LV1-社区 | AheadAI

2年前发布967次阅读

no_sync 与 ZeRO Stage 3 冲突

如遇报错：AssertionError: no_sync context manager is incompatible with gradient partitioning logic of ZeRO stage 3这个错误是由于在 ZeRO Stage 3（DeepSpeed 的梯度优化阶段 3）中，使用了 no_sync 上下文管理器，而 no_sync 与 ZeRO Stage 3 的梯度...

5

等级-LV1-社区 | AheadAI

2年前更新483次阅读

安装mamba时报错bare_metal_version

Pip subprocess error: error: subprocess-exited-with-error × python setup.py egg_info did not run successfully. │ exit code: 1 ╰─> [13 lines of output] /tmp/pip-install-7e7f_vg1/causal-conv1d_3fd110caa2f74677ba1ef37b4d457a12/setup.py:...

评分

等级-LV1-社区 | AheadAI

2年前发布482次阅读

is not supported for `4-bit` or `8-bit` bitsandbytes models

用huggingface框架项目遇到报错：ValueError: `.to` is not supported for `4-bit` or `8-bit` bitsandbytes models. Please use the model as it is, since the model has already been set to the correct devices and casted to the correct `dtype`.解决...

评分

等级-LV1-社区 | AheadAI

2年前发布354次阅读

使用DeepSpeed遇到object has no attribute train

使用DeepSpeed运行项目时遇到报错：deepspeedzerooptimizer_stage3' object has no attribute train这可能是由于版本不兼容导致的问题。可以尝试将 transformers 模块版本降级到 4.44.2 pip install transformers==4.44.2

评分

等级-LV1-社区 | AheadAI

2年前发布274次阅读

mamba报错 No module named ‘basicsr’

在运行MambaIR项目脚本的时候，尽管按照作者要求配置环境如下：conda env update --name mambair --file environment.yaml还是会报错找不到'basicsr'？(mambair) root@autodl-container-18b640a1a0-4f72471d:~/autodl-tmp/MambaIR# python basicsr/test.py -o...

5

等级-LV1-社区 | AheadAI

2年前发布242次阅读

unexpected keyword argument ‘padding_side’

用huggingface框架跑Chatglm项目遇到报错：TypeError: ChatGLMTokenizer._pad() got an unexpected keyword argument 'padding_side'解决方案:将 transformers 下降版本到 4.34.0或者考虑pip install transformers==4.44.2pip install transformers==4.34.0
...

评分

等级-LV1-社区 | AheadAI

2年前发布234次阅读

MAX_STEPS 和 NUM_EPOCHS 的定义

在深度学习中，"迭代"(iteration)通常指的是step，也就是每一次参数更新的过程。下面两个是训练模型时常见的参数。1. MAX_STEPS ...

MAX_STEPS 和 NUM_EPOCHS 的定义-社区 | AheadAI

MAX_STEPS 和 NUM_EPOCHS 的定义-社区 | AheadAI

MAX_STEPS 和 NUM_EPOCHS 的定义-社区 | AheadAI

MAX_STEPS 和 NUM_EPOCHS 的定义-社区 | AheadAI

1

等级-LV1-社区 | AheadAI

2年前发布213次阅读

是什么量化蒸馏？

简单介绍量化蒸馏是指一种结合了模型压缩技术（量化）和知识蒸馏方法的技术，旨在同时减小模型的大小并保持其性能。说白了，量化蒸馏就是一种类似“压缩”的过程，对模型的权重大小进行压缩，以提高推理速度。详细内容首先要了解什么是“量化”与“蒸馏”？这...

深度学习微科普

4

等级-LV1-社区 | AheadAI

2年前更新188次阅读

OpenCV 报错问题及解决方案

问题描述：在已经pip安装了 opencv-python 的情况下，运行程序时依然报错如下：ImportError: libGL.so.1: cannot open shared ob...

OpenCV 报错问题及解决方案-社区 | AheadAI

4

等级-LV1-社区 | AheadAI

2年前发布187次阅读

安装pydensecrf报错Preparing metadata (pyproject.toml) error

安装pydensecrf的时候直接采用：pip install pydensecrf或者通过下载到本地手动安装都会报错：Preparing metadata (pyproject.toml) error这里首先考虑python版本问题，考虑使用python10.0或者python3.7.或者，输入：python -c "import platform; print(platf...

5

等级-LV1-社区 | AheadAI

2年前发布181次阅读

训练日志设置：更新了log的名字和路径，为什么没有生效？

问题：我在训练脚本中将log的命名更改如下，logging.basicConfig(filename="training_log_large.log", level=logging.INFO, form...

训练日志设置：更新了log的名字和路径，为什么没有生效？-社区 | AheadAI

评分

等级-LV1-社区 | AheadAI

1年前发布169次阅读

推理、演绎、归纳：为何只有神经网络一家独大？

前言：机器学习算法思想归类在神经网络火起来之间前，其实由各种流派的存在，而不仅仅是神经网络一家独大。在机器学习中，我们学过许多分类聚类问题的解决办法，比如：纯概率论的K均值聚类、基于先验知识的贝叶斯分类、支持向量机、神经网络等等。那为什么到...

深度学习微科普

评分

等级-LV1-社区 | AheadAI

2年前发布166次阅读

深度学习中，训练精度是什么？

概述在深度学习训练中，训练精度决定了模型计算过程中所使用的浮点数位数。不同的训练精度会直接影响显存占用、计算速度以及训练的稳定性。主流的浮点数精度有以下两种：FP32（单精度浮点数）：即 32 位浮点数，是传统深度学习中最常用的精度类型。FP16（半精...

评分

等级-LV1-社区 | AheadAI

2年前更新160次阅读

Huggingface的日志系统和Python 标准日志系统的区别

我们在学习或者开发大模型的时候，经常会用到Huggingface的模型和工具，甚至Huggingface有专门的log系统。那么它和传统的Python标准日志有神区别呢？1. 什么是 Huggingface？Huggingface 是一个专门做自然语言处理(NLP)的开源平台，提供了很多现成的模型和工...

评分

等级-LV1-社区 | AheadAI

2年前发布158次阅读

模块不在python搜索路径中？

在复现sam2Long项目中报错：Traceback (most recent call last): File "/data/coding/./tools/vos_inference.py", line 14, in <module> from sam2.build_sam import build_sam2_video_predictor
ModuleNotFoundError: No module named 'sam2' 报错原...

评分

等级-LV1-社区 | AheadAI

2年前发布143次阅读

监督or半监督or无监督

1. 监督学习模型定义：监督学习使用标注数据进行训练，即每个输入样本都对应一个已知的正确输出（标签）。模型的目标是学习输入与输出之间的映射关系。优点：准确性高：因为使用了标注数据，模型通常能取得高预测性能。目标明确：直接优化任务相关的指标（...

评分

等级-LV1-社区 | AheadAI

2年前发布143次阅读

模型训练时，验证集是什么？验证的过程是推理吗？

出现此错误的原因是 evaluation_strategy="epoch" 指定了每个 epoch 后进行验证，但 Trainer 未传入 eval_dataset，导致验证数据...

模型训练时，验证集是什么？验证的过程是推理吗？-社区 | AheadAI

模型训练时，验证集是什么？验证的过程是推理吗？-社区 | AheadAI

8

等级-LV1-社区 | AheadAI

2年前发布141次阅读

unexpected keyword argument ‘standardize_cache_format’

用huggingface框架跑项目遇到报错：TypeError: GenerationMixin._extract_past_from_model_output() got an unexpected keyword argument 'standardize_cache_format'解决方案：将 transformers 下降版本到 4.43.0 或 4.40.2pip install transformers==4.43.0...

评分

等级-LV1-社区 | AheadAI

2年前发布134次阅读

Pytorch中的Hook机制

相信大家在修改内部代码的时候看见过hook的使用吧，我们来聊一聊深度学习中的钩子hook机制吧。为什么会有hook机制？例如pytorch框架的hook机制，给我们提供了模型训练过程中某些时刻实现可视化的可能，可以帮助我们更好地理解和解释神经网络的内部行为，更...

深度学习微科普

5

等级-LV1-社区 | AheadAI

2年前发布129次阅读

如何使用HuggingFace镜像站

HuggingFace镜像站：https://hf-mirror.com首先将环境变量的配置命令写入到终端的配置文件中，使得终端自动加载该环境变量：export HF_ENDPOINT="https://hf-mirror.com"Linux 写入到~/.bashrc中：echo 'export HF_ENDPOINT="https://hf-mirror.com"' >>...

评分