在lora训练中learning_rate是什么意思,为什么会有些人1e-5还有人写2e-2

在lora训练中learning_rate是什么意思,为什么会有些人1e-5还有人写2e-2
`learning_rate`(学习率)是训练神经网络模型时的一个重要超参数。它涉及到模型在梯度下降算法中的权重更新速度。在训练过程中,我们想要最小化损失函数以获得更好的模型性能。为了实现这一目标,我们需要沿着损失函数的梯度负方向更新模型的权重。学习率决定了这个更新的步长。 学习率的选择对模型的收敛速度和性能有很大影响。一个较大的学习率可能导致权重更新过快,从...

centos7 无驱动情况下显卡型号查询

centos7 无驱动情况下显卡型号查询
可以通过两种方法查看 一、在系统内部直接执行lspci -nn | grep NV [root@icompute07 ~]# lspci -nn | grep NV af:00.0 3D controller [0302]: NVIDIA Corporation TU104GL [Tesla T4] [10de:1eb8] (rev a1) 二、通过官方网站,如下: **通过lspci查看不到具体型号时,如下:** [root@control02 ~]# lspci -nn | grep NV af:00.0 3D controller [0302]: NVIDIA Corporat...

基于大型语言模型(LLM)的聊天机器人 解读

基于大型语言模型(LLM)的聊天机器人 解读
因会议早已结束,下面是会议视频录像连接: https://mirrors.tuna.tsinghua.edu.cn/tuna/tunight/2023-05-14-llm-chatbot/video.mp4   庄思源目前正于加州大学伯克利分校攻读博士学位,近期参与了 FastChat/Vicuna 的研究与开发。Vicuna 是截至目前性能最接近 ChatGPT 的开源聊天机器人之一。作为 ray-project/ray 的核心贡献者之一,庄思源对分布式框架 Ray 有深入的...

AI训练需要算力在7.5之上 NVIDIA英伟达GPU显卡算力一览

AI训练需要算力在7.5之上  NVIDIA英伟达GPU显卡算力一览
英伟达GPU算力一览 目前更新至30系显卡 官方说明在GPU算力高于5.0时,此计算机可以用来跑神经网络,而在CSDN和网页上查找GPU算力时,没有一个比较全面的博客对目前的显卡算力做统计,而且英伟达官网链接打开真的谜一样,很慢或者直接打不开,所以用这篇博客记录一下截至到2022.8.8 ,一部分主流供深度学习的GPU的算力。 NVIDIA官方查找GPU算力的网址:https://developer.nvi...

ImportError: libcudnn.so.x : cannot open shared object file: No such file or directory解决

ImportError: libcudnn.so.x : cannot open shared object file: No such file or directory解决
在跑GPU的时候,出现错误: ImportError: libcudnn.so.7: cannot open shared object file: No such file or directory 原因: 默认软链的cudnn中没有相应的 libcudnn.so文件。 一探究竟: (1)执行命令ll /usr/local,查看该路径下的cuda:,显示有2个版本,cuda-10.0和cuda-9.0,并且cuda软链到了10.0的版本。 (2)那么来查看cuda-10.0的路径下是否有libcudnn.so文件呢,...

对 ChatGLM-6B 做 LoRA fine tuning

对 ChatGLM-6B 做 LoRA fine tuning
hatGLM-6B 是一个支持中英双语的对话语言模型,基于 GLM (General Language Model)。它只有 62 亿个参数,量化后最低 (INT4 量化) 只需要 6GB 的显存,完全可以部署到消费级显卡上。在实际使用这个模型一段时间以后,我们发现模型的对话表现能力确实非常不错。那么,基于这个模型做 Fine-tuning 就非常有价值了。 声明: 本文提供的所有技术信息,都基于 THUDM/chatglm-6b ...

使用 FAISS 计算字符串之间的相似度

使用 FAISS 计算字符串之间的相似度
代码如下:   import faiss import numpy as np from transformers import AutoTokenizer, AutoModel # 加载text2vec-large-chinese模型和分词器 model_name = "bert-base-chinese" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModel.from_pretrained(model_name) # 假设您有两个字符串s1和s2 s1 = "北京是中国的...

如何在 Windows 10 上轻松安装 Detectron2

如何在 Windows 10 上轻松安装 Detectron2
在 Windows 上安装 Detectron2 并不是一件容易的事,因为正式版的 Detectron2 在这个平台上是官方不支持的,而且 Windows Subsystem for Linux 也无法访问机器的 GPU。按照接下来的步骤,您可以快速安装和使用最新版本的Detectron2,完美运行。 第 1 步:创建 conda 环境 此步骤不是必需的。您可以使用下面描述的两个命令行创建一个空环境来测试 detectron2:https://docs.c...

[NLP] transformers 使用指南 Tokenizer

[NLP] transformers 使用指南  Tokenizer
严格意义上讲 transformers 并不是 PyTorch 的一部分,然而 transformers 与 PyTorch 或 TensorFlow 结合的太紧密了,而且可以把 transformers 看成是 PyTorch 或 TensorFlow 的延伸,所以也在这里一并讨论了。 transformers 内置了 17 种以 transformer 结构为基础的神经网络: T5 model DistilBERT model ALBERT model CamemBERT model XLM-RoBERTa model Longformer...

windows环境 module ‘pexpect’ has no attribute ‘spawn’

windows环境 module ‘pexpect’ has no attribute ‘spawn’
新版本在windows环境下配置环境,运行报错:缺少“pexpect”模块。 安装模块后,运行报错:module 'pexpect' has no attribute 'spawn' 查阅发现好像win下不支持pexpect.spawn。 请问有没有办法处理这个问题呢?     解决了,安装了win环境适用的模块wexpect,并把bash.py里的'pexpect'改为'wexpect' 资料来源于微信群!