首页
AI前沿
图像处理
大语言模型
MCP
深度学习
模型微调
理论
论文
软件架构
计算机科学
操作系统
软件工程
后端技术
开发工具
数据库与搜索
ElasticSearch
运维部署
路由系统
认知思维
友链
Euler的博客
累计撰写
211
篇文章
累计创建
82
个标签
累计收到
0
条评论
栏目
首页
AI前沿
图像处理
大语言模型
MCP
深度学习
模型微调
理论
论文
软件架构
计算机科学
操作系统
软件工程
后端技术
开发工具
数据库与搜索
ElasticSearch
运维部署
路由系统
认知思维
友链
目 录
CONTENT
以下是
深度学习
相关的文章
【LoRA】LoRA vs QLoRA 的区别
核心区别 LoRA (Low-Rank Adaptation) 参数高效微调方法 冻结原始模型权重,只训练低秩适配器(adapter) 模型以全精度(FP16/BF16)加载到显存 显存占用较高,适合显存充足的情况 QLoRA (Quantized LoRA) LoRA + 量化(Quantizat
2025-11-12
5
0
0
深度学习
【LoRA】LoRA 微调中的 target_modules 参数详解
LoRA 微调中的 target_modules 参数详解 什么是 target_modules? 在使用 LoRA (Low-Rank Adaptation) 进行大模型微调时,target_modules 是一个关键参数,它指定了哪些模块需要添加 LoRA 适配器。 简单来说:LoRA 不会修改
2025-11-11
2
0
0
深度学习
【深度学习】PERF 中 QUESTION_ANS 与 FEATURE_EXTRACTION 的区别
在进行参数高效微调(PERF/PEFT)时,QUESTION_ANS 和 FEATURE_EXTRACTION 这两种任务类型看似都需要特征提取,但实际上它们在训练过程中有本质的不同。 核心差异 任务目标 QUESTION_ANS:生成式任务,需要根据输入生成特定答案 FEATURE_EXTRACT
2025-11-11
1
0
0
深度学习
【深度学习】PEFT TaskType 任务类型详解
PEFT(Parameter-Efficient Fine-Tuning)是 Hugging Face 提供的参数高效微调库,在使用 LoRA、Prefix Tuning 等微调方法时,需要指定 TaskType 来告诉 PEFT 库当前任务的类型。正确选择任务类型对于模型微调的成功至关重要。 Ta
2025-11-11
0
0
0
深度学习
【理论】机器学习与大模型研究中的常见实验方案
在学术研究与工程实践中,**实验设计(Experimental Design)**是验证一个模型是否真的“有效”的核心环节。 一个好的实验方案不仅能证明方法确实带来了改进,更能揭示其背后的因果机制、泛化能力与局限性。 本文将系统梳理机器学习与语言模型(LLM)研究中常见的实验设计思路,帮助你在科研或
2025-11-04
3
0
0
深度学习
【理论】注意力机制与多头注意力机制理解
1. 基础注意力机制 1.1 核心概念 注意力机制模拟人类阅读时的"聚焦"行为,让模型在处理每个位置时,能够关注到输入序列中最重要的部分。 1.2 数学原理 \text{Attention}(Q,K,V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\r
2025-09-29
12
0
0
深度学习
【深度学习】Transformer 注意力机制与 LoRA target_modules 详解
1. Transformer 自注意力机制结构 1.1 基础组件 class SelfAttention(nn.Module): def __init__(self, d_model, n_heads): super().__init__() self.d_m
2025-08-26
437
0
6
深度学习
【深度学习】HuggingFace缓存目录结构详解
引言 在使用HuggingFace Transformers库时,我们经常会遇到模型下载和缓存的问题。你是否好奇过,当你运行 from_pretrained() 时,模型文件到底存储在哪里?为什么有时候下载很快,有时候却很慢?本文将深入解析HuggingFace的缓存目录结构,帮助你理解模型管理的幕
2025-07-28
161
0
14
深度学习
【大模型】Hugging Face常见模型格式详解
Hugging Face作为全球最大的机器学习模型社区,支持多种不同的模型格式。这些格式各有特点,适用于不同的使用场景。本文将详细介绍Hugging Face上常见的模型格式,帮助开发者选择合适的模型格式。 模型格式分类概览 Hugging Face上的模型格式主要可以分为以下几类: 1. 原始框架
2025-07-23
381
0
12
深度学习
【深度学习】本地运行 GraphRAG + Ollama
随着人工智能不断革新各个行业,对高效且经济的解决方案的需求日益增长。GraphRAG Local Ollama 应运而生,它是一款强大的 Microsoft GraphRAG 改进版,集成了使用 Ollama 下载的本地模型。这种改进让您可以告别昂贵的 OpenAPI 模型,转而采用高效、经济的本地
2025-07-01
257
0
17
深度学习
1
2