深度学习-Euler的博客

累计撰写 217 篇文章
累计创建 86 个标签
累计收到 0 条评论

目录CONTENT

以下是深度学习相关的文章

【模型训练】只奖励最终答案，为什么模型仍然学会了正确推理？ ——RLVR 的工程机制与实践启示 1. 背景：RLVR 是否真的提升了推理能力？随着 DeepSeek-R1 及其所采用的 GRPO（Group Relative Policy Optimization）算法引发广泛关注，Reinforcement Learning with Verifiabl
- 2026-01-07
- 12
- 0
- 0
- 深度学习
【Agent】Agent任务类型区分很多讨论会把 “planning / research” 混在一起：有人说“要先规划”，有人说“要边做边想”。其实这两个词在工程语境里指向不同维度： planning：描述的是计划产物的结构化深度（shallow vs deep）。 research：描述的是执行过程是否形成闭环（linear vs
- 2025-12-20
- 16
- 0
- 0
- AI前沿
【深度学习】PERF 中 QUESTION_ANS 与 FEATURE_EXTRACTION 的区别在进行参数高效微调（PERF/PEFT）时，QUESTION_ANS 和 FEATURE_EXTRACTION 这两种任务类型看似都需要特征提取，但实际上它们在训练过程中有本质的不同。核心差异任务目标 QUESTION_ANS：生成式任务，需要根据输入生成特定答案 FEATURE_EXTRACT
- 2025-11-11
- 15
- 0
- 0
- 深度学习
【深度学习】PEFT TaskType 任务类型详解 PEFT（Parameter-Efficient Fine-Tuning）是 Hugging Face 提供的参数高效微调库，在使用 LoRA、Prefix Tuning 等微调方法时，需要指定 TaskType 来告诉 PEFT 库当前任务的类型。正确选择任务类型对于模型微调的成功至关重要。 Ta
- 2025-11-11
- 20
- 0
- 0
- 深度学习
【论文】旋转位置编码增强的Transformer(RoFormer/RoPE) 论文概述论文标题: RoFormer: Enhanced Transformer with Rotary Position Embedding 作者: Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu 机构:
- 2025-10-11
- 17
- 0
- 0
- 论文
【深度学习】Transformer 注意力机制与 LoRA target_modules 详解 1. Transformer 自注意力机制结构 1.1 基础组件 class SelfAttention(nn.Module): def __init__(self, d_model, n_heads): super().__init__() self.d_m
- 2025-08-26
- 445
- 0
- 6
- 深度学习
【深度学习】HuggingFace缓存目录结构详解引言在使用HuggingFace Transformers库时，我们经常会遇到模型下载和缓存的问题。你是否好奇过，当你运行 from_pretrained() 时，模型文件到底存储在哪里？为什么有时候下载很快，有时候却很慢？本文将深入解析HuggingFace的缓存目录结构，帮助你理解模型管理的幕
- 2025-07-28
- 200
- 0
- 14
- 深度学习
【大模型】Hugging Face常见模型格式详解 Hugging Face作为全球最大的机器学习模型社区，支持多种不同的模型格式。这些格式各有特点，适用于不同的使用场景。本文将详细介绍Hugging Face上常见的模型格式，帮助开发者选择合适的模型格式。模型格式分类概览 Hugging Face上的模型格式主要可以分为以下几类： 1. 原始框架
- 2025-07-23
- 389
- 0
- 12
- 深度学习
【运维】Qwen3 完全关闭思考过程(vllm) Qwen3 完全关闭思考过程(vllm) 根据官方示例，可以通过在提示词里提示模型不输出思考过程，比如提示词直接写【no_thinking】或者【不思考】，在一些场景下都能work，但从结构上来看，其还是会输出 <think></think>的标签。我们可以通过调整提示词模版的方式，伪装为告诉模型
- 2025-07-15
- 421
- 0
- 15
- 大语言模型
【LLM】使用vLLM部署Phi-4-multimodal-instruct的实战指南一、简介 Phi-4-multimodal-instruct是微软开发的多模态指令跟随模型，支持文本、图像和音频的联合输入。其核心优势包括：多模态融合能力：可同时处理文本+图像/音频输入，实现跨模态理解高效指令调优：基于Instruct版本设计，更适合对话式AI和任务导向型应用大模型优化：通过
- 2025-07-02
- 357
- 0
- 13
- 大语言模型

1
2