大模型-Euler的博客

累计撰写 226 篇文章
累计创建 89 个标签
累计收到 0 条评论

目录CONTENT

以下是大模型相关的文章

【模型训练】只奖励最终答案，为什么模型仍然学会了正确推理？ ——RLVR 的工程机制与实践启示 1. 背景：RLVR 是否真的提升了推理能力？随着 DeepSeek-R1 及其所采用的 GRPO（Group Relative Policy Optimization）算法引发广泛关注，Reinforcement Learning with Verifiabl
- 2026-01-07
- 32
- 0
- 0
- 深度学习
【OCR】通过光学压缩实现长上下文的高效OCR(DeepSeek-OCR) 论文信息论文标题：DeepSeek-OCR: Contexts Optical Compression 论文地址：https://arxiv.org/html/2510.18234 作者：Haoran Wei, Yaofeng Sun, Yukun Li (DeepSeek-AI) 发表时间：2
- 2025-10-22
- 24
- 0
- 0
- 论文