20251217

风铃夜行2025-12-152026-03-12

论文阅读

上周阅读论文时没看liujian师兄的gitee，以至于以乱序阅读论文（
这导致我先阅读了拼好model llava 和 gpt2 后，返回阅读 bert 和 gpt1 两个 encoder-only 和 decoder-only。
在再一次反复理解 transformers 的 encoder-decoder 架构以及与 gemini 讨论翻译任务的前世今生后，感觉自己的大脑再一次学会了 transformers 架构。（究竟要学会几次（

另外粗读了 gitee 上之后的几篇多模态架构论文，感性地理解了一下 blip 和 llava。（？

经朋友推荐阅读了一篇模型结构相关的论文Atlas: Learning to Optimally Memorize the Context at Test Time
学习到了一些奇技淫巧：
Newton-Schulz5 5次矩阵乘法来逼近矩阵的逆或正交形式？（

一些小事：
在跟朋友争论专家模型时，再次阅读了 lora 源论文，一边读一边想到了能不能用 lora 加的那个模块做不同专家，想清楚后一问 gemini 说是 MoE-LoRA。QwQ

有一种从 transformers/17 时代的老人到达了 22/23 年的近现代的感觉，现在看来，大抵此前是没入门罢。*cry