20250619

20250619
风铃夜行Abstract: 读了些论文,做了些复现,帮jungle做了个验证
Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models
这是一篇探讨在acc不降的情况下token length缩短的综述。Chain of Draft: Thinking Faster by Writing Less
此篇被知乎老哥锐评为一句“with 5 words at most.”的prompt水了一篇论文
token length缩短效果不错,与jungle保持一致,但根据我的额外测试,在更加复杂的问题上表现不佳,相比之下jungle的acc好很多
这篇论文很短,用词很简单,以至于我二三十分钟就读完了,打破纪录!Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
选择较高信息熵的20%的token来训练会让效果更好
mark了,十分有智慧The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
大幅魔改了文章中EMINF对于信息熵控制的实现代码,实验jungle的猜想,但很可惜这个猜想没打赢。
但学了一种基于修改loss的控制信息熵方法,十分有趣。
这个方法可以更加泛用,mark了。
忘记还干什么了
看起来很空,感觉该更快速更多时间读论文了,我发现跟同学一起一边读一边讨论论文中的细节能让我更快的阅读。
近两个月阅读论文均使用zotero&全英文阅读,很爽,这次12月我必要过六级。





