20250625

20250625
风铃夜行我是sb,我没报上六级
20250920 那几天在丰矿地找可用的论文做复现填充对照组
周末&周一闲得无聊,要了点活,做了一下entropy在结果正确和失败的对比实验。没区别。
继续仔细阅读了 Don’t Overthink It: A Survey of Efficient R1-style Large Reasoning Models 这篇综述,目的是找论文。
令人遗憾的是我找的论文都有较大的复现难度,代码问题有点多
如 SimPO: Simple Preference Optimization with a Reference-Free Reward 这篇论文由于近半年它的依赖更新,导致环境配置困难(尝试五遍无法打赢,已经尽力使用这篇文章当时的环境……) (令我十分遗憾,这篇文章的作者之一是chendanqi,在算法竞赛领域有一个以她命名的trick叫做cdq分治,就是她提出的。),事实上通过检查issue看得出之前(指今年1月以前)复现这篇文章并没有那么困难……
阅读 DAST: Difficulty-Adaptive Slow Thinking for Large Reasoning Models 也是为了找对照组。
这篇文章没有给出训练代码。
粗略阅读了一些其他的很多论文及代码,大致确定是否方便复现,并选择其中一些尝试复现。
Codeforces因为太久不写掉大分了,呜呜呜。
icpc网络赛&ccpc网络赛给学校打的名额太多了,这学校没几个人会算法,千辛万苦打出来的名额都占不满,唉。





