20250416周报

20250416周报
风铃夜行周报
2025041020250411 2025041420250415
添加之前还没来及具体实现的模块
实验后(20250415)发现结果令人笑死(已与丁老师聊过,并获得一些整改意见,目前已经快整改完了)
这弱智agent买了数十万种商品成功卖出1个(在多次测试中成功卖出一个)
已经修好了,怀疑是之前那个模块哪儿写错了
20250416~20250417
受不了了,把数据全部搞到数据库上去了,现在比之前方便了100倍(纯体感)。
20250412
打蓝桥杯
20250413
阅读论文Training Large Language Models to Reason in a Continuous Latent Space
(学弟倾情推荐两周终于想起来读了)
20250415~20250416
阅读论文DISTRL: AN ASYNCHRONOUS DISTRIBUTED REINFORCEMENT LEARNING FRAMEWORK FOR ONDEVICE CONTROL AGENTS
是组里其他两位搞agent的同学推荐的,这两天在忙着写代码,还没读完