20250416周报

周报

2025041020250411 2025041420250415

添加之前还没来及具体实现的模块
实验后(20250415)发现结果令人笑死(已与丁老师聊过,并获得一些整改意见,目前已经快整改完了)
这弱智agent买了数十万种商品成功卖出1个(在多次测试中成功卖出一个)
已经修好了,怀疑是之前那个模块哪儿写错了

20250416~20250417

受不了了,把数据全部搞到数据库上去了,现在比之前方便了100倍(纯体感)。

20250412

打蓝桥杯

20250413

阅读论文Training Large Language Models to Reason in a Continuous Latent Space
(学弟倾情推荐两周终于想起来读了)

20250415~20250416

阅读论文DISTRL: AN ASYNCHRONOUS DISTRIBUTED REINFORCEMENT LEARNING FRAMEWORK FOR ONDEVICE CONTROL AGENTS
是组里其他两位搞agent的同学推荐的,这两天在忙着写代码,还没读完