周报2025041020250411 2025041420250415添加之前还没来及具体实现的模块实验后(20250415)发现结果令人笑死(已与丁老师聊过,并获得一些整改意见,目前已经快整改完了)这弱智agent买了数十万种商品成功卖出1个(在多次测试中成功卖出一个)已经修好了,怀疑是之前那个模块哪儿写错了
20250416~20250417受不了了,把数据全部搞到数据库上去了,现在比之前方便了100倍(纯体感)。
20250412打蓝桥杯
20250413阅读论文Training Large Language Models to Reason in a Continuous Latent Space(学弟倾情推荐两周终于想起来读了)
20250415~20250416阅读论文DISTRL: AN ASYNCHRONOUS DISTRIBUTED REINFORCEMENT LEARNING FRAMEWORK FOR ONDEVICE CONTROL AGENTS是组里其他两位搞agent的同学推荐的,这两天在忙着写代码,还没读完
周报2025040220250403 && 2025040720250409由于原本的参考论文代码水平太过令人遗憾,因此我决定全部重构,于是这周就是:
写代码
纯写代码
累死了
把整体代码框架全部搞完
今天(20250409)与丁老师交流,后续根据需求添加各种模块即可。
不论科研进度如何,这真得算个项目了。
清明节上山找祖宗……
总结这周工程代码写太多了
我需要看点论文缓缓
想要摸摸MCP
还想要摸摸其他的好玩的
ProposalProject Abstract & MotivationThe goal of this project is to offer a sample for process logical video with gemini API.In today’s fast-paced environment, dedicating 20-30 hours or more to studying a lecture or documentary is challenging. Therefore, supplementing our learning with specific questions posed to an AI model like Gemini would be highly efficient.
Measures
Given the strong logical structure and rich textual content of our target videos, we can begin by extracting and proc ...
周报20250327~20250328调研需要使用的一些API,写了代码并测试。
20250329
扫墓。
与两位同样是agent方向的同学交流,收益颇多。感觉他们真的好厉害,他们的plan写的看起来好棒,与他们相比我连做什么都不知道,就跟在比赛时一直跟榜一样,我好像还不知道如何去自己做事。
与丁老师交流任务。
与朋友一起VP一场区域赛,打了一场Codeforces Div2并上分。
20250330~20250331写数据集配套代码,与丁老师再一次交流。
20250401~20250402
庆祝属于我的节日(x。
社团文化节
写google trend爬取的相关代码,这是因为目前开源的相关库都已经被谷歌拦截(429)了,目前还未(完全)成功
分析数据
写agent部分代码
其他时间规划还是太糟糕,感觉上课严重影响我学习(x,实际上还是太菜了(。下周要改善时间规划,每天早上/睡前做个计划会不会好一些。
日报20250317~20250322等代码跑完。阅读论文《MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification》(上次组会偷窥学长屏幕看到的论文)顺着参考文献学习了一些数据生成中有关Agent的应用。
20250322休息,去隔壁海事打了场算法比赛。
20250323~202502324测试代码,与原论文对比,效果远不及预期。与港科的老师交流结果,准备自己代码重构。差点聊到回不了宿舍的时间了要
20250325~20250326重构代码,检索并学习一些Agent相关的协议。
其他正在碎片时间阅读Coconut(连续潜在空间推理的那个),感觉很好玩
日报2025031320250314 2025031620250317调老师要求要复现的论文代码,成堆的bug,感觉写代码的人很有恶意(恼)。甚至把temperature拼成temprature,这样写openaiAPI根本是拉不到数据的!这论文是怎么整出来的????代码证据: from github实验结果:
20250315休息。
20250317~20250319在4090上跑知识库嵌入模型,但是目前显卡占用比较高,跑的很慢很慢……
其他写了个社团网站demo,浅度学习了一下vue、网站搭建、github action之类的东西。感觉这种什么正事都没干,接下来不管这个Sociodojo到底是怎么回事,我还是先读点论文先吧……这代码真的没法复用我真的想全砍了重写啊。
日报20250306阅读ChatDev代码,检索了解manus。
20250307突发奇想写了个简单的minecraft-codeforces agent,检索了解cursor。
20250308阅读论文《SOCIODOJO: BUILDING LIFELONG ANALYTICAL AGENTS WITH REAL-WORLD TEXT AND TIME SERIES》,学习有关agent环境搭建的内容。
20250309继续阅读,这论文怎么还自己造词呢,真莎士比亚啊。给校内老师帮忙出了点算法题。
20250310论文阅读收尾,写论文summary。qq群里出现了一个神级bot,我快要分不清了。
20250311~20250312阅读论文代码(代码质量令人遗憾),跟学院团委吵社团名字。
Sociodojo 论文阅读论文链接
SummarySociodojo由四部分组成,信息来源、时间线、知识基础和工具箱。(1)Task设计:基于一个简单逻辑,从可观测的 wt 推导出隐藏的 st(透过现象看本质)。考虑到消息传递需要时间,因此隐藏的 st 往往是过去的。(3.1.1)。(index,m ...
日报20250302想了一上午到底自己是在做什么下午按照计划打了一场算竞比赛晚上跑cf网站的爬虫被反爬打趴
20250303爬虫依然被打趴。向刘健师兄请教到底自己该怎么做,通过交流明确了很多基本概念,消除了我的很多疑惑并明确了需要做的事情————找到感兴趣的论文就去认真读并复现。
20250304想起老师所说的ChatDev,成功运行了它的代码,我尝试让他“生成一个五子棋程序”(ChatGPT3.5),我认为这不算一个很难的要求,但发现好像效果不是很好。注:原论文评估时就是用的GPT3.5。同时阅读论文,大概读了小半。另外群u给了个镜像站地址,爬虫站起来了,虽然已经没大用了。
20250305读完了论文,开始阅读代码,学习到了很多之前不会的python技巧,如使用包装器函数将对Message的访问重定向str类中。回顾所学,写这篇周报。
ChatDev 论文阅读论文链接
Summary仿照软件工程中分工模式,让模型分别扮演CEO(design), CTO(communicate with programmer), Programmer(coding), Reviewer(code re ...
周报 20250213~20250219论文阅读及复现正在阅读 Deepseek LLMDeepSeek LLM: Scaling Open-Source Language Models with Longtermism
学习了 LlaMA 架构pre-Norm 把归一层放前面(我在复现Transformers架构时好像也这么做了)
RMSNorm 一种更高效的归一层与传统的Layer Norm相比,RMSNorm计算起来更加高效,因为它不需要对输入进行减去均值的操作,从而减少了计算量和内存占用。
给定一个输入向量(x),RMSNorm的输出可以表示为:[ y = \frac{x}{\sqrt{\mathbb{E}[x^2] + \epsilon}} \cdot \gamma ]
这里:
( \mathbb{E}[x^2] ) 表示输入向量(x)各元素平方的平均值。
( \epsilon ) 是一个小的常数,用于防止分母为零的情况,保证数值稳定性。
( \gamma ) 是一个可学习的参数,用于缩放归一化后的结果。
SwiGLU,一种具有门控机制的激活函数,增强模型非线性表达 ...