周报20250327~20250328调研需要使用的一些API,写了代码并测试。
20250329
扫墓。
与两位同样是agent方向的同学交流,收益颇多。感觉他们真的好厉害,他们的plan写的看起来好棒,与他们相比我连做什么都不知道,就跟在比赛时一直跟榜一样,我好像还不知道如何去自己做事。
与丁老师交流任务。
与朋友一起VP一场区域赛,打了一场Codeforces Div2并上分。
20250330~20250331写数据集配套代码,与丁老师再一次交流。
20250401~20250402
庆祝属于我的节日(x。
社团文化节
写google trend爬取的相关代码,这是因为目前开源的相关库都已经被谷歌拦截(429)了,目前还未(完全)成功
分析数据
写agent部分代码
其他时间规划还是太糟糕,感觉上课严重影响我学习(x,实际上还是太菜了(。下周要改善时间规划,每天早上/睡前做个计划会不会好一些。
日报20250317~20250322等代码跑完。阅读论文《MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification》(上次组会偷窥学长屏幕看到的论文)顺着参考文献学习了一些数据生成中有关Agent的应用。
20250322休息,去隔壁海事打了场算法比赛。
20250323~202502324测试代码,与原论文对比,效果远不及预期。与港科的老师交流结果,准备自己代码重构。差点聊到回不了宿舍的时间了要
20250325~20250326重构代码,检索并学习一些Agent相关的协议。
其他正在碎片时间阅读Coconut(连续潜在空间推理的那个),感觉很好玩
日报2025031320250314 2025031620250317调老师要求要复现的论文代码,成堆的bug,感觉写代码的人很有恶意(恼)。甚至把temperature拼成temprature,这样写openaiAPI根本是拉不到数据的!这论文是怎么整出来的????代码证据: from github实验结果:
20250315休息。
20250317~20250319在4090上跑知识库嵌入模型,但是目前显卡占用比较高,跑的很慢很慢……
其他写了个社团网站demo,浅度学习了一下vue、网站搭建、github action之类的东西。感觉这种什么正事都没干,接下来不管这个Sociodojo到底是怎么回事,我还是先读点论文先吧……这代码真的没法复用我真的想全砍了重写啊。
日报20250306阅读ChatDev代码,检索了解manus。
20250307突发奇想写了个简单的minecraft-codeforces agent,检索了解cursor。
20250308阅读论文《SOCIODOJO: BUILDING LIFELONG ANALYTICAL AGENTS WITH REAL-WORLD TEXT AND TIME SERIES》,学习有关agent环境搭建的内容。
20250309继续阅读,这论文怎么还自己造词呢,真莎士比亚啊。给校内老师帮忙出了点算法题。
20250310论文阅读收尾,写论文summary。qq群里出现了一个神级bot,我快要分不清了。
20250311~20250312阅读论文代码(代码质量令人遗憾),跟学院团委吵社团名字。
Sociodojo 论文阅读论文链接
SummarySociodojo由四部分组成,信息来源、时间线、知识基础和工具箱。(1)Task设计:基于一个简单逻辑,从可观测的 wt 推导出隐藏的 st(透过现象看本质)。考虑到消息传递需要时间,因此隐藏的 st 往往是过去的。(3.1.1)。(index,m ...
日报20250302想了一上午到底自己是在做什么下午按照计划打了一场算竞比赛晚上跑cf网站的爬虫被反爬打趴
20250303爬虫依然被打趴。向刘健师兄请教到底自己该怎么做,通过交流明确了很多基本概念,消除了我的很多疑惑并明确了需要做的事情————找到感兴趣的论文就去认真读并复现。
20250304想起老师所说的ChatDev,成功运行了它的代码,我尝试让他“生成一个五子棋程序”(ChatGPT3.5),我认为这不算一个很难的要求,但发现好像效果不是很好。注:原论文评估时就是用的GPT3.5。同时阅读论文,大概读了小半。另外群u给了个镜像站地址,爬虫站起来了,虽然已经没大用了。
20250305读完了论文,开始阅读代码,学习到了很多之前不会的python技巧,如使用包装器函数将对Message的访问重定向str类中。回顾所学,写这篇周报。
ChatDev 论文阅读论文链接
Summary仿照软件工程中分工模式,让模型分别扮演CEO(design), CTO(communicate with programmer), Programmer(coding), Reviewer(code re ...
周报 20250213~20250219论文阅读及复现正在阅读 Deepseek LLMDeepSeek LLM: Scaling Open-Source Language Models with Longtermism
学习了 LlaMA 架构pre-Norm 把归一层放前面(我在复现Transformers架构时好像也这么做了)
RMSNorm 一种更高效的归一层与传统的Layer Norm相比,RMSNorm计算起来更加高效,因为它不需要对输入进行减去均值的操作,从而减少了计算量和内存占用。
给定一个输入向量(x),RMSNorm的输出可以表示为:[ y = \frac{x}{\sqrt{\mathbb{E}[x^2] + \epsilon}} \cdot \gamma ]
这里:
( \mathbb{E}[x^2] ) 表示输入向量(x)各元素平方的平均值。
( \epsilon ) 是一个小的常数,用于防止分母为零的情况,保证数值稳定性。
( \gamma ) 是一个可学习的参数,用于缩放归一化后的结果。
SwiGLU,一种具有门控机制的激活函数,增强模型非线性表达 ...
周报 2025014~20250120transformers复现d_model = 512n_layers = 6n_heads = 8ff_hidden_dim = 2048
均使用贪心搜索。 原论文使用 beam=4, alpha=0.6 的束搜索原论文小模型bleu4分数为 28.4
lr
batch_size
epoch_cnt
final_loss
bleu4 score
description
0.000005
64
2
3.23
6
0.00005
64
2
1.95
23.7
0.00003
64
3
1.93
24.0
0.00001
64
4
2.08
21.5
0.0005
?
?
?
28.4
原论文
代码能力提升计划“良好的代码能力”究竟指什么不太懂,感觉在语境下指的是类似于项目能力的样子,能自行完成环境搭建和代码编写用来把积木搭出来。
环境搭建需要较强的信息检索能力,代码编写主要要求能理解代码运行逻辑(然后其实就可以写了吧……)。
可能的一些建议
针对有c以及python基础,面向对象语言基础的同学,如群里的“走肖木 ...
周报 20250107~20250113还在搞transformer使用已有的tokenizer进行数据预处理追踪向量形状多打注释。
multiheadattention 的输入与预期不同[seq_len, batch_size, d_model]
更改运算位置到GPU记得多打 .to(device)
有些mask是不需要的比如mem_mask
不合理的tgt设置导致出现模型偷看答案以及一开始没搞懂什么叫做 shift right
出现nan,尚未找到原因nan的原因是因为把attn_mask 的True和False写反了然后就出现模型极其容易梯度爆炸的问题,明天继续调……现在它能正常运行7个batch……然后梯度爆炸
下周计划在保持心态不爆炸的情况下搞定这个玩意
周报 20241231~20250106
啊?怎么一周过去了啊?怎么一年过去了
我做了啥DL学习方面 20241231~20250103目前在复现transformer阶段,很遗憾这周并没有很多时间搞这个。目前能够理解它的原理,但是代码实在不太(极其不)熟练,可能还需要一些时间调试并确保搞懂代码。主要困难来源于搞不懂torch中xx函数xx类构造方法参数之类的问题,以及一些愚蠢的手误。
回家跨了个年 20241231~20250101课程设计 20250102~20250107这周是数据结构课程设计时间,需要挺多时间用来写代码,本来是不需要很多的,但是我找了个好玩的题目,并且我的老师们热衷于看可视化,所以虽然算法部分只花了一天时间看论文,半天时间写代码,但花费了极其大量的时间学习可视化。过程中掌握了基础的networkx和manim两个可视化库的应用,制作了简单的图可视化以及3b1b同款视频来演示。感觉有点但不是非常浪费时间,一是这门课的分数大概还不错的,二是3b1b的视频风格真的很帅。
下周计划
明天(20240107)要被大巴拉出去认识实习并写个报告。
搞定transformer ...