20250113周报

周报 20250107~20250113

还在搞transformer

使用已有的tokenizer进行数据预处理

追踪向量形状

多打注释。

multiheadattention 的输入与预期不同

[seq_len, batch_size, d_model]

更改运算位置到GPU

记得多打 .to(device)

有些mask是不需要的

比如mem_mask

不合理的tgt设置导致出现模型偷看答案

以及一开始没搞懂什么叫做 shift right

出现nan,尚未找到原因

nan的原因是因为把attn_mask 的True和False写反了
然后就出现模型极其容易梯度爆炸的问题,明天继续调……
现在它能正常运行7个batch……然后梯度爆炸

下周计划

在保持心态不爆炸的情况下搞定这个玩意