20250113周报

20250113周报
风铃夜行周报 20250107~20250113
还在搞transformer
使用已有的tokenizer进行数据预处理
追踪向量形状
多打注释。
multiheadattention 的输入与预期不同
[seq_len, batch_size, d_model]
更改运算位置到GPU
记得多打 .to(device)
有些mask是不需要的
比如mem_mask
不合理的tgt设置导致出现模型偷看答案
以及一开始没搞懂什么叫做 shift right
出现nan,尚未找到原因
nan的原因是因为把attn_mask 的True和False写反了
然后就出现模型极其容易梯度爆炸的问题,明天继续调……
现在它能正常运行7个batch……然后梯度爆炸
下周计划
在保持心态不爆炸的情况下搞定这个玩意