原创 weekly report

20250113周报

发表于2025-01-11更新于2025-10-24

字数总计:180阅读时长:1分钟阅读量: 上海

20250113周报

风铃夜行2025-01-112025-10-24

周报 20250107~20250113

还在搞transformer

使用已有的tokenizer进行数据预处理

追踪向量形状

多打注释。

multiheadattention 的输入与预期不同

[seq_len, batch_size, d_model]

更改运算位置到GPU

记得多打 .to(device)

有些mask是不需要的

比如mem_mask

不合理的tgt设置导致出现模型偷看答案

以及一开始没搞懂什么叫做 shift right

出现nan，尚未找到原因

nan的原因是因为把attn_mask 的True和False写反了
然后就出现模型极其容易梯度爆炸的问题，明天继续调……
现在它能正常运行7个batch……然后梯度爆炸

下周计划

在保持心态不爆炸的情况下搞定这个玩意

风铃夜行

念念不忘，必有回响

原创 20250113周报

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Fengling's Blog！

weekly report15

喜欢这篇文章的人也看了

博客快捷键

shift K

关闭快捷键功能

shift A

打开/关闭中控台

shift M

播放/暂停音乐

shift D

深色/浅色显示模式

shift S

站内搜索

shift R

随机访问

shift H

返回首页

shift F

友链鱼塘

shift L

友链页面

shift P

关于本站

shift I

原版/本站右键菜单