当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 人气:发表时间:2025-06-25 07:55:11
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 核武器真的有宣传中那么牛逼吗?
- 800V是什么技术,为什么特斯拉不跟进?
- 为什么现在的人对华为意见这么大?
- 周星驰为什么还不出新电影,是沒钱拍了还是钱已赚够了?
- 如何评价字节跳动开源的 Netpoll?
- 为什么中国人做一顿饭要几个小时,而国外花的时间少得多?
- 为什么开发一个 AI Agent 看似容易,但真正让它「好用」却如此困难?技术瓶颈主要在哪里?
- 全国各地现理发店倒闭潮,没有电商冲击,理发店为什么自己能干黄?
- 做个web服务器,gin框架和go-zero怎么选?
- 冬天也要穿胸罩吗?
最新资讯文章
- ***拍大尺度片子时摄影师不会看光吗?
- 大家在做登录功能时,一般怎么做暴力破解防护?
- 如何看待《崩坏:星穹铁道》「翁法罗斯英雄纪」『海瑟音』立绘?
- 中国有没有不作恶的输入法?
- 老公每晚都想要怎么办?
- B站的众多教做饭和烹饪的厨师up主的资历与实力应如何排序?
- ***机关工作人员如何申请Windows电脑?
- 我们为什么需要 React?
- 为什么开发一个 AI Agent 看似容易,但真正让它「好用」却如此困难?技术瓶颈主要在哪里?
- 有哪些关于linux的搞笑图片?
- 和女生旅游开一间房有什么注意事项?
- 个人做量化,买不起专业数据库,如何获取 L2数据?
- 眼睛有飞蚊症可以自愈吗?
- 有没有免费的云服务器?
- 如果让你重来一次,你还会嫁给你老公吗?
- 中国发动机是技术落后,还是材料技术没有攻克?
- 中医的神奇之处在于哪里?
- Cloudflare是一家什么样的公司?
- 活在底层的人是什么样子?
- 越南的国食Pho(河粉)为什么在中国只能失败?





