3. 注意力机制

news/发布时间2024/4/29 16:50:18

深度学习中的注意力机制(Attention Mechanism)是一种模仿人类视觉和认知系统的方法,它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。

最典型的注意力机制包括自注意力机制、空间注意力机制和时间注意力机制

1. 自注意力机制

具体而言,对于序列中的每个元素,自注意力机制计算其与其他元素之间的相似度,并将这些相似度归一化为注意力权重。然后,通过将每个元素与对应的注意力权重进行加权求和,可以得到自注意力机制的输出。

输入整个语句的向量到self-attention中,输出对应个数的向量,再将其结果输入到全连接网络,最后输出标签。以上过程可多次重复:

1.1 运行原理

使用\(\alpha\)表示每一个向量之间的关联程度,而也有许多方法产生,例如下图中的两个

上图左边的方法是最常用的,左乘矩阵再进行dot得到\(\alpha\),这也是transformer使用的方法

分别计算关联性可以得到\(\alpha\)

谁的分数更大,谁的v就更影响结果

1.2 总结

上述过程可总结为

  • 输入矩阵\(I\)分别乘以三个\(W\)得到三个矩阵 \(Q,K,V\)
  • $A=QK^\top $,经过处理得到注意力矩阵 \(A^{\prime}=softmax(\frac{QK^\top}{\sqrt{d_k}})\)
  • 输出\(O=A^{\prime}V\)

\[Attention(Q,K,V)=softmax(\frac{QK^\top}{\sqrt{d_k}})V \]

其中,\({\sqrt{d_k}}\) 为向量的长度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ulsteruni.cn/article/73617526.html

如若内容造成侵权/违法违规/事实不符,请联系编程大学网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

HTML学习记录(2)(HTML常用标签)

一,p与hr p段落可以将HTML文段分割为若干段落。段落常用<p>标签来定义,用align来定义段落的对齐方式实列 <p>我是第一个段落</p> <p>我是第二个段落</p> <p align="left">我在左边</p> <p align="center"&…

[分享] Silence - 专注于阅读的博客园主题

本篇效果即为本博客皮肤。 (食用前请先开通JS权限)博客皮肤:Custom 侧边公告: <script> window.$silence = {avatar: https://ts1.cn.mm.bing.net/th/id/R-C.bf673c3207334d32efe2fa24b3082dac?rik=YzLZMg%2fLizJrtQ&riu=http%3a%2f%2fimg.touxiangwu.com%2fupload…

Locust 断言的实现?

一、检查点的方式有哪些: 主要是python 内置的assert 断言(自动断言)还有locust 中的catch_response 断言(手动断言);那么这两者之间有什么区别呢? 其实主要区别在与生成locust 报告上面,手动断言失败,我们在locust上面可以清楚的看到报错信息,如果通过内置断言,即使…

Grafana添加下拉框变量

背景在做完通过process-exporter采集指定进程的资源使用情况后发现Grafana提供的监控图标是将所有机器的进程都存放在一起,不支持单独查看某台机器的进程情况,所以决定对Grafana图表进行修改。Grafana v10.3.1 步骤 步骤1:点击设置--->添加变量步骤2:设置变量变量类型、…

限流、熔断、降级

目录一、限流-熔断-降级介绍1.1 限流1.1.1 限流指标TPSHPSQPS1.1.12 限流方法流量计数器滑动时间窗口漏桶算法令牌桶算法1.2 熔断1.2.1 断路器的状态1.2.2 需要考虑的问题1.2.3 使用场景1.3 降级1.4 总结二、熔断限流技术选型2.1 Hystrix2.2 sentinel2.2.1 Sentinel历史2.2.2 S…

关于使用MAX31865的注意事项

在采购回的MAX31865模块需要自行焊接,包括插座和板子上的焊点。 参考MAX31865和PT100 PT1000的小白避坑攻略-CSDN博客 上面的避坑指南,对两线、三线、四线进行焊接说明。非常重要,否则读数不对,或者总是一个固定值。 两线: 三线:四线: 具体的Arduino代码可参考:MAX3186…