[](https://img-blog.csdnimg.cn/0d76558fb44c441d9bbfb63776bc1cbe.png#pic_center) 除此之外,Mengzi模型在预训练阶段还使用了梯度动态矫正;在微调阶段使用了知识蒸馏、迁移学习、选择平滑、对抗训练、数据增强等策略。其中知识蒸馏的本质是训练教师模型,并通过教师模型来指导学生模型的训练;选择平滑指的是结合不同类型的损失函数从而达到更好的效果。举例来说,同时结合使用交叉熵和二元交叉熵作为损失函数,从而使得模型学...
[picture.image](https://p3-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/5a0bcda3e0e34f6d8a1ee6f61d6f7fe2~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716222048&x-signature=ExfDnqAdA... https://blog.csdn.net/abcdefg90876/article/details/128246212 --- **往期回顾** [1. 一口气看完43个关于 ElasticSearch 的使用建议|得物技术](http://m...
(https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/f6361eb1b5d341b89bcd9f0e7b4664d4~tplv-k3u1fbpfcp-5.jpeg?)第三步需要 **激活环境**```pythonconda activate tensorflow```第四步进行**安装tensor... (https://img-blog.csdnimg.cn/151f7a1ac3844566b09099a0eb78ef37.gif#pic_center)**本文在掘金网站的链接:[https://juejin.cn/post/7178744238002634811](url)**
(https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/7e29822bfbcd4109adabf752d8d83a67~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1716222066&x-signature=R4hPu8gpZAbc9880HfFXE5%2BgUdY%3D)> 若上图模型训练的目标是根据单词 $w_i$ 的==上下文==去正确预测单词 $w_{i}$ , $w_i$ 之前的单词序列 Context-before 称为上文,之后的单词序列 Context-after 称为下文。从图中可以看出,ELMO模型使用...