主流的框架是RNN和LSTM,但这些框架都有一个共同的缺陷,就是程序难以并行化。举个例子,我们期望用RNN来进行语言的翻译任务,即输入`I Love China`,输出`我爱中国`。对于RNN来说,要是现在我们要输出`中国`,就必须先输... (https://p6-volc-community-sign.byteimg.com/tos-cn-i-tlddhu82om/56df8e1650674e198f1acc5377af3da0~tplv-tlddhu82om-image.image?=&rk3s=8031ce6d&x-expires=1714580485&x-signature=nNpEq4kGIFb6SVb55rmPsBss...