Sequence-to-sequence モデル

Encoder-decoderモデル（sequence-to-sequence modelsとも呼ばれる）はTransformerアーキテクチャのエンコーダーとデコーダーの両方を使用します。それぞれのステージにおいて、エンコーダーのアテンション層は入力文のすべての単語にアクセスできるのに対して、デコーダーのアテンション層は入力中のある単語の前に位置する単語にのみアクセスできます。

これらのモデルの事前学習は、エンコーダー、またはデコーダーの学習と同じように行われますが、通常はより複雑な方法を含みます。例えば、T5 は、特殊な単語で文中のスパン（複数の単語を含むことができる）をランダムにマスクしたときに、そのマスクされた文を予測する事を目的として事前学習されています。

Sequence-to-sequenceモデルは、要約、翻訳、質問応答生成などのように、与えられた入力文に対して新しい文を生成するタスクにとても適しています。

これらの系統のモデルの代表は次のとおりです:

Update on GitHub

LLM Course

Sequence-to-sequence モデル