Fix GPT.crop_block_size when flash attention is available

2025-07-06 20:02:49 +00:00 · 2023-03-24 14:51:02 +03:00 · 2023-03-24 14:51:02 +03:00 · c3f254844d
commit c3f254844d
parent a82b33b525
1 changed files with 2 additions and 1 deletions
--- a/model.py
+++ b/model.py
@ -207,7 +207,8 @@ class GPT(nn.Module):
        self.config.block_size = block_size
        self.transformer.wpe.weight = nn.Parameter(self.transformer.wpe.weight[:block_size])
        for block in self.transformer.h:
-            block.attn.bias = block.attn.bias[:,:,:block_size,:block_size]
+            if hasattr(block.attn, 'bias'):
                block.attn.bias = block.attn.bias[:,:,:block_size,:block_size]
    @classmethod
    def from_pretrained(cls, model_type, override_args=None):