Merge pull request #106 from YassineYousfi/master

use the ``enabled`` arg in GradScaler
2025-07-05 11:22:49 +00:00 · 2023-02-02 17:23:22 -08:00 · 2023-02-02 17:23:22 -08:00 · 7d44bdf6b5
commit 7d44bdf6b5
parent 1e87509e47 40f4d6ff70
1 changed files with 7 additions and 13 deletions
--- a/train.py
+++ b/train.py
@ -173,11 +173,8 @@ if block_size < model.config.block_size:
    model.crop_block_size(block_size)
 model.to(device)
-# initialize a GradScaler if data type is float16
+# initialize a GradScaler. If enabled=False scaler is a no-op
-scaler = None
+scaler = torch.cuda.amp.GradScaler(enabled=(dtype == 'float16'))
 if dtype == 'float16':
    print(f"Initializing Gradient Scaler to account for dtype: {dtype}")
    scaler = torch.cuda.amp.GradScaler()
 # optimizer
 optimizer = model.configure_optimizers(weight_decay, learning_rate, (beta1, beta2))
@ -283,17 +280,14 @@ while True:
        with ctx:
            logits, loss = model(X, Y)
        # backward pass, with gradient scaling if training in fp16
-        scaler.scale(loss).backward() if scaler else loss.backward()
+        scaler.scale(loss).backward()
    # clip the gradient
    if grad_clip != 0.0:
-        scaler.unscale_(optimizer) if scaler else None
+        scaler.unscale_(optimizer)
        torch.nn.utils.clip_grad_norm_(model.parameters(), grad_clip)
-    # step the optimizer
+    # step the optimizer and scaler if training in fp16
    if scaler:
    scaler.step(optimizer)
    scaler.update()
    else:
        optimizer.step()
    # flush the gradients as soon as we can, no need for this memory anymore
    optimizer.zero_grad(set_to_none=True)