meme rater model code (documentation "later")

2025-06-25 06:32:52 +00:00 · 2024-04-21 23:50:48 +01:00 · 2024-04-21 23:50:48 +01:00 · 58ce70bb5e
commit 58ce70bb5e
parent 0b0261f625
10 changed files with 572 additions and 5 deletions
--- a/meme-rater/active_learning.py
+++ b/meme-rater/active_learning.py
@ -0,0 +1,55 @@
+import torch.nn
+import torch.nn.functional as F
+import torch
+import sqlite3
+import random
+import numpy
+import json
+import time
+from tqdm import tqdm
+
+from model import Config, BradleyTerry
+import shared
+
+batch_size = 128
+num_pairs = batch_size * 1024
+device = "cuda"
+
+config = Config(
+    d_emb=1152,
+    n_hidden=1,
+    n_ensemble=16,
+    device=device,
+    dtype=torch.bfloat16,
+    dropout=0.5
+)
+model = BradleyTerry(config)
+modelc, _ = shared.checkpoint_for(2250)
+model.load_state_dict(torch.load(modelc))
+params = sum(p.numel() for p in model.parameters())
+print(f"{params/1e6:.1f}M parameters")
+print(model)
+
+files = shared.fetch_all_files()
+variance = {}
+
+pairs = []
+for _ in range(num_pairs):
+    pairs.append(tuple(random.sample(files, 2)))
+
+model.eval()
+with torch.inference_mode():
+    for bstart in tqdm(range(0, len(pairs), batch_size)):
+        batch = pairs[bstart:bstart + batch_size]
+        filenames = [ (f1, f2) for ((f1, e1), (f2, e2)) in batch ]
+        embs = torch.stack([ torch.stack((torch.Tensor(e1).to(config.dtype), torch.Tensor(e2).to(config.dtype))) for ((f1, e1), (f2, e2)) in batch ])
+        inputs = embs.unsqueeze(0).expand((config.n_ensemble, batch_size, 2, config.d_emb)).to(device)
+        win_probs = model(inputs)
+        #print(win_probs.shape)
+        batchvar = torch.var(win_probs, dim=0)
+        for filename, var in zip(filenames, batchvar):
+            variance[filename] = float(var)
+
+top = sorted(variance.items(), key=lambda x: -x[1])
+with open("top.json", "w") as f:
+    json.dump(top[:256], f)
--- a/meme-rater/al2.py
+++ b/meme-rater/al2.py
@ -0,0 +1,76 @@
+import torch.nn
+import torch.nn.functional as F
+import torch
+import sqlite3
+import random
+import numpy
+import json
+import time
+from tqdm import tqdm
+from torch.func import functional_call, vmap, grad
+
+from model import Config, BradleyTerry
+import shared
+
+steps = 855
+batch_size = 128
+num_pairs = batch_size * 1024
+device = "cuda"
+
+config = Config(
+    d_emb=1152,
+    n_hidden=1,
+    n_ensemble=1,
+    device=device,
+    dtype=torch.bfloat16
+)
+model = BradleyTerry(config)
+modelc, _ = shared.checkpoint_for(855)
+model.load_state_dict(torch.load(modelc))
+params = sum(p.numel() for p in model.parameters())
+print(f"{params/1e6:.1f}M parameters")
+print(model)
+
+files = shared.fetch_all_files()
+importance = {}
+
+params = {k: v.detach() for k, v in model.named_parameters()}
+buffers = {k: v.detach() for k, v in model.named_buffers()}
+
+# https://pytorch.org/tutorials/intermediate/per_sample_grads.html
+def compute_loss(params, buffers, sample, target):
+    batch = sample.unsqueeze(0)
+    targets = target.unsqueeze(0)
+
+    predictions = functional_call(model, (params, buffers), (batch,))
+    loss = F.binary_cross_entropy(predictions, targets)
+    return loss
+
+ft_compute_grad = grad(compute_loss)
+ft_compute_sample_grad = vmap(ft_compute_grad, in_dims=(None, None, 1, 1))
+
+pairs = []
+for _ in range(num_pairs):
+    pairs.append(tuple(random.sample(files, 2)))
+
+for bstart in tqdm(range(0, len(pairs), batch_size)):
+    batch = pairs[bstart:bstart + batch_size]
+    filenames = [ (f1, f2) for ((f1, e1), (f2, e2)) in batch ]
+    embs = torch.stack([ torch.stack((torch.Tensor(e1).to(config.dtype), torch.Tensor(e2).to(config.dtype))) for ((f1, e1), (f2, e2)) in batch ])
+    inputs = embs.unsqueeze(0).expand((config.n_ensemble, batch_size, 2, config.d_emb)).to(device)
+    #win_probs = model(inputs)
+    # TODO gradients
+    # don't take variance: do backwards pass and compute gradient norm
+    grads = ft_compute_sample_grad(params, buffers, inputs, torch.full((1, batch_size), 0.95).to(device))
+    total_grad_norms = torch.zeros(batch_size).to(device)
+    for k, v in grads.items():
+        param_dims = tuple(range(1, len(v.shape)))
+        total_grad_norms += torch.linalg.vector_norm(v, dim=param_dims)
+    tgn = total_grad_norms.cpu().numpy()
+
+    for filename, tg in zip(filenames, tgn):
+        importance[filename] = float(tg)
+
+top = sorted(importance.items(), key=lambda x: -x[1])
+with open("top.json", "w") as f:
+    json.dump(top[:256], f)
--- a/meme-rater/copy_into_queue.py
+++ b/meme-rater/copy_into_queue.py
@ -0,0 +1,14 @@
+import sqlite3
+import json
+import sys
+
+iteration = sys.argv[1]
+
+db = sqlite3.connect("data.sqlite3")
+db.row_factory = sqlite3.Row
+
+with open("top.json", "r") as f:
+    listing = json.load(f)
+
+db.executemany("INSERT INTO queue VALUES (?, ?, ?)", [ (x[0], x[1], iteration) for x, v in listing ])
+db.commit()
--- a/meme-rater/eval.py
+++ b/meme-rater/eval.py
@ -0,0 +1,86 @@
+import torch.nn
+import torch.nn.functional as F
+import torch
+import sqlite3
+import random
+import numpy
+import json
+import time
+from tqdm import tqdm
+import torch
+
+from model import Config, BradleyTerry
+import shared
+
+batch_size = 128
+device = "cuda"
+
+config = Config(
+    d_emb=1152,
+    n_hidden=1,
+    n_ensemble=16,
+    device=device,
+    dtype=torch.float32,
+    dropout=0.1
+)
+model = BradleyTerry(config).float()
+modelc, _ = shared.checkpoint_for(1500)
+model.load_state_dict(torch.load(modelc))
+params = sum(p.numel() for p in model.parameters())
+print(f"{params/1e6:.1f}M parameters")
+print(model)
+
+files = shared.fetch_all_files()
+ratings = {}
+
+model.eval()
+with torch.inference_mode():
+    for bstart in tqdm(range(0, len(files), batch_size)):
+        batch = files[bstart:bstart + batch_size]
+        filenames = [ filename for filename, embedding in batch ]
+        embs = torch.stack([ torch.Tensor(embedding) for filename, embedding in batch ])
+        inputs = embs.unsqueeze(0).expand((config.n_ensemble, len(batch), config.d_emb)).to(device)
+        scores = model.ensemble(inputs).float()
+        mscores = torch.median(scores, dim=0).values
+        for filename, mscore in zip(filenames, mscores):
+            ratings[filename] = float(mscore)
+
+ratings = sorted(ratings.items(), key=lambda x: x[1])
+
+def percentile(p, n):
+    base = round(p * len(ratings))
+    return ratings[base:base + n]
+
+N = 25
+def render_memeset(p):
+    filenames = percentile(p, N)
+    return f"""
+<div>
+    <details><summary>Reveal Memeset</summary>{p}</details>
+    {''.join(f'<div><img src="{"images/" + f}" width="30%"><br><input type=checkbox id="{"col-" + str(p) + "-" + str(i)}"></div>' for i, (f, s) in enumerate(filenames))}
+</div>
+"""
+
+buf = """<!DOCTYPE html>"""
+probs = [0.01, 0.02, 0.05, 0.1, 0.25, 0.5, 0.75, 0.95, 0.98, 0.99]
+random.shuffle(probs)
+for p in probs:
+#for p in [0.3]:
+    buf += render_memeset(p)
+
+buf += """
+<script>
+    const computeCounts = () => {
+        const counts = {}
+        for (const x of document.querySelectorAll("input[type=checkbox]")) {
+            const [_, percentile, index] = x.getAttribute("id").split("-")
+            counts[percentile] ??= 0
+            if (x.checked) counts[percentile] += 1
+        }
+        console.log(counts)
+    }
+</script>
+"""
+
+with open("eval.html", "w") as f:
+    f.write(buf)
--- a/meme-rater/final_eval_results.py
+++ b/meme-rater/final_eval_results.py
@ -0,0 +1,33 @@
+import matplotlib.pyplot as plt
+import json
+
+# Data as a JSON string
+data_json = '{"0.95":22,"0.75":21,"0.5":15,"0.98":23,"0.25":3,"0.05":0,"0.99":24,"0.1":2,"0.01":0,"0.02":0}'
+
+# Parse the JSON string into a dictionary
+data = json.loads(data_json)
+
+# Extract the keys and values from the dictionary
+keys = list(data.keys())
+values = list(data.values())
+
+# Convert the keys to floats
+keys = [float(key) for key in keys]
+
+# Sort the keys and values based on the keys
+sorted_data = sorted(zip(keys, values))
+keys, values = zip(*sorted_data)
+
+plt.plot(keys, values)
+
+# Set the x-axis tick labels
+plt.xticks(keys, rotation=45)
+
+# Add labels and title
+plt.xlabel('Percentile')
+plt.ylabel('Memes Kept')
+plt.title('Final Model Evaluation')
+
+# Display the plot
+plt.tight_layout()
+plt.show()
--- a/meme-rater/model.py
+++ b/meme-rater/model.py
@ -0,0 +1,52 @@
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from dataclasses import dataclass
+from functools import partial
+import math
+
+@dataclass
+class Config:
+    d_emb: int
+    n_hidden: int
+    n_ensemble: int
+    device: str
+    dtype: torch.dtype
+    dropout: float
+
+class Model(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.hidden = nn.ModuleList([ nn.Linear(config.d_emb, config.d_emb, dtype=config.dtype, device=config.device) for _ in range(config.n_hidden) ])
+        self.dropout = nn.ModuleList([ nn.Dropout(p=config.dropout) for _ in range(config.n_hidden) ])
+        self.output = nn.Linear(config.d_emb, 1, dtype=config.dtype, device=config.device)
+
+    def forward(self, embs):
+        x = embs
+        for (layer, dropout) in zip(self.hidden, self.dropout):
+            x = F.silu(layer(dropout(x)))
+        return self.output(x)
+
+class Ensemble(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.models = nn.ModuleList([ Model(config) for i in range(config.n_ensemble) ])
+
+    # model batch
+    def forward(self, embs):
+        xs = torch.stack([ x(embs[i]) for i, x in enumerate(self.models) ]) # model batch output_dim=1
+        return xs.squeeze(-1)
+
+class BradleyTerry(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.ensemble = Ensemble(config)
+
+    def forward(self, embs): # model batch input=2 d_emb
+        scores1 = self.ensemble(embs[:, :, 0]).float() # model batch
+        scores2 = self.ensemble(embs[:, :, 1]).float()
+        # win probabilities
+        #print(scores1, scores2)
+        probs = torch.sigmoid(scores1 - scores2) # model batch
+        #print(probs)
+        return probs
--- a/meme-rater/rater_server.py
+++ b/meme-rater/rater_server.py
@ -11,15 +11,22 @@ routes = web.RouteTableDef()

 async def get_pair(db):
    while True:
-        filenames = [ x[0] for x in await db.execute_fetchall("SELECT filename FROM files", ()) ]
-        m1, m2 = tuple(sorted(random.sample(filenames, 2)))
+        csr = await db.execute("SELECT * FROM queue")
+        row = await csr.fetchone()
+        await csr.close()
+        iteration = None
+        if row:
+            m1, m2, iteration = row
+        else:
+            filenames = [ x[0] for x in await db.execute_fetchall("SELECT filename FROM files", ()) ]
+            m1, m2 = tuple(sorted(random.sample(filenames, 2)))
        csr = await db.execute("SELECT 1 FROM ratings WHERE meme1 = ? AND meme2 = ?", (m1, m2))
        if not await csr.fetchone():
-            return m1, m2
+            return m1, m2, iteration

@routes.get("/")
 async def index(request):
-    meme1, meme2 = await get_pair(request.app["db"])
+    meme1, meme2, iteration = await get_pair(request.app["db"])
    return web.Response(text=f"""
 <!DOCTYPE html>
 <html>
@ -46,6 +53,7 @@ async def index(request):

            <input type="hidden" name="meme1" value="{meme1}">
            <input type="hidden" name="meme2" value="{meme2}">
+            <input type="hidden" name="iteration" value="{str(iteration or 0)}">
            <input type="submit" value="Submit">
            <div class="memes">
                <img src="/memes/{meme1}" id="meme1">
@ -81,8 +89,10 @@ async def rate(request):
    post = await request.post()
    meme1 = post["meme1"]
    meme2 = post["meme2"]
+    iteration = post["iteration"]
    rating = post["rating"]
-    await db.execute("INSERT INTO ratings (meme1, meme2, rating) VALUES (?, ?, ?)", (meme1, meme2, rating))
+    await db.execute("INSERT INTO ratings (meme1, meme2, rating, iteration) VALUES (?, ?, ?, ?)", (meme1, meme2, rating, iteration))
+    await db.execute("DELETE FROM queue WHERE meme1 = ? AND meme2 = ?", (meme1, meme2))
    await db.commit()
    return web.HTTPFound("/")

@ -93,8 +103,15 @@ CREATE TABLE IF NOT EXISTS ratings (
    meme1 TEXT NOT NULL,
    meme2 TEXT NOT NULL,
    rating TEXT NOT NULL,
+    iteration TEXT,
    UNIQUE (meme1, meme2)
 );
+CREATE TABLE IF NOT EXISTS queue (
+    meme1 TEXT NOT NULL,
+    meme2 TEXT NOT NULL,
+    iteration TEXT NOT NULL,
+    UNIQUE (meme1, meme2, iteration)
+);
 """)
    app.router.add_routes(routes)
    app.router.add_static("/memes/", "./images")
--- a/meme-rater/run_graph.py
+++ b/meme-rater/run_graph.py
@ -0,0 +1,52 @@
+# claude-3
+
+import json
+import matplotlib.pyplot as plt
+
+# Read data from log.jsonl
+data = []
+with open('log.jsonl', 'r') as file:
+    for line in file:
+        data.append(json.loads(line))
+
+# Extract steps, loss, and val_loss
+steps = [entry['step'] for entry in data if "loss" in entry]
+loss = [entry['loss'] for entry in data if "loss" in entry]
+val_loss_data = [entry['val_loss'] for entry in data if 'val_loss' in entry]
+val_steps = [entry['step'] for entry in data if 'val_loss' in entry]
+
+# Extract individual validation loss series
+val_loss_series = {}
+for val_loss in val_loss_data:
+    for key, value in val_loss.items():
+        if key not in val_loss_series:
+            val_loss_series[key] = []
+        val_loss_series[key].append(value)
+
+# Calculate rolling average for loss
+window_size = 50
+rolling_avg = [sum(loss[i:i+window_size])/window_size for i in range(len(loss)-window_size+1)]
+rolling_steps = steps[window_size-1:]
+
+# Calculate rolling averages for validation loss series
+val_rolling_avgs = {}
+for key, series in val_loss_series.items():
+    val_rolling_avgs[key] = [sum(series[i:i+window_size])/window_size for i in range(len(series)-window_size+1)]
+
+print([(name, min(series)) for name, series in val_loss_series.items()])
+
+# Create the plot
+plt.figure(figsize=(10, 6))
+#plt.plot(steps, loss, label='Loss')
+plt.plot(rolling_steps, rolling_avg, label='Rolling Average (Loss)')
+
+for key, series in val_loss_series.items():
+    #plt.plot(val_steps, series, marker='o', linestyle='', label=f'Validation Loss ({key})')
+    plt.plot(val_steps[window_size-1:], val_rolling_avgs[key], label=f'Rolling Average (Validation Loss {key})')
+
+plt.xlabel('Steps')
+plt.ylabel('Loss')
+plt.title('Loss and Validation Loss vs. Steps')
+plt.legend()
+plt.grid(True)
+plt.show()
--- a/meme-rater/shared.py
+++ b/meme-rater/shared.py
@ -0,0 +1,53 @@
+import sqlite3
+import hashlib
+from collections import defaultdict
+import numpy
+import random
+
+db = sqlite3.connect("data.sqlite3")
+db.row_factory = sqlite3.Row
+
+val_fraction = 0.2
+def is_val_set(meme1, meme2):
+    def is_one_val(meme):
+        return hashlib.sha256(meme.encode("utf-8")).digest()[0] / 255 < (val_fraction / 2) # not strictly correct but good enough
+    return is_one_val(meme1) or is_one_val(meme2)
+
+def fetch_embedding(filename):
+    csr = db.execute("SELECT embedding_vector FROM files WHERE filename = ?", (filename,))
+    x = numpy.frombuffer(csr.fetchone()[0], dtype="float16")
+    csr.close()
+    return x.copy() # PyTorch complains otherwise due to bad
+
+def map_rating(rating, uncertainty=0.05):
+    match rating:
+        case "1": # meme 1 is better
+            return 1 - uncertainty
+        case "2":
+            return uncertainty
+        case _: raise ValueError("invalid rating, please fix")
+
+def fetch_ratings():
+    trains = defaultdict(list)
+    validations = defaultdict(list)
+    csr = db.execute("SELECT meme1, meme2, rating, iteration FROM ratings")
+    for meme1, meme2, rating, iteration in csr.fetchall():
+        (validations if is_val_set(meme1, meme2) else trains)[int(iteration or "0")].append((fetch_embedding(meme1), fetch_embedding(meme2), map_rating(rating)))
+    csr.close()
+    return list(x[1] for x in sorted(trains.items())), list(x[1] for x in sorted(validations.items()))
+
+def generate_random_permutations(x, n):
+    out = []
+    for _ in range(n):
+        random.shuffle(x)
+        out.append(x.copy())
+    return out
+
+def fetch_all_files():
+    csr = db.execute("SELECT filename, embedding_vector FROM files")
+    x = [ (row[0], numpy.frombuffer(row[1], dtype="float16").copy()) for row in csr.fetchall() ]
+    csr.close()
+    return x
+
+def checkpoint_for(steps):
+    return f"./ckpt/model-{steps}.pt", f"./ckpt/optim-{steps}.pt"
--- a/meme-rater/train.py
+++ b/meme-rater/train.py
@ -0,0 +1,129 @@
+import torch.nn
+import torch.nn.functional as F
+import torch
+import sqlite3
+import random
+import numpy
+import json
+import time
+from tqdm import tqdm
+import math
+from dataclasses import dataclass, asdict
+
+from model import Config as ModelConfig, BradleyTerry
+import shared
+
+trains, validations = shared.fetch_ratings()
+for train, validation in zip(trains, validations):
+    print(len(train), len(validation))
+
+device = "cuda"
+
+@dataclass
+class TrainConfig:
+    model: ModelConfig
+    lr: float
+    weight_decay: float
+    batch_size: int
+    epochs: int
+    compile: bool
+    data_grouped_by_iter: bool
+
+config = TrainConfig(
+    model=ModelConfig(
+        d_emb=1152,
+        n_hidden=1,
+        n_ensemble=16,
+        device=device,
+        dtype=torch.float32,
+        dropout=0.1
+    ),
+    lr=3e-4,
+    weight_decay=0.2,
+    batch_size=1,
+    epochs=5,
+    compile=False,
+    data_grouped_by_iter=False
+)
+
+def exprange(min, max, n):
+    lmin, lmax = math.log(min), math.log(max)
+    step = (lmax - lmin) / (n - 1)
+    return (math.exp(lmin + step * i) for i in range(n))
+
+model = BradleyTerry(config.model)
+params = sum(p.numel() for p in model.parameters())
+print(f"{params/1e6:.1f}M parameters")
+print(model)
+
+optimizer = torch.optim.AdamW(model.parameters(), lr=config.lr, weight_decay=config.weight_decay)
+
+def train_step(model, batch, real):
+    optimizer.zero_grad()
+    # model batch
+    win_probabilities = model(batch).float()
+    loss = F.binary_cross_entropy(win_probabilities, real)
+    loss.backward()
+    optimizer.step()
+    loss = loss.detach().cpu().item()
+    return loss
+
+if config.compile:
+    print("compiling...")
+    train_step = torch.compile(train_step)
+
+def batch_from_inputs(inputs: list[tuple[numpy.ndarray, numpy.ndarray, float]]):
+    batch_input = torch.stack([
+        torch.stack([ torch.stack((torch.Tensor(emb1).to(config.model.dtype), torch.Tensor(emb2).to(config.model.dtype))) for emb1, emb2, rating in input ])
+        for input in inputs
+    ]).to(device)
+    target = torch.stack([ torch.Tensor([ rating for emb1, emb2, rating in input ]) for input in inputs ]).to(device)
+    return batch_input, target
+
+def evaluate(steps):
+    print("evaluating...")
+    model.eval()
+    results = {"step": steps, "time": time.time(), "val_loss": {}}
+    for vset, validation in enumerate(validations):
+        with torch.no_grad():
+            batch_input, target = batch_from_inputs([ validation[:128] for _ in range(config.model.n_ensemble) ])
+            result = model(batch_input).float()
+            val_loss = F.binary_cross_entropy(result, target).detach().cpu().item()
+            model.train()
+            results["val_loss"][vset] = val_loss
+    log.write(json.dumps(results) + "\n")
+
+def save_ckpt(log, steps):
+    print("saving...")
+    modelc, optimc = shared.checkpoint_for(steps)
+    torch.save(optimizer.state_dict(), optimc)
+    torch.save(model.state_dict(), modelc)
+
+class JSONEncoder(json.JSONEncoder):
+    def default(self, o):
+        if isinstance(o, torch.dtype):
+            return str(o)
+        else: return super().default(o)
+
+logfile = f"logs/log-{time.time()}.jsonl"
+with open(logfile, "w") as log:
+    steps = 0
+    log.write(JSONEncoder().encode(asdict(config)) + "\n")
+    for epoch in range(config.epochs):
+        for train in (trains if config.data_grouped_by_iter else [[ sample for trainss in trains for sample in trainss ]]):
+            data_orders = shared.generate_random_permutations(train, config.model.n_ensemble)
+            for bstart in range(0, len(train), config.batch_size):
+                batch_input, target = batch_from_inputs([ order[bstart:bstart + config.batch_size] for order in data_orders ])
+                loss = train_step(model, batch_input, target)
+                print(steps, loss)
+                log.write(json.dumps({"loss": loss, "step": steps, "time": time.time()}) + "\n")
+                if steps % 10 == 0:
+                    if steps % 250 == 0: save_ckpt(log, steps)
+                    loss = evaluate(steps)
+                    #print(loss)
+                    #best = min(loss, best)
+                steps += 1
+
+        save_ckpt(log, steps)
+
+print(logfile)