nanogpt-experiments/find_unused_tokens.py

import numpy as np
import os
from collections import Counter
data_dir = "."
data = np.memmap(os.path.join(data_dir, 'train.bin'), dtype=np.uint16, mode='r')
datas = set(data)
counts = Counter(data)
vocab = set(range(50257))
unused = vocab - datas
unused = sorted(unused)
print(len(unused))
print(unused)
print(counts.most_common(100))
tests 2024-07-08 18:36:49 +00:00			`import numpy as np`
			`import os`
fix things 2024-07-23 09:56:47 +00:00			`from collections import Counter`
tests 2024-07-08 18:36:49 +00:00			`data_dir = "."`
			`data = np.memmap(os.path.join(data_dir, 'train.bin'), dtype=np.uint16, mode='r')`
			`datas = set(data)`
fix things 2024-07-23 09:56:47 +00:00			`counts = Counter(data)`
tests 2024-07-08 18:36:49 +00:00			`vocab = set(range(50257))`
			`unused = vocab - datas`
			`unused = sorted(unused)`
			`print(len(unused))`
fix things 2024-07-23 09:56:47 +00:00			`print(unused)`
			`print(counts.most_common(100))`