Autoresearch
AI agents autonomicznie prowadzące eksperymenty ML research na single-GPU. Projekt Andreja Karpathy’ego — dajesz agentowi setup treningowy LLM, a on modyfikuje kod, trenuje 5 minut, sprawdza wynik, zachowuje lub odrzuca zmianę i powtarza. Rano masz log eksperymentów i (hopefully) lepszy model.
“One day, frontier AI research used to be done by meat computers in between eating, sleeping, having other fun, and synchronizing once in a while using sound wave interconnect in the ritual of ‘group meeting’. That era is long gone.” — @karpathy, March 2026
Links
Description
Download or use
# Requirements: single NVIDIA GPU (tested H100), Python 3.10+, uv
curl -LsSf https://astral.sh/uv/install.sh | sh
uv sync
uv run prepare.py # one-time data prep (~2 min)
uv run train.py # single training experiment (~5 min)Po weryfikacji setupu — autonomous mode:
# W repo, z Claude/Codex (disable all permissions):
Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.
Reasoning for
Autonomiczne eksperymentowanie z architekturą i hyperparametrami modeli LLM. Agent AI (Claude/Codex) modyfikuje train.py, trenuje, porównuje wyniki i iteruje — ~12 eksperymentów/godzinę, ~100 przez noc.
Kluczowe design choices:
- Single file to modify — agent edytuje tylko
train.py, co ogranicza scope i ułatwia review - Fixed 5-minute time budget — eksperymenty są porównywalne niezależnie od zmian agenta; model optymalny dla Twojego hardware w danym budżecie czasu. Minus: wyniki nie porównywalne między platformami.
- Self-contained — brak external dependencies poza PyTorch, jeden GPU, jeden plik, jedna metryka (val_bpb — bits per byte, lower = better, vocab-size-independent)
Struktura projektu:
prepare.py— data prep, runtime utilities (nie modyfikowane)train.py— model, optimizer, training loop (edytowane przez agenta)program.md— instrukcje dla agenta (edytowane przez człowieka) — lightweight “skill”
Nie programujesz Pythona — programujesz program.md markdown, który daje kontekst agentom AI i definiuje Twój autonomous research org.
Platform support & mniejszy compute
Oficjalnie wymaga single NVIDIA GPU. Na mniejszym hardware (MacBook itp.) — rekomendacje:
- Dataset z mniej entropy — np. TinyStories (GPT-4 generated short stories)
- Mniejszy
vocab_size— z 8192 w dół do 4096/2048/1024 lub nawet byte-level (256) - Niższy
MAX_SEQ_LEN— nawet 256, kompensując wyższymDEVICE_BATCH_SIZE - Niższy
EVAL_TOKENS— mniej danych do walidacji - Niższy
DEPTH— z 8 w dół do np. 4 WINDOW_PATTERN= “L” zamiast “SSSL” (alternating banded attention — nieefektywne na małym hardware)- Niższy
TOTAL_BATCH_SIZE— powers of 2, np.2**14(~16K)
Alternatives considered
- Tradycyjny manual ML research
- Hyperparameter sweeps (grid/random search)
- AutoML frameworks
Resources
- GitHub: karpathy/autoresearch
- Tweet z kontekstem
- Drugi tweet
- Dummy’s Guide — dobry intro dla nowych w neural networks
- nanochat — parent repo z wider platform support
- LLM Knowledge Bases — powiązany wątek Karpathy’ego o LLM-driven knowledge management
Template: tool