Autoresearch

AI agents autonomicznie prowadzące eksperymenty ML research na single-GPU. Projekt Andreja Karpathy’ego — dajesz agentowi setup treningowy LLM, a on modyfikuje kod, trenuje 5 minut, sprawdza wynik, zachowuje lub odrzuca zmianę i powtarza. Rano masz log eksperymentów i (hopefully) lepszy model.

“One day, frontier AI research used to be done by meat computers in between eating, sleeping, having other fun, and synchronizing once in a while using sound wave interconnect in the ritual of ‘group meeting’. That era is long gone.” — @karpathy, March 2026

Links

Description

GitHub: karpathy/autoresearch

Download or use

# Requirements: single NVIDIA GPU (tested H100), Python 3.10+, uv
curl -LsSf https://astral.sh/uv/install.sh | sh
uv sync
uv run prepare.py  # one-time data prep (~2 min)
uv run train.py    # single training experiment (~5 min)

Po weryfikacji setupu — autonomous mode:

# W repo, z Claude/Codex (disable all permissions):
Hi have a look at program.md and let's kick off a new experiment! let's do the setup first.

Reasoning for

Autonomiczne eksperymentowanie z architekturą i hyperparametrami modeli LLM. Agent AI (Claude/Codex) modyfikuje train.py, trenuje, porównuje wyniki i iteruje — ~12 eksperymentów/godzinę, ~100 przez noc.

Kluczowe design choices:

Single file to modify — agent edytuje tylko train.py, co ogranicza scope i ułatwia review
Fixed 5-minute time budget — eksperymenty są porównywalne niezależnie od zmian agenta; model optymalny dla Twojego hardware w danym budżecie czasu. Minus: wyniki nie porównywalne między platformami.
Self-contained — brak external dependencies poza PyTorch, jeden GPU, jeden plik, jedna metryka (val_bpb — bits per byte, lower = better, vocab-size-independent)

Struktura projektu:

prepare.py — data prep, runtime utilities (nie modyfikowane)
train.py — model, optimizer, training loop (edytowane przez agenta)
program.md — instrukcje dla agenta (edytowane przez człowieka) — lightweight “skill”

Nie programujesz Pythona — programujesz program.md markdown, który daje kontekst agentom AI i definiuje Twój autonomous research org.

Platform support & mniejszy compute

Oficjalnie wymaga single NVIDIA GPU. Na mniejszym hardware (MacBook itp.) — rekomendacje:

Dataset z mniej entropy — np. TinyStories (GPT-4 generated short stories)
Mniejszy vocab_size — z 8192 w dół do 4096/2048/1024 lub nawet byte-level (256)
Niższy MAX_SEQ_LEN — nawet 256, kompensując wyższym DEVICE_BATCH_SIZE
Niższy EVAL_TOKENS — mniej danych do walidacji
Niższy DEPTH — z 8 w dół do np. 4
WINDOW_PATTERN = “L” zamiast “SSSL” (alternating banded attention — nieefektywne na małym hardware)
Niższy TOTAL_BATCH_SIZE — powers of 2, np. 2**14 (~16K)

Alternatives considered

Tradycyjny manual ML research
Hyperparameter sweeps (grid/random search)
AutoML frameworks

Resources

GitHub: karpathy/autoresearch
Tweet z kontekstem
Drugi tweet
Dummy’s Guide — dobry intro dla nowych w neural networks
nanochat — parent repo z wider platform support
LLM Knowledge Bases — powiązany wątek Karpathy’ego o LLM-driven knowledge management

Template: tool

🪴 Brain

Explorer

Autoresearch

Autoresearch

Links

Description

Download or use

Reasoning for

Platform support & mniejszy compute

Alternatives considered

Resources

Graph View

Table of Contents

Backlinks