🗒️ Description

Problem: rozproszone Claude Projects, Obsidian notatki, ad-hoc czaty — zero orkiestracji, brak wersjonowania, brak testów, brak separacji kontekstów. To nie jest problem narzędzia, to problem architektury.

Skills 2.0 + Agent Skills standard + Git = system wieloagentowy, w którym każdy agent zna swoją rolę, ma swoje narzędzia i nie wchodzi drugiemu w paradę.

📈 Skills 1.0 → 2.0 Evolution

Ewolucja od promptów do modularnych, testowalnych agentów w 4 krokach:

Prompt — tekst ad-hoc w czat. Zero trwałości, zero struktury
CLAUDE.md rules — instrukcje w repo. Trwałe, ale monolityczne
Skills 1.0 — modularność, on-demand loading. Nieudokumentowane, “magic bootstrappy parts”
Skills 2.0 (marzec 2026) — pełna standaryzacja z evals, benchmarks, trigger tuning, dystrybucja

4 wymiary zmiany

Wymiar	Skills 1.0	Skills 2.0
Testing	Ręczne próby, zgadywanie	Automatyczne evals, benchmarks, blind A/B
Validation	Brak — kontekst niezweryfikowany	Deterministyczny, testowany kontekst
Triggering	Ręczna modyfikacja opisów	Zautomatyzowany trigger tuning
Taxonomy	Płaska, bez podziału	Capability uplift vs encoded preference

Problemy 1.0:

Zero testów — zgadywanie czy skill działa
Niezwalidowany kontekst + halucynacje = błędy systemowe
Context bleed — wyciek kontekstu między zadaniami

🤖 4-Agent Eval Pipeline

Skills 2.0 testuje skille za pomocą 4 izolowanych sub-agentów:

Executor — uruchamia skill w sterylnym środowisku, bez historii poprzednich rozmów
Grader — ocenia output na podstawie zdefiniowanych asercji, zwraca pass rate
Comparator — ślepe testy A/B między wersjami (nie wie, który wynik jest nowy, a który stary)
Analyzer — analizuje setki wyników, szuka ukrytych wzorców i anomalii w zużyciu tokenów

To inżynieria jakości na poziomie produkcyjnego oprogramowania, nie “sprawdź czy działa”.

📊 Skill Types

Formalna taksonomia z radykalnie różnym cyklem życia:

Capability Uplift

Uczy AI nowej umiejętności (frontend design, code review, analiza danych)
Podlega planowanej deprecjacji — gdy bazowy model staje się lepszy, skill traci rację bytu
Evals automatycznie to wykrywają: agent bez skilla osiąga te same wyniki → sygnał do deprecjacji
Przykład: skok z Sonnet 4.5 na Opus 4.6 = 190 punktów Elo różnicy (GDPval-AA)

Encoded Preference

Koduje Twój specyficzny workflow — format raportów, proces analizy, styl contentu
Trwałe, bo specyficzne dla Ciebie — nowy model nie zmieni tego, że chcesz raporty w konkretnym formacie
Deprecjacja tylko gdy Ty zmienisz swój proces

Pro tip: Zacznij od encoded preference. Twój workflow, Twoje formaty, Twoje procesy — to się nie zdezaktualizuje.

🛠️ Skill-Creator Plugin

Oficjalny plugin Anthropic — od luźnego opisu intencji do przetestowanego, zoptymalizowanego agenta:

Intent — opis co agent ma robić
Interview — skill-creator zadaje pytania o specyfikę workflow
Draft — generuje pierwszą wersję SKILL.md
Test — uruchomienie z realnymi danymi
Evaluate — evals mierzą jakość outputu
Iterate — poprawki na podstawie wyników
Package — gotowy skill do dystrybucji

Trzy wyróżniki:

Evals — automatyczna ocena jakości. Nie zgadujesz — wiesz
Benchmarks — pass rate, czas wykonania, zużycie tokenów. Porównywanie wersji
Trigger tuning — optymalizacja description (za szerokie = false positives, za wąskie = brak aktywacji)

Od opisu intencji do działającego agenta — 20 minut.

Agent Skills standard (agentskills.io) zapewnia przenośność i brak vendor lock-in. Progressive disclosure: description (1 linia, zawsze widoczna) → SKILL.md (pełne instrukcje, on-demand) → reference files (zasoby, per-operacja).

📊 Deployment — 8 agentów, 2 firmy, 3 repozytoria

Architektura dla dwóch firm (200IQ Labs / Qamera AI + PLSoft / JDG):

Repo	Zakres	Dostęp
`shared-skills`	Wspólne templates, utilities, standardy	Public (Apache 2.0)
`agentic-ai-system`	Skills 200IQ Labs — dane spółki, procesy, strategie	Private
`agentic-ai-private`	Skills PLSoft — coaching, LinkedIn, consulting	Private

shared-skills podpięte jako Git submodule w obu prywatnych repozytoriach.

8 agentów (4 aktywne):

✅ CFO — raporty finansowe, cash flow, budżetowanie
🔲 Tax Advisor — optymalizacja podatkowa
🔲 Legal — analiza umów, compliance
🔲 Marketing — strategie contentowe, kampanie
✅ Business Consultant — doradztwo strategiczne
🔲 Product Manager — roadmap qamera.ai
✅ Coach The Five — coaching metodologia The Five
✅ LinkedIn Content — generowanie postów

Separacja kontekstów przez fizyczną izolację w Git — agent CFO dla 200IQ Labs nie widzi treści PLSoft. Git daje wersjonowanie, code review, historię zmian — czego żaden Claude Project nie da.

📒 Podsumowanie

Skills 2.0 to przeskok od promptów do modularnych, testowalnych agentów — zmiana paradygmatu
4-agent eval pipeline zapewnia jakość na poziomie produkcyjnego software
Encoded preference > capability uplift dla specyficznych workflow
Git + skills = wersjonowanie i code review dla AI
Zacznij od jednego agenta, nie od pełnego systemu
Powiązane: Agentic Systems, Claude Code, Context Engineering

🔗 Zasoby

Agent Skills Standard — otwarty standard dla AI agentów
Skill Creator Plugin — oficjalne narzędzie Anthropic
shared-skills repo — open source multi-agent starter kit
Claude Code Skills docs — dokumentacja Skills 2.0

🪴 Brain

Explorer

Skills 2.0 Testing