Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- Python
- 클로드
- opentelemetry
- Java Script # == # === # difference # 차이
- html
- 입출력
- graphrag
- a=1
- 조건문 큰 수부터 입력받아야하는 이유
- Napkin AI
- handoffs
- 파이썬
- OpenAI Agents SDK
- 컨텍스트 엔지니어링
- del()
- 조지 불
- 바이브코딩
- 그룹 # 그룹 해체 # 단축키 #figma #Figma
- 리스트와 차이점
- 변수
- 자율성 슬라이더
- 비모수적 학습
- 변할 수 있는
- 모수적 학습
- 변수와 입출력
- 정보를 담을 수 있는 그릇
- null # undefined
- Ollama
- Dynamic GraphRAG
- 성적 입력받기
Archives
- Today
- Total
I about me
[AI 에이전트 엔지니어링] Ch7. 에이전틱 시스템의 학습 본문
학습 방식의 스펙트럼
1. 비모수적 학습
: 빠르고, 단순, 환경 적응↑ ⇒ finetuning x
주요기법
(1) 예시 학습 (Exemplar Learning)
- few shot prompt
- 입력 → 메모리 (+ 예시 1, 예시 2, ...) → 출력 → 피드백(+ 80점, 90점, 70점)
(2) 리플렉시온 (Reflexion): 자기 비판
- 결과 ↗ 성공 ↘ 메모리 → 성찰 프롬프트 → 성찰 생성 → 메모리 업데이트 → 성찰 주입
↘ 실패 ↗
(3) 경험 학습 (ExpeL): 작업 간 학습
- ADD, EDIT, REMOVE, AGREE
2. 모수적 학습
: 깊은 특수화, 충분한 자원 필요 ⇒ finetuning o
주요기법
(1) SFT - 지도 파인튜닝
(2) DPO - 직접 선호 최적화
· 선호 응답과 비선호 응답 쌍
(3) RLVR - 검증 가능 보상 강화 학습
'AI' 카테고리의 다른 글
| [AI 에이전트 엔지니어링] Ch9. 검증 및 측정 (0) | 2026.05.30 |
|---|---|
| [AI 에이전트 엔지니어링] Ch8. 단일 에이전트에서 멀티 에이전트로 (0) | 2026.05.30 |
| [AI 에이전트 엔지니어링] Ch6. 지식과 메모리 (0) | 2026.05.30 |
| [AI 에이전트 엔지니어링] Ch5. 오케스트레이션 (0) | 2026.05.30 |
| [AI 에이전트 엔지니어링] Ch4. 도구 (0) | 2026.05.30 |
