일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 딥러닝
- 차집합
- 변수와 입출력
- 불리안
- null # undefined
- 조건문 큰 수부터 입력받아야하는 이유
- 귀도 반 로섬
- del()
- 조지 불
- Java Script # == # === # difference # 차이
- 변수
- 변할 수 있는
- 1일차
- 부스트캠프
- 그룹 # 그룹 해체 # 단축키 #figma #Figma
- false
- 합집합
- html
- append()
- 정보를 담을 수 있는 그릇
- input()
- index()
- 성적 입력받기
- pop()
- 리스트와 차이점
- a=1
- Python
- 파이썬
- 입출력
- insert()
- Today
- Total
목록AI (17)
I about me
TransformerBART도 transformer의 기본 아키텍처를 본 따 발전되어져 왔다.잠시 집고 넘어가보면, transformer 는 Encoder와 Decoder로 구성되며,예를 들어, "I am a student"라는 문장이 입력될 때, Encoder 는 이 문장의 의미를 벡터로 변환하고, Encoder 로부터 정보를 전달받아 Decoder 가 “쥬 스위 에튀디앙”의 결과가 도출하게 된다.BERT vs. GPT Encoder 와 Decoder 는 서로 분리되어 각자의 장점을 극대화시켜 별도의 모델들로 발전하게 되었다.대표적인 모델이 Encoder 구조의 BERT와 Decoder 구조의 GPT이다. 위 그림에서 알 수 있듯 이러한 장점이 있다.그러나 이것의 단점은 BERT는 생성을 잘하지 못하..
A = np.array([ [1, 2, 3], [4, 5, 6], [7, 8, 9]])B = np.array([ [0, 1, 2], [2, 0, 1], [1, 2, 0]])덧셈A + B# arrray([1, 3, 5]# [6, 5, 7]# [8, 10, 9])스칼라곱5 * A# arrray([5, 10, 15]# [20, 25, 30]# [35, 40, 45])두 행렬의 곱A @ B요소별 곱하기A * B# arrray([0, 2, 6]# [8, 0, 6]# [7, 16, 0])
행렬수를 직사각형의 형태로 나열한 것대문자 표기 import numpy as npA = np.array([ [1, 2, 3], [4, 5, 6], [7, 8, 9]])벡터행이 하나밖에 없거나 열이 하나밖에 없는 행렬소문자 표기
텍스트 분류고객 피드백을 여러 카테고리로 분류언어에 따라 고객 지원 요청 티켓을 전달 언어에 따라 그 요청을 적절한 담당자나 팀에 할당하는 과정 또는 시스템 기능이메일의 스팸 필터가 받음 메일함에서 정크 메일을 걸러냄텍스트의 감성분석 ex) 테슬라의 트위터 포스트 분석이 장에서는 BERT에 비견하는 DistilBERT를 사용함DistilBERT는 BERT보다 파라미터를 줄였음에도, 성능이 꿀리지 않아 실제로 BERT를 실생활에서 이용할 때, 속도와 메모리 때문에 DistilBERT이 사용됨 1. 데이터셋 불러오기 load_dataset() 함수로 emotion 데이터셋을 로드함from datasets import load_datasetemotions = load_dataset('emotion')2. To..
인코더 & 디코더NN입력층에서 출력층까지 정보가 한 방향으로 흐름중간에 있는 은닉층(hidden layer)을 통해 복잡한 패턴을 학습RNN시간적 순서를 고려한 네트워크 → 시계열 데이터각 시점의 출력은 현재 입력과 이전 시점의 출력을 기반으로 계산h에 대한 가중치(W_h)가 t번 곱해짐에 따라t > 1 → ∞ (Nan, inf) → exploding → 학습이 더 이상 불가능 → clipping로 해결t → 0 → vanishing → LSTM, GRU로 해결장기의존성 문제(the problems of long-term dependencies)입력과 출력 사이의 거리가 멀어질수록 연관 관계가 적어지는 문제LSTMRNN의 장기의존성 문제를 해결하고자 LSTM 모델 등장cell state를 추가하여 중요한..
먼저 V_1 = (1, 0), V_2 = (0, 1)일 때, 아래 사진처럼 (2, 1)를 만들 수 있다는 것을 알 수 있다. 그러나 V_1 = (1, 0), V_2 = (0, 1), V_3 = (1, 1)일 때도 (2, 1) 를 만들 수 있을까??→ 만들 수 있다. 그러나 굳이 굳이 V_3가 필요하다고 볼 수 있을까??그렇다.기저최소한의 벡터 집합으로, 굳이 불필요한 벡터를 포함시키지 않고, 꼭 필요한 벡터들만으로 벡터 공간을 설명할 수 있는 것을 말한다.[ 조건 ]기저는 주어진 벡터공간 V를 생성(span)한다.기저는 '선형독립'이다.[ 예시 ] 차원1차원(1D), 2차원(2D), 3차원(3D)주어진 벡터공간의 차원이 2이다.주어진 벡터공간의 기저의 크기는 2이다.
개념선형독립(Linearly Independent)어떤 벡터들의 모임이 하나를 집었을 때, 다른 것으로부터 만들 수 없는 상태 선형종속(Linearly Dependent)어떤 벡터들의 모임이 하나를 집었을 때, 다른 것으로부터 만들 수 있는 상태 문제선형 독립 문제선형 종속 문제더보기네이버 부스트캠프 들어가기 전, 현재 저는 선형독립과 종속의 기하학적 의미가 조금 헷갈립니다. 그리고 이것이 실무에 어떻게 쓰이길래 중요하다고 하는 것인지 알지 못합니다. 들어가서 이 부분에 대해 집요하게 공부해보도록 하겠습니다.
Review퍼셉트론이란, 신경망의 기본 구성 요소로, 비선형성을 도입하여 복잡한 문제를 풀 수 있게 하였다. NN은 여러 퍼셉트론이 계층으로 결합되어 신경망을 형성하며, 역전파 알고리즘을 사용하여 훈련되고 최적화하는 것이다.이는 학습 속도를 조정하여 수렴을 개선한다. 전체 흐름 보기DPW, b를 학습시키기 위해 backpropagation을 사용한다.이때, 알고리즘적으로 우리는 DP를 사용한다고 할 수 있다.DP란, Recursion + Memorization이다. Naive Recursive Algorithm예를 들어 피보나치인 경우. if n 그러나 이를 효율적이라고 할 수 있는가? 매번 계산을 다시 해줘야하는 큰 단점이 있다.이를 보완하기 위해 "Memorized Recursive Algorithm..
Perceptron프랭크 로젠블랫(Frank Rosenblatt)은 기계가 학습을 통해 데이터를 분류하고 패턴을 인식할 수 있는 것을 만들었다.그는 이 원리를 인식, 감지 등의 의미를 가진 영어 단어 Perception에서 따서 퍼셉트론(Perceptron)이라고 했다. 그리하여 퍼셉트론은 인공지능의 기초를 이루는 모델이다.참고로, 인공지능은 인간의 지능, 즉, 뇌를 모방하기 위한 학문이다.또한 인간의 뇌는 수십억 개의 뉴런으로 구성된 복잡한 기관이다. 뉴런이 수상돌기(Dendrite) 로부터 다른 뉴런의 신호를 받아 축삭(Axon)이 다른 뉴런에 정보를 전달하듯,인공지능은 기계의 입력으로부터 정보를 받아 결과를 내게 하는 것이다. 어쨌든, 구체적으로 퍼셈트론은 입력 데이터를 받아들이고 가중치를 적용한..
왼쪽처럼 모델을 훈련시킬 때, loss가 줄어드는 것은 매우 좋은 것이다.그러나, 오른쪽 그림에서 말하듯, 새로운 데이터가 들어왔을 때 train 모델과 test모델의 차이를 줄이는 것이 훨씬 중요 그러나, 훈련 데이터에 너무 맞춰져서 오히려 새로운 데이터가 들어왔을 때 성능이 저하될 때가 있는데, 이를 우리는 Overfitting이라고 하며 이러한 문제를 해결하기 위해 1. Bias–variance tradeoff2. early stopping3. Model Ensembles4. Regularization1. Bias–variance tradeoffBias: 학습된 모델의 예측값 평균과 실제 값간의 차이를 의미 (학습 능력)Variance: 예측값의 평균과 실제 값간의 차이 (예측 능력)우리는 일반적..