| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
- 사이킷런
- 제어문
- 후기
- 파이썬코딩도장
- 추천시스템
- 제로베이스 데이터사이언스
- 스크랩
- 딥러닝
- 파이썬
- 딕셔너리
- AIFFEL
- 데이터분석
- 카카오
- 기사
- Set
- 아이펠
- 클래스
- TensorFlow
- numpy
- Python
- 머신러닝
- 코딩도장
- AI
- 함수
- NLP
- 재귀함수
- 데이터사이언스 스쿨
- 데이터사이언티스트
- 자연어처리
- 속성
- Today
- Total
목록AIFFEL (46)
뮤트 개발일지
인간보다 퀴즈를 잘 푸는 인공지능 BERT 모델 Transformer Encoder 구조만을 활용한다. Layer는 12개 이상으로 늘리고, 파라미터 크기가 크긴 하지만 트랜스포머 모델과 기본적인 구조는 동일하다. BERT 모델은 Decoder가 없는 대신, 출력 모델이 Mask LM, NSP라는 2가지 모델을 해결하도록 되어 있다. Mask LM 입력데이터가 '나는 먹었다' 일 때, BERT 모델이 가 '밥'임을 맞출 수 있도록 하는 언어모델이다. Next Sentence Prediction 입력데이터가 '나는 밥을 먹었다. 그래서 지금 배가 부르다.'가 주어졌을 때 을 경계로 좌우 두 문장이 순서대로 이어지는 문장이 맞는지 맞추는 문제이다. BERT 모델은 이 두 문장을 입력으로 받았을 때 첫 번째 ..
Likelihood (MLE 와 MAP) prior probability 사전확률: 데이터를 관찰하기 전 파라미터 공간에 주어진 확률 분포 poster probability 사후확률: 데이터를 관찰한 후 계산되는 확률 likelihood 가능도: prior 분포를 고정시키고, 주어진 파라미터 분포에 대해서 갖고 있는 데이터가 얼마나 비슷한지 나타내는 값. likelihood 가 높으면, 지정한 파라미터 조건에서 데이터가 관찰될 확률이 높다는 것이고, 데이터이 분포를 모델이 잘 표현하는 것이라고 봄 최대 가능도 추정maximum likelihood, MLE: 데이터들의 likelihood 값을 최대화하는 방향으로 모델을 학습시키는 방법 최대 사후 확률 추정maximum a posterior estimati..
트랜스포머로 만드는 대화형 챗봇 트랜스포머 모델은 RNN과 비슷하지만, 임베딩벡터 다음에 포지셔널 임코딩을 더해준 것이 다르다. 트랜스포머는 RNN과 달리 문장의 모든 단어를 한번에 입력으로 받기 때문에 어순을 알려주기 위해 포지셔널 인코딩이 필요한 것이다. 즉, 단어의 임베딩 벡터에 위치 정보를 가진 벡터(Positional Encoding)값을 더해서 모델의 입력으로 삼는 것이다. 어텐션 어텐션 함수는 주어진 쿼지Query에 대해서 모든 키Key와의 유사도를 각각 구한다. 그리고 구한 유사도를 키와 맵핑되어있는 각각의 값Value에 반영한다. 반영된 값을 모두 더한 것이 최종 결과인 어텐션 값이된다. => 쿼리, 키, 값은 단어 정보를 함축한 벡터이다.(초기 입력으로 사용된 임베딩 벡터가 아닌, 트랜..
활성화 함수의 이해 신경망 속의 퍼셉트론(perceptron) 혹은 노드(node)는 특정 조건이 만족되면 활성화되도록 디자인되어 있다. 노드에 입력으로 들어오는 값이 어떤 임계치를 넘어가면 활성화되고, 넘어가지 않으면 비활성화되는 것이다. 예) ReLU는 입력값이 음수라면, 0을 출력하고 0이상이면, 입력값 그대로를 출력하도록 디자인되어 있다. 이진 계단 함수 Binary step function 입력이 특정 임계점을 넘으면 1을, 그렇지 않을 때는 0을 출력한다. 한계) 역전파 알고리즘을 사용하지 못한다. 이진 계단 함수는 0에서는 미분이 안 될뿐더러 0인 부분을 제외하고 미분을 해도 미분 값이 모두 0이 나온다. 따라서 역전파에서 가중치들이 업데이트되지 않는다. 현실의 대부분 문제들은 다층 인공신경..
Regularization Regularizaiton: 정칙화. 오버피팅을 해결하기 위한 방법 중 하나로, L1, L2 Regularization, Dropout, Batch normalization 등이 있다. Regularization 기법들은 모델이 train set의 정답을 맞추지 못하도록 오버피팅을 방해(train loss 증가)하는 역할을 한다. train loss는 약간 증가하지만 결과적으로 validation loss나 최종 test loss를 감소시키려는 목적을 갖고 있다. Normalization: 정규화. 데이터의 형태를 좀 더 의미있게, 혹은 트레이닝에 적합하게 전처리하는 과정을 말한다. 데이터를 z-score로 바꾸거나 minmax scaler를 사용하여 0과 1 사이의 값으로 분..
어제 오른 내 주식, 과연 내일은? 시계열(Time-Series): 시간 순서대로 발생한 데이터의 수열 미래를 예측하기 위해서는 두 가지 조건이 필요하다. - 과거 데이터에 일정한 패턴이 있다. - 과거의 패턴은 미래에도 동일하게 반복될 것이다. => 안정적(Stationary) 데이터에 대해서만 미래 예측이 가능하다. 안정적인 시계열에서 시간의 추이와 관계없이 일정해야 하는 통계적 특성: 평균, 분산, 공분산(정확히는 자기공분산autocovariance) 용어 정리한 글 https://destrudo.tistory.com/15 공분산(Covariance)과 상관계수(Correlation) 확률변수X가 있을때 우리가 흔히 이 분포를 나타낼때 쓰는것이 첫번째로 평균이고 두번째로 분산이다. 평균으로써 분포의..
딥러닝 레이어의 이해 Embedding 레이어와 RNN 레이어를 배워볼 것 희소 표현 Sparse Representation 사과, 바나나, 배를 컴퓨터에게 알려줄 때 첫 번째 요소로 모양(0: 둥글다, 1: 길쭉하다)을 나타내고, 두 번째 요소로 색상(0: 빨강, 1: 노랑)을 나타내면 사과: [0, 0], 바나나: [1, 1], 배: [0, 1]로 표현할 수 있을 것이다. 이렇게 벡터의 특정 차원에 단어 혹은 의미를 직접 매핑하는 방식을 희소 표현이라고 한다. 분산 표현 Distributed Representation 단어를 고정차원(예를 들어 256차원)의 벡터로 표현해보자. 그러나 어떤 차원이 특정한 의미를 가진다고 가정하지는 않고, 유사한 맥락에서 나타나는 단어는 그 의미도 비슷하다라는 가정을 ..
인공지능으로 세상에 없던 새로운 패션 만들기 생성 모델링 Generative Modeling 판별 모델: 입력된 데이터셋을 특정 기준에 따라 분류하거나, 특정 값을 맞추는 모델 생성 모델: 학습한 데이터셋과 비슷하면서도 기존에는 없던 새로운 데이터셋을 생성하는 모델 Fashion MNIST 데이터를 사용할 예정 데이터셋의 이미지 크기: 28 * 28 데이터셋의 이미지 개수: 70,000장(training data 60,000 / test data 10,000) 카테고리: 0: T-shrit/top 1: Trouser 2: Pullover 3: Dress 4: Coat 5: Sandal 6: Shirt 7: Sneaker 8: Bag 9: Ankle boot 데이터셋 가져오기 tf.keras에 데이터셋이 ..
딥러닝 레이어의 이해 데이터의 차원 변화를 좇으며, 각기 다른 신경망들이 갖는 weight의 특성을 살펴보자. 오늘은 Linear레이어, Convolution레이어를 다룰 것 (다음 시간에는 Embedding, Recurrent레이어를 다룰 예정) Linear 레이어 선형대수학의 선형변환(Linear Transform)과 동일한 기능을하는 레이어 https://www.youtube.com/watch?v=kYB8IZa5AuE https://www.youtube.com/watch?v=vVvjYzFBUVk 기능: 선형 변환을 활용해 데이터를 특정 차원으로 변환한다. Convolution 레이어 사진 필터에서 Counvolution 연산을 활용한다. 선명하게 하는 필터, 흐리게 하는 필터 등이 Convoluti..
딥네트워크, 서로 뭐가 다른 거죠? ImageNet: 대량의 이미지 데이터를 포함하는 데이터셋 https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures How we're teaching computers to understand pictures When a very young child looks at a picture, she can identify simple elements: "cat," "book," "chair." Now, computers are getting smart enough to do that too. What's next? In a thrilling talk, computer vis..