
분류 전체보기

Generalization기존의 전통적인 프로그래밍에서는 사람이 모든 경우의 수를 고려하여 명확한 조건과 규칙을 기반으로 결과를 도출했다. 이는 규칙을 기반으로 하기에 Rule-based System이라고도 한다. 하지만 우리가 다루는 데이터가 더욱 복잡해짐에 따라, 모든 경우의 수를 반영해서 프로그래밍 하는 것은 현실적으로 불가능해졌다. 이를 해결하기 위해 수집한 데이터에 있는 특성과 패턴을 파악해서 수집한 데이터 뿐만 아니라 보지 못한 모든 데이터에서도 잘 동작하는 능력인 일반화 능력을 가진 인공지능 모델을 개발하려 하는 것이다.Underfitting and OverfittingUnderfitting은 모델의 일반화 성능을 따질 것도 없이 훈련 데이터 셋에 대해서도 잘 동작하지 않는 상태이다. 말그대..

우리는 선형대수를 배우면서 Decomposition이 가장 중요한 요소 중 하나라고 배운다. Decomposition은 복잡한 행렬을 쉬운 행렬들로 표현할 수 있게 해서 해석적인 면 또는 용량적인 면을 해결해주기 때문이다. SVD는 Decomposition 중 하나이다.SVD란?SVD를 쉽게 말하자면 다음과 같다. 어떤 직교 행렬(orthogonal matrix, )를 로 행렬곱 했을 때 그 결과는 크기는 달라지더라도 다시 다른 직교 행렬( )로 변환된다. 그리고 와 는 각각 , 의 EVD(Eigen Value Decomposition)으로 얻을 수 있고, 의 대각 성분의 크기 순으로 , , $\Sig..
논문 리뷰기존 Adapter-based 방법과 달리 layer 사이에 새로운 adapter를 추가하는 게 아닌, low-rank decomposition 행렬을 기존 파라미터와 평행하게 배치하고 LoRA 모듈만 변경되도록 해 학습 비용을 획기적으로 줄이면서도 추론시 기존 파라미터와 병합해 추가적인 inference latency가 없게 할 수 있었다.이 뿐만 아니라 low-rank decomposition으로서 학습된 를 기존의 와 비교해, Adaptation 과정에서 사전 학습에서 특별히 더 중요하진 않았지만 특정 task에서는 중요한 특징들을 학습하고 있다는 것을 보인 점이 더욱 흥미로웠다. 의문점1. Scaling factor 은 왜 필요한가?..

ICLR 2022 (Poster). [Paper] [Page] [Github]Edward Hu, yelong shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu ChenMicrosoft Corporation06 Oct 2021연구 주제 및 주요 기여LoRA는 Fine-tuning의 비용을 줄이고자 고안된 Adapter-based methods 중 하나이다.Fine-tuning시 기존 Dense layer의 파라미터를 변경하지 않고, r차원으로 줄였다가 다시 복원하는 Low-Rank Adaptation을 추가해 학습하도록 제안했다.이는 추론시 기존 파라미터와 병합할 수 있기 때문에 Inference Latency의 ..

Transformer는 시퀀스 데이터를 순차적으로 처리하는 기존의 RNN 구조를 버리고 내적을 통해 집중해야 하는 정보가 어떤 것인지 스스로 학습할 수 있게 하는 Attention Mechanism을 적극 활용한 모델이다. Positional EncodingTransformer에서는 순차적으로 처리하는 RNN과 달리 Attention을 통해 시퀀스 데이터가 한 번에 처리되기 때문에 순서에 대한 정보가 들어가지 않는다.그래서 Transformer에서는 Positional Encoding 또는 Positional Embedding을 통해 얻은 위치 임베딩 벡터를 단어 임베딩 벡터에 더해 위치 정보를 담는다. Positional Encoding은 다음의 두 공식을 통해 얻은 고정된 벡터를 사용하는 방식이다. ..

Transformer는 자연어 처리 분야에서 소개된 딥러닝 구조로, 기존의 순환 신경망(RNN)이나, 컨볼루션 신경망(CNN)과는 다른 접근 방식을 사용해 효과적인 시퀀스 처리를 가능하게 한다.이런 Transformer를 이해하기 위해서는 먼저 Transformer의 등장배경에 대해 알 필요가 있다.RNNRecurrent Neural Network의 약자로, MLP에 단어들을 순차적으로 넣어보자는 접근으로 구상되었다.이전 단계의 hidden state 값과 현재 단계의 입력값을 사용해 현재 단계의 hidden state에 이전 정보를 담아낸다. 위 사진처럼 RNN은 입력값(x)을 MLP에 통과시켜 hidden state 값(h)과 출력값(y)을 얻는데, 이전 hidden state 값을 입력받아 출력값을..

정상우님의 hELLO 티스토리 스킨에는 글쓰기 및 관리자 버튼이 없다.그래서 맥북에서는 Q, 윈도우에서는 ctrl + Q로 관리자 페이지를 열어서 글을 작성하는 수 밖에 없다. 이에 불편함을 느껴 사이드바에 글쓰기, 관리자 창에 접속할 수 있는 버튼을 추가했다. 이 버튼을 만들때 사이드바에 있는 hELLO의 저작권을 명시한 부분을 참고했다.해당 부분은 사이드바에 크기에 맞춰 글을 배치하는 로 구현되어 있는데, 글쓰기, 관리자 버튼을 추가하니 칸이 애매하게 남아서 그 중간에 방명록 버튼도 추가했다.글쓰기, 방명록, 관리자 버튼 추가하는 법먼저 관리자 페이지 > 꾸미기 > 스킨 편집 > html편집에 들어간다.여기서 사이드바에 대한 내용을 살펴보면 라는 사이드바 내에 프로필, 방문자수, 검색창 등 라는 사이..

Computer Vision 분야에는 많은 Task들이 있는데, Classification, Detection, Identification, Semantic Segmentation, Object Categorization, Scene Categorization, Event Recognition 등이 있다. 이들의 백본은 모두 Classification으로부터 온 것이므로 Classification이 아주 중요한 문제라고 할 수 있다. Object Recognition/Image Classification Object Recognition은 찾고자 하는 사물을 이미지에서 찾아내는 문제이다. Object Recognition에서 사용할 수 있는 가장 단순한 방법은 슬라이딩 윈도우 방식으로 이미지 안을 돌면서..

Protocol 네트워크를 통한 데이터 전송 시 에러없이 전송하는 것을 보장하기 위해 프로토콜에 기반해 데이터를 주고 받는다. 일반적으로 이런 네트워크 프로토콜은 여러가지 계층으로 구성된 multi-layer architecture로 구현되어 있다. 그 이유는 여러가지 계층을 구성함으로써 error-free의 목적을 달성함과 동시에 각 계층에 해당하는 서비스들을 제공하고 전송되는 데이터 타입에 따른 데이터 전송을 보장하기 위함이다. OSI 7 layers 통신을 위한 네트워크 프로토콜 표준 OSI 계층은 7가지로 나뉜다. Physical layer Data link layer Network layer Transport layer Session layer Presentation layer Applicati..