AIMS Study Blog

[ICLR 2023] Adaptive Budget Allocation For Parameter Efficient Fine-tuning 논문 리뷰

hannn — Wed, 26 Jul 2023 14:55:05 +0900

이번 ICLR 2023에 있었던 <Adaptive Budget Allocation For Parameter Efficient Fine-tuning> 논문에 대해서 리뷰를 진행한다. (https://arxiv.org/abs/2303.10512)

이 논문은 최근에 많이 다뤄지는 LLMs(Large Language Models)을 Computational Efficient하게 Fine-tuning하는 방법에 대해서 기존에 있던 LoRA(Low Rank Adaptation)의 기법을 보완한 AdaLoRA를 제안하는 논문이다.

이 포스팅에서는 AdaLoRA에 대해서 살펴본다. (추후, 이것의 Reference가 되는 LoRA에 대해서도 다룰 예정이다.)

Abstract

기존의 LoRA는 좋은 성능을 보였으나, parameter budget을 incremental update에 균등하게 분배했다. 하지만, 쓸모 없는 것에 incremental matrix를 크게 가져가는 것은 낭비일 뿐만이 아니라, 오히려 모델의 성능을 저해하기도 한다.

AdaLoRA, which adaptively allocates the parameter budget among weight matrices according to their importance score.

기본적으로 AdaLoRA는 Singular Value Decomposition의 개념을 활용하고 새로운 importance Score를 제안한다.

Introduction

LLMs(Large Language Models) 혹은 PLMs(Pre-trained Language Models)가 최근 Chat-GPT부터 시작을 해서, 여러 모델들이 등장하고 있다. 그에 따라 이 대규모 모델들을 사용자들의 도메인에 특화되도록 Fine-tuning을 하려는 시도들이 있었다. 하지만, 모델들의 파라미터 수가 70억개(7B), 130억개(13B) 등의 몇십억개를 가지고 있으며, 7월 19일에 Meta에서 발표한 Llama v2 모델은 700억개의 파라미터를 가지고 있는 모델들도 존재한다.

이런 엄청난 수의 파라미터를 가진 모델들을 기존에 모든 파라미터를 추가적인 데이터 셋을 사용하여 Fine-tuning 하는 방식(Full Fine-tuning)으로는 기업 단위가 아닌 개인 단위에서 거의 불가능하다고 볼 수 있다. 따라서, Full-Fine-tuning을 하지 않고도 Fine-tuning을 할 수 있는 방법에 대한 연구들이 진행되고 있다.

따라서, Adapter라고 하는 Fully connected Layer 몇 개를 모델 구조 사이(특히, Transformer 기반의 모델의 경우에는 Transformer block 사이에) 추가하고, 이들만을 trainable parameter로 설정하여 Fine-tuning을 하는 데에 computational cost를 줄이려고 하였다.

또 다른 방법으로는 LoRA 이전에, 모델 구조를 변경하지 않고, incremental하게 Layer를 추가하여 이들만을 학습시키는 방법이 있었다. 하지만, 이들 또한 문제를 가지고 있었고, 이를 해결하기 위해 LoRA가 제안되었다. 하지만, LoRA 역시도 다음과 같은 Limitation을 가지고 있다.

LoRA ignores the fact that the importance of weight matrices varies significantly across modules and layers when fine-tuning pre-trained models.

즉, LoRA가 Weight matrix들의 중요도를 판단하지 않고, 균등하게 weight update를 진행하므로, 동일한 trainable parameter 개수를 가지고 있다고 할 때 최적이 될 수 없는 것이다('Suboptimal하다' 라고 표현한다.).

따라서, 본 논문에서 풀고자 하는 문제는

How can we allocate the parameter budget adaptively according to importance of modules
to improve the performance of parameter-efficient fine-tuning?

이것에 대한 해답으로 본 논문에서는 AdaLoRA를 제안한다. 이것은 유동적으로 parameter budget을 할당하여 fine-tuning을 할 때에 더 중요한 weight matrices들에 더 많은 파라미터를 분배할 수 있는 알고리즘이다.

기존에 LoRA는 사용자가 미리 정한 $ r $차원의 Dense Layer를 사용하였다. 하지만, 최적의 $ r $을 설정하기 위해서는 SVD(Singular Value Decomposition)의 방법을 사용하기도 한다.

그럼 AdaLoRA는 SVD를 사용한 것인가? 그렇지 않다. 이 논문의 초점은 모델의 Fine-tuning에 사용할 수 있는 parameter의 개수가 유한하다고 할 때, 최대한 빠르게, 최대한 효율적으로 추가적인 parameter가 어디에 배치되어야 할 지를 결정한다.

이 점에서 볼 때 SVD는 목적에 부합한 방법이기는 하지만, 계산 과정이 너무 복잡하다는 단점을 가지고 있다. 따라서, 본 논문에서는 SVD와 비슷한 방식을 거치고, addional penalty를 training loss에 더함으로써 SVD의 구성 요소인 P와 Q Matrix의 orthogonality를 규제한다.

AdaLoRA는 Incremental matrix (기존 Model Architecture가 아니라 LoRA 혹은 AdaLoRA를 통해서 추가된 Layer들을 의미)를 세가지 요소 $ (P, \Lambda, Q) $로 나눈다.

$ i $번째 singular Value
이에 해당하는 singular vector 2개

$ i $번째에 해당하는 세가지 요소(triplet)이 얼마나 중요한 지 정량화하기 위해서 본 논문에서는 새로운 impoartance metric을 제시한다. 이 score는 model performance에 대한 triplet의 모든 요소의 기여도를 고려한다.

낮은 중요도를 가진 triplet은 singular value가 0이 되고, 높은 중요도를 가진 triplet은 fine-tuning에 이용되기 위해서 값이 그대로 유지된다.

또한, Global budget schedular라고 하는 것도 위의 모델에서 사용하는데, 이 Global budget schedular가 training stability와 model performance를 향상시킬 수 있다고 한다. 이 방법은 초기 parameter budget은 사용자가 설정한 budget보다 조금 더 많게 설정한다(ex> 1.5배). 이후에, iteration을 돌면서 이 budget을 조금씩 줄여나가고, 최종적으로는 사용자가 설정한 budget에 맞춰지도록 한다.

AdaLoRA Method

이 방법은 중요한 2가지 요소들이 있다

SVD-based adaptation
Importance-aware rank allocation

SVD-based Adaptation

$$ W = W^{(0)} + \Delta = W^{(0)} + P \Lambda Q $$

P와 Q는 (left/right) singular vector를 나타내고, Lamda는 singular value를 가지고 있는 대각행렬을 나타낸다.

실제로는, Lambda 행렬이 대각행렬이기 때문에, 이것을 2차원 행렬로 저장을 하는 것이 아니라, 1차원 행렬로 저장할 수 있다. P와 Q는 Gaussian 초기화를 진행하게 되고, Lambda는 0으로 초기화가 진행이 되어 LoRA처럼 초기 값 결과는 0이 될 수 있도록 한다.

$$ R(P, Q) = ||P^TP - I||_F^2 + ||Q^TQ - I||_F^2 $$

Lambda 함수는 각 gradient descent step을 거치면서 점점 pruning 된다. P, Q를 SVD를 통해서 직접적으로도 계산을 해 줄 수 있지만, 이것이 computation cost가 매우 크기 때문에, 이렇게 설정을 한 것이다. 다르게 생각을 하면 AdaLoRA를 사용하지 않고, 'LoRA에서 그냥 A와 B의 행과 열을 삭제해주면 되는 것 아닌가?' 라고 생각할 수도 있다. 하지만, 이 방법은 몇가지 단점을 가지고 있다.

이것은 실수로 인해서, 나중에 다시 복구를 해야하는 경우, 처음부터 다시 돌려야 한다.
(AdaLoRA는 ,Singular Value만 없앤 것이기 때문에, 이것만 다시 설정하거나 학습하면 된다는 의미인 것 같다.)
또한, A와 B는 서로 Orthogonal한 것이 아니기 때문에, 이것을 삭제하는 것은 다른 행과 열에도 영향을 줄 수 있다.

따라서 AdaLoRA에서는 P, Q가 계산이 되는 것이 아니라, trainable한 parameter로 설정하고 규제항을 통해서 두 Matrix가 Orthogonality를 가지도록 만들어준다. .

Importance-Aware Rank Allocation

Budget을 통제하기 위해서 training하는 과정 동안 importance score에 따라서 singular value들을 제거하는 작업을 iteratively하게 거친다.

Training objective

$$ L(P, E, Q) = C(P, E, Q) + \gamma \sum^n_{k=1}R(P_k, Q_k) $$

t-th step에서 먼저 stochastic gradient step을 거쳐서

$$ P_k^{(t)}, \Lambda_k^{(t)}, Q_k^{(t)} $$

를 업데이트 한다.

특히 Lambda의 경우에는

$$ \tilde{\Lambda_k^{(t)}} = \Lambda_k^{(t)} - \eta\nabla_{\Lambda_k}L(P^{(t)},E^{(t)}, Q^{(t)}) $$

Importance Score인 $ S_k^{(t)} $가 주어지게 되면, singular value들은 다음과 같이 pruning하는 과정을 거치게 된다.

$ S^{(t)} $는 모든 세가지 요소들의 중요도를 포함하고 있다.

$ b^{(t)} $는 t-th step에서 남을 수 있는 singular value들의 개수이다. 그렇다면, Importance Score는 어떻게 정할 수 있을까?

Magnitude of singular values

이 방법은 매우 직관적인 방법이지만, model performance에 대한 기여도를 측정하는 데에 있어서는 정확하게 표현하지 못한다는 것을 발견하였다.

Sensitivity-based importance

Training Loss에 대해서 파라미터들의 민감도를 scoring 할 수 있는 방법을 고안하였다. 이 방법은 모든 객체들의 sensivity가 모델 performance에 대한 세가지 요소들의 기여도를 정량화 하는데에 전부 적절하게 융합되어 고려되어야 한다.

$$ S_{k, i} = s(\lambda_{k, i} + \frac{1}{d_1} \sum^{d_1}{j=1}s(P{k, ji}) + \frac{1}{d_2} \sum^{d_2}{j=1}s(Q{k, ij}) $$

S가 parameter 크기에 영향을 받지 않도록 P와 Q의 평균 중요도를 계산한다. 여기에서 s(.)는 각각의 객체에 대한 특정한 importance function이다.

$ s( ) $ 함수는 magnitude of the gradient-weight product라고 정의된 함수를 사용할 수 있다. 그 정의는 다음과 같다.

$$ I(w_{ij}) = |w_{ij}\nabla_{w_{ij}}L| $$

이것은 parameter가 0으로 되었을 때 Loss의 변화를 근사한다. 만약에, parameter를 제거했을 떄 큰 영향을 가지고 있다면, 모델은 이것에 민감할 것이며, 이것을 유지해야 할 것이다. 하지만, 다른 연구에서는 이것이 충분하게 reliable하지 않다는 것을 밝혔다. Stochastic sampling과 복잡한 training dynamic이 위의 식에서 sensitivity를 측정하는 데에 high variability와 large uncertainty를 가진다고 말한다. 따라서, 이것을 해결하기 위해서 sensitivity smoothing과 uncertainty quantification을 진행함으로써 이것을 해결하였다

각 beta들은 전부 0에서 1 사이의 값을 가지게 된다.

$ \bar{I}^{(t)} $는 exponential moving average에 의해서 smoothed sensitivity를 나타내고, $ \bar{U}^{(t)} $는 $ I^{(t)} $와 $ \bar{I}^{(t)} $ 사이의 local variation을 정량화 한 uncertainty term이라고 볼 수 있다. 따라서 이것을 가지고

(11)번 식을 가지고 위의 $ S_{k,i} $를 정의하는 식에 적용하였을 때 일반적으로 가장 좋은 성능을 내는 것을 볼 수 있었다.

AdaLoRA의 알고리즘

Global Budget Scheduler

본 논문에서는 budget이라고 하는 b^(t)를 모든 incremental matrices의 rank를 전부 합한 것(즉, total singular values)라고 볼 수 있다.

Training을 용이하게 하기 위해서, global budget scheduler를 사용했다.

학습 초기에는 실제 설정한 budgt보다 약간 많은 수의 budget을 가지고 실행한다. 우리는 각각의 incremental matrix의 initial rank를 초기 budget을 n으로 나눈 값으로 설정한다. 그 다음에 cubic schedule을 통해서 budget을 설정한 데까지 줄인다. 이것이 AdaLoRA가 초기에는 parameter space를 먼저 탐색하고, 나중에 important weights에 집중하도록 만든다. Cubic Schedule이라는 것이 정확하게 나와있지는 않지만, 식을 봤을 때는 처음에는 budge을 감량하는 속도를 낮게 하고, 갈수록 많은 budget을 삭감하는 것을 의미하는 것으로 보인다.

낮은 중요도를 가진 triplet은 singular value가 0에 가까워지고, (0이 된다고 보면 될 거 같다.)

높은 중요도를 가진 triplet은 fine-tuning에 이용되기 위해서 값이 그대로 유지된다.

또한, Global budget schedular라고 하는 것도 위의 모델에서 사용하는데, 초기 parameter budget은 사용자가 설정한 budget보다 조금 더 많게 설정한다.(예를 들어 1.5배 정도?) 이후에, iteration을 돌면서 이 budget을 조금씩 줄여나가고, 최종적으로는 사용자가 설정한 budget에 맞춰지도록 한다.

이렇게 하여 Global budge schedular는 training stability와 model performance를 향상시킬 수 있다고 한다.

Reference

Zhang, Qingru, et al. "Adaptive budget allocation for parameter-efficient fine-tuning." arXiv preprint arXiv:2303.10512 (2023).

[MICCAI 2023] Is a PET all you need? A multi-modal study for Alzheimer’s disease using 3D CNNs 논문 리뷰

김랑명 — Fri, 21 Jul 2023 15:38:23 +0900

논문 링크 : https://link.springer.com/epdf/10.1007/978-3-031-16431-6_7?sharing_token=7cUeevO0wZQdc7MmJTRXEPe4RwlQNchNByi7wbcMAY7ZlzAyNldSVTx86qNGeZBPTXWLvhyBFjUTTTpx_kJHqMahZBjcuY2BcXG1eAdG_UlWzpMLdPr5C8xzl4B2M8Z__2gJXDqqRq0Z6AHINqsO8O5KnWqfLMgdTDuHD-qA9I4%3D

Abstract :

Alzheimer's Disease (AD)은 가장 흔한 형태의 치매로, 다양한 원인으로 인해 진단에 어려움을 겪고 있는데, 최근 Deep Neural Networks (DNNs)를 활용한 뇌 영상 기반 연구에서 Structural Magnetic Resonance Images (sMRI)와 Fluorodeoxyglucose Positron Emission Tomography (FDG-PET)를 통합하는 것이 Healthy Control (HC) 과 AD 환자를 대상으로 높은 정확성을 보인다는 결과가 나왔습니다. 그러나 이 결과는 FDG-PET이 sMRI보다 AD 특이적인 병변을 더 잘 포착한다는 임상적 지식과 충돌합니다. 따라서 우리는 멀티 모달 DNNs의 체계적 평가를 위한 프레임워크를 제안하고, FDG-PET 및 sMRI을 기반으로 한 싱글 및 멀티 모달 DNNs를 건강 대 AD 이진 분류 및 건강/경도인지 장애/AD 삼중 분류에 대해 비판적으로 재평가합니다. 실험 결과, FDG-PET을 사용한 단일 모달 네트워크가 MRI보다 더 우수한 성능을 보이며(정확도 0.91 대 0.87), 두 가지를 결합하더라도 성능의 개선은 없었습니다. 이는 AD 바이오마커에 대한 임상적인 지식과 일치하지만, 멀티 모달 DNNs의 실제 이점에 대해 의문을 제기합니다. 우리는 앞으로 멀티 모달 퓨전에 대한 연구가 우리가 제안한 평가 프레임워크를 따라 개별 모달리티의 기여를 체계적으로 평가해야 한다고 주장합니다. 마지막으로, 우리는 건강 대 AD 분류를 넘어서 치매의 차별적 진단에 초점을 맞추고, 멀티모달 영상 정보를 퓨전하는 것이 임상적 필요에 부합한다고 주장합니다.

논문에서는 멀티모달 결과보다 FDG-PET 단일 모델이 가장 좋다고 나왔는데, 멀티모달을 Fusion하는 다양한 방법을 적용해서 리뷰합니다.

Fusion Strategies

멀티모달 데이터를 fusion하기 위해 세 가지 방법을 사용합니다.

Early Fusion. raw modality 데이터를 직접 결합해 사용하는 방식입니다. Voxel-Based Morphometry (VBM)를 통해 gray matter map을 얻고 FDG-PET intensity를 구분하는데에 사용합니다.

Late Fusion. Late Fusion은 멀티 모달 데이터를 퓨전하는 가장 직관적인 접근 방식입니다. 이미지를 Fusion하는 대신, 두 개의 독립적인 3D ResNet 브랜치를 훈련시켜서 MRI와 FDG-PET 각각에 대한 잠재적 표현을 Fusion합니다. 각 브랜치에서 global average pooling 후 얻은 특징은 이후 Multi-layer Perceptron (MLP) [128, 64, 클래스 개수]을 통해 concatenated되어 얻어진 로그 확률로, 두 가지 정보 소스를 모두 고려합니다.

Middle Fusion. Early Fusion과 Late Fusion은 멀티 모달 분석에서 일반적이지만, 우리는 modality별 네트워크의 중간 표현을 Fusion하는 방법도 탐구합니다. 이 접근 방식에서는 modality별 정보를 서로 다른 modality의 하위 네트워크 간에 동적으로 교환하여 Fusion합니다. 이러한 양방향 정보 교환은 BN scaling factor의 크기에 따라 개별 채널의 중요성을 고려하여 self-guided됩니다. 이러한 과정은 모든 채널을 교환하는 것에 불이익을 주는 ℓ1 정규화를 포함합니다. 정보 공유를 더 장려하기 위해 합성곱 필터 가중치가 modality 간에 공유됩니다. 기억하기를, BN 레이어는 개별 모드별 채널 중요성을 결정하기 위해 공유되지 않습니다. 논문에서는 이전까지 AD 예측을 위한 멀티모달 Fusion전에 채널 교환은 이전에 적용된 적이 없다고 합니다.

여기서 Middle Fusion에 사용된 방법은 Deep Multimodal Fusion by Channel Exchanging 논문( https://proceedings.neurips.cc/paper_files/paper/2020/file/339a18def9898dd60a634b2ad8fbbd58-Paper.pdf)

에 소개된 Fusion 방법을 사용한다.

[ICLR 2023] Token Merging : Your ViT But Faster 논문 리뷰

hannn — Thu, 20 Jul 2023 11:11:57 +0900

이번 ICLR 2023에 있었던 <TOKEN MERGING: YOUR VIT BUT FASTER> 논문에 대해서 리뷰를 진행한다.
(https://arxiv.org/abs/2210.09461)

이 논문은 Transformer의 정확도를 유지하면서도, 연산량을 줄여 모델이 한번에 처리할 수 있는 정보의 양을 늘리기 위해서 ToMe(Token Merging)이라는 기법을 제안한 논문이라고 볼 수 있다.

이 포스팅에서는 ToMe라는 기법에 대해서 살펴보고, 주요한 실험 결과를 정리해 볼 예정이다(모든 실험 결과를 다루지는 않는다!).

Introduction

Transformer가 등장한 이후, NLP, Computer Vision 등 다양한 분야에서 Transformer를 기반으로 한 모델들이 쏟아져 나오고 있다. 특히나, Vision Transformer가 등장한 이후에는 Computer Vision 분야에서도 Transformer가 적극적으로 사용되고 있는데, 요즘엔는 domain-specific transformer들이 많이 나왔다. 이들이 등장하게 된 본질적인 이유는 Efficiency(효율성)에 기인한 것이라고 볼 수 있다.

Transformer의 거의 유일한(?) 단점은 "연산량이 많다."라는 것이다.

따라서 최근에는 ViT의 subfield에서 token이 런타임에서 pruning 되는 기법들을 종종 사용하곤 한다. 하지만, 이런 방법들에는 다음의 단점들이 존재한다.

Information Loss
Require re-training
most cannot be applied to speed up training (대부분은 훈련 속도를 높이기 위해 적용할 수 없다.)
serveral prune different numbers of tokens depending on the input content, making batched inference infeasible
(입력 내용에 따라 여러 토큰을 제거하여 일괄 처리된 inference를 실행할 수 없다.)

Token Merging에 대한 소개

이 방법은 기존에 있었던 Token pruning 기법 대신에, token을 merging(병합)하는 방식을 사용한다. 이 방법은 pruning만큼 빠르면서도 더 정확하다. 추가적으로 이 방법은 pruning에서는 필수적이었던 re-training 없이도 모델을 inference할 수 있다는 장점을 가지고 있다. ToMe는 training speed를 거의 절반까지도 줄일 수 있다. 또한, Image, Video, Audio의 다양한 모달리티에서 데이터에 어떠한 수정도 가하지 않으면서 대부분의 경우에 state-of-the-Art 모델들과 비견할 만한 성능을 내는 것을 발견할 수 있었다.

Token Merging

이 방법의 목표는 ViT에 token merging module을 넣어서 ViT 모델이 한번에 더 많은 처리량을 가질 수 있도록 하는 것이다.

Strategy

각 transformer block에서 layer마다 $ r $개의 token을 줄인다. 여기에서 $ r $은 비율이 아닌 토큰의 개수를 의미한다. $ L $개의 block을 지나게 되면, 점진적으로 $ rL $개의 토큰을 merge하는 것이다. 이 $ r $을 조정함으로써 speed-accuracy trade-off를 조정할 수 있다.

이 방법의 주요한 점은 Image의 내용에 상관 없이 $ rL $개의 token을 줄일 수 있다는 것이다.

이전의 연구에서는 transformer block의 시작 부분에 reduction method를 적용했었다. 하지만, ToMe는 token merging step을 각 Transformer Block에서 attention module과 MLP 사이에 적용한다. 이렇게 하여 얻을 수 있는 효과는

information to be propagated from tokens that would be merged
병합될 토큰에서 전파될 정보가 반영이 될 수 있도록 하였으며,
enables us to use features within attention to decide what to merge
어떤 것을 병합할 지를 결정하기 위해서 attention 내부의 feature들을 사용할 수 있도록 한다

위의 두가지 효과는 Accuracy를 증가시키는 데에 중요한 작용을 한다.

Token Similarity

similar token을 병합하기 전에, 어떠한 토큰이 유사한 지를 명확하게 하기 위해서 “Similar”를 정의해야 한다.

Transformer는 이것을 self-attention의 $ QKV $로 해결할 수 있다. 구체적으로 들어가 보자면, $ keys (K) $가 이미 dot-product similarity에서 사용하기 위해 각 토큰에 포함된 정보를 요약한다. 그러므로 $ key $와 각 $ token $이 얼마나 유사한 정보를 담고 있는지 결정하기 위해서 dot product similarity metric을 사용한다.

Bipartite Soft matching

token similarity가 정의가 되었다면, total number를 $ r $만큼 줄이기 위해서 어떤 token이 matching 되는 지를 빠르게 결정할 수 있는 방법이 필요하다. 기존에는 크게 2가지 방법을 사용했었다.

kmeans clustering
graph cuts

하지만, matching을 $ L $번 해야 되고, 각 matching마다 몇 천개의 토큰을 계산해야 하므로 실행시간은 거의 무시할 수 있을 정도가 되어야 한다. 이로 인해서 기존의 방법들인 iterative clustering algorithm은 적용하기에 적합하지 않다고 볼 수 있다. 이 논문에서는 더욱 효율적인 솔루션을 제공하는 데, 이 솔루션의 목표는 다음과 같다.

We want to avoid anything iterative that cannot be parallelized
(병렬 처리를 할 수 없는 iteration을 피하는 것)
We want the changes merging masks to be gradual
(merging mask가 점진적으로 변화하는 것)

이 점들이 clustering이 아닌 matching 기법을 적용한 이유라고 볼 수 있다. 왜냐하면, clustering은 한 그룹에 병합할 수 있는 token의 수에 제한이 없어, 비슷하지 않은 것들끼리도 하나로 묶일 수 있지만, matching의 경우에는 이를 피할 수 있기 때문이다.

Algorithms

A와 B가 거의 동일한 사이즈가 될 수 있도록 token들을 2개로 나눈다.
A에 있는 각 토큰에 대해서 하나씩 B에서 가장 비슷한 token인 것으로 edge를 생성한다.
가장 비슷한 것을 나타내는 r개의 edge를 유지한다. (나머지는 지운다.)
남아있는 edge들에 해당하는 token들을 병합(Merge)한다.
2개의 set을 다시 하나로 합친다.

A에 있는 token이 오직 하나의 edge씩 만을 가지고, connected component를 찾는 것은 많은 시간이 필요하지 않다.

신중하게 A와 B를 선택한다면, 정확성에 문제가 없는 모든 토큰 쌍 사이의 유사성을 계산할 필요가 없다. 이것을 실제로 적용을 해보았을 때에는 token을 random하게 pruning하는 것만큼이나 빠르다. 실행시키는 코드 또한, 간단하게 구현할 수 있다고 한다.

Tracking Token Size

토큰이 일단 합쳐지면, 그들은 더이상 하나의 input patch를 의미하지 않는다. 이 점을 무시하고, 기존의 모델에 적용을 하게 된다면, 제대로 된 결과가 나오지 못할 수 있다. 만약, 같은 키를 가진 2개의 토큰을 병합한다면, 그 키는 softmax에서 더 적은 영향을 미치게 되기 때문이다. 따라서 이것을 해결하기 위해서 proportional attetion으로 간단하게 바꿀 수 있다.

$$ A = softmax(\frac{QK^T}{\sqrt{d}} + \log{s}) $$

$ s $는 각 토큰이 포함하고 있는 벡터의 개수를 의미한다. 이것은 키가 하나로 합쳐지더라도 키의 복사본을 가지고 있는 것과 동일한 작업을 수행할 수 있다. 또한, 토큰을 함께 병합할 때처럼 토큰이 aggregate 될 때마다 가중치를 부여해야 한다.

Training with Merging

이전 연구에서는 이미 trained ViT 모델에 token merging을 추가할 수 있도록 설계되었다. ToMe에서 학습이 필수적인 것은 아니지만, accuracy drop을 줄이거나 speed up training을 하는 데에 많은 도움을 줄 수 있다. 학습에서, 토큰 병합을 단순히 풀링 작업으로 처리하고 average pooling을 사용하는 것처럼 merged token을 통해 back propagation을 한다. 또한, 기존의 vanilla ViT에서 사용했던 파라미터 세팅이 ToMe에서도 최적이라는 것을 발견했다.

Image Experiments

ImageNet-1k와 4가지 다른 방식으로 학습이 진행된 ViT (AugReg, MAE, SWAG, DeiT)를 가지고 몇 가지 실험을 진행하였다.

모든 실험에서, 모델을 그대로 가져와서 ToMe를 적용하였고, 추가적으로 2개의 모델(MAE & DeiT)는 학습을 하여 ToMe를 적용하였다. 모든 처리량은 V100GPU + optimal batch size인 fp32의 inference 동안에 측정되었다.

Design Choices

실험은 보라색으로 표시된 부분이 default로 설정되었다. 별다른 표기가 없다면, 모델은 ViT-L/16 MAE model을 training 없이 그대로 가져와 사용하였고, $ r=8 $로 24개의 layer를 거쳐 최종적으로는 98%의 token을 병합하는 방식으로 진행되었다.

Token Similarity (Table 1.a/b/c)

직관적으로 생각할 수 있는 Token’s feature가 가장 좋은 결과를 나타내지는 않았고,

$ X $ : Moving the merging operation after attention
$ K $ : using the attention keys

논문에서는 위의 두가지 방법에 대한 정확도를 강조하고자 했다.

Distance function으로는 Cosine similarity가 token distance를 결정하는 가장 좋은 measure인 것이 실험으로 관측되었다. 또한, Aggreation을 할 때에는 concat 대신에 attention head에 걸쳐서 평균을 계산하는 것이 효율적이었다.

Algorithmic Choices (Table 1.d/e)

어떤 토큰을 병합할 지 정한 이후에, token size에 의해서 가중 평균이 되는 방식으로 토큰들을 병합하였다( = 가장 성능이 좋았다.). 또한, Partition style에서는 서로 번갈아 나오면서 A,B 두 부분으로 나누는 것이 가장 성능이 좋았다.

Proportional Attention (Table 1.f)

병합한 이후에, token은 하나 이상의 input patch를 표현한다. 논문에서는 proportional attention으로 이 점을 반영하려 하였다. 놀랍게도, supervised model (AugReg, SWAG, DeiT)에서는 proportional attention이 필수적이라는 것을 알 수 있었지만, MAE 모델에서는 별다른 효과가 없었다.

이 차이는 training 이후 없어지게 되는데, 이것은 MAE가 이미 pre-training에서 token을 제거하였기 때문이다. 그럼에도 불구하고, MAE 모델을 제외한 나머지 모델들에 대해서만 proportional attention을 적용하였다.

Comparing Matching Algorithms

Table 2에서는 bipartite matching을 다른 token reduction algorithm과 비교하는 실험을 진행하였다.

Pruning은 빠르지만, 98%의 토큰을 제거하였을 때에는 중요한 정보가 없어지는 현상이 발생하였다. 이것은 pruning할 것을 랜덤하게 정했을 때와 Attention에서 주목을 받지 못하는 부분을 없앴을 때 모두 공통적으로 발생하였다.

이와 대조적으로, merging token은 서로 비슷하지 않은 토큰들이 병합이 되었을 경우에만 중요한 정보들을 잃어버리는 모습을 보여준다. 이 결과를 통해서 서로 비슷한 토큰들이 병합되도록 하는 것이 중요하다는 것을 알 수 있다.

kmeans는 많은 수의 토큰을 동일한 클러스터에 일치시킬 수 있도록 하여 유사하지 않은 토큰들이 병합될 확률을 높이게 된다. 이 점으로 인해서 training 없이는 10% 이상의 정확도 하락을 줄일 수는 없었다.

kmeans 기법 대신에, 비슷한 토큰들끼리 병합이 되는 matching algorithm을 적용하려고 시도하였다. 가장 유사한 토큰 쌍을 병합한 다음 교체 시간 없이 $ r $번 반복하여 탐욕법으로 이것을 할 수 있었다. 이 방법은 정확하지만, sequential하므로, $ r $이 커질수록 느려질 수 있다는 단점을 가지고 있다.
위 논문에서 제안한 bipartite matching이라는 기법을 통해서 greedy approach의 정확성을 가지면서도, pruning의 속도를 가질 수 있도록 하였다.

Selecting a Merging Schedule

기본값으로는 토큰을 한 layer에서 일정한 수($ r $) 만큼을 줄이는 schedule 방법을 사용하였다. 이 디자인의 최적화를 평가하기 위해서 15,000개의 merging schedules를 표본 추출(?)하였다. 각 schedule에서 AugReg ViT-B/16 모델을 사용하여 정확도와 fp16 (Imagenet-1k val)을 측정하였다.

이를 보았을 때, constant($ r $의 값이 중간에 바뀌지 않는 것)가 최적에 가까웠고, 특히 병합된 total token이 클수록 더욱 최적에 가까웠다. 모델이 3배 이상의 처리량을 감당하게 만들기 위해서는 linearly decreasing 방법이 효과가 좋은 것을 알 수 있었다. 처음에는 $ 2r $ 토큰을 첫번째 layer에서 제거하고, 마지막 layer에서는 0개의 토큰을 제거하는 “decreasing” schedule을 정의하였다. 그리고 그 사이에서는 interpolation으로 제거해야 할 토큰의 개수를 정한다. 이것은 동일하게 $ rL $토큰을 제거하지만, 기존보다 더 빠르게 처리할 수 있는 방법이다.

Visualizations

이 논문에서 가장 흥미로웠던 실험으로, ToMe를 적용하였을 때, 마지막 Layer에서 어떤 image patch들끼리 Token이 병합되었는지를 확인하여 이를 시각화하는 실험이었다. ToMe를 적용했을 때 part segmentation과 유사한 token merging이 발생했다는 것을 발견했다. 이는 사람이 인지하는 것과 비슷하게 유사한 의미를 가진 image patch들 끼리 merging이 된다는 뜻이다. 따라서 pruning과 달리, ToMe는 정보를 잃지 않고 background와 foreground 모두에서 수많은 토큰을 병합할 수 있다.

Conclusion

이 연구에서는 ToMe라는 기법을 제안하여 점진적으로 병합되는 토큰의 방식을 통해 ViT 모델의 처리량을 늘렸다. ToMe는 자연적으로 input의 중복된 정보들을 사용하고, 중복성이 있는 모든 modality에 사용할 수 있다.

ToMe는 pure transformer block을 사용하는 “Natural”한 hierarchical model로 볼 수 있다. 이 연구에서는 분류 (Classification)에 초점을 맞췄지만, Visualization part에서는 ToMe가 분할(Segmentation)과 같은 작업에서 높은 잠재력을 가지고 있음을 보여준다.마지막으로 ToMe는 도메인 전체의 대규모 모델에서 잘 작동하고, training time과 memory usage를 줄이므로, 대규모 모델 training의 핵심 구성 요소가 될 수 있을 것이다.

Reference.

Bolya, Daniel, et al. "Token merging: Your vit but faster." arXiv preprint arXiv:2210.09461 (2022).

Jupyter Kernel이 제대로 동작을 안 하는 경우

hannn — Sat, 15 Jul 2023 23:13:18 +0900

Python 언어를 활용하다 보면 Jupyter Lab 혹은 Jupyter Notebook을 많이 사용한다.

하지만, 가끔 아나콘다에서 가상 환경을 생성하여 이를 Kernel로 활용하는 것이 제대로 동작하지 않는 경우가 있다.

다시 말해서, 분명히 해당 가상 환경에서 어떤 패키지를 설치했음에도 불구하고, Import Error가 뜨는 경우이다.

일단 첫번째로, 아나콘다 프롬프트에서

conda activate [가상환경]

으로 사용하고자 하는 가상 환경에 진입한다. 그 이후에, 해당 가상 환경에 설치된 패키지들에 대한 정보를 확인할 수 있는

conda list

를 통해서 확인해본다.

이제, Jupyter Lab 혹은 Jupyter Notebook에서 설치하였지만, 제대로 설치가 되어 있지 않은 패키지를 import 해서 버전을 확인하면 분명 conda list에서 볼 수 있었던 패키지 버전 정보와는 다른 패키지 버전이 설치되어 있는 것을 확인했었다.

처음에는 conda install 혹은 아나콘다 자체에 문제가 있는 것이라고 생각하여 아나콘다를 최신 버전으로 업데이트 했지만, 문제는 해결되지 않았다.

결론적으로는

이런 경우에는 기본 환경인 Base의 버전인지 확인해보자!

아마도 Jupyter에서 print() 함수를 통해서 출력하여 볼 수 있는 버전은 Base의 버전과 동일할 것이다. (마찬가지로 Base에 install 되어 있지 않은 경우에는 해당 패키지가 없다는 Import Error가 나타날 것이다.)

이 문제의 원인은 아마도, Jupyter에 커널을 추가하는 과정에서 문제가 일어났다고 볼 수 있다.

(아직까지 왜 이런 일이 발생하는 지에 대해서는 원인을 알지 못했다.)

하지만, 그럼에도 불구하고, 이를 해결하는 방법은

jupyer kernelspec list

명령어를 통해서, 각 가상 환경의 jupyer kernel이 어디에 존재하고 있는지 확인할 수 있다.

해당 디렉토리에 들어가면 kernel.json 파일이 있다.

여기에서 "argv"라는 key에 해당하는 value는 List로 되어 있고, 가장 첫번째 원소가 파이썬 실행파일의 위치를 나타내고 있다.

이것의 디렉토리를 base의 python.exe가 아닌, 실제 가상 환경의 python.exe 파일을 가리키도록 설정해주면 된다.

즉, 윈도우의 경우

"C:\\Users\\(사용자명)\\anaconda\\python.exe" 로 되어 있는 부분을,

"C:\\Users\\(사용자명)\\anaconda\\envs\\(가상 환경 이름)\\python.exe"

으로 변경해준 뒤, 다시 jupyter lab 혹은 jupyter notebook을 켜고, 해당 커널로 설정한 뒤에 버전을 확인해보면,

우리가 원하는 가상 환경의 패키지가 제대로 불러와 지는 것을 확인할 수 있다.

[RNN/LSTM/GRU] 순환 신경망 기반 Network 정리

호Tuck — Wed, 12 Jul 2023 20:57:25 +0900

안녕하세요!

자연어 처리에서 핵심 역할을 했었던, RNN과 이후 RNN을 기반으로 파생된 모델인 LSTM과 GRU에 대해 포스팅해보겠습니다.

Recurrent Neural Network (RNN)

RNN: Background

시계열 데이터를 처리하기에 좋은 네트워크
RNN의 기본 전제는 sequence data의 각 요소가 서로 연관성을 가진 다는 것,
CNN 이 이미지 구역별로 같은 weight를 공유한다면, 시간 별로 같은 weight를 공유한다.
기존의 신경망들 (DNN) 은 은닉층에서 activation function을 지나 출력됨 => Feed Forward Neural Network
But 시계열 데이터는 과거의 상태가 현재 상태에 영향을 미치며, 최종적으로는 Output에 영향을 미침.
따라서 시계열 데이터를 처리하기 위해, RNN에서는 현재 시간의 상태 ($ x_t $) 가 이전 시간의 상태($ x_{t-1}$ 와, 현재의 입력 ($ u_{t}$) 에 관련이 있다고 가정함.
그럼 다음과 같은 수식을 정의할 수 있음.
$x_t = f(x_{t-1}, u_t)$
$y_t = h(x_t)$

Neural Network setting으로 함수 근사

$x_t = \sigma (W_{xx}x_{t-1} + W_{xu}u_t + b_x)$
$y_t = \sigma (W_{yx}x_t + b_y)$
RNN (Recurrent Neural Network) 는 은닉층의 노드에서 activation function을 통해 나온 결과값을 출력층 방향으로 보내면서, 은닉층 노드의 다음 계산의 입력으로 보냄.

이러한 RNN은 대표적으로 두 가지 그림을 통해 표현할 수 있음. (bias는 생략)

각각의 노드는 벡터 형태임.
1번과 2번의 그림을 보면 알 수 있듯이, self feedback loop가 존재하는 것을 볼 수 있음. 그리고 $x_t$ 이전 까지의 상태와, 이전까지의 입력을 대표할 수 있는 압축본이라고 할 수 있다. 이러한 hidden state $x$를 셀(cell)이라고 하며, 이전의 값을 기억하는 메모리 역할을 수행하여 메모리 셀 or RNN 셀 이라고 표현한다.

우리가 알기 익숙한 형태로 시각화를 해보자면,

RNN: Problem Types

RNN은 입력과 출력의 길이를 다르게 설계할 수 있어 아래와 같은 3가지 task 로 나눌 수 있음.

Many-to-many (번역)
Many-to-one (예측): sentiment classification (입력 문서가 긍정 or 부정), spam detection
One-to-many (생성): Image captioning (사진의 제목 생성하기)

RNN: Training

RNN의 학습은 backpropagation의 확장형인 BPTT(Back Propagation Through Time)를 사용함

가중치 W가 모든 시점에서 메모리 셀의 출력($y$)를 구할 때 사용되었기 때문에 0에서 k까지 계산하여 합하는 것임.
이러한 Training 때문에, 전파가 길어질 수록 Gradient Exploding or Gradient Vanishing 현상이 발생함. (정보량의 손실)
Gradient Exploding => Gradient clipping (gradient가 일정 threshold가 넘어가면, clipping 해줌)을 해 줄 수 있음.
Gradient Vanishing => 학습 도중 파악하기 어려움. 만약 loss값이 0 이라면 학습이 종료된 것인지, 아니면 Vanishing gradient 인지 모름. 따라서 다른 네트워크 구조를 사용하는 것이 편함
따라서 RNN은 긴 의존기간의 문제를 어려워함.

ex, The clouds are in the sky => sky를 맞추기 위해서는 이 문장만 봐도 해결 가능함. I grew up in France ... I speak fluent French => French 를 맞추고 싶다면 앞의 문맥부터 참고 해야함.
아래의 경우는 필요한 정보를 얻기 위해 시간 격차가 굉장히 커지기 때문에, 학습하는 정보를 계속 이어나가기 힘들다.
==> 이를 해결하는 네트워크 구조 **Gated RNNs: LSTM/GRU**

Long short-term memory: LSTM

출처:http://colah.github.io/posts/2015-08-Understanding-LSTMs/

앞서 제시된 RNN의 긴 의존 기간의 문제를 피하기 위해 설계되었음.

hidden state 만이 아니라 cell state 라는 역할이 있으며 Forget gate, Input gate, Output gate를 통해 계산이 이루어짐.
Gradient flow를 제어할 수 있는 "밸브" 역할을 수행함.
State space의 입력($x$), 상태($h$), 출력($y$) 구조는 동일함.
4개의 Unit을 가지고 있음.

1) Forget gate
2) Input gate
3) Output gate
4) Cell

Gate의 이름에서 알 수 있듯이 어떤 정보를 잊을지 기억할지를 선택해 long term과 short term에 대한 정보를 고려함.

Cell state

Hidden state와 마찬가지로 이전 시점의 cell state를 다음 시점으로 넘겨줌.
Cell state의 주 역할은 gate들과 함께 작용해 정보를 선택적으로 활용
Cell state의 업데이트는 각 gate의 결과를 더함으로서 진행됨.

Gate

1), 3), 4)이 gate라고 할 수 있음.
세 개의 gate 모두 활성화 함수로 시그모이드 적용 => $\sigma$
gate는 cell state와 함께 정보를 선택적으로 활용할 수 있도록 함.

1) Forget gate layer

과거 정보를 얼마나 잊을 것인지/기억할 것인지 결정하는 단계
전 시점의 hidden state $h$와 현재 입력 $x$에 대해 연산을 진행하고, $\sigma$함수 사용 함.
이 값이 0에 가까울 수록 정보를 잊은 것이며, 1에 가까울 수록 정보를 기억하는 것임.
연산의 결과인 $f_t$는 과거 정보에 관해 얼마나 잊었는지, 기억하는지를 가지고 있는 값임.

2) Input gate layer

새로운 정보 중 어떤것을 cell state에 저장할 것인지?
forget gate 와 동일한 기능으로 $i_t$는 현재의 정보를 기억할 것인지/기억하지 않을 것인지를 결정함.
이후 $h_{t-1}$ $x_t$는 tanh 함수에 들어가 출력값으로 반환되어 hadamarad product()가 되고, 새로운 후보 값인 $C_t$를 만들어 cell state에 더해짐.

3) Cell state update

과거 state인 $C_{t-1}$을 업데이트 해서 새로운 cell state인 $C_t$를 만듦. 이때 forget gate에서 잊어야 하는 이전 상태의 정보를 잊어버리고, 현재의 input값의 반영 값을 포함해서 업데이트 해줌.

4) Output gate layer

시그모이드 레이어에 $x_{t}$와 $h_{t-1}$이 들어가 0~1사이의 값을 출력하고, 이 값은 cell state의 어느 부분을 output으로 내보낼 지 결정함. 이후 cell state가 tanh에 들어가 나온 출력값과 output gate에서 나온 값이 곱해져 $h_t$가 출력됨. 이 $h_t$는 출력값으로 나가가기도 하며, 다음 state의 input으로 들어감.

Gated Recurrent Unit: GRU

GRU는 기존 LSTM의 구조를 조금 더 간단하게 개선한 모델임.
LSTM보다 학습 속도가 빠르지만, 여러 평가에서 LSTM과 비슷한 성능을 보인다고 알려져 있음.
데이터 양이 적을 때는 매개변수의 양이 적은 GRU가 더 좋으며, 데이터 양이 많다면 LSTM이 더 좋다고 알려져 있음.
LSTM의 forget gate, input gate, output gate 를 reset gate, update gate 2개의 gate만을 사용함. 그리고 cell state, hidden state를 하나의 hidden state로 표현함.

1) Reset gate ($r(t)$) : 이전 상태를 얼마나 반영할 지

이전 시점의 hidden state, 현 시점의 입력값을 sigmoid에 통과해 이전 hidden state값을 얼마나 활용할 것인지 결정 식(2).
(3)식에 다시 활용하여 이전 time point의 hidden state에 reset gate를 곱하여 사용함.

2) Update gate ($z(t)$) : 과거와 현재의 정보를 각각 얼마나 반영할 지에 대한 비율 ==> 삭제 게이트와 입력 게이트의 역할을 수행함.

과거와 현재의 정보를 각각 얼마나 반영할 지에 대한 비율을 구함.
식 (1)을 통한 결과인 $z$는 현재 정보를 얼마나 사용할 지를 반영, $1-z$는 과거 정보를 얼마나 사용할 지에 대해 반영함. 전자는 LSTM의 Input gate, 이후를 forget gate라고 생각할 수 있음.
최종적으로는 (4) 식을 통해 현 시점의 hidden state 값을 구할 수 있음.
GRU 셀은 output gate가 없어 hidden vector $h_t$가 타임 스텝마다 출력되고, 이전 상태의 $h_{t-1}$의 어느 부분이 출력될 지 제어하는 gate controller인 $r_t$가 있는 것임

Cross Validation

hyenzzang — Thu, 8 Jun 2023 11:11:10 +0900

Q. Cross Validation은 무엇이고 어떻게 해야하나요?

Cross Validation

데이터를 Train set과 Test set으로만 나누어 학습 및 평가를 할 경우 내가 만든 모델이 Test set에 대해서만 잘 작동할 수 있다.
이렇듯 모델 과적합이 일어나면 다른 데이터를 사용했을 때 예측을 잘 수행할 수 없게 된다.
고정된 Train 및 Test set으로부터 발생할 수 있는 문제를 해결하고자 하는 것이 바로 교차검증 (cross validation)이다.
아래 그림처럼 전체 데이터를 k개의 subset으로 나누고 Test set을 중복없이 바꾸어가면서 k번의 평가를 진행할 수 있다. 이를 K-fold cross validation이라 한다.
k개의 평가 값에 대해 평균을 내어서 최종적인 모델의 성능으로 사용할 수 있다.

출처: scikt-learn

Cross validation의 장점
- 모든 데이터셋을 평가에 사용할 수 있다. 이를 통해 데이터 편향 및 과적합을 방지할 수 있다.
- K개의 성능 결과를 통합하여 하나의 결과를 도출하기 때문에 보다 일반화된 모델 성능 평가가 가능하다.
Cross validation의 단점
- 반복 횟수가 많아서 모델 학습 및 평가 시간이 길어진다.

데이터 클래스가 불균형한 경우에는 Stratified k-fold cross validation을 사용하여 데이터 클래스별 분포를 고려하여 폴드 세트를 만들어야 한다.
전체 데이터 중 p개의 샘플을 선택하여 그것을 모델 검증에 사용하는 Leave-p-out cross validation 방법도 존재한다. 이 방법은 데이터 폴드 세트의 경우의 수가 매우 커서 계산 시간에 대한 부담이 크다.

Reference

https://m.blog.naver.com/ckdgus1433/221599517834
https://huidea.tistory.com/30

로그함수 (log)

hyenzzang — Sun, 4 Jun 2023 21:28:21 +0900

Q. 로그함수는 어떤 경우 유용합니까?
사례를 들어 설명해주세요.

로그(log)

데이터 분석 시 로그 함수를 취하는 이유는 정규성을 높이고 회귀 분석에서의 정확한 값을 얻기 위함이다.
데이터 간의 편차를 줄여 왜도 (skewness, 데이터가 한 쪽으로 치우친 정도)와 첨도 (Kurtosis, 분포의 뾰족한 정도)를 줄일 수 있기 때문에 정규성을 높일 수 있다.
예를 들어 연령은 숫자의 범위가 0세~120세처럼 특정한 범위 내에 있지만 재산 보유액 같은 경우는 0원에서 몇 조의 단위까지 올라갈 수 있다.
따라서 log를 통해 큰 수를 작게 만들고 복잡한 계산을 간편하게 만듦과 동시에 왜도와 첨도를 줄여 데이터 분석 시 의미 있는 결과를 도출할 수 있다.
또한 일반적으로 자연 로그를 취하게 될 경우 비선형 관계를 선형 관계로 만들 수 있다.

Summary

로그 함수를 취하는 이유는 다음과 같다. 1) 단위수가 너무 큰 값을 회귀분석 시 바로 사용할 경우, 결과를 왜곡할 수 있는데, 의미 있는 결과를 도출하기 위해 log를 취해준다. 2) 독립 변수와 종속 변수의 변화관계에서 절대량이 아닌 비율값을 사용하기 위해 log값을 취해줄 수 있다. 3) 비선형관계를 선형관계로 만들기 위해 log를 취해준다.

Reference

https://leebaro.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D-%EC%8B%9C-%EC%8B%9D%EC%97%90-%EB%A1%9C%EA%B7%B8%EB%A5%BC-%EC%B7%A8%ED%95%98%EB%8A%94-%EC%9D%B4%EC%9C%A0

https://dangdo.tistory.com/44

Log 함수를 사용하는 이유

hannn — Sun, 4 Jun 2023 10:00:51 +0900

로그함수는 어떤 경우에 유용하게 사용할 수 있을까?

로그 함수(Log)

로그는 지수(Exponential)의 역함수 개념으로, 기본적으로 큰 수를 쉽게 다루기 위해서 사용되는 개념이다.

언제 사용되는가?

숫자의 범위가 큰 경우

기본적으로 우리의 일상생활에서 다른 수들보다 범위가 큰 수를 가진 항목들이 존재한다. 예를 들어 가격 혹은 재산 보유액 등과 같은 항목들은 사람이 단번에 숫자를 파악하기 어려운 경우가 많다. 이런 경우에 각 값들에 Log를 취한 값을 사용하여 데이터를 파악하면, 조금 더 쉽게 파악하는 것이 가능하다.

데이터가 편향되어 있는 경우

데이터 분석을 배우다보면, 대부분 로그함수를 취하는 경우에는 왼쪽이든 오른쪽이든 데이터의 분포가 편향(Skewed)되어 있는 경우에 사용한다고 설명이 되어 있다. 하지만, 값이 상대적으로 큰 데이터들이 데이터의 분포에서 집중되어 있고, 값이 작은 샘플 수는 별로 없는 경우에는, 로그를 취했을 때, 데이터들의 편향성이 더욱 증가한다고 볼 수 있다.

따라서, 로그 함수는 대부분 작은 값을 가진 샘플들이 집중되어 있고, 몇몇 샘플들이 이상치라고 생각할 만큼 큰 값을 가지고 있는 경우에 사용하면 우리가 평소에 자주 접하는 정규 분포의 형태와 비슷해진다고 볼 수 있다.

이렇게 되는 이유는 로그 값이 동일한 정도로 커지기 위해서는 값이 큰 경우에 더 많이 증가를 해야하기 때문이다.

즉, log(x) 값이 1에서 2로 가기 위해서는 실질적으로 x가 90만큼 커져야 하지만, log(x)값이 2→ 3이 되기 위해선 x가 900만큼 커져야 한다.

독립 변수와 종속 변수가 비선형성을 띄는 경우

독립 변수가 증가할 때, 종속 변수가 지수적으로 증가하는 관계를 가지고 있는 경우에는 로그를 취하게 되면, 선형적인 관계로 해석할 수 있다. 이 점은 특히 회귀 분석을 하는 경우에, 대부분의 모델이 독립 변수와 종속 변수의 선형적 관계를 파악하기 때문에, 아주 유용하게 사용된다.

Ref.

https://dangdo.tistory.com/44

https://velog.io/@zxxzx1515/로그-함수는-어떤-경우-유용합니까-사례를-들어-설명해주세요

Bias를 통제하는 방법

hannn — Sat, 27 May 2023 16:50:24 +0900

Bias란

모델이 정답값을 예측함에 있어서 발생하는 편향으로, 데이터의 분포를 정확하게 학습하지 못하여, 잘못된 분포를 보이고 있는 것을 의미한다. Bias가 존재한다면, 예측값과 실제값이 일정한 차이를 보이게 된다.

Bias를 통제하는 방법

Bias가 발생하는 원인은 결국 모델이 데이터의 분포를 정확하게 학습하지 못하기 때문이다. 그렇다면, Bias를 통제하기 위해서는 모델이 데이터의 분포를 정확하게 학습을 시키면 된다.

아직까지 모델이 데이터의 분포를 정확하게 학습을 하지 못했다는 것은, 다음의 원인 중 하나이다.

모델의 구조가 너무 간단하여 모델이 데이터의 분포를 표현하기에 부족하다.
모델이 아직까지 학습이 덜 되었다. (특히 Deep Learning Model의 경우)

이를 해결하기 위한 방법으로는 아래의 방법들이 존재한다.

모델의 구조를 조금 더 복잡하게 만들 수 있다.
- 단순한 Feature들을 결합하여, 해당 Feature들의 상관관계도 학습하도록 만든다.
- Regularization Term이 존재한다면 (ex> Lasso, Ridge, Elastic Net 등) Regularization Term의 계수의 크기를 줄여준다.
Deep Learning Model의 경우, Epoch의 수를 조금 더 늘린다. (모델이 조금 더 여러번 학습하여 가중치 Update의 횟수를 늘린다.)

하지만, 무조건적으로 모델의 복잡도를 높일수는 없다. 그 이유는 Bias와 Variance는 Trade-off 관계이기 때문이다. 따라서 기본적으로 모델을 학습시킴에 있어서 Bias와 Variance를 동시에 고려한다. 즉, Model이 정확한 예측을 하기 위해서는 Bias를 최소화하는 동시에 Variance를 최소화해야 하는데, 일반적으로 Bias를 줄일 경우에 Variance가 증가하는 경향이 존재하며, Variance를 줄일 경우에는 Bias가 증가하는 경향이 존재하기 때문이다.

Variance는 Bias와는 반대로, Training dataset의 분포를 학습하는 데에 있어서, 유용하지 않은 부분까지 학습을 하게 되는 것을 의미한다. 따라서, 외부의 데이터 셋을 해당 모델에 적용하였을 때, 정답값을 이상하게 예측하는 Overfitting 현상이 발생하게 된다.

Variance는 일반적으로 Bias를 줄이려고 사용하는 방법과 반대를 생각하면 된다.

모델의 구조를 조금 더 단순하게 만든다.
- 너무 복잡한 Feature들을 삭제하거나, Feature의 개수를 줄인다.
- Regularization Term이 존재한다면 Regularization Term의 계수의 크기를 증가시킨다.
Deep Learning의 경우, Ealry stopping 등의 장치를 통해서 너무 많이 가중치가 Update 되는 것을 방지한다.

Ref.

https://gaussian37.github.io/machine-learning-concept-bias_and_variance/

https://yuldangs-sosolife.tistory.com/70

Bias 통제 방법

hyenzzang — Thu, 25 May 2023 17:02:39 +0900

Q. Bias를 통제하는 방법은 무엇입니까?

Bias

Bias는 모델을 통해 얻은 예측값과 실제 정답값의 차이의 평균을 뜻한다.
Bias가 높다는 것은 예측값과 정답값 사이의 차이가 크다는 것을 의미한다.
Bias 문제는 기본적으로 모델이 매우 간단할 때, 즉, underfitting이 발생한 경우에 일어난다.

Variance

추가적으로 Variance는 다양한 데이터셋에 대해 예측값이 얼마나 변화할 수 있는지를 뜻한다.
즉, 모델이 얼만큼의 Flexibility를 가지는 지에 대한 의미로 사용된다.
Variance 문제는 데이터 분포에 비해 모델의 복잡도가 커서 overfitting이 발생한 경우에 일어난다.

Bias 통제

Bias를 통제하는 방법으로는 아래의 방법을 사용할 수 있다.
- Feature 개수를 증가시킨다.
- Polynomial feature 를 추가하여 복잡한 모델을 사용한다.
- Regularization parameter $\lambda$의 크기를 줄인다.
  - Regularization은 weight가 너무 큰 값을 가지지 않도록 하여 모델의 복잡도를 낮추는 방법이다.
  - $\lambda$ 가 매우 큰 값을 가지게 되면, 수평선 그래프가 그려지게 된다.
  - 반대로, $\lambda$ 가 0이 되면, Overfitting 문제가 일어난다.
- Nueral Network 에서는 layer 개수가 parameter 개수에 비례하므로, layer 개수가 작으면 layer를 추가한다.
하지만, 모델이 복잡해질 수록 Bias는 작아지고 Variance는 반대로 커지기 때문에, 둘을 같이 줄일 수는 없다.
오류를 최소화하기 위해 Bias와 Variance의 합이 최소가 되는 적절한 값을 찾아야 한다.

Reference

https://gaussian37.github.io/machine-learning-concept-bias_and_variance/