목록전체 글 (113)
AIMS Study Blog

이번 ICLR 2023에 있었던 논문에 대해서 리뷰를 진행한다. (https://arxiv.org/abs/2303.10512) 이 논문은 최근에 많이 다뤄지는 LLMs(Large Language Models)을 Computational Efficient하게 Fine-tuning하는 방법에 대해서 기존에 있던 LoRA(Low Rank Adaptation)의 기법을 보완한 AdaLoRA를 제안하는 논문이다. 이 포스팅에서는 AdaLoRA에 대해서 살펴본다. (추후, 이것의 Reference가 되는 LoRA에 대해서도 다룰 예정이다.) Abstract 기존의 LoRA는 좋은 성능을 보였으나, parameter budget을 incremental update에 균등하게 분배했다. 하지만, 쓸모 없는 것에 inc..

논문 링크 : https://link.springer.com/epdf/10.1007/978-3-031-16431-6_7?sharing_token=7cUeevO0wZQdc7MmJTRXEPe4RwlQNchNByi7wbcMAY7ZlzAyNldSVTx86qNGeZBPTXWLvhyBFjUTTTpx_kJHqMahZBjcuY2BcXG1eAdG_UlWzpMLdPr5C8xzl4B2M8Z__2gJXDqqRq0Z6AHINqsO8O5KnWqfLMgdTDuHD-qA9I4%3D Abstract : Alzheimer's Disease (AD)은 가장 흔한 형태의 치매로, 다양한 원인으로 인해 진단에 어려움을 겪고 있는데, 최근 Deep Neural Networks (DNNs)를 활용한 뇌 영상 기반 연구에서 Structural M..

이번 ICLR 2023에 있었던 논문에 대해서 리뷰를 진행한다. (https://arxiv.org/abs/2210.09461) 이 논문은 Transformer의 정확도를 유지하면서도, 연산량을 줄여 모델이 한번에 처리할 수 있는 정보의 양을 늘리기 위해서 ToMe(Token Merging)이라는 기법을 제안한 논문이라고 볼 수 있다. 이 포스팅에서는 ToMe라는 기법에 대해서 살펴보고, 주요한 실험 결과를 정리해 볼 예정이다(모든 실험 결과를 다루지는 않는다!). Introduction Transformer가 등장한 이후, NLP, Computer Vision 등 다양한 분야에서 Transformer를 기반으로 한 모델들이 쏟아져 나오고 있다. 특히나, Vision Transformer가 등장한 이후에는..
Python 언어를 활용하다 보면 Jupyter Lab 혹은 Jupyter Notebook을 많이 사용한다. 하지만, 가끔 아나콘다에서 가상 환경을 생성하여 이를 Kernel로 활용하는 것이 제대로 동작하지 않는 경우가 있다. 다시 말해서, 분명히 해당 가상 환경에서 어떤 패키지를 설치했음에도 불구하고, Import Error가 뜨는 경우이다. 일단 첫번째로, 아나콘다 프롬프트에서 conda activate [가상환경] 으로 사용하고자 하는 가상 환경에 진입한다. 그 이후에, 해당 가상 환경에 설치된 패키지들에 대한 정보를 확인할 수 있는 conda list 를 통해서 확인해본다. 이제, Jupyter Lab 혹은 Jupyter Notebook에서 설치하였지만, 제대로 설치가 되어 있지 않은 패키지를 i..

안녕하세요! 자연어 처리에서 핵심 역할을 했었던, RNN과 이후 RNN을 기반으로 파생된 모델인 LSTM과 GRU에 대해 포스팅해보겠습니다. Recurrent Neural Network (RNN) RNN: Background 시계열 데이터를 처리하기에 좋은 네트워크 RNN의 기본 전제는 sequence data의 각 요소가 서로 연관성을 가진 다는 것, CNN 이 이미지 구역별로 같은 weight를 공유한다면, 시간 별로 같은 weight를 공유한다. 기존의 신경망들 (DNN) 은 은닉층에서 activation function을 지나 출력됨 => Feed Forward Neural Network But 시계열 데이터는 과거의 상태가 현재 상태에 영향을 미치며, 최종적으로는 Output에 영향을 미침. 따..