일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 가상환경구축
- __call__
- 파이썬
- Anaconda
- pip install
- 딥러닝
- Torchvision
- DeepLearning
- LSTM
- pytorch
- CNN
- pychram
- objectdetection
- vision transformer
- torch.nn.Module
- __init__
- wsl2
- AI
- Deep learning
- ViT
- tensorflow
- 머신러닝
- rnn
- docker
- python
- 가상환경
- python 문법
- ubuntu
- torch.nn
- 파이썬문법
- Today
- Total
목록Machine Learning (2)
인공지능을 좋아하는 곧미남
안녕하세요. 오늘은 Transformer의 Layer 구조를 변형하여 Model Parameter를 Token으로 활용하여 모델의 확장성을 높이고, 학습 비용을 줄인 TOKENFORMER를 리뷰하겠습니다. 이름에서 부터 직관적으로 Transformer의 구조를 TOKEN화 한것 같은 느낌을 줍니다. Transformer 논문을 보고 오시면 이해가 쉽습니다.- 논문 관련 문서 -arXiv 30 Oct 2024. [Paper] [Page] [Github]- 목차 -1. Background2. Token-Parameter Attention(Pattention)3. Progressive Model Scaling4. Result1. BackgroundTransformer의 한계점: Linear projection..
안녕하세요. 오늘은 학습 시 weight가 nan 값이 출력되는 문제에 관해 알아보겠습니다. 저도 처음에 왜 그런지 정말 궁금해서 많이 찾아봤는데 역시 stack overflow에 잘 설명이 되어있었습니다. 오늘의 내용을 아래와 같습니다. - INDEX - 1. Nan value 발생 현상 및 이유 2. Nan value 발생 시 대처 방법 3. 고찰 1. Nan value 발생 현상 및 이유 1) Gradient blow up: Gradient의 값이 너무 커서 weight update 시 발산되어 weight가 Nan으로 됨. 2) Bad learning rate policy and params: learning rate 자체가 inf나 nan이 될 경우. 3) Faulty loss function:..