'Machine Learning' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록Machine Learning (2)

인공지능을 좋아하는 곧미남

[Paper Review] TOKENFORMER: RETHINKING TRANSFORMER SCALINGWITH TOKENIZED MODEL PARAMETERS

안녕하세요. 오늘은 Transformer의 Layer 구조를 변형하여 Model Parameter를 Token으로 활용하여 모델의 확장성을 높이고, 학습 비용을 줄인 TOKENFORMER를 리뷰하겠습니다. 이름에서 부터 직관적으로 Transformer의 구조를 TOKEN화 한것 같은 느낌을 줍니다. Transformer 논문을 보고 오시면 이해가 쉽습니다.- 논문 관련 문서 -arXiv 30 Oct 2024. [Paper] [Page] [Github]- 목차 -1. Background2. Token-Parameter Attention(Pattention)3. Progressive Model Scaling4. Result1. BackgroundTransformer의 한계점: Linear projection..

Paper Review 2024. 11. 27. 14:27

Case of weight nans value during training

안녕하세요. 오늘은 학습 시 weight가 nan 값이 출력되는 문제에 관해 알아보겠습니다. 저도 처음에 왜 그런지 정말 궁금해서 많이 찾아봤는데 역시 stack overflow에 잘 설명이 되어있었습니다. 오늘의 내용을 아래와 같습니다. - INDEX - 1. Nan value 발생 현상 및 이유 2. Nan value 발생 시 대처 방법 3. 고찰 1. Nan value 발생 현상 및 이유 1) Gradient blow up: Gradient의 값이 너무 커서 weight update 시 발산되어 weight가 Nan으로 됨. 2) Bad learning rate policy and params: learning rate 자체가 inf나 nan이 될 경우. 3) Faulty loss function:..

인공지능 개발자의 기본 소양 2022. 2. 9. 12:44

Prev 1 Next

목록Machine Learning (2)

인공지능을 좋아하는 곧미남

티스토리툴바