Llama 2

8. print(model) 한 줄로 Transformer 구조 이해해보기 (feat. Llama-3.2-1B)

목차 1. print(model) 한 줄로 Transformer 구조 이해해 보기 (feat. Llama-3.2-1B)- 0) 전체 흐름 요약- 1) Embedding Layer- 2) Decoder Layers (총 16개)- 3) Final RMSNorm- 4) LM Head (출력층)- 5) 전체 흐름 재정리- 6) 느낀점 1. print(model) 한 줄로 Transformer 구조 이해해 보기 (feat. Llama-3.2-1B)Llama-3.2-1B 모델을 print(model) 했을 때 나오는 내부 레이어 구조를 출력해본 뒤,출력 결과물을 통해 Transformer 구조 속 요소를 하나하나 가볍게 뜯어볼 수 있었다. 이렇게 하나하나 뜯어본 요소들에 대해 적어본다. 0) 전체 흐름 요약 모..

AI 공부 2026.03.29

6. 모델별 Tokenizer, special token, chat_template 작동방식 비교 (feat. Llama, Deepseek, Phi, Qwen-Coder)

목차1. Day 12 - Hugging Face Pipeline 이용해 보기 2. Day 13 - 모델별 Tokenizer, special token, chat_template 작동방식 비교 (feat. Llama, Deepseek, Phi, Qwen-Coder) 1. Day 12 - Hugging Face Pipeline 이용해 보기 3주 차 중 2일째의 경우는 허깅페이스의 Pipeline을 이용해 허깅페이스에 있는 모델들을 쉽게 써보는 작업을 진행했다. 1) Pipeline? Hugging Face의 pipeline() 함수는 코드 한 줄로 모델 사용이 가능하게 해 준다. 내부적으로 원래는 사용자가 지정해야하는 아래 복잡한 task들을 알아서 처리해 줘 바로 모델을 사용(inference) ..

AI 공부 2026.03.15