2023-Q4-AI 13. Transformers

13.1. Video / Materiāli

Video: https://youtube.com/live/kWh0DJoDFSI?feature=share

Jamboard: https://jamboard.google.com/d/1JfeVPKw2IKTYxMUGAoSAYvgAJxyVLNCLZvm9gWAWFl0/edit?usp=sharing

Preparation materials: http://jalammar.github.io/illustrated-transformer/ https://arxiv.org/abs/1706.03762

Jamboard tiesības iedota: stefan.dayneko@gmail.com

Youtube video key: pfhg-m95p-vz75-f78q-bm3c

Source code and materials: http://share.yellowrobot.xyz/quick/2023-12-2-3FDD4522-CC8E-46A5-9131-E753AEFB9B11.zip

Iepriekšējā gada video: https://youtu.be/z8DdZboGW6I

Iepriekšējā gada Jamboard https://jamboard.google.com/d/12R5zrlFFKLZE4afLATJi_NB6EnzJ4AMYzHRoiQ77Q2A/edit?usp=sharing

Saturs

Transformeriem nav atmiņa, ir tikai attention un iemācīts kā izmantot attention. Tāpēc vajag barot iekšā ļoti garu tekstu vienlaicīgi, lai nodrošinātu “atmiņu”, bet var iebarot garāku tekstu kā LSTM (max ~100 len uz LSTM, bet transformer var cik vien garu vajag)
Self-attention mehānisms K, Q, V encoder var būt jebkādi MLP modeļi, galvenais ir struktūra un vienādojums, kas piespiež K, Q, V uzvesties kā paredzēts. No sākuma kodēt BEZ multihead attention - varbūt to vispār nevajag kodēt lai nav apjukums finished kodā es sakodēju jau ar multi-head
Parādīt MASK matrix, lai slēptu attention nākotni, citādi viņš ar attention nokopēs vienkārši nākotni, lai to prognozētu
Multi-head attention - tas pats split X reizes, self-attention un beigās concat
Time step embeddings - learnable vai sin-cos static
Nav starpība vai time step embeddings concat vai pieskaita līdzīgi kā UNet tas pats efekts
OpenAI GPT modeļa struktūra Word embeddings sākumā un beigās transposed word embeddings - tā pati matrica (iepriekšējā nodarbībā jau izmantojām ar LSTM)

13.2. Implementēt Transformer GPT modeli izmantojot instrukcijas video

Modeļa arhitektūra: http://share.yellowrobot.xyz/quick/2023-12-2-426F6D4A-F6D9-4471-8843-E31784E01409.zip

Iesniegt kodu un screenshots ar labākajiem rezultātiem.

Sagatave Jaunā: http://share.yellowrobot.xyz/quick/2023-12-2-6FE0EBFB-952E-4DB4-B0E6-F72F1D3DD155.zip

13.3. Implementēt Transformer GPT modeli ar multi-head attention

Multi-head attention mehānisms: http://share.yellowrobot.xyz/quick/2023-12-2-46DC4A97-53C6-467E-8CA6-F8E24DD8DCE8.zip

Iesniegt kodu un screenshots ar labākajiem rezultātiem.

13.4. Mājasdarbs - implementēt transformer inferenci

Implementēt TODO
Iesniegt kodu un screenshots ar labākajiem rezultātiem

Sagatave: http://share.yellowrobot.xyz/quick/2023-12-2-CFA4F1BE-651A-4157-9D6B-0F2303BB5868.zip

⚠️ Par majasdarbu - pretrained modelis ar savadaku, mazaku vocab tokenizeja tekstu, kaut kāds bug, vajadzētu uzmest aci izpētīt

Zemāk doti piemēri no modeļa apmācības un attention matricas

Materiāli

!image-20230403203940883