Video: https://youtube.com/live/kWh0DJoDFSI?feature=share
Jamboard: https://jamboard.google.com/d/1JfeVPKw2IKTYxMUGAoSAYvgAJxyVLNCLZvm9gWAWFl0/edit?usp=sharing
Preparation materials: http://jalammar.github.io/illustrated-transformer/ https://arxiv.org/abs/1706.03762
Jamboard tiesības iedota: stefan.dayneko@gmail.com
Youtube video key: pfhg-m95p-vz75-f78q-bm3c
Source code and materials: http://share.yellowrobot.xyz/quick/2023-12-2-3FDD4522-CC8E-46A5-9131-E753AEFB9B11.zip
Iepriekšējā gada video: https://youtu.be/z8DdZboGW6I
Iepriekšējā gada Jamboard https://jamboard.google.com/d/12R5zrlFFKLZE4afLATJi_NB6EnzJ4AMYzHRoiQ77Q2A/edit?usp=sharing
Transformeriem nav atmiņa, ir tikai attention un iemācīts kā izmantot attention. Tāpēc vajag barot iekšā ļoti garu tekstu vienlaicīgi, lai nodrošinātu “atmiņu”, bet var iebarot garāku tekstu kā LSTM (max ~100 len uz LSTM, bet transformer var cik vien garu vajag)
Self-attention mehānisms K, Q, V encoder var būt jebkādi MLP modeļi, galvenais ir struktūra un vienādojums, kas piespiež K, Q, V uzvesties kā paredzēts. No sākuma kodēt BEZ multihead attention - varbūt to vispār nevajag kodēt lai nav apjukums finished kodā es sakodēju jau ar multi-head
Parādīt MASK matrix, lai slēptu attention nākotni, citādi viņš ar attention nokopēs vienkārši nākotni, lai to prognozētu
Multi-head attention - tas pats split X reizes, self-attention un beigās concat
Time step embeddings - learnable vai sin-cos static
Nav starpība vai time step embeddings concat vai pieskaita līdzīgi kā UNet tas pats efekts
OpenAI GPT modeļa struktūra Word embeddings sākumā un beigās transposed word embeddings - tā pati matrica (iepriekšējā nodarbībā jau izmantojām ar LSTM)
Modeļa arhitektūra: http://share.yellowrobot.xyz/quick/2023-12-2-426F6D4A-F6D9-4471-8843-E31784E01409.zip
Iesniegt kodu un screenshots ar labākajiem rezultātiem.
Sagatave Jaunā: http://share.yellowrobot.xyz/quick/2023-12-2-6FE0EBFB-952E-4DB4-B0E6-F72F1D3DD155.zip
Multi-head attention mehānisms: http://share.yellowrobot.xyz/quick/2023-12-2-46DC4A97-53C6-467E-8CA6-F8E24DD8DCE8.zip
Iesniegt kodu un screenshots ar labākajiem rezultātiem.
Implementēt TODO
Iesniegt kodu un screenshots ar labākajiem rezultātiem
Sagatave: http://share.yellowrobot.xyz/quick/2023-12-2-CFA4F1BE-651A-4157-9D6B-0F2303BB5868.zip
⚠️ Par majasdarbu - pretrained modelis ar savadaku, mazaku vocab tokenizeja tekstu, kaut kāds bug, vajadzētu uzmest aci izpētīt
Zemāk doti piemēri no modeļa apmācības un attention matricas