2023-Q1-AI 13. Transformers

 

13.1. Video / Materiāli 11.aprīlī 19:00

Video: https://youtube.com/live/3Lf3oR3gi-M?feature=share

Jamboard: https://jamboard.google.com/d/1ty4sGu5bkf-jttMovB9M2CH7X4UjNOAFIBOvpf5smyE/edit?usp=sharing

Preparation materials: http://jalammar.github.io/illustrated-transformer/ https://arxiv.org/abs/1706.03762

 


Youtube video key: ea11-mrgb-4jg2-4ajc-d4hr


 

Iepriekšējā gada video: https://youtu.be/z8DdZboGW6I

Iepriekšējā gada Jamboard https://jamboard.google.com/d/12R5zrlFFKLZE4afLATJi_NB6EnzJ4AMYzHRoiQ77Q2A/edit?usp=sharing

 


 

Saturs

  1. Transformeriem nav atmiņa, ir tikai attention un iemācīts kā izmantot attention. Tāpēc vajag barot iekšā ļoti garu tekstu vienlaicīgi, lai nodrošinātu “atmiņu”, bet var iebarot garāku tekstu kā LSTM (max ~100 len uz LSTM, bet transformer var cik vien garu vajag)

  2. Self-attention mehānisms K, Q, V encoder var būt jebkādi MLP modeļi, galvenais ir struktūra un vienādojums, kas piespiež K, Q, V uzvesties kā paredzēts. No sākuma kodēt BEZ multihead attention - varbūt to vispār nevajag kodēt lai nav apjukums finished kodā es sakodēju jau ar multi-head

  3. Parādīt MASK matrix, lai slēptu attention nākotni, citādi viņš ar attention nokopēs vienkārši nākotni, lai to prognozētu

  4. Multi-head attention - tas pats split X reizes, self-attention un beigās concat

  5. Time step embeddings - learnable vai sin-cos static

  6. Nav starpība vai time step embeddings concat vai pieskaita līdzīgi kā UNet tas pats efekts

  7. OpenAI GPT modeļa struktūra Word embeddings sākumā un beigās transposed word embeddings - tā pati matrica (iepriekšējā nodarbībā jau izmantojām ar LSTM)

 


13.2. Implementēt Transformer GPT modeli izmantojot instrukcijas video

[500 punkti]

Modeļa arhitektūra: http://share.yellowrobot.xyz/upic/3e22bdeb5055661b3b1d4ce7a2f862c4_1651505157.png

Iesniegt kodu un screenshots ar labākajiem rezultātiem.

Sagatave Jaunā: http://share.yellowrobot.xyz/1645110979-deep-learning-intro-2022-q1/12_1_transformer_template.py

 


13.3. Implementēt Transformer GPT modeli ar multi-head attention

[500 punkti]

Multi-head attention mehānisms: http://share.yellowrobot.xyz/upic/26aed8b83f47af6b82813713f6d81798_1651505155.png

Iesniegt kodu un screenshots ar labākajiem rezultātiem.

 


13.4. Mājasdarbs - implementēt transformer inferenci

[1000 punkti]

  1. Implementēt TODO

  2. Iesniegt kodu un screenshots ar labākajiem rezultātiem

Sagatave:

http://share.yellowrobot.xyz/1645110979-deep-learning-intro-2022-q1/12_3_transformer_inference_template.py

 

Zemāk doti piemēri no modeļa apmācības un attention matricas max_len_500b-epoch-4997

example_1

attention_1

 


 

Materiāli

 

201AD3BC-D786-4264-81EA-EEF66CB45CF0

69AF6E53-3584-4423-852E-12D176A4FC64

9674E7D9-C6FF-4148-8310-5E15068E6058

A549AD10-C4BB-427C-B3DF-93D21FBA6891

18D3FF45-3495-416A-A799-9E1EC4ADC402

4F046097-0B2E-4F17-82C7-47D64C518FB5

image-20230403204020809 7EADD2EE-4222-4132-9B84-28F38AEF79A4

7EADD2EE-4222-4132-9B84-28F38AEF79A4

32FC021C-8130-4699-95F4-58DB85E4CBB8

2E03C0FA-C261-4D02-B977-BA37153C4F81

image-20230403203926570

image-20230403203933781

!image-20230403203940883image-20230403203940883

image-20230403203949748

image-20230403204000274

image-20230403204008799

image-20230403204029395

image-20230403204037189

image-20230403204044619

image-20230403204053361

image-20230403204105096