2023-Q3-AI 8.Language models - Transformers

8.1. Video / Materials

Video (19 Jul 2023, 13:00): https://youtube.com/live/ISJtDHsHPRA?feature=share

Jamboard: https://jamboard.google.com/d/1WLCqDlaQUILFwYfgFBCHxL3mmRlefI6mMig7ESZU10s/edit?usp=sharing

Preparation materials: http://jalammar.github.io/illustrated-transformer/ https://arxiv.org/abs/1706.03762

 


Ir iedota pieeja jamboard un ar OBS jāveic screen streaming uz šādu setting

Youtube video key: 0htp-j1bf-hr76-3h2r-c2c7

Par katru uzdevumu dodam 100 punktus


 

Iepriekšējā gada video: https://youtu.be/z8DdZboGW6I

Iepriekšējā gada Jamboard https://jamboard.google.com/d/12R5zrlFFKLZE4afLATJi_NB6EnzJ4AMYzHRoiQ77Q2A/edit?usp=sharing

 


 

Saturs

  1. Transformeriem nav atmiņa, ir tikai attention un iemācīts kā izmantot attention. Tāpēc vajag barot iekšā ļoti garu tekstu vienlaicīgi, lai nodrošinātu “atmiņu”, bet var iebarot garāku tekstu kā LSTM (max ~100 len uz LSTM, bet transformer var cik vien garu vajag)

  2. Self-attention mehānisms K, Q, V encoder var būt jebkādi MLP modeļi, galvenais ir struktūra un vienādojums, kas piespiež K, Q, V uzvesties kā paredzēts. No sākuma kodēt BEZ multihead attention - varbūt to vispār nevajag kodēt lai nav apjukums finished kodā es sakodēju jau ar multi-head

  3. Parādīt MASK matrix, lai slēptu attention nākotni, citādi viņš ar attention nokopēs vienkārši nākotni, lai to prognozētu

  4. Multi-head attention - tas pats split X reizes, self-attention un beigās concat

  5. Time step embeddings - learnable vai sin-cos static

  6. Nav starpība vai time step embeddings concat vai pieskaita līdzīgi kā UNet tas pats efekts

  7. OpenAI GPT modeļa struktūra Word embeddings sākumā un beigās transposed word embeddings - tā pati matrica (iepriekšējā nodarbībā jau izmantojām ar LSTM)

 


8.2. Implement Transformer GPT model using instructional video

Model architecture: http://share.yellowrobot.xyz/upic/3e22bdeb5055661b3b1d4ce7a2f862c4_1651505157.png

Submit code and screenshots of the best results.

Template Available: http://share.yellowrobot.xyz/1645110979-deep-learning-intro-2022-q1/12_1_transformer_template.py


8.3. Implement Transformer GPT model with multi-head attention

Multi-head attention mechanism: http://share.yellowrobot.xyz/upic/26aed8b83f47af6b82813713f6d81798_1651505155.png

Submit code and screenshots of the best results.


8.4. Homework - Implement transformer inference

  1. Implement TODO

  2. Submit code and screenshots of the best results

Template:

http://share.yellowrobot.xyz/1645110979-deep-learning-intro-2022-q1/12_3_transformer_inference_template.py

 

Zemāk doti piemēri no modeļa apmācības un attention matricas max_len_500b-epoch-4997

example_1

attention_1

 


 

Materiāli

 

201AD3BC-D786-4264-81EA-EEF66CB45CF0

69AF6E53-3584-4423-852E-12D176A4FC64

9674E7D9-C6FF-4148-8310-5E15068E6058

A549AD10-C4BB-427C-B3DF-93D21FBA6891

18D3FF45-3495-416A-A799-9E1EC4ADC402

4F046097-0B2E-4F17-82C7-47D64C518FB5

image-20230403204020809 7EADD2EE-4222-4132-9B84-28F38AEF79A4

7EADD2EE-4222-4132-9B84-28F38AEF79A4

32FC021C-8130-4699-95F4-58DB85E4CBB8

2E03C0FA-C261-4D02-B977-BA37153C4F81

image-20230403203926570

image-20230403203933781

!image-20230403203940883image-20230403203940883

image-20230403203949748

image-20230403204000274

image-20230403204008799

image-20230403204029395

image-20230403204037189

image-20230403204044619

image-20230403204053361

image-20230403204105096

image-20230719001906824