Video (19 Jul 2023, 13:00): https://youtube.com/live/ISJtDHsHPRA?feature=share
Jamboard: https://jamboard.google.com/d/1WLCqDlaQUILFwYfgFBCHxL3mmRlefI6mMig7ESZU10s/edit?usp=sharing
Preparation materials: http://jalammar.github.io/illustrated-transformer/ https://arxiv.org/abs/1706.03762
Ir iedota pieeja jamboard un ar OBS jāveic screen streaming uz šādu setting
Youtube video key: 0htp-j1bf-hr76-3h2r-c2c7
Par katru uzdevumu dodam 100 punktus
Iepriekšējā gada video: https://youtu.be/z8DdZboGW6I
Iepriekšējā gada Jamboard https://jamboard.google.com/d/12R5zrlFFKLZE4afLATJi_NB6EnzJ4AMYzHRoiQ77Q2A/edit?usp=sharing
Transformeriem nav atmiņa, ir tikai attention un iemācīts kā izmantot attention. Tāpēc vajag barot iekšā ļoti garu tekstu vienlaicīgi, lai nodrošinātu “atmiņu”, bet var iebarot garāku tekstu kā LSTM (max ~100 len uz LSTM, bet transformer var cik vien garu vajag)
Self-attention mehānisms K, Q, V encoder var būt jebkādi MLP modeļi, galvenais ir struktūra un vienādojums, kas piespiež K, Q, V uzvesties kā paredzēts. No sākuma kodēt BEZ multihead attention - varbūt to vispār nevajag kodēt lai nav apjukums finished kodā es sakodēju jau ar multi-head
Parādīt MASK matrix, lai slēptu attention nākotni, citādi viņš ar attention nokopēs vienkārši nākotni, lai to prognozētu
Multi-head attention - tas pats split X reizes, self-attention un beigās concat
Time step embeddings - learnable vai sin-cos static
Nav starpība vai time step embeddings concat vai pieskaita līdzīgi kā UNet tas pats efekts
OpenAI GPT modeļa struktūra Word embeddings sākumā un beigās transposed word embeddings - tā pati matrica (iepriekšējā nodarbībā jau izmantojām ar LSTM)
Model architecture: http://share.yellowrobot.xyz/upic/3e22bdeb5055661b3b1d4ce7a2f862c4_1651505157.png
Submit code and screenshots of the best results.
Template Available: http://share.yellowrobot.xyz/1645110979-deep-learning-intro-2022-q1/12_1_transformer_template.py
Multi-head attention mechanism: http://share.yellowrobot.xyz/upic/26aed8b83f47af6b82813713f6d81798_1651505155.png
Submit code and screenshots of the best results.
Implement TODO
Submit code and screenshots of the best results
Template:
Zemāk doti piemēri no modeļa apmācības un attention matricas