Video: https://youtube.com/live/3Lf3oR3gi-M?feature=share
Jamboard: https://jamboard.google.com/d/1ty4sGu5bkf-jttMovB9M2CH7X4UjNOAFIBOvpf5smyE/edit?usp=sharing
Preparation materials: http://jalammar.github.io/illustrated-transformer/ https://arxiv.org/abs/1706.03762
Youtube video key: ea11-mrgb-4jg2-4ajc-d4hr
Iepriekšējā gada video: https://youtu.be/z8DdZboGW6I
Iepriekšējā gada Jamboard https://jamboard.google.com/d/12R5zrlFFKLZE4afLATJi_NB6EnzJ4AMYzHRoiQ77Q2A/edit?usp=sharing
Transformeriem nav atmiņa, ir tikai attention un iemācīts kā izmantot attention. Tāpēc vajag barot iekšā ļoti garu tekstu vienlaicīgi, lai nodrošinātu “atmiņu”, bet var iebarot garāku tekstu kā LSTM (max ~100 len uz LSTM, bet transformer var cik vien garu vajag)
Self-attention mehānisms K, Q, V encoder var būt jebkādi MLP modeļi, galvenais ir struktūra un vienādojums, kas piespiež K, Q, V uzvesties kā paredzēts. No sākuma kodēt BEZ multihead attention - varbūt to vispār nevajag kodēt lai nav apjukums finished kodā es sakodēju jau ar multi-head
Parādīt MASK matrix, lai slēptu attention nākotni, citādi viņš ar attention nokopēs vienkārši nākotni, lai to prognozētu
Multi-head attention - tas pats split X reizes, self-attention un beigās concat
Time step embeddings - learnable vai sin-cos static
Nav starpība vai time step embeddings concat vai pieskaita līdzīgi kā UNet tas pats efekts
OpenAI GPT modeļa struktūra Word embeddings sākumā un beigās transposed word embeddings - tā pati matrica (iepriekšējā nodarbībā jau izmantojām ar LSTM)
[500 punkti]
Modeļa arhitektūra: http://share.yellowrobot.xyz/upic/3e22bdeb5055661b3b1d4ce7a2f862c4_1651505157.png
Iesniegt kodu un screenshots ar labākajiem rezultātiem.
Sagatave Jaunā: http://share.yellowrobot.xyz/1645110979-deep-learning-intro-2022-q1/12_1_transformer_template.py
[500 punkti]
Multi-head attention mehānisms: http://share.yellowrobot.xyz/upic/26aed8b83f47af6b82813713f6d81798_1651505155.png
Iesniegt kodu un screenshots ar labākajiem rezultātiem.
[1000 punkti]
Implementēt TODO
Iesniegt kodu un screenshots ar labākajiem rezultātiem
Sagatave:
Zemāk doti piemēri no modeļa apmācības un attention matricas