2023-10-25 Meeting #2

SLR: https://handsome-green-2fa.notion.site/15d1bf7eebae4cd58249c674e841713f?v=12718b8653e841d2963a347c5e15464d&pvs=4

 

 

TODO

Papildināt līdz vismaz 20 publikācijām tabulu

  1. Pievienot tabulā kolonu “Problem domain”, tags: rotation, scale, viewport, color, model_size (mazāks izmērs), model_performance(ātrāka izpilde), none (vienkārši attention model, lai sasniegtu augstāko accuracy), utt

  2. Kāda ir Atšķirība datu kopās/metrikās COCO minival, test-dev?

  3. Kā ir pierādāms, ka attention based ConvNets labāk strādā uz segmentation uzdevumiem?

  4. Kādi hierarhical Vision transformer modeļi eksistē, kuriem vispār nav nekādi convolutions vai linear projections at first layers, vai tādi vispār ir?

  1. Kāda atšķirība Co-DETER no InternImage? Dokumentēt publikāciju

image-20231025171925713

  1. Šobrīd ļoti populāri visos lielajos attēlu ģeneratīvajos modeļos ir izmantot CLIP embedding encoders, vai kāds ir pētījis Rotation, Scale utt ietekmi uz CLIP? https://www.perplexity.ai/search/what-is-encoder-O8BJP8YdREGp1rKex4UBDA?s=c pameklē publikācijas par šo vai GITs

  2. Vai kāds ir izveidojis attēlu modeļus, kuri pārveido Rotation, Scale, etc uz training domain space (rectify transformation), piemēram, ja tāds modelis būtu to varētu ielikt kā “normalizāciju” pirms CLIP vai kāda classifier un iegūt augstāku precizitāti - pameklē publikācijas par šo vai GITs

  3. Vai kāds ir pētījis kā var izlabot Rotation, Scale, etc uz Z, latent space (man liekas kaut kas līdzīgs bija Capsule Nets), varbūt CLIP utt modēļiem var izlabot šo Z space?

  4. Varbūt tu vari uztaisīt attention mehānismu, kas strādātu polārajās koordinātās vai arī kaut kā tā no katra pikseļa, lai attālums starp attention pikseļiem vienmēr būtu vienāds neatkarīgi no rotācijas? Varētu notestēt atšķirību rezultātam, ja lieto SUM vai AVG pēc self-attention pa W,H dims vienīgais tad pazūd viss 2D info, varbūt pirms tam vajag pāris localized encoding layers - teorētiski pie jebkādas rotācijas SUM un AVG vajadzētu būt līdzīgam un AVG vaijadzētu būt līdzīgam pie jebkāda scale

 

Priekš localized attention / Convolution procedure pytorch var lietot šo:

https://pytorch.org/docs/stable/generated/torch.nn.Unfold.html

 

 

image-20231025172508162

 

Hoipotēzes pētījumiem:

  1. Apvienot CyCNN + Multi head attention Convnet

  2. Survey salīdzināt dāžādus Attention, non-attention models uz Image Segmentation task

  3. Rectifying model pirms (normalizācija) vai pēc (z-space) pretrained model, lai novērstu attēlu modeļu problēmas