2023-11-08 Meeting #3

TODO:

Izveodot GIT repo un share uz https://github.com/evaldsurtans (uzraksti man whatsapp ar link)
Izvēlēties datu kopu
Atkārtot rezultātus uz datu kopas izmantojot InternImage, Veikt hiperparametru pārmeklēšanu un dokumentēt rezultātus
Implementēt izmaiņas, un testēt ietekmi (dokumentēt pārmeklēšanu)

Tēma: Deformējamo konvolūciju modifikāciju salīdzinājums objektu atpazīšanas uzdevumā.

Mērķis: Atkārtot deformējamo konvolūciju rezultātus objektu atpazīšanas uzdevumā un notestēt ietekmi izmaiņām arhitektūrā un apmācības metadoloģijā.

Uzdevumi:

Apgūt dziļajā māšīnmācīšanā balstītās objektu atpazīžanai
Veikt sistemātisko literatūras analīzi
Atrast datu kopas, kuras būtu piemērotas objektu atpazīžanai
Atrast un apgūt metrikas ar kurām noteikt modeļu veiktspēju
Apgūt un atkārtot rezultātus izmantojot deformējāmo konvolūciju modeli
Veikt izmaiņas un tās novērtēt deformējāmo konvolūciju modelim
Eksperimentāli salīdzināt deformējāmo konvolūciju modeli
Publicēt rezultātus zinātniskā publikācijā.

Notes

Train, Test, Eval Kāda ir Atšķirība datu kopās/metrikās COCO minival, test-dev? COCO minival ir priekš hiperparametru tūnēšanas, bet test-dev ir priekš beigu modeļa evaluācijas. Test-dev ir grūtāka datu kopa.

Kā ir pierādāms, ka attention based ConvNets labāk strādā uz segmentation uzdevumiem?

Nav skaidri

Nezinu vai tā ir patiesība un vai to būtu iespējams pierādīt. Intuitīvi varētu likties, ka tieši convolution tīkli ir labāki segmentācijai, jo tajos ir iebūvēta spatial reprezentācija, un to “informācijas plūsma” darbojas tieši kā sava veida segmentācija. Sobel operator Attention tieši uz ConvNetiem varētu dot labāku global attention

🔴 Mazi ViT

Kādi hierarhical Vision transformer modeļi eksistē, kuriem vispār nav nekādi convolutions vai linear projections at first layers, vai tādi vispār ir?
Cik es meklēju nav. Ir ļoti light weight ViTi - Heira(https://arxiv.org/pdf/2306.00989.pdf). Bet tāpat visi izmanto kaut kādas konvolūcijas vai lineārās projekcijas. Izmantotjot raw pixeļus kā tokenus nav scalable.

InternImage - Deformamble conv Co-DETR - object detection - bounding boxes as Transformer output Non-maximal-surpression

Attēlu metodes

Vai kāds ir izveidojis attēlu modeļus, kuri pārveido Rotation, Scale, etc uz training domain space (rectify transformation), piemēram, ja tāds modelis būtu to varētu ielikt kā “normalizāciju” pirms CLIP vai kāda classifier un iegūt augstāku precizitāti - pameklē publikācijas par šo vai GITs

ViT vs CyCNN https://www.notion.so/CyCNN-A-Rotation-Invariant-CNN-using-Polar-Mapping-and-Cylindrical-Convolution-Layers-36b60caa5d0e44789069e373cedf7446?pvs=4

Z telpā rotation-invariant https://arxiv.org/pdf/1909.11663.pdf

🔴🔴🔴Varētu notestēt atšķirību rezultātam, ja lieto SUM vai AVG pēc self-attention pa W,H dims vienīgais tad pazūd viss 2D info, varbūt pirms tam vajag pāris localized encoding layers - teorētiski pie jebkādas rotācijas SUM un AVG vajadzētu būt līdzīgam un AVG vaijadzētu būt līdzīgam pie jebkāda scale.

Deformējamo konvolūciju modifikāciju salīdzinājums objektu atpazīšanas uzdevumā.

Mērķis: Atkārtot deformējamo konvolūciju rezultātus objektu atpazīšanas uzdevumā un notestēt ietekmi modifikācijām arhitektūrā un apmācības metadoloģijā.

Uzdevumi:

5 no deformamble virziena atrast (V2)

pytorch lightining, raytune

hydra, optuna

tensorboard, we

clearml

Dokumentēt pētījumā tēmas