2025-05-18 Meeting 3

 

 

TODO

 

  1. Pārrakstīt hipotēzi pēc dotajiem komentāriem

  2. Nelietot vārdu “Kategorijas”. “Kategorizēto rezultātu analīze pēc attēlu tipiem” pārsaukt “Attēlu kvalitātes rādītāju salīdzinājums katrai datu kopai”, izmanotot Spearman R

  3. “Atsevišķu gadījumu analīze…” pārsaukt “Sliktāko un labāko paraugu kvalitatīvs salīdzinājums katrai datu kopai”

    1. Vajadzētu aizvākt dupliklātus attēliem un melnos attēlus - vajadzētu cherry pickot labākus paraugus

    2. Vajadzētu iekrāsot rezultātus pēc kopējās skalas (kaut vai globālas) nevis 5 paraugu ietvaros

    3. Salabot, ka nodaļas ir par katru datu kopu un blakus redzami labie un sliktie piemēri uzskatāmi

  4. “Rādītāju duplikāciju…” pārsaukt “Vidējo rādītāju salīdzinājums ar MOS starp apvienotām datu kopām”

    1. Izmantot Pearson R un nerunāt neko par Spearman R

    2. Secinājumos shēmu balstīt tikai uz korelāciju matricām, ideāli, ja būtu ranga tabula pēc kuras izvēlēties metodi un pamatot hipotēzi

  5. Pārrakstīt ar ChatGPT CLIP, LIQE, RankingCLIP metožu aprakstus ar tādu valodu, kuru tu pats spēj izskaidrot, šobrīd, piemēram, vārds “kategorija” pilnīgi citā kontekstā lietots un nav loģiski skaidrojumi kāpēc attēlu kvalitātes novērtēšanai vajag text encoders, visticamāk CLIP image encoder pietiek. Jābūt aprakstītam rezultātu vērtību robežām, ko tās apraksta un kā metode aptuveni strādā.

 

Piedāvājumi satura rādītāja uzlabojumiem!

 

  1. Sistemātisks literatūras apskats 8 1.2. Attēlu kvalitātes novērtēšanas rādītāji 14

     

    1.2.1. Rādītāju klasifikācija un novērtēšanas kritēriji 14

     

    Aizliegts lietot vārdu “klasifikācija” šajā kontekstā.

     

    Jāpievieno iepriekšējai nodaļai vai jāizdala: Klasiskie novērtēšanas attēlu kvalitātes rādītāji, Dziļās mašīnmācīšanās attēlu kvalitātes rādītāji, utt..

    1.2.2. Rādītāju detalizēts apraksts un novērtējums 14

     

    Pilnīgi noteikti šādu nodaļu nevajag, nekad nodaļās nav “X apraksts”

     

    1.2.3. Rādītāju kvalitātes novērtējums 16

    Drīzāk šeit būtu vajadzīgs rakstīt “Novērtēšanas kritēriji un rezultāti”

    1.3. Attēlu kvalitātes novērtēšanas datu kopas 17

    Tās nav tikai novērtēšanas datu kopas, vienkārši nosaukt Datu kopas

    1.3.1. Datu kopu klasifikācija un novērtēšanas kritēriji 17

    Tā nekādā gadījumā nav klasifikācija, vajag uzskaitīt kategorijas uzreiz virsrakstā Sintētiskie, zemas kvalitātes reālie, augstas kvalitātes.,,

    1.3.2. Datu kopas detalizēts apraksts un novērtējums 18

    Pievienot, nekādi apraksti

    1.3.3. Datu kopas kvalitātes novērtējums 20

    Rādītāji un novērtējums

    1.4. Attēlu kvalitātes vērtējumu rādītāji pret datu kopām 23

    Attēlu kvalitātes rādītāju salīdzinājums esošajos pētījumos

  2. Metodoloģija 24 2.1. Eksperimentālā vide un tehniskā iestatīšana 25

    Eksperimentālā vide un implementācija ! Jābūt github linkam

    2.2. Attēlu kvalitātes novērtēšanas rādītāji 26

    Atlasītie Attēlu kvalitātes novērtēšanas rādītāji

    2.3. Datu kopas un apstrādes darba plūsma 28

    Atlasītās datu kopas (nekāda darba plūsma)

    2.4. AKN rādītāju vidējās veiktspējas vērtējumu analīzes metodoloģija

    Nelietot virsrakstos saīsinājumus (ārpus metodēm un datu kopām) šausmīgi grūti saprast

    Nosaukt “Salīdzināšanas protokols” un apvienot visas 2.5, 2.6, 2.7

    30 2.5. Statistiskā analīze un rezultātu novērtēšana 31 2.6. Salīdzinošās analīzes metodika 31 2.7. Attēlu korelācijas analīzes metodoloģija 32

  3. Rezultāti 33

     

    Tik ļoti messy, ka jāpārtaisa struktūra sekojoši

    1. Attēlu kvalitātes rādītāju salīdzinājums katrai datu kopai

      1. Datu kopa A

      2. Datu kopa B

      3. Kombinētā A, B

      4. Visu datu kopu salīdzinājums

    2. Sliktāko un labāko paraugu kvalitatīvs salīdzinājums katrai datu kopai

      1. Datu kopa A

      2. Datu kopa B

      3. Kombinētā A, B

      4. Visu datu kopu salīdzinājums

    3. Vidējo rādītāju salīdzinājums ar apvienotām datu kopām

      1. Kombinētā A, B

      2. Visu datu kopu salīdzinājums (shēma)

     

     

  4. Tālākie pētījumi 84

  5. Secinājumi

 

 

 

Notes

Kuras datu kopas satur ģenerētus attēlus vai ir arī reāli attēli pret kuriem salīdzināt rezultātus?

4 real, 5 generated

Kurām datu kopām ir MOS?

Vidējo datu analīze -> just results -> Reālas vs Mākslīgajām salīdzināt

ja metodes savā starpā salīdzina uz datu kopām 9 datu punkti, vidējos MOS??? -> pearson R

 

salīdzināt metodes vienas datu kopas ietvaros -> spearman R (Kategorizēto rezultātu analīze pēc attēlu tipiem)

5 tuvākie <> 5 MOS tuvākie

Kura metode vislāk korelē ar MOS?

 

Tikai uz (ja metodes savā starpā salīdzina uz datu kopām 9 datu punkti, vidējos MOS??? -> pearson R)

CleanShot 2025-05-18 at 21.57.52@2x

 

Kā precīzi var izmantot metodes ar references?

.. ko tu izmanto kā references?

.. 3 datu kopas -> img-to-img

x => pieliek troksni?? => y_gen

x => text-prompt => y_gen

 

Source image kā reference

 

Deep Image Structure and Texture Similarity (DISTS)

 

x -> method A -> y_gen

x -> human -> y_expert

 

y_gen ->

metric –> score

y_expert ->

 

Vajag matricu, kur var redzēt rādītājus un kombinācijas ar datu kopām

 

Sintētiskie / Reāli

Kategorijas attēliem: foto, animācija utt Datu kopu pārklāšanās?

 

Vizuāli salīdzināt labos un sliktos piemērus

 

PSNR values of “1E+16” for identical image pairs

 

 

All CLIP-based scores were produced with ConvNeXt-large-320, but the resizing step is fixed to 512 × 512 (§2.2). You never justify this departure from the authors’ recommended 320 × 320 crop and it risks distribution shift.

^ Apmācīts uz citu uz logu nekā apmācīts

 

Teskta predefined pieder

CleanShot 2025-05-18 at 22.14.14@2x

 

No inter-rater-reliability (IRR) statistics (Krippendorff-α, Cronbach-α) are reported for the MOS labels, so one cannot judge whether the ground-truth is itself stable.

 

 

CleanShot 2025-05-18 at 22.16.57@2x

Nerādīt reizē pearson ar spearman

 

CleanShot 2025-05-18 at 22.28.23@2x

 

CleanShot 2025-05-18 at 22.42.20@2x

 

 

CleanShot 2025-05-18 at 22.47.12@2x

 

 

CleanShot 2025-05-18 at 22.45.39@2x

 

 

 

CleanShot 2025-05-18 at 22.50.53@2x

 


 

Statistical methods

https://github.com/NanioiNirusu/Main_metrics/blob/master/T-test_corelation.py

Parametrc vs Non-parametric tests

Parametric tests

https://www.healthknowledge.org.uk/public-health-textbook/research-methods/1b-statistical-methods/parametric-nonparametric-tests

 

 

Parametric used when Gaussian distributed Non-parametric used when not Gaussian distributed

 

Paired test if same metric compared. Unpaired test if different scale metric used.

 

 

A quick rule of thumb

  1. ≥ 30 paired samples, differences look roughly bell-shaped → paired t-test.

  1. Fewer samples or heavy tails/outliers → Wilcoxon signed-rank (or a permutation test).

  1. Binary outcomes per image → McNemar’s test.

 

 

 

 

 

One-way Anova

Kruskal-Wallis Test (Non-Parametric Test)