2024.gada MI Olimpiādes 4. uzdevums

Datu kopas (Apmācībām un testiem paredzētā kopa kā arī 200 paraugu validācijas kopa piemēram kā tiks padoti dari gala testēšanā): http://share.yellowrobot.xyz/quick/2024-2-14-068310DA-E78F-448C-8AFF-6CF5DC24566B.zip

Datu kopa satur noskrāpētus datus no ar automašīnu datiem, kuras izliktas pārdošanā. Uzdevums ir veikt cenas prognozi, balstoties uz dotajiem ievades datiem.

Nepieciešams izveidot produkcijas programmu, kura kā ievades datus saņem CSV failu ar datiem un kā izvades datus saglabā šajā pašā failā, aizpildot un prognozējot cenas vērtības (price_eur). Pārbaudes fails nesaturēs nevienu cenas vērtību (price_eur). Modelis drīkst izmantot apmācību failu un arī citus papildus failus.

Uzdevumu iesniegt kā ZIP failu, kurš satur gan apmācību, gan produkcijas pirmkodu, modeļa svarus vai citu nepieciešamo informāciju un instrukcijas kā to izmantot produkcijas programmu.

Pareizi noteikta cena tiek uzskatīta, ja tā ir 300EUR robežās no īstās cenas. Tiks testēti 1000 paraugi.

Tāpat punktus var iegūt, veicot sekojošas darbības, kuras īpaši jāatzīmē kā komentārs pirmkodā un par kurām tiek doti punkti (piemērs komentāram, kas norāda uz pirkoda apgabalu, kur tika veikta Datu attīrīšāna # Action No.1.)

Datu attīrīšāna (trūkstošo datu punktu aizpildīšana, ekstremālu vētību izlēgšana)
Datu kopas analīze (statistiskās nozīmības noteikšana ievades datu īpašībām, salīdzinot ar cenu)
Datu nejauša augmentācija katrā apmācību iterācijā
Datu normalizācija vai standartizācija (īpašību mērogošana - feature scaling)
Izvades datu atgriezšana īstajās skalāro vērtību robežās (price_eur jābūt EUR)
Datu kopu sadalīšana apmācību, testa un validācijas kopās (vai n-fold validācija)
Retas klases / kategorijas apvienotas vienā kopējā klasē
Kategorisko datu sabalansēšana testa un validācijas kopā (ja ir atsevišķa validācijas kopa)
Skalāro datu sadalījuma sabalansēšana testa un validācijas kopā (ja ir atsevišķa validācijas kopa)
Dziļo neironu tīklos balstīts modelis, kuram ir paša izveidota arhitektūra
Izmantota piemērota modeļa arhitektūra (MLP, FF, ConvNet, RNN, Transformer utt.)
Modeļa arhitektūrā izmantotas pareizas funkciju secības
Pareizi izvēlēta kļūdas funkcija
Ja tiek izmantota klasifikācija, tad svērta kļūdas funkcija, balstoties uz apmācību kopas izvades klasēm. Ja tiek izmantota regresija, tad svērta kļūdas funkcija, balstoties uz apmācību kopas izvades vērtību sadalījumu. Vai arī izmantot svērtu nejaušu paraugu izvēli, balsoties uz to biežumu atkarībā no vērtību sadalījuma.
Maināmi hiperparametri, izmantojot komandas rindas argumentus
Veikta un dokumentēta hiperparametru pārmeklēšana
Izvēlēts pareizs rādītājs, lai noteiktu modeļa veiktspēju vai precizitāti (piem. F1, NRMSE, R2)
Kļūdas funkciju un rādītāju vērtību grafika un datu saglabāšana
Modeļa svaru saglabāšana, novēršot pārapmācīšanos

Aprēķins iegūtajiem punktiem šajā uzdevumā:

\begin{matrix} (1) & p u n k t i = \frac{\sum c e n a_{p a r e i z a}}{1000} \cdot 5 + \frac{\sum d a r b ī b a_{i z p i l d ī t a}}{19} \cdot 5 \end{matrix}