2025-02-20 MI Olimpiādes 3. uzdevums

 

image-20250220220935441

Dota datu kopa ar Pingvīnu mērījumiem. Nepieciešams prognozēt sugas klasi “spieces” (veikt klasifikāciju)

Uzdevumi:

  1. Aizpildiet trūkstošos datus ar mediānas vērtībām vai noņemiet trūkstošos piemērus

  2. Konvertējiet island, sex kolonas uz one-hot-encoded, vektora formātā, lai būtu jaunas kolonnas island_dream (vērtības 0 vai 1), island_biscoe (vērtības 0 vai 1), utt. (pandas pd.get_dummies funkcija var būt noderīga)

  3. Analizējiet cik un kurus datus atstāt, ieteicams sazīmēt histogrammas (pandas df.hist() plt.show()) un ieviest datu roboežas. Jāņem vērā, ka šīs robežas jāimplementē arī inferences skriptā, kas jānodod 7. punktā.

  4. Sadaliet datu kopas apmācību un testa kopās.

  5. Standartizējiet vai normalizējiet ievades skalāros datus. Atcerieties, ka testa un validācijas kopas ir jāstandartizē izmantojot apmācību kopas paramaterus.

  6. Izvēlieties atbilstošu modeli un veiciet apmācību. Paši varat izvēlēties, kuras vērtības būs kā ievades dati, kuras ignorēsiet un kādu modeli izmantosiet.

  7. Jāizveido programma, kur var ievadīt CSV failu ar visām kolonām, bet jāignorē spieces kolona, tad šajā pašā failā ir jāieglabā spieces prognozētās vērtības kā viena no apmācību failā pieejāmām klasēm piemēram Adelie, Gentoo utt.

Datu kopa: https://share.yellowrobot.xyz/quick/2025-2-20-3DC8C44E-0E49-4EB4-A05B-3339DBE98EB5.zip

Nodevums:

Instrukcijas. Programmatūras pirmkods. Ja tiek izmantots python pip bibliotēku fails requirements.txt Ja tiek apmācīts modelis arī modeļa svaru faili. Ja tiek izmantota kompilējama programmēšanas valoda kā C/C++, Java, C#, tad arī kompilēta vienība ar precīzu operātājsistēmas konfigurācijas informāciju.

Punkti tiks aprēķināti no tā cik daudz validācijas kopā būs pareizi prognozētas sugas (validācijas kopa netiek dota uzdevuma ietvaros)