2024-Q4-AI-LV-Business 6. Attēlu modeļi, GenAI un rediģēšana

 

6.1. Video / Materiāli (22 Janvāris 2025, 18:00)

Video: https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1 Meeting ID: 815 3294 1877 Passcode: 388048

Whiteboard: https://www.figma.com/board/Y2plsaTQzXws2vlR6Wpz4f/2024-Q4-AI-LV-Business-6.-Att%C4%93lu-mode%C4%BCi%2C-GenAI-un-redi%C4%A3%C4%93%C5%A1ana?t=elyGGL1Y1JGXxuRb-1

One of tools Needed:

  1. ChatGPT Pro with Image generation capabilities (DALLE)

  2. Midjourney Web or Discord version

  3. RunwayML

  4. ClipDrop

Materials: https://cs231n.github.io/convolutional-networks/ https://mediapipe-studio.webapps.google.com/home https://cs231n.github.io/convolutional-networks/

 

image-20241212123023433

 

⚠️ Figma Jam board ir iedota piekļuve aigaandrijanova@gmail.com , augšā kreisajā stūrī var pievienot slaidus, visai prezentācijai nav jābūt vienā slaidā ⚠️ Pārliecinies, ka ir ieslēgts ieraksts pirms nodarbības

6.2. Reklāmas banera izveide, izmantojot attēlu ģenerēšanas rīkus

Izveidojiet reklāmu par “ziepēm”, kas veidota līdzīgā stilā kā esošā reklāma ar mazgāšanas līdzekli "detergent". Izmantojiet metodi, kurā vispirms iegūstat attēla-teksta norādījumu, pēc tam tekstu uz attēlu, un visbeidzot labojiet neveiksmīgās daļas, izmantojot in-painting rīkus (DALLE-2, RunwayML vai Photoshop Generative AI). Iesniedziet numurētus ekrānuzņēmumus par katru soli un norādījumus kā tekstu.

Sākotnējais reklāmas baneris: http://share.yellowrobot.xyz/upic/f6a7cf6aa198af0f9b040c483679f13a_1698389411.png

image-20231027095010128

 


 

Piemērs lekcijas video un whiteboard

⚠️ Video: https://youtube.com/live/2LFXgK_M7Ng?feature=share

Whiteboard: https://www.canva.com/design/DAGZE6-lSyU/opxzmemmj60ZRdgGexVRog/view?utm_content=DAGZE6-lSyU&utm_campaign=designshare&utm_medium=link2&utm_source=uniquelinks&utlId=h5ea828678a

 


Saturs

Dziļās mašīnmācīšanās attēlu uzdevumi (ļoti virspusēji):

  1. Attēlu klasifikācija (Bināra, Daudzklasīga, Multi-labels) - ConvNet, EfficientNet, ViT. Pastāstīt par ierobežojumiem uz izmēru, rotācijām utt.

  2. Attēlu segmentācija (Object detection, Semantiskā segmentācija, Instances segmentācija) - YOLO

  3. Reidentifikācija (FaceID utt.)

  4. Attēlu aizkrāsošana / Inpainting (Paplašināt attēlu)

  5. OCR (Optical Character Recognition), Attēls uz tekstu (Image captioning)

  6. Stila konversija (Colorization, Art Style, Emotions)

  7. Superizšķirtspēja (GAN)

  8. Segmentē jebko modelis (SAM, Segment Anything)

  9. ĢenAI (teksts-uz-attēlu, attēls-uz-video, audio-uz-attēlu, attēls-uz-3D utt.)


 

Image classification

⚠️Demonstrācijām izmantot: https://mediapipe-studio.webapps.google.com/home image-20241216210321095

Pastāstīt par datu kopu uz kuras lielākā daļa apmācīta ImageNet 1k, 20k. Par pašreizējo precizitāti un kur mēs esam šobrid ar attēlu klasfikāciju. Kas nepieciešams no uzņēmuma, lai veiktu attēlu klasifikāciju.

image-20241216175017167

image-20241216175034037

Example files: https://www.tensorflow.org/datasets/catalog/imagenet2012

Unknown-3

 

Pastāstīt par ConvNet, sākotnēji bija optimizācija, bet vēlāk izrādījās, ka kodola funkcijas iemācās līdzīgas īpašības kā radzenes neironi, reaģējot dažādos līmeņos uz dažādām iezīmēm.

1998 gadā Janns Lekuns un viņa komanda Bell Labs izstrādāja LeNet-5, revolucionāru konvolūcijas tīklu, kas izstrādāts ar roku rakstītu ciparu atpazīšanai. LeNet-5 bija viens no pirmajiem konvolūcijas neironu tīkliem, kas tika apmācīts, izmantojot atpakaļpārraides metodi, un tam bija nozīmīga loma dziļo mācību un datorredzes lietojumprogrammu attīstībā.

ConvNet vizuāli var demonstrēt ar https://cs231n.github.io/convolutional-networks/

Nepieciešams pastāstīt par biznesa pielietojumiem dažādos atpazīšanas uzdevumos

image-20221129193238304

img

 

D8C64824-0190-4A6A-9C4E-85801D476F16

E9840FB5-1BFA-4D70-A863-81F999320365

Feature Maps. Feature Map is also called as… | by Chris Kevin | Medium

 

image-20221202100422622

 

image-20221202101157276

Pastāstīt par nepieciešamību veikt augmentācijas

image-20250119175725695

 

 


 

Image Segmentation

⚠️Demonstrācijām izmantot: https://mediapipe-studio.webapps.google.com/home

image-20250119175911760

COCO Dataset Segment Anything https://segment-anything.com/demo

image-20241216175323231

https://www.kolena.com/guides/what-is-the-ms-coco-dataset-and-how-to-get-started/

Izstāstīt atsķirības starp klasifikāciju, multi klašu klasifikāciju, segmentācijas paveidiem.

Pastāstīt par metrikām/rādītājiem, kuras izmanto un kuri risinājumi piemēroti konkrētām sitācijām.

image-20231205185935584

Untitled (195)

Untitled (190)

Pastāstīt virspusīgi kā šādi modeļi strādā.

Untitled (63)

Untitled (60)

https://segment-anything.com/demo

image-20241216210345657


Reidentifikācija, Anomāliju automātiska noteikšana

Pastāstīt virspusīgi par apmacību un produkcijas sistēmu procesu, lai veidojas sapratne, ka Apple FaceID netiek apmācīts uz tavu seju, bet modeļi paši spējīgi kategorizēt jaunas klases, balstoties tikai uz vizuālajām īpašībām, kaut arī nekad attēls nav bijis apmācību kopā.

 

 

image-20231027100320906

image-20231102170544393

Unsupervised learning

image-20231102170510787

Reidentification piemēri

image-20220412115603089

image-20220412115607694

image-20231102000621906

 

 

 

image-20250119180949135

 

Anomaly detection piemēri

image-20211103071157906

image-20211103071221192

 

Latento vektoru matemātikas piemēri

image-20220412115632530

image-20220412115638345


Image Captioning, OCR

CLIP, BLIP, LAION5B dataset https://rom1504.github.io/clip-retrieval/

Var demonstrēt ar hugging face:

https://huggingface.co/spaces/hysts/image-captioning-with-blip

image-20241216205914474

image-20240530144253995

 


Generative Adversial Networks

Izstāstīt pamatprincipu, GAN ilustrēt ar šo piemēru, kur ģenerē attēlus cilvēkiem, kuri neeksitē https://thispersondoesnotexist.com

https://generated.photos

https://huggingface.co/spaces/hysts/Text2Human

Untitled (198) image-20241216205942494

 

In-Painting piemēri

https://huggingface.co/spaces/OzzyGT/diffusers-fast-inpaint

https://inpainter.vercel.app/paint

image-20241216205927003

image-20240530144214424

 

Super-resolution piemēri image-20250119172406237

Stila pārneses piemēri, pat tad, ja nav pāri konkrētajiem stiliem https://junyanz.github.io/CycleGAN/

image-20240530144450694

image-20241216205848401

Kļūdu līknes ļoti citādākas kā citiem modeļu veidiem, jo ir 2 pretējas kļūdas funkcijas

image-20241216205901035

Praktiski pielietojumi CycleGAN tipa modeļiem

image-20241216205821045

Deep fakes piemēru parādīt ar https://www.picsi.ai/faceswap

 


Attēlu atpazīšana ar GenAI rīkiem

Demonstrēt kā ar ChatGPT (kurš izmanto multi-modal vai Image captioning modeļus kā CLIP) var dabūt no ieskenētiem dokumentiem informāciju.

 

Pemēram no čekiem pozīcijas un summas.

3f913c9a509d24f7574a759bfe13236e_1698330479

No grafikiem iegūt orģinālo datu tabulas

Median-House-Price-vs-Median-Household-Income-in-California-1984-2018

No attēla iegūt ledusskapja saturu

image-20231026180001881

 

Demonstrēt Prompt sourcing - Extract Information of Image Details Categorized as Lists: (⚠️ Daļa no 6.2 uzdevuma)

Extract Information of Image Details Categorized as Lists (include Categories: Image Type, Subject, Features, Background, Style)

Piemērs iegūt vaicājumu no AirBaltic reklāmas, kuru pēc tam ģenrēt par EasyJet reklāmu nākamajā solī no materiāliem.

image-20250119174915053

 

Untitled (192)


 

GenAI ģeneratīvie attēlu modeļi

Pastāstīt kā šādus modeļus apmāca kā Difussion models un, ka tos var pielāgot ar LoRA apamācību, lai piemēram nodrošinātu product placement vai konkrētu sitlu. Izstāstīt, ka augstas kvalitātes attēlu GenAI modeļi ir jau open-source, piemēram, SDXL, Flux. Ģenerējot hugging face ar flux var labi redzēt kā no noise veidojas attēli. Open-Source rīku kontrolei profesionāļi parasti lieto ComfyUI (https://github.com/comfyanonymous/ComfyUI)

image-20231026171059086

image-20241216205832971

image-20241216205758566

Biznesa pielietojums ir, ka nav nepieciešams algot dizainerus marketinga kampaņām, prezentācijām, vizuāliem materiāliem, ja māk efektīvi lietot šos rīkus un uzņēmumam nav augsti standarti tieši vizuālajā komunikācijā.

Salīdzināt vienu un to pašu vaicājumu dažādos modeļos.

Parādīt, ka open-source modeļi spēj ģenerēt Copyrighted saturu, bet piemēram ChatGPT Dall-E neļauj.

 

Vaicājumu iženierija (Saglabāt attēlu ar vaicājumu)

  1. Piemēri:

  2. Image-to-Text GPT-4

  3. Struktūra

    1. Type

      1. Photo

      2. Line Drawing

      3. Pixelart

      4. Painting

    2. Subject

      1. 30 year old Man

      2. 30 year old Woman

      3. Thick Book

      4. White Coffee Cup

    3. Features

      1. Looking at Camera

      2. Flowers

      3. Clouds

    4. Background

      1. Cloudy day

      2. Dramatic scene

      3. Morning

      4. Twighlight

    5. Style

      1. Realistic

      2. Stylized

      3. Impressionist

      4. Bright colors

      5. 3D

      6. Portrait

    6. Properties

      1. Horizontal, Portrait version

      2. Seed of image 1 -> Modify Image 1 with Seed #

      3. Blend image 1 and 2

1*wAV5GK1dSUS-AWDRw1gAVw

1*_a7x3Pu3Is_bZGWrv7kfsw

MJ Prompt

 

 

Ierobežojumi:

  1. DALLE-3 Copyrighted (Mickey mouse, Disney style)

  2. Ieroči, Sprāgstvielas, Narkotikas, Vardarbība, Pornogrāfija utt.

  3. Trūkst dziļāka izpratne par vārdiem Generate crossword puzzle as image for words CAKE, EAT, ALL, TEDDY, LIME

Pielietojumi:

  1. Ideju ģenerēšana

  2. Slaidiem, reklāmām, pamata attēli tālākajām modifikācijām

  3. Foto attēlu uzlabošana

  4. Ikonas, Logo ģenerēšana

  5. Ilustrācijas, krāsojamās grāmatas Coloring Page, For Children, Donald Duck cleaning coins in Vault, Line Drawing, Black and White

 

Parādīt, ja ir pieejma maksas pieeja x.com Grok GenAI (kas ir balstīts uz Flux). https://x.com/i/grok

SDXL demo caur hugging face: https://huggingface.co/spaces/google/sdxl

Flux arī var demonstrēt caur hugging face spaces: https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev

image-20250119155405383

OpenAI DALL-E 3 demo: https://chatgpt.com/g/g-2fkFE8rbu-dall-e

image-20250119154412450

Midjourney demo (tagad strādā arī caur web) https://www.midjourney.com/imagine

Bezmaksas GenAI modeļus, tiem kuri nav gatavi pirkt maksas rīkus var arī izmantot arī Microsoft Copilot https://copilot.microsoft.com/

Vēl citi rīki, kurus pieminēt https://leonardo.ai, https://clipdrop.co/ (clipdrop ir rīks, kur reālā laikā var mainīt attēla ģenerēšanas rezultātus)


 

 

 


GenAI Attēlu redaktori

Attēlu rediģēšanai demonstrēt rīkus, kuri ļauj iezīmēt masku un ar vaicājumu ģenerēt jaunu saturu. Var mazliet pastāstīt kā šādus modeļus apmāca, bet primāri demonstrēt pielietojumus

Biznesa pielietojumi, piemēram, ļauj attēlus pārveidot bez īpašām zināšanām, sagatavot tos publicitātei.

Var demonstrēt:

  1. Nomainīt fona daļas, satīrīt attēlu

  2. Nomainīt apģērba daļas

Ar Midjourney Editor demonstrēt iespējas

Editor - iespējams izmainīt attēlu, iezīmējot apgabalu, bet svarīgi, ka vaicājums satur pilnu bildes aprakstu nevis tikai konkrētā apgabala aprakstu.

image-20250119164534916

 

Ar RunwayML Editor demonstrēt iespējas Erase and Replace - atšķirībā no Midjourney var ierakstīt konkrēti lietu, kuru vēlies mainīt iezīmētajā apgabalā image-20250119161500426

image-20250119161232173

Var demonstrēt arī citus RunwayML rīkus

https://app.runwayml.com/video-tools/teams/evaldsurtans2/ai-tools

image-20250119161037795

 

Vēl profesionāla alternatīva ir Adobe Generative AI / Generative fill. Adobe atšķirībā no citiem apmāca modeļus ar saturu, kur tiek maksāts satura radītājiem.


 

GenAI video ģeneratori

Demonstrēt RunwayML Lidmašīnas reklāmas piemēru, izmantojot iepriekš iegūto lidmašīnas reklāmas attēlu

https://app.runwayml.com/video-tools/teams/evaldsurtans2/ai-tools/generate

image-20250119165942712

Caur VPN uz USA ar ChatGPT maksas pieeju var demonstrēt arī SORA video editoru. Sora Editor galvenā funkcija, ka ar Storyboard palīdzību var salīmēt video no dažādiem attēliem un vaicājumiem, iegūstot daudz labāku kontroli pār rezultātu.

https://sora.com/

image-20250119170407094

Vēl var demonstreēt https://www.klingai.com/

⚠️ Parasti var ģenerēt 10sek video, bet, ja ieliek pēdējo kadru no iepriekšējā video jaunajā video kā pirmo, tad var iegūt garākus video materiālus

Tāpat https://www.heygen.com/ ir lielisks rīks, lai sagatavotu video materiālus produktu demonstrācijām utt.

 

Product placement rīki

Ļoti noderīgi interneta veikaliem, marketinga materiāliem.

  1. Claid.ai

  2. Flair.ai

  3. Adcreative.ai