Video: https://us06web.zoom.us/j/81532941877?pwd=L1IgtKhCzcsLfxa5OKjB4N6ChulOab.1 Meeting ID: 815 3294 1877 Passcode: 388048
One of tools Needed:
ChatGPT Pro with Image generation capabilities (DALLE)
Midjourney Web or Discord version
RunwayML
ClipDrop
Materials: https://cs231n.github.io/convolutional-networks/ https://mediapipe-studio.webapps.google.com/home https://cs231n.github.io/convolutional-networks/
⚠️ Figma Jam board ir iedota piekļuve aigaandrijanova@gmail.com , augšā kreisajā stūrī var pievienot slaidus, visai prezentācijai nav jābūt vienā slaidā ⚠️ Pārliecinies, ka ir ieslēgts ieraksts pirms nodarbības
Izveidojiet reklāmu par “ziepēm”, kas veidota līdzīgā stilā kā esošā reklāma ar mazgāšanas līdzekli "detergent". Izmantojiet metodi, kurā vispirms iegūstat attēla-teksta norādījumu, pēc tam tekstu uz attēlu, un visbeidzot labojiet neveiksmīgās daļas, izmantojot in-painting rīkus (DALLE-2, RunwayML vai Photoshop Generative AI). Iesniedziet numurētus ekrānuzņēmumus par katru soli un norādījumus kā tekstu.
Sākotnējais reklāmas baneris: http://share.yellowrobot.xyz/upic/f6a7cf6aa198af0f9b040c483679f13a_1698389411.png
⚠️ Video: https://youtube.com/live/2LFXgK_M7Ng?feature=share
Dziļās mašīnmācīšanās attēlu uzdevumi (ļoti virspusēji):
Attēlu klasifikācija (Bināra, Daudzklasīga, Multi-labels) - ConvNet, EfficientNet, ViT. Pastāstīt par ierobežojumiem uz izmēru, rotācijām utt.
Attēlu segmentācija (Object detection, Semantiskā segmentācija, Instances segmentācija) - YOLO
Reidentifikācija (FaceID utt.)
Attēlu aizkrāsošana / Inpainting (Paplašināt attēlu)
OCR (Optical Character Recognition), Attēls uz tekstu (Image captioning)
Stila konversija (Colorization, Art Style, Emotions)
Superizšķirtspēja (GAN)
Segmentē jebko modelis (SAM, Segment Anything)
ĢenAI (teksts-uz-attēlu, attēls-uz-video, audio-uz-attēlu, attēls-uz-3D utt.)
⚠️Demonstrācijām izmantot:
https://mediapipe-studio.webapps.google.com/home
Pastāstīt par datu kopu uz kuras lielākā daļa apmācīta ImageNet 1k, 20k. Par pašreizējo precizitāti un kur mēs esam šobrid ar attēlu klasfikāciju. Kas nepieciešams no uzņēmuma, lai veiktu attēlu klasifikāciju.
Example files: https://www.tensorflow.org/datasets/catalog/imagenet2012
Pastāstīt par ConvNet, sākotnēji bija optimizācija, bet vēlāk izrādījās, ka kodola funkcijas iemācās līdzīgas īpašības kā radzenes neironi, reaģējot dažādos līmeņos uz dažādām iezīmēm.
1998 gadā Janns Lekuns un viņa komanda Bell Labs izstrādāja LeNet-5, revolucionāru konvolūcijas tīklu, kas izstrādāts ar roku rakstītu ciparu atpazīšanai. LeNet-5 bija viens no pirmajiem konvolūcijas neironu tīkliem, kas tika apmācīts, izmantojot atpakaļpārraides metodi, un tam bija nozīmīga loma dziļo mācību un datorredzes lietojumprogrammu attīstībā.
ConvNet vizuāli var demonstrēt ar https://cs231n.github.io/convolutional-networks/
Nepieciešams pastāstīt par biznesa pielietojumiem dažādos atpazīšanas uzdevumos
Pastāstīt par nepieciešamību veikt augmentācijas
⚠️Demonstrācijām izmantot: https://mediapipe-studio.webapps.google.com/home
COCO Dataset Segment Anything https://segment-anything.com/demo
https://www.kolena.com/guides/what-is-the-ms-coco-dataset-and-how-to-get-started/
Izstāstīt atsķirības starp klasifikāciju, multi klašu klasifikāciju, segmentācijas paveidiem.
Pastāstīt par metrikām/rādītājiem, kuras izmanto un kuri risinājumi piemēroti konkrētām sitācijām.
Pastāstīt virspusīgi kā šādi modeļi strādā.
https://segment-anything.com/demo
Pastāstīt virspusīgi par apmacību un produkcijas sistēmu procesu, lai veidojas sapratne, ka Apple FaceID netiek apmācīts uz tavu seju, bet modeļi paši spējīgi kategorizēt jaunas klases, balstoties tikai uz vizuālajām īpašībām, kaut arī nekad attēls nav bijis apmācību kopā.
Unsupervised learning
Reidentification piemēri
Anomaly detection piemēri
Latento vektoru matemātikas piemēri
CLIP, BLIP, LAION5B dataset https://rom1504.github.io/clip-retrieval/
Var demonstrēt ar hugging face:
https://huggingface.co/spaces/hysts/image-captioning-with-blip
Izstāstīt pamatprincipu, GAN ilustrēt ar šo piemēru, kur ģenerē attēlus cilvēkiem, kuri neeksitē https://thispersondoesnotexist.com
https://huggingface.co/spaces/hysts/Text2Human
In-Painting piemēri
https://huggingface.co/spaces/OzzyGT/diffusers-fast-inpaint
https://inpainter.vercel.app/paint
Super-resolution piemēri
Stila pārneses piemēri, pat tad, ja nav pāri konkrētajiem stiliem https://junyanz.github.io/CycleGAN/
Kļūdu līknes ļoti citādākas kā citiem modeļu veidiem, jo ir 2 pretējas kļūdas funkcijas
Praktiski pielietojumi CycleGAN tipa modeļiem
Deep fakes piemēru parādīt ar https://www.picsi.ai/faceswap
Demonstrēt kā ar ChatGPT (kurš izmanto multi-modal vai Image captioning modeļus kā CLIP) var dabūt no ieskenētiem dokumentiem informāciju.
Pemēram no čekiem pozīcijas un summas.
No grafikiem iegūt orģinālo datu tabulas
No attēla iegūt ledusskapja saturu
Demonstrēt Prompt sourcing - Extract Information of Image Details Categorized as Lists:
(⚠️ Daļa no 6.2 uzdevuma)
Extract Information of Image Details Categorized as Lists (include Categories: Image Type, Subject, Features, Background, Style)
Piemērs iegūt vaicājumu no AirBaltic reklāmas, kuru pēc tam ģenrēt par EasyJet reklāmu nākamajā solī no materiāliem.
Pastāstīt kā šādus modeļus apmāca kā Difussion models un, ka tos var pielāgot ar LoRA apamācību, lai piemēram nodrošinātu product placement vai konkrētu sitlu. Izstāstīt, ka augstas kvalitātes attēlu GenAI modeļi ir jau open-source, piemēram, SDXL, Flux. Ģenerējot hugging face ar flux var labi redzēt kā no noise veidojas attēli. Open-Source rīku kontrolei profesionāļi parasti lieto ComfyUI (https://github.com/comfyanonymous/ComfyUI)
Biznesa pielietojums ir, ka nav nepieciešams algot dizainerus marketinga kampaņām, prezentācijām, vizuāliem materiāliem, ja māk efektīvi lietot šos rīkus un uzņēmumam nav augsti standarti tieši vizuālajā komunikācijā.
Salīdzināt vienu un to pašu vaicājumu dažādos modeļos.
Parādīt, ka open-source modeļi spēj ģenerēt Copyrighted saturu, bet piemēram ChatGPT Dall-E neļauj.
Vaicājumu iženierija (Saglabāt attēlu ar vaicājumu)
Piemēri:
Image-to-Text GPT-4
Struktūra
Type
Photo
Line Drawing
Pixelart
Painting
Subject
30 year old Man
30 year old Woman
Thick Book
White Coffee Cup
Features
Looking at Camera
Flowers
Clouds
Background
Cloudy day
Dramatic scene
Morning
Twighlight
Style
Realistic
Stylized
Impressionist
Bright colors
3D
Portrait
Properties
Horizontal, Portrait version
Seed of image 1 -> Modify Image 1 with Seed #
Blend image 1 and 2
Ierobežojumi:
DALLE-3 Copyrighted (Mickey mouse, Disney style)
Ieroči, Sprāgstvielas, Narkotikas, Vardarbība, Pornogrāfija utt.
Trūkst dziļāka izpratne par vārdiem
Generate crossword puzzle as image for words CAKE, EAT, ALL, TEDDY, LIME
Pielietojumi:
Ideju ģenerēšana
Slaidiem, reklāmām, pamata attēli tālākajām modifikācijām
Foto attēlu uzlabošana
Ikonas, Logo ģenerēšana
Ilustrācijas, krāsojamās grāmatas
Coloring Page, For Children, Donald Duck cleaning coins in Vault, Line Drawing, Black and White
Parādīt, ja ir pieejma maksas pieeja x.com Grok GenAI (kas ir balstīts uz Flux). https://x.com/i/grok
SDXL demo caur hugging face: https://huggingface.co/spaces/google/sdxl
Flux arī var demonstrēt caur hugging face spaces: https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
OpenAI DALL-E 3 demo: https://chatgpt.com/g/g-2fkFE8rbu-dall-e
Midjourney demo (tagad strādā arī caur web) https://www.midjourney.com/imagine
Bezmaksas GenAI modeļus, tiem kuri nav gatavi pirkt maksas rīkus var arī izmantot arī Microsoft Copilot https://copilot.microsoft.com/
Vēl citi rīki, kurus pieminēt https://leonardo.ai, https://clipdrop.co/ (clipdrop ir rīks, kur reālā laikā var mainīt attēla ģenerēšanas rezultātus)
Attēlu rediģēšanai demonstrēt rīkus, kuri ļauj iezīmēt masku un ar vaicājumu ģenerēt jaunu saturu. Var mazliet pastāstīt kā šādus modeļus apmāca, bet primāri demonstrēt pielietojumus
Biznesa pielietojumi, piemēram, ļauj attēlus pārveidot bez īpašām zināšanām, sagatavot tos publicitātei.
Var demonstrēt:
Nomainīt fona daļas, satīrīt attēlu
Nomainīt apģērba daļas
Ar Midjourney Editor demonstrēt iespējas
Editor - iespējams izmainīt attēlu, iezīmējot apgabalu, bet svarīgi, ka vaicājums satur pilnu bildes aprakstu nevis tikai konkrētā apgabala aprakstu.
Ar RunwayML Editor demonstrēt iespējas
Erase and Replace - atšķirībā no Midjourney var ierakstīt konkrēti lietu, kuru vēlies mainīt iezīmētajā apgabalā
Var demonstrēt arī citus RunwayML rīkus
https://app.runwayml.com/video-tools/teams/evaldsurtans2/ai-tools
Vēl profesionāla alternatīva ir Adobe Generative AI / Generative fill. Adobe atšķirībā no citiem apmāca modeļus ar saturu, kur tiek maksāts satura radītājiem.
Demonstrēt RunwayML Lidmašīnas reklāmas piemēru, izmantojot iepriekš iegūto lidmašīnas reklāmas attēlu
https://app.runwayml.com/video-tools/teams/evaldsurtans2/ai-tools/generate
Caur VPN uz USA ar ChatGPT maksas pieeju var demonstrēt arī SORA video editoru. Sora Editor galvenā funkcija, ka ar Storyboard palīdzību var salīmēt video no dažādiem attēliem un vaicājumiem, iegūstot daudz labāku kontroli pār rezultātu.
Vēl var demonstreēt https://www.klingai.com/
⚠️ Parasti var ģenerēt 10sek video, bet, ja ieliek pēdējo kadru no iepriekšējā video jaunajā video kā pirmo, tad var iegūt garākus video materiālus
Tāpat https://www.heygen.com/ ir lielisks rīks, lai sagatavotu video materiālus produktu demonstrācijām utt.
Ļoti noderīgi interneta veikaliem, marketinga materiāliem.
Claid.ai
Flair.ai
Adcreative.ai