Git repo: https://github.com/asya-ai/dealita-web
Lai Ričards izstāsta kā sistēma strādā līdz šim.
Use case:
Investors ieliek checklist
Investors augšupielāde pitchdeck
System parse pictchdeck (šis ir kas vajadzīgs šobrīd)
AI compares pitch deck with checklist
System shows report
Materials for task: https://drive.google.com/drive/folders/1OHmJm0ihQWaX1CoOgIJBGMMkW8FSIV5w?usp=sharing
Pitch deck examples: https://drive.google.com/drive/folders/1BdVj-xciS8hwotQiKNXcz33YSZL31oZO
Jāpievieno ControllerPDF
funkcija parse_deal_file(deal_file_id)
Atsevišķā workerī worker_deals_files.py
nevis main.py
visus deals_files
parsēt un iegūt rezultāus
Priekš PDF extraxct izmantot šo vai kādu citu lib https://pypi.org/project/PyPDF2/
Jābūt max strukturizētam output, pārbaudi pats ar pēc iespējas vairāk dažādiem PDFs - jābūt loģiskā secībā tekstiem
Jāziveido jauna DB tabula un Model classes
Nepieciešams no PDF iegūt šādus segments, piemērs:
text:
xxxxxxxxxx
41PITCH DECK
2We are changing the way people buy cars around the world.
3Never buy a banger again.
4CarExamer.com
text:
xxxxxxxxxx
61Go-to Market Plan
2Sponsorships
3Something
4Affilate
5Something
6...
OCR no bildēm, kur ir teksts atpazīt segments
Segement Anytghing, ImageToText models pielietot, lai no attēliem iegūtu tekstu anotations, aprakstus
Charts and graphs