2023-10-16 PDF scraper Task

 

Git repo: https://github.com/asya-ai/dealita-web

Lai Ričards izstāsta kā sistēma strādā līdz šim.

Use case:

  1. Investors ieliek checklist

  2. Investors augšupielāde pitchdeck

  3. System parse pictchdeck (šis ir kas vajadzīgs šobrīd)

  4. AI compares pitch deck with checklist

  5. System shows report

Task - PDF parser

 

Materials for task: https://drive.google.com/drive/folders/1OHmJm0ihQWaX1CoOgIJBGMMkW8FSIV5w?usp=sharing

Pitch deck examples: https://drive.google.com/drive/folders/1BdVj-xciS8hwotQiKNXcz33YSZL31oZO

Jāpievieno ControllerPDF funkcija parse_deal_file(deal_file_id)

Atsevišķā workerī worker_deals_files.py nevis main.py visus deals_files parsēt un iegūt rezultāus

Priekš PDF extraxct izmantot šo vai kādu citu lib https://pypi.org/project/PyPDF2/

Jābūt max strukturizētam output, pārbaudi pats ar pēc iespējas vairāk dažādiem PDFs - jābūt loģiskā secībā tekstiem

Jāziveido jauna DB tabula un Model classes

1 to n
deals_files
deals_file_id: PK
deals_file_status: "WAITING", "PROCESSING", "READY"
...
deals_files_segments
deals_files_segment_id: PK
deals_file_id: FK,
text_segment: text,
page_number: int,
created: timestamp
is_deleted: bool

 

Nepieciešams no PDF iegūt šādus segments, piemērs: image-20231016121623975

text:

image-20231016121725546

text:

 

Future

  1. OCR no bildēm, kur ir teksts atpazīt segments

  2. Segement Anytghing, ImageToText models pielietot, lai no attēliem iegūtu tekstu anotations, aprakstus

  3. Charts and graphs