Tēma:
Comparing PyTorch, ONNX, and TensorRT runtime environments and the effect of Quantization for model inference performance improvement
PyTorch, ONNX un TensorRT izpildes vides un kvantizācijas ietekmes salīdzināšana uz modeļa veiktspēju
Labs precedents publikācijai: https://userweb.cs.txstate.edu/~k_y47/webpage/pubs/icess22.pdf
TODO:
Atrast vēl līdzīgas publikācijas, kur salīdzina (ja ir) dažādus inference frameworks uz GPU modeļiem, mēs torētiski varētu nevis uz attēlu modēliem, bet uz quantized/not-quantiazed LLaMA2 vai kādu citu no šiem http://gpt4all.io
Atrast kādas vispār ir populārs plaformas PyTorch, TensorRT, ONNX Runtime (ORT), TorchScript, CoreML, mROC, WebGL un cik viegli plaist?
Kādas metodes piedāvā, lai samazinātu Transformer vai ConvNet GPU memory footprint (ar atsaucēm uz publikācijām) līdzīgi kā Teacher -> Student, Quantization, Mixed Precision Training ( Nvidia Apex ), vai kaut kā daļu var turēt uz CPU pārlādēt forward laikā pa daļām? Varbūt tā varētu būt jauna metode, kur gigantic models var forward laikā pa daļām viena modeļa ievaros ielādēt GPU, kad vajag?