| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
- 딥러닝 추론 최적화
- 리눅스
- 파이썬 클래스
- YOLO
- C++ 기초
- onnx
- stable diffusion
- 산업적용
- github
- AI
- 인공지능
- 앱테크
- 시스템관리
- Windows
- 프로그래밍
- tensorRT
- 딥러닝
- 스마트팩토리
- yolo11
- Vision AI
- 머신러닝
- comfyui
- 오픈소스
- 생성형AI
- git
- pytorch
- 비전AI
- 파이썬
- 생성형 AI
- Python
- Today
- Total
목록tensorRT (3)
너도 할 수 있는, 너도밤나무 코딩
딥러닝 추론 최적화는 현대 AI 애플리케이션에서 성능과 효율성을 결정하는 중요한 요소입니다. NVIDIA의 TensorRT는 이러한 딥러닝 추론 엔진 중에서 가장 많이 사용되는 솔루션 중 하나로, 다양한 GPU 아키텍처와 정밀도를 지원합니다. 특히 TensorRT 8 버전과 최신 10 버전은 기능과 성능에서 차이를 보이기 때문에, 이를 제대로 이해하는 것이 프로젝트 성공의 핵심입니다. 이번 포스팅에서는 TensorRT 8과 10의 차이를 호환성, 성능, 사용자 경험 측면에서 심층 분석하고, 실제 환경에서 어떤 버전을 선택하는 것이 최적일지에 대한 가이드라인을 제공합니다. 1. TensorRT 버전 호환성TensorRT 8과 10의 가장 큰 차이점 중 하나는 버전 호환성입니다.TensorRT 8 (8.6..
딥러닝 모델을 서비스에 올릴 때 가장 많이 부딪히는 문제가 바로 추론 속도입니다.모델 자체는 ONNX로 변환해서 ONNX Runtime에서 불러오기 쉽지만, Execution Provider(EP) 를 어떻게 설정하느냐에 따라 실제 서비스 성능이 크게 달라집니다.제가 최근에 이미지 분류와 객체 탐지 모델을 ONNX Runtime으로 배포하면서, CPU / CUDA / TensorRT 환경에서 직접 성능을 비교해 본 경험을 공유하려 합니다.ONNX Runtime Execution Provider란?ONNX Runtime은 기본적으로 CPU Execution Provider를 사용합니다.하지만 GPU 환경에서는 NVIDIA가 제공하는 CUDA EP와 TensorRT EP를 통해 훨씬 빠른 속도를 얻을 수 있..
딥러닝 모델을 실제 서비스 환경에 올리다 보면, 단순히 모델을 학습시키는 것보다 추론 속도와 효율성이 훨씬 중요하다는 걸 체감하게 됩니다.특히 ONNX Runtime을 사용할 때 Execution Provider(EP) 선택이 성능에 직결되는데, CPU만 쓰는 기본 설정과 GPU를 제대로 활용하는 설정은 속도 차이가 어마어마합니다.이번 글에서는 제가 ONNX Runtime CUDA Execution Provider를 적용하면서 정리한 노하우를 공유합니다.단순히 “어떻게 추가한다” 수준이 아니라, 실제 현업에서 쓰이는 최적화 옵션과 실패 시 디버깅 포인트까지 담아봤습니다.ONNX Runtime Execution Provider 개념ONNX Runtime은 기본적으로 CPU에서 동작합니다. 하지만 ONNX의..