20/03/2026
4 tháng trước, team đặt mục tiêu xử lý 1 triệu PDF.
Hôm nay nhìn lại, bài toán không còn nằm ở OCR nữa.
Với tốc độ 1s/trang:
- 1 triệu PDF = 30 triệu trang
- Nếu chạy tuần tự: gần 1 năm
- Chạy song song 10 worker: 1 tháng
Điều thú vị là: model không phải bottleneck.
Thứ quyết định mọi thứ lại là: batching, queue, parallelism, cách scale hạ tầng
OCR giờ không còn là “đọc được hay không” mà là “đọc nhanh đến mức nào ở production scale”
Và khi đi đến đây, bài toán bắt đầu giống distributed systems hơn là AI.