Arquitectura·24.abr.2026·7 min de lectura

Inferencia en el borde vs. centralizada: cuándo cambia el argumento de costo

Análisis de TCO para proyectos AI con decisiones de latencia y conectividad restringida.

El debate inferencia-en-el-borde vs. centralizada suele presentarse como una decisión de latencia. No lo es. Para la mayoría de los casos de uso enterprise, la latencia de red es suficientemente baja para que centralizar la inferencia sea viable. El driver real es el costo de ancho de banda.

Un modelo de visión corriendo inferencia sobre un stream 4MP consume entre 40 y 60 Mbps de upload sostenido por cámara. Con tarifas empresariales de internet en Chile, ese costo se vuelve dominante en el TCO a partir de 6-8 cámaras concurrentes. Para instalaciones más grandes, el argumento del borde gana sin necesidad de análisis de latencia.

La latencia es el argumento que cierra el pitch. El ancho de banda es el que determina si el proyecto es rentable.

El punto de quiebre depende de tres variables: tu tarifa de WAN actual, la frecuencia de inferencia (tiempo real vs. batch), y el costo del hardware de borde. Para instalaciones sobre 10 cámaras con inferencia en tiempo real, la arquitectura de borde es consistentemente más barata en horizonte de 3 años.

Lo que te llevás
  • Para inferencia en tiempo real, el driver de costo es el ancho de banda, no la latencia
  • Punto de quiebre típico en Chile: 6-8 cámaras concurrentes con WAN empresarial
  • Sobre 10 cámaras en tiempo real: borde gana en TCO a 3 años casi siempre
  • Modelos batch pueden centralizar hasta escala mucho mayor antes del punto de quiebre
Catálogo · AI InfraInfraestructura AI
Ver catálogo