// Metodología

Cómo se construyó esto

Los datos son sintéticos, pero las distribuciones son reales. Esto es lo que hay detrás.

// ¿De dónde vienen los datos?

Calibrados con el DANE

El dataset contiene 1.000 personas sintéticas de la Generación Z colombiana, entre 12 y 28 años, distribuidas en Bogotá (78%) y Medellín (22%), proporcional a la población Gen Z de cada ciudad según las proyecciones DANE.

Cada variable se genera con distribuciones marginales calibradas con estadísticas oficiales colombianas:

  • Estrato socioeconómico: Distribución por ciudad basada en ECV (Encuesta de Calidad de Vida).
  • Edad y sexo: Proyecciones poblacionales DANE 2018-2035.
  • Nivel educativo: Condicional a edad y estrato, coherente con patrones reales.
  • Acceso a internet: 75-99% según estrato (ENTIC/MinTIC).
  • Movilidad (bicicleta): Diferencias urbano-culturales entre Bogotá y Medellín.
// Limitaciones

Lo que NO es

  • Datos de personas reales. Son sintéticos, combinaciones estadísticas.
  • Encuesta probabilística. No tiene muestreo aleatorio.
  • Útil para targeting comercial. No representa consumidores reales.
  • Actualizado en tiempo real. Es un snapshot.
// Lo que SÍ es

Para qué sirve este dataset

Educación

Mostrar patrones demográficos de la Gen Z sin exponer datos individuales.

Investigación

Validar modelos y visualizaciones con distribuciones realistas.

Diseño de productos

Entender arquetipos de usuario sin entrevistar personas reales.

Democratización

Cualquiera puede explorar datos sin pagar a DANE ni limpiar un CSV.

// Stack técnico

Cómo se implementa

Backend
  • Python 3.11 + FastAPI
  • PostgreSQL (Supabase self-hosted)
  • SQLAlchemy async + asyncpg
  • numpy para generación sintética
  • bcrypt para API keys
Frontend (este sitio)
  • Next.js 14 (App Router)
  • TypeScript + Tailwind CSS
  • Recharts para visualizaciones
  • Proxy server-side para API key
  • Deploy en Vercel