// Metodología
Cómo se construyó esto
Los datos son sintéticos, pero las distribuciones son reales. Esto es lo que hay detrás.
// ¿De dónde vienen los datos?
Calibrados con el DANE
El dataset contiene 1.000 personas sintéticas de la Generación Z colombiana, entre 12 y 28 años, distribuidas en Bogotá (78%) y Medellín (22%), proporcional a la población Gen Z de cada ciudad según las proyecciones DANE.
Cada variable se genera con distribuciones marginales calibradas con estadísticas oficiales colombianas:
- Estrato socioeconómico: Distribución por ciudad basada en ECV (Encuesta de Calidad de Vida).
- Edad y sexo: Proyecciones poblacionales DANE 2018-2035.
- Nivel educativo: Condicional a edad y estrato, coherente con patrones reales.
- Acceso a internet: 75-99% según estrato (ENTIC/MinTIC).
- Movilidad (bicicleta): Diferencias urbano-culturales entre Bogotá y Medellín.
// Limitaciones
Lo que NO es
- ✕Datos de personas reales. Son sintéticos, combinaciones estadísticas.
- ✕Encuesta probabilística. No tiene muestreo aleatorio.
- ✕Útil para targeting comercial. No representa consumidores reales.
- ✕Actualizado en tiempo real. Es un snapshot.
// Lo que SÍ es
Para qué sirve este dataset
✓ Educación
Mostrar patrones demográficos de la Gen Z sin exponer datos individuales.
✓ Investigación
Validar modelos y visualizaciones con distribuciones realistas.
✓ Diseño de productos
Entender arquetipos de usuario sin entrevistar personas reales.
✓ Democratización
Cualquiera puede explorar datos sin pagar a DANE ni limpiar un CSV.
// Stack técnico
Cómo se implementa
Backend
- Python 3.11 + FastAPI
- PostgreSQL (Supabase self-hosted)
- SQLAlchemy async + asyncpg
- numpy para generación sintética
- bcrypt para API keys
Frontend (este sitio)
- Next.js 14 (App Router)
- TypeScript + Tailwind CSS
- Recharts para visualizaciones
- Proxy server-side para API key
- Deploy en Vercel