// Metodología

Cómo se construyó esto

Los datos son sintéticos, pero las distribuciones son reales. Esto es lo que hay detrás.

// ¿De dónde vienen los datos?

Calibrados con el DANE

El dataset contiene 1.000 personas sintéticas de la Generación Z colombiana, entre 12 y 28 años, distribuidas en Bogotá (78%) y Medellín (22%), proporcional a la población Gen Z de cada ciudad según las proyecciones DANE.

Cada variable se genera con distribuciones marginales calibradas con estadísticas oficiales colombianas:

Estrato socioeconómico: Distribución por ciudad basada en ECV (Encuesta de Calidad de Vida).
Edad y sexo: Proyecciones poblacionales DANE 2018-2035.
Nivel educativo: Condicional a edad y estrato, coherente con patrones reales.
Acceso a internet: 75-99% según estrato (ENTIC/MinTIC).
Movilidad (bicicleta): Diferencias urbano-culturales entre Bogotá y Medellín.

// Limitaciones

Lo que NO es

✕Datos de personas reales. Son sintéticos, combinaciones estadísticas.
✕Encuesta probabilística. No tiene muestreo aleatorio.
✕Útil para targeting comercial. No representa consumidores reales.
✕Actualizado en tiempo real. Es un snapshot.

// Lo que SÍ es

Para qué sirve este dataset

✓ Educación

Mostrar patrones demográficos de la Gen Z sin exponer datos individuales.

✓ Investigación

Validar modelos y visualizaciones con distribuciones realistas.

✓ Diseño de productos

Entender arquetipos de usuario sin entrevistar personas reales.

✓ Democratización

Cualquiera puede explorar datos sin pagar a DANE ni limpiar un CSV.

// Stack técnico

Cómo se implementa

Backend

Python 3.11 + FastAPI
PostgreSQL (Supabase self-hosted)
SQLAlchemy async + asyncpg
numpy para generación sintética
bcrypt para API keys

Frontend (este sitio)

Next.js 14 (App Router)
TypeScript + Tailwind CSS
Recharts para visualizaciones
Proxy server-side para API key
Deploy en Vercel