UNIVERSIDAD DON BOSCO 

 
Dirección de Educación a Distancia 

 
TRABAJO DE GRADUACIÓN PARA OBTAR AL GRADO DE 

 
Maestro en Arquitectura de Software 

 
PROYECTO DE GRADUACIÓN: 

 
Implementación de Data Warehouse en Dirección General de Migración y Extranjería en 

las gerencias de Control Migratorio y Restricciones 

 
Autores: 

 
Ing. Francisco José Huezo Alas 

Ing. Héctor Augusto Hernández Argueta 

Lic. Ernesto Enrique Menjívar Colorado 

 
Asesor: 

 
Mg. Herson Miguel Serrano Chacón 

 
Antiguo Cuscatlán, La Libertad, El Salvador, Centroamérica. 
 

11 de Julio de 2023 
 

2 
 

Contenido 

1. Introducción ................................................................................................................ 6 

2. Identificación de las necesidades................................................................................ 8 

5. Contexto empresarial ................................................................................................ 11 

6. Identificación de los orígenes de datos ..................................................................... 12 

6.1. Sistema Integrado .............................................................................................. 12 

6.2. Sistema de Pasaportes ...................................................................................... 12 

7. Justificación de la solución........................................................................................ 15 

7.1. La estructura del Data Warehouse.............................................................. 21 

7.2. Tipos de modelos en el esquema multidimensional .................................... 22 

7.2.1. ¿Qué es el esquema estrella? .................................................................... 23 

7.2.2. ¿Qué es el esquema copo de nieve? .......................................................... 24 

7.2.3. ¿Cómo funciona el esquema estrella? ........................................................ 25 

7.2.4. ¿Cómo funciona el esquema copo de nieve? ............................................. 26 

7.2.5. Ventajas y limitaciones del esquema tipo estrella ....................................... 28 

7.2.6. Ventajas y limitaciones del esquema copo de nieve ................................... 29 

8. Construcción del nuevo diagrama de datos .............................................................. 31 

9. Indicadores de rendimiento ....................................................................................... 33 

9.1. Ventajas de utilizar KPI en el control migratorio .......................................... 34 

9.2. Identificación de los KPI relevantes ............................................................ 35 

10. Definición de los procesos de ETL ............................................................................ 38 

11. Sistemas de información orientados a toma de decisiones. ...................................... 42 

11.1. Sistema de soporte a la decisión ................................................................ 43 

11.2. Tipos de Sistemas de Soporte a la Decisión ............................................... 46 

11.3. Diferencias con otras herramientas de Business Intelligence ...................... 47 

12. Análisis y definición de las herramientas a utilizar .................................................... 48 

12.1. Herramientas ETL .............................................................................................. 48 


3 

 
12.1.1. Microsoft SSIS ............................................................................................ 50 

12.1.2. Pentaho Kettle ............................................................................................ 51 

12.1.3. Informática Powercenter ............................................................................. 54 

12.1.4. Oracle Data Integrator ................................................................................ 55 

12.1.5. Talend ........................................................................................................ 56 

12.2. Herramientas de análisis de datos. .................................................................... 58 

12.2.1. Power BI ..................................................................................................... 59 

12.2.3. QLik Sense ................................................................................................. 63 

12.3. Comparación de Herramientas .......................................................................... 65 

12.3.1. Herramienta de migración de datos ............................................................ 65 

12.3.2. Herramienta para visualización de datos .................................................... 66 

13. Análisis y definición de la infraestructura de la solución ............................................ 68 

14. Plan de implementación ............................................................................................ 70 

14.1. Fases de Implementación .................................................................................. 70 

14.1.1. Fase de Planificación y Preparación ........................................................... 70 

14.1.2. Fase de Diseño y Modelado: ...................................................................... 70 

14.1.3. Fase de Extracción y Transformación de Datos .......................................... 70 

14.1.4. Fase de Carga de Datos y Configuración de la Capa de Almacenamiento: 71 

14.1.5. Fase de Implementación de la Capa de Presentación y Visualización ........ 71 

14.1.6. Fase de Ajustes Finales y Lanzamiento: ..................................................... 71 

14.2. Plan de ejecución .............................................................................................. 71 

14.3. Presupuesto ...................................................................................................... 72 

14.4. Roles y responsables ........................................................................................ 75 

15. Conclusiones ............................................................................................................ 77 

16. Bibliografía ................................................................................................................ 79 


4 
 

Índice de Ilustraciones 

 
Ilustración 1. Base de datos actual de la Dirección General de Migración y Extranjería. 

Fuente: Gerencia de informática y desarrollo tecnológico de la DGME ............................ 14 

Ilustración 2. Ejemplo de la orientación temática de los datos. Fuente: Inmon (2005) ...... 17 

Ilustración 3. La cuestión de la integración. Fuente: Inmon (2005) ................................... 18 

Ilustración 4. La cuestión de la no volatilidad. Fuente: Inmon (2005) ............................... 19 

Ilustración 5. La cuestión de la variación temporal. Fuente: Elaboración propia a partir de 

Inmon (2005) ................................................................................................................... 20 

Ilustración 6. La estructura del Data Warehouse. Fuente: Inmon (2005) .......................... 21 

Ilustración 7. Esquema tipo estrella. Fuente: www.sqlybi.com ......................................... 23 

Ilustración 8. Esquema copo de nieve. Fuente: www.sqlybi.com ..................................... 25 

Ilustración 9. Diagrama del Data Warehouse. Fuente: Elaboración propia ....................... 31 

Ilustración 10. Componentes de un sistema de soporte a la toma de decisiones fuente 

(Bonilla Botia & Briceño Díaz, 2006) ................................................................................ 45 

Ilustración 11. Diagrama de la infraestructura de la solución. Fuente: Elaboración propia. 

........................................................................................................................................   68 

Ilustración 12. Plan de ejecución del proyecto. Fuente: Elaboración propia ..................... 71 

http://www.sqlybi.com/
http://www.sqlybi.com/
https://d.docs.live.net/952a4d5a309be95d/Documents/Documento%20versión%20Final%20(DGME).docx#_Toc139985731


5 
 

Índice de Tablas 

Tabla 1. Comparativa de ETLs en el mercado actual. Fuente: Elaboración propia. .......... 65 

Tabla 2. Comparativa de herramientas para la visualización y análisis de datos. Fuente: 

Elaboración propia. .......................................................................................................... 67 

Tabla 3. Presupuesto del proyecto ................................................................................... 74 

Tabla 4 Roles para la ejecución del proyecto ................................................................... 76 


6 
 

1. Introducción 

 
En las últimas décadas, la migración ha sido un fenómeno de gran relevancia en el contexto 

socioeconómico global. El Salvador, como muchos otros países, ha experimentado flujos 

significativos de migrantes, tanto dentro como fuera de sus fronteras. La gestión eficiente y 

efectiva de los datos relacionados con la migración se ha convertido en un desafío para las 

instituciones gubernamentales encargadas de formular políticas y programas que aborden 

esta problemática de manera integral. 

El acceso a información precisa y actualizada es fundamental para tomar decisiones 

informadas y diseñar estrategias efectivas en el ámbito de la migración. En este contexto, 

la implementación de un Data Warehouse (almacén de datos) surge como una solución 

tecnológica prometedora para consolidar y gestionar la gran cantidad de datos dispersos 

que se generan en diferentes entidades gubernamentales relacionadas con la migración. 

El objetivo de este documento de tesis es analizar la implementación de un Data Warehouse 

en la Dirección General de Migración y Extranjería (DGME) entidad de gobierno dedicada 

a la gestión de datos sobre movimientos migratorios, pasaportes, registro de extranjeros 

que residen legalmente en El Salvador. Se busca examinar cómo esta solución tecnológica 

puede mejorar la recolección, almacenamiento, integración y análisis de la información 

migratoria, brindando una visión más completa y precisa de los flujos migratorios y sus 

implicaciones. 

Para lograr este objetivo, se llevará a cabo una revisión exhaustiva de la literatura existente 

sobre la implementación de Data Warehouses en el ámbito gubernamental y su aplicación 

en el campo de la migración. Además, se realizará un estudio de caso en DGME, con el fin 

de evaluar los beneficios y desafíos asociados con la implementación de esta tecnología. 

Se espera que los resultados de esta investigación proporcionen una base sólida para 

comprender el potencial impacto de un Data Warehouse en la gestión de datos que maneja 

la institución, y contribuyan a la toma de decisiones informadas en políticas y programas 

relacionados con la migración. 

La implementación de un Data Warehouse DGME representa una oportunidad para mejorar 

la gestión de datos sobre migración y promover un enfoque más integral y basado en 

evidencias en la formulación de políticas migratorias. 


7 
 

A través de este estudio, se espera contribuir al fortalecimiento de la capacidad institucional 

y al desarrollo de estrategias efectivas para abordar los desafíos asociados con la migración 

en el país. 

En esta investigación, se analizarán los beneficios potenciales de la implementación de un 

Data Warehouse, como la mejora en la eficiencia en la gestión de solicitudes y trámites 

migratorios, la detección temprana de casos de migración ilegal, la generación de informes 

más ágiles y la toma de decisiones más informadas. Además, se explorarán los desafíos y 

consideraciones clave que deben abordarse en la implementación exitosa de un Data 

Warehouse en la DGME. 

En resumen, la aplicación de un Data Warehouse en la DGME representa una oportunidad 

para mejorar la gestión y el control migratorio en El Salvador. La centralización de datos, el 

análisis avanzado y la generación de informes eficientes permitirán una toma de decisiones 

más informada y una mayor eficacia en los procesos migratorios. A lo largo de este estudio, 

se explorarán los beneficios y desafíos asociados con la implementación de un Data 

Warehouse en esta institución, sentando las bases para una gestión migratoria más sólida 

y eficiente. 


8 
 

2. Identificación de las necesidades 

 
La Dirección General de Migración y Extranjería (DGME) es el ente encargado de controlar 

la entrada y salida de personas al territorio salvadoreño, la ubicación de El Salvador en 

Centro América hace vital tener herramientas de gestión de datos con respuestas rápidas 

a los diferentes escenarios que puedan surgir. Dentro de la institución existen diferentes 

gerencias o áreas donde cada una cumplen una función esencial para el correcto 

funcionamiento del andamiaje gubernamental. Del control migratorio, puede surgir muchas 

necesidades de solicitud de información vital para el país, por ejemplo, cuantas personas 

salen y no regresan al país, cuantas personas entran ilegalmente al país, puntos de inflación 

de movimientos migratorios en el año, nacionalidades predominantes que entran al país 

etc. La información crece a diario y por este motivo la institución necesita de una solución 

que reduzca los tiempos de respuesta y el esfuerzo en obtención de información; 

manteniendo siempre la integridad y calidad de los datos. 

Dentro de DGME existe también otra división importante llamada Gerencia de Atención al 

Migrante, cuyas necesidades también deberán ser contempladas dentro del proyecto, ya 

que son los encargados de recibir las donaciones de otros países, además de gestionar el 

tema de refugiados o atención a retornados; para esta gerencia es vital llevar un registro de 

cuantas personas son retornadas al país y que nacionalidad es la predominante, ya que 

con esta información se puede proceder a crear planes de contingencia. 

El proceso de obtención de datos actualmente inicia con una solicitud de información por 

parte de la Gerencia de Control migratorio, realizada por medio de su gerente o la persona 

que el designe. Luego, la solicitud llega al jefe de la Unidad de informática y Desarrollo 

Tecnológico (UIDT), este último por medio del encargado de base de datos de la institución, 

realiza una serie de consultas a la base de datos. Al obtener la información, esta es llevada 

a un documento de Excel en donde se ordena y se hace la entrega por medio de correo 

electrónico a la gerencia solicitante. El problema central, radica en que este proceso es 

tardado, empezando por la gestión que debe hacerse para poder solicitar la información 

entre gerencias y, además, por los tiempos que tardan los técnicos en obtener la 

información de la base de datos en ciertos casos, por ejemplo, cuando se solicita datos de 

hace tres años a la fecha actual de entradas y salidas de personas al territorio nacional, 

teniendo en cuenta que cada año son miles de personas que cruzan la frontera. 


9 
 

Estos procesos pueden tardar hasta días, con la desventaja que depende bastante de la 

habilidad del encargado de la base de datos en turno. 

La UIDT cuenta con reportes ya establecidos de información recurrente, la mayoría de ellos 

los parámetros son fechas, mientras más amplio sea el rango entre una fecha y otra, mayor 

será el tiempo en que el reporte se tarde en ejecutar la consulta, ya que básicamente son 

consultas a la base de datos, esto generando una carga extra al servidor de producción lo 

cual hace que sea lenta algunas transacciones. 

Para poner un poco en contexto, actualmente la DGME cuenta con: 

 
• Sucursales 

1. Centro de gobierno San Salvador 

2. Sucursal Masferrer 

3. Sucursal Cascadas 

4. Sucursal plaza mundo (Soyapango) 

5. Sucursal Pasatiempo 

6. Sucursal Santa Ana 

7. Sucursal San Miguel 

8. Sucursal Usulután 

• Fronteras terrestres con Guatemala 

1. Chinamas 

2. La Hachadura 

3. Anguiatú 

4. San Cristóbal 

• Fronteras terrestres con Honduras 

1. El Amatillo 

2. El Poy 

3. Perquín 

4. Puente Integración 

• Aeropuertos 

3. Aeropuerto Internacional de Ilopango 

4. Aeropuerto San Oscar A. Romero 

• Puertos marítimos 

1. Puerto de Acajutla 

2. Puerto Bahía del sol 


10 
 

3. Puerto CORSAIN 

4. Puerto La Unión 

5. Puerto Unión Centroamericana 

6. Puerto Meanguera del golfo 

 
Actualmente la institución cuenta con 24 puntos donde cada día se realizan miles de 

peticiones a la base de datos, dependiendo de la afluencia de personas, la época del año, 

entre otras. También es importante saber que la DGME forma parte del ministerio de justicia 

y seguridad pública, por lo cual, las decisiones que toman sus gerentes y director general 

deben ser siempre pensados en la seguridad de la población. 

Este contexto es para dar a conocer lo importante y vital que la institución cuente con una 

herramienta que de información de forma rápida y fácil a las gerencias que lo requieran. 


11 
 

5. Contexto empresarial 

 
Para conocer el contexto en el que se va a desarrollar el proyecto, debemos conocer la 

institución, a continuación, se describe un poco sobre ella: 

La Dirección General de Migración y Extranjería forma parte de las diferentes instituciones 

que trabajan bajo el enfoque de respeto y garantía de Derechos Humanos y migratorios y 

su actuar está regido bajo un marco legal amplio tanto del ordenamiento jurídico nacional 

como de instrumentos internacionales, sin embargo se tenía la limitante en cuanto a que la 

institución trabajaba con una Ley obsoleta y por ende desactualizada, por lo que se recurría 

a diversos decretos y normas jurídicas que regulaban su accionar no solo en materia 

migratoria sino de extranjería. 

En virtud de lo anterior la DGME crea un grupo multidisciplinario constituido con personal 

con una amplia experiencia operativa y profesional para crear y redactar la elaboración de 

una nueva Ley que permitiera unificar y garantizar en un solo cuerpo legal el eficaz 

ordenamiento migratorio que regulara la entrada y salida de nacionales y de extranjeros del 

territorio nacional, así como el tránsito y la permanencia de estos últimos dentro del mismo, 

la nacionalización y naturalización, la expedición del documentos de viaje en un marco de 

respeto a los derechos humanos, conforme la Constitución, leyes e instrumentos 

internacionales, así como la organización y funciones de la Dirección General, entrando en 

vigencia la nueva Ley Especial de Migración y de Extranjería el día cuatro de Julio del año 

dos mil diecinueve y su reglamento operativo el nueve de julio del referido año. La referida 

ley se regirá por los principios de: 

• Dignidad humana 

• Movilidad humana, 

• Interés superior de la niña, niño y adolescente 

• Debido proceso 

• Igualdad. 

• Unidad familiar y reunificación 

• Integración 

• No devolución 

• No sanción por ingreso irregular de las personas refugiadas o apátridas. 


12 
 

6. Identificación de los orígenes de datos 

 
La institución cuenta con dos sistemas informáticos para el funcionamiento de casi todas 

las actividades que realizan. 

 
6.1. Sistema Integrado 

 
Es un sistema web que se utiliza para realizar movimientos migratorios en todos los puntos 

fronterizos, terrestres, aéreo y marítimo. Así como también se utiliza para generar carnés 

de extranjeros, registro de nuevos empleados, consulta de DUI y pasaportes entre otras 

actividades. 

Este sistema es el más utilizado en la institución, cada empleado tiene acceso a él con 

diferentes perfiles de usuario, por ejemplo, para pasar permisos personales por falta a 

laborar, ver horas de tiempo compensatorio etc. 

Esta plataforma también tiene un perfil para la generación de reportes predefinidos. 

 
6.2. Sistema de Pasaportes. 

 
Es un sistema de escritorio, con la finalidad de captar la información necesaria de las 

personas que saquen su pasaporte. Este sistema esta desplegado en todas las sucursales 

en el país, así como también en todos los consulados alrededor del mundo donde tengan 

la potestad de emitir pasaportes. En captación de datos es de los más importantes, ya que 

este alimenta a una base de datos muy utilizada en la institución, la cual es la de pasaportes 

y todo su correcto flujo depende de la buena recepción de datos por medio de los 

empleados que manipulan el sistema. 

En general estos dos sistemas antes expuestos son los pilares para que se genere la 

información, el flujo de la información depende del buen uso y las validaciones que tiene el 

sistema. 

Es importante mencionar que ambos sistemas fueron desarrollados en la institución, ya que 

tiene su área de desarrollo informático, el cual se encarga de velar por el buen 

funcionamiento y futuras actualizaciones y mantenimiento de los sistemas que se usan 

dentro de la institución 


13 
 

La DGME nos ha brindado ciertos diagramas de sus bases de datos de producción, cabe 

aclarar que por motivos de seguridad no se puede exponer toda su base de datos, así que 

se mostrara una versión con nombres de tablas y campos alterados, también no mostrando 

todos los campos de las tablas respetando las medidas que la institución vea conveniente, 

ya que nuestro deber como profesionales es ser garantes de la seguridad de la información. 

En el siguiente diagrama se muestra el flujo de datos central para el proyecto, ya que se 

tiene como objetivo elaborar una herramienta para que esta información esté disponible y 

ordenada con menor tiempo de ejecución. Tenemos la tabla central del flujo, la cual es 

“table_mov_migratorio” la cual se guardan más que todo llaves relacionales de otras tablas, 

las cuales podemos resaltar el código persona, el cual es la llave que identifica a la persona 

a la cual se está relacionando el movimiento migratorio, tenemos otros que son vitales para 

su registro, el idFrontera, el cual identifica desde que frontera (aérea, terrestre o marítimo) 

se está haciendo el movimiento migratorio, el tipo de viajero, motivo de viaje entre otra 

información relevante. Como dato importante, cabe resaltar que el movimiento de un menor 

tiene un flujo diferente, ya que se guarda la información de los responsables, ya sea los 

padres o encargados del menor. 

Se tienen tablas catálogos, tales como motivos de viajes, tipos de documento de viaje el 

cual se distingue mediante el CodigoDocumentoPorPersona dentro de la tabla de 

table_mov_migratorio. 

Existen tablas que actualmente se utilizan de bitácoras y a la vez de consulta, tal como 

“table_consulta_bitacora” la cual se tiene como respaldo de cierta información relevante 

para la identificación de las personas. 

Como se puede ver existe una relación con la tabla llamada “carné” ya que, el nombre de 

la institución hace alusión a Extranjería, la cual es un área especial que se encarga de 

otorgar permisos a extranjeros para estar en el país, y este tipo de viajero, para que su 

transición sea rápida, se toma en cuenta los datos de su carné para realizar su movimiento 

migratorio. 


14 
 

Para la generación de movimiento aéreo, no está plasmado en este diagrama, ya que es 

uno de los flujos con mayor riesgo, pero en resumen se tiene información como aerolíneas, 

vuelos, aeropuertos alrededor del mundo, un motor dedicado a la captación de vuelos. Esto 

último es muy interesante, ya que este servicio o software captura de anticipado la 

información de viajeros que están saliendo de otros países y llegaran a El Salvador, esta 

información siendo muy importante para la inteligencia de avanzada dentro de los 

aeropuertos. 

 
Ilustración 1. Base de datos actual de la Dirección General de Migración y Extranjería. Fuente: Gerencia de informática y 

desarrollo tecnológico de la DGME. 


15 
 

7. Justificación de la solución 

 
Ante la problemática planteada anteriormente se ha construido una solución que permita a 

los diferentes interesados tener una mayor accesibilidad a los datos, esta solución está 

basada en construir un Data Warehouse que almacene toda la información importante para 

la construcción de reportes gerenciales. 

 
El concepto de Data Warehouse se originó en 1988 con el trabajo de los investigadores de 

IBM, Barry Devlin y Paul Murphy, aunque el término Data Warehouse fue acuñado por 

William H. Inmon, el cual es conocido como el padre de Data Warehousing. Inmon describió 

un Data Warehouse como “un sistema de almacenamiento de datos diseñado para facilitar 

la toma de decisiones empresariales mediante la integración, organización y análisis de 

grandes volúmenes de datos provenientes de diversas fuentes. Proporciona una visión 

global y consolidada de los datos, permitiendo a los usuarios realizar consultas y generar 

informes para respaldar la toma de decisiones estratégicas.” (Inmon 2005). 

 
Algunas de las razones que se tomaron en cuenta para el planteamiento de la solución e 

implementación de un Data Warehouse son las siguientes: 

 
Integración de datos: un Data Warehouse permite integrar datos de diversas fuentes, 

como sistemas transaccionales, archivos, bases de datos externas, entre otros. Esto facilita 

la consolidación de datos dispersos y heterogéneos en una única fuente de información 

coherente y estructurada. Este punto es importante ya que la institución como vimos 

anteriormente posee 2 bases de datos necesarias para la generación de los reportes 

gerenciales. 

 
Análisis y toma de decisiones: un Data Warehouse proporciona una base sólida para el 

análisis de datos y la generación de informes. Al contar con datos históricos y actuales 

almacenados de manera centralizada, los usuarios pueden realizar consultas complejas y 

obtener información estratégica para la toma de decisiones informadas. 

 
Rendimiento optimizado: los Data Warehouse están diseñados para ofrecer un 

rendimiento óptimo en consultas y análisis complejos. 


16 
 

Utilizan técnicas como la optimización de consultas, el uso de índices y la agregación de 

datos pre calculados para acelerar los tiempos de respuesta y mejorar la experiencia del 

usuario. 

 
Consistencia y calidad de los datos: al centralizar los datos en un Data Warehouse, se 

pueden aplicar reglas de calidad y consistencia de datos. Esto implica la limpieza, 

transformación y validación de los datos antes de su carga en el Data Warehouse, lo que 

mejora la confiabilidad y la integridad de la información. Estos procesos son llamados ETL 

y serán definidos más adelante en este documento. 

 
Apoyo a la toma de decisiones estratégicas: el acceso a datos históricos y a largo plazo 

en un Data Warehouse permite el análisis de tendencias y patrones a largo plazo. Esto 

ayuda a las organizaciones a identificar oportunidades de crecimiento, detectar áreas de 

mejora y tomar decisiones estratégicas basadas en información confiable y precisa. 

 
Escalabilidad y adaptabilidad: los Data Warehouse están diseñados para manejar 

grandes volúmenes de datos y soportar cargas de trabajo analíticas intensivas. Además, 

son flexibles y pueden adaptarse a medida que los requisitos de análisis y las necesidades 

de la organización evolucionan. 

 
Aptitudes de la institución: además de las razones y ventajas antes descritas, es un 

punto importante para destacar que antes de decantarse por una solución se verifico que 

la institución cuente con los insumos para llevar a cabo esta solución, en este caso la DGME 

cuenta con la infraestructura y equipo adecuado para poderlo llevar a cabo. Más adelante 

se detallarán las herramientas y el personal que será necesario para realizar cada una de 

las fases de implementación de la solución. 

 
A continuación, se describen algunos de los aspectos más importantes del Data 

Warehouse. Un Data Warehouse es una colección de datos orientada a temas, integrada, 

no volátil y variable en el tiempo en apoyo de las decisiones de gestión. El Data Warehouse 

contiene datos corporativos granulares. Los datos en el Data Warehouse se pueden utilizar 

para muchos propósitos diferentes, incluido sentarse y esperar requisitos futuros que se 

desconocen en la actualidad. 


17 
 

La orientación temática del Data Warehouse se muestra en la Figura 2. Los sistemas de 

operaciones clásicos se organizan en torno a las aplicaciones funcionales de la empresa. 

Para una compañía de seguros, las aplicaciones pueden ser para el procesamiento de 

automóviles, vida, salud y accidentes. Las principales áreas temáticas de la corporación de 

seguros pueden ser el cliente, la póliza, la prima y la reclamación. Para un fabricante, las 

principales áreas temáticas pueden ser producto, pedido, proveedor, lista de materiales y 

materias primas. Para un minorista, las principales áreas temáticas pueden ser producto, 

SKU, venta, proveedor, etc. Cada tipo de empresa tiene su propio conjunto único de temas. 

 
Ilustración 2. Ejemplo de la orientación temática de los datos. Fuente: Inmon (2005) 
 
 
La segunda característica destacada del Data Warehouse reside en su nivel de integración. 

Entre todos los aspectos que conforman un Data Warehouse, la integración se posiciona 

como el más crucial. Los datos son extraídos de diversas fuentes heterogéneas y 

consolidados dentro del Data Warehouse. Durante este proceso, los datos se transforman, 

reformatean, resecuencian, resumen, entre otros. Como resultado, una vez que los datos 

residen en el Data Warehouse, se obtiene una única imagen corporativa física. 


18 
 

La Ilustración 3 ejemplifica la integración que ocurre al trasladar los datos desde el entorno 

operativo, orientado a aplicaciones, hacia el Data Warehouse. 

 
Las decisiones de diseño adoptadas por los desarrolladores de aplicaciones a lo largo de 

los años se manifiestan de diversas formas. En el pasado, los diseñadores de aplicaciones 

no contemplaban la posibilidad de integrar los datos con otros conjuntos de datos al crear 

una aplicación. Tal consideración era considerada una mera teoría descabellada. 

 
Como resultado, existe una falta de consistencia entre las aplicaciones en términos de 

codificación, convenciones de nomenclatura, atributos físicos, medición de atributos, entre 

otros aspectos. Cada diseñador de aplicaciones ha tenido total libertad para tomar sus 

propias decisiones de diseño. Como resultado, cada aplicación difiere significativamente de 

las demás. 

 
Ilustración 3. La cuestión de la integración. Fuente: Inmon (2005) 


19 
 

Los datos se ingresan en el Data Warehouse de tal manera que se deshacen las muchas 

inconsistencias en el nivel de la aplicación. Por ejemplo, como se mostró anteriormente en 

la ilustración 3, en lo que se refiere a la codificación de género, importa poco si los datos 

en el almacén están codificados como m/f o 1/0. Lo que importa es que, 

independientemente del método o la aplicación de origen, la codificación del almacén se 

realiza de forma coherente. Si los datos de la aplicación están codificados como X/Y para 

el sexo, se convierten a medida que se mueven al almacén. La misma consideración de 

coherencia se aplica a todos los problemas de diseño de aplicaciones, como las 

convenciones de nomenclatura, la estructura clave, la medición de atributos y las 

características físicas de los datos. 

 
La tercera característica importante de un Data Warehouse es que no es volátil. La 

ilustración 4 muestra la no volatilidad de los datos y muestra que los datos operativos se 

acceden y manipulan regularmente, un registro a la vez. Los datos se actualizan en el 

entorno operativo de forma habitual, pero los datos del Data Warehouse exhiben un 

conjunto de características muy diferente. Los datos del Data Warehouse se cargan 

(generalmente, pero no siempre, en masa) y se accede a ellos, pero no se actualizan (en 

el sentido general). En cambio, cuando se cargan los datos en el Data Warehouse, se 

cargan en una instantánea, en formato estático. Cuando se producen cambios posteriores, 

se escribe un nuevo registro de instantánea. Al hacerlo, se mantiene un registro histórico 

de datos en el Data Warehouse. 

 
Ilustración 4. La cuestión de la no volatilidad. Fuente: Inmon (2005) 
 

La última característica destacada del Data Warehouse es que es variable en el tiempo. La 

variación de tiempo implica que cada unidad de datos en el Data Warehouse es precisa en 

algún momento en el tiempo. En algunos casos, un registro tiene una marca de tiempo. 


20 
 

En otros casos, un registro tiene una fecha de transacción. Pero en todos los casos, hay 

algún tipo de marca de tiempo para mostrar el momento en el tiempo durante el cual el 

registro es preciso. La ilustración 5 muestra cómo la variación temporal de los datos del 

Data Warehouse puede mostrarse de varias maneras. 

 
Ilustración 5. La cuestión de la variación temporal. Fuente: Elaboración propia a partir de Inmon (2005) 
 
 
Diferentes entornos tienen diferentes horizontes de tiempo asociados con ellos. Un 

horizonte temporal es el período de tiempo durante el cual se representan los datos en un 

entorno. El horizonte de tiempo colectivo para los datos que se encuentran dentro de un 

Data Warehouse es significativamente más largo que el de los sistemas operativos. Un 

horizonte temporal de 60 a 90 días es normal para los sistemas operativos; un horizonte 

temporal de 5 a 10 años es normal para el Data Warehouse. Como resultado de esta 

diferencia en los horizontes temporales, el Data Warehouse contiene mucho más historial 

que cualquier otro entorno. 

 
La estructura clave de los datos operativos puede o no contener algún elemento de tiempo, 

como año, mes, día, etc. La estructura clave del Data Warehouse siempre contiene algún 

elemento de tiempo. La incrustación del elemento de tiempo en el registro del Data 

Warehouse puede adoptar muchas formas, como una marca de tiempo en cada registro, 

una marca de tiempo para toda la base de datos, etc. 


21 
 

7.1. La estructura del Data Warehouse 

 
La ilustración 6 muestra que existen diferentes niveles de detalle en el entorno del Data 

Warehouse. Hay un nivel de detalle más antiguo (generalmente en almacenamiento masivo 

alternativo), un nivel de detalle actual, un nivel de datos ligeramente resumidos (el nivel de 

Datamart) y un nivel de datos altamente resumidos. Los datos fluyen hacia el Data 

Warehouse desde el entorno operativo. Por lo general, se produce una transformación 

significativa de los datos al pasar del nivel operativo al nivel del Data Warehouse. 

 
Ilustración 6. La estructura del Data Warehouse. Fuente: Inmon (2005) 
 

Una vez que los datos en el Data Warehouse envejecen, pasan del detalle actual al detalle 

más antiguo. A medida que los datos se resumen, pasan de los detalles actuales a los datos 

ligeramente resumidos, y luego de los datos ligeramente resumidos a los datos altamente 

resumidos. 


22 
 

7.2. Tipos de modelos en el esquema multidimensional 

 
Un esquema multidimensional es una estructura de datos utilizada en el diseño de un Data 

Warehouse que organiza y representa la información de manera eficiente para facilitar el 

análisis multidimensional. Se basa en el concepto de modelos dimensionales y se utiliza 

para representar datos en forma de cubos de datos, donde cada dimensión del cubo 

representa una característica o atributo relevante para el análisis. 

En un esquema multidimensional, los datos se organizan en dimensiones y medidas. Las 

dimensiones representan las características o atributos que describen los datos y se utilizan 

para filtrar, agrupar y visualizar los datos. Por ejemplo, en un Data Warehouse de ventas, 

las dimensiones podrían ser el tiempo, el producto, el cliente y la ubicación geográfica. Las 

medidas, por otro lado, son los valores numéricos que se analizan, como el total de ventas, 

el número de unidades vendidas, etc. 

El esquema multidimensional se basa en la idea de que los datos se pueden representar 

en forma de una matriz o tabla cruzada, donde cada celda contiene un valor numérico que 

representa una medida específica en la intersección de las dimensiones correspondientes. 

Esta representación facilita el análisis y permite a los usuarios explorar y visualizar los datos 

desde diferentes perspectivas. 

Al construir un esquema multidimensional, se puede hacer uso de uno de los siguientes 3 

modelos: 

• Modelo estrella. 

• Modelo copo de nieve. 

• Modelo galaxia (o constelación). 

 
El ultimo se comprende como la unión de 2 o más modelos de tipo estrella. A continuación, 

se detallarán las diferencias que existen entre un modelo estrella y un modelo copo de 

nieve, que más adelante en este documento se utiliza como modelo de datos para la 

solución propuesta a la DGME. 


23 
 

7.2.1. ¿Qué es el esquema estrella? 

 
El modelo tipo estrella, es uno de los modelos más populares y ampliamente adoptados 

debido a su simplicidad y eficiencia en el análisis de datos. 

En el modelo tipo estrella, los datos se organizan alrededor de una tabla central llamada 

tabla de hechos que contiene las medidas numéricas o cuantitativas que se desean 

analizar, como las ventas, los ingresos o las unidades vendidas. La tabla de hechos está 

rodeada por tablas de dimensiones, que representan los atributos o características 

relacionados con las medidas. 

Cada tabla de dimensiones representa una dimensión específica, como el tiempo, el 

producto, el cliente o la ubicación geográfica. Estas tablas contienen los atributos 

descriptivos de la dimensión, como el nombre del producto, la fecha, la dirección del cliente, 

etc. Estas dimensiones están vinculadas a la tabla de hechos a través de claves externas. 

La tabla de hechos contiene claves externas que se conectan a las claves primarias en las 

tablas de dimensiones. Esta estructura permite realizar análisis y consultas eficientes, ya 

que las dimensiones se pueden utilizar para filtrar y agrupar los datos, mientras que la tabla 

de hechos contiene las medidas para el análisis numérico. 

El modelo tipo estrella ofrece ventajas en términos de rendimiento y facilidad de uso, ya 

que las consultas suelen ser rápidas y sencillas de construir. Además, la estructura 

desnormalizada de este modelo facilita la comprensión y la navegación de los datos. 

 
Ilustración 7. Esquema tipo estrella. Fuente: www.sqlybi.com 

http://www.sqlybi.com/


24 
 

7.2.2. ¿Qué es el esquema copo de nieve? 

 
El esquema copo de nieve, también conocido como modelo copo de nieve, es otro tipo de 

modelo dimensional utilizado en el diseño de un Data Warehouse. Es una variante del 

modelo tipo estrella y se caracteriza por una mayor normalización de las dimensiones. 

En el esquema copo de nieve, las dimensiones se descomponen en subdimensiones y se 

normalizan en múltiples tablas. Esto significa que las tablas de dimensiones se dividen en 

tablas más pequeñas, lo que resulta en una estructura más compleja y en una mayor 

cantidad de tablas en comparación con el modelo tipo estrella. 

La normalización en el esquema copo de nieve se logra mediante la separación de atributos 

de la dimensión en tablas independientes. Por ejemplo, en lugar de tener todos los atributos 

de producto en una sola tabla de dimensión, se pueden tener tablas separadas para la 

información del producto, la categoría del producto, el proveedor, etc. Cada tabla de 

subdimensión contiene un conjunto específico de atributos relacionados con ese aspecto 

de la dimensión. 

La estructura del esquema copo de nieve puede parecer similar a un copo de nieve, ya que 

los subdimensiones se asemejan a los copos de nieve que se forman a partir de una 

estructura central. De ahí proviene su nombre. 

El esquema copo de nieve tiene algunas ventajas, como una mayor eficiencia de 

almacenamiento debido a la normalización, lo que puede resultar en un menor consumo de 

espacio. Además, puede ser útil cuando se tienen dimensiones con muchos atributos y se 

necesita una mayor flexibilidad para agregar nuevos atributos en el futuro. 

Sin embargo, el esquema copo de nieve también puede tener desventajas, como una mayor 

complejidad de diseño y consultas más complejas que pueden afectar el rendimiento. 


25 
 

Ilustración 8. Esquema copo de nieve. Fuente: www.sqlybi.com 
 
 
7.2.3. ¿Cómo funciona el esquema estrella? 

 
La tabla de hechos, ubicada en el centro del modelo estrella, almacena dos tipos de 

información: valores de atributos numéricos y valores de atributos de dimensión. Para 

comprender mejor, consideremos un ejemplo de una base de datos de ventas. 

Los valores numéricos son únicos para cada fila y punto de datos, sin correlación ni relación 

con los datos almacenados en otras filas. Estos valores representan datos específicos de 

una transacción, como el monto total de la venta, la cantidad de productos pedidos, la hora 

exacta de la transacción, la ganancia neta obtenida, el ID del pedido, entre otros. 

Por otro lado, los valores de atributos dimensionales no almacenan datos directamente, 

sino que contienen valores de claves externas que hacen referencia a filas en tablas 

dimensionales. Estos valores dimensionales proporcionan información adicional 

relacionada con la fila en la tabla central, como el valor de los datos, la identificación del 

empleado de ventas, la identificación de la sucursal o tienda, la identificación del producto, 

entre otros. 

Las tablas de dimensiones siempre almacenan información de soporte para la tabla de 

hechos. Cada tabla dimensional se relaciona con una columna en la tabla de hechos 

utilizando un valor dimensional y almacena datos adicionales relacionados con ese valor. 

http://www.sqlybi.com/


26 
 

Este esquema además posee las siguientes características: 

 
• El esquema en estrella permite filtrar datos normalizados para satisfacer las 

necesidades de almacenamiento de datos, generando una clave única a partir de la 

información asociada a cada tabla de hechos para identificar cada fila. 

 
• Este esquema ofrece cálculos y agregaciones rápidos, como los ingresos obtenidos 

y el total de artículos vendidos al final de cada mes. Estos detalles pueden ser 

filtrados según sea necesario mediante la formulación de consultas apropiadas. 

 
• La tabla de hechos representa eventos que contienen valores numéricos finitos, los 

cuales están compuestos por claves foráneas relacionadas con las tablas de 

dimensiones. Existen diversos tipos de tablas de hechos que se estructuran con 

valores a nivel atómico. 

 
• La tabla de hechos de transacciones contiene datos sobre eventos específicos, 

como ventas y días festivos. Por otro lado, los hechos de registro incluyen 

información de cuenta al final del año o de cada trimestre. 

 
• La tabla dimensional proporciona datos detallados sobre los atributos o registros 

presentes en la tabla central. Esto permite que el usuario diseñe una estructura 

acorde a sus necesidades. 

 
• Además, el esquema en estrella se puede utilizar para acumular tablas de 

instantáneas en el Data Warehouse. 

 
7.2.4. ¿Cómo funciona el esquema copo de nieve? 

 
Este modelo es similar al esquema estrella, pero con cambios mínimos. A diferencia del 

esquema estrella, el esquema copo de nieve expande sus tablas de subdimensiones, las 

cuales se encuentran vinculadas a las tablas de dimensiones. 


27 
 

El propósito principal de este modelo es normalizar la información que se encuentra 

desnormalizada en el modelo estrella. De esta manera, se pueden solucionar problemas 

comunes asociados con el esquema estrella. 

En el núcleo del esquema, se encuentra una tabla de hechos que se conecta con la 

información contenida en las tablas de dimensiones. A su vez, estas tablas se extienden 

hacia las tablas de subdimensiones que contienen información detallada que describe la 

información presente en las tablas de dimensiones. 

Este esquema además posee las siguientes características: 

 
• El esquema copo de nieve requiere una menor cantidad de espacio en disco debido 

a su estructura. 

 
• Este modelo se destaca por su facilidad de implementación gracias a la utilización 

de tablas de dimensiones separadas y principales. 

 
• Las tablas de dimensiones contienen al menos dos atributos que permiten definir 

información en múltiples niveles de detalle o granularidad. 

 
• Es importante tener en cuenta que, debido al mayor número de tablas presentes en 

el esquema copo de nieve en comparación con el esquema en estrella, el 

rendimiento puede ser más bajo. 

 
• No obstante, el esquema copo de nieve ofrece un nivel de integridad de datos más 

alto y presenta menos redundancias debido a la normalización de las tablas. 


28 
 

7.2.5. Ventajas y limitaciones del esquema tipo estrella 

 
Algunas de las ventajas que podemos encontrar en utilizar un esquema de tipo estrella son 

las siguientes: 

• El esquema en estrella representa la forma más sencilla entre los esquemas de 

Datamart disponibles. 

 
• Este modelo se caracteriza por su lógica de informes simple, la cual está implícita 

de manera dinámica. 

 
• El diseño del esquema en estrella se basa en la alimentación de cubos a través del 

proceso de transacción en línea, lo que permite que los cubos funcionen de manera 

eficiente y efectiva. 

 
• El esquema en estrella se construye utilizando una lógica y consultas simples que 

son fáciles de extraer del proceso transaccional. 

 
• Este enfoque ofrece un rendimiento mejorado para las aplicaciones de generación 

de informes y se implementa para garantizar una recuperación rápida de datos. 

 
• La información filtrada y seleccionada se puede aplicar fácilmente en diferentes 

casos, lo que brinda flexibilidad en la obtención de datos pertinentes. 

 
En relación con las limitaciones, se puede destacar que el esquema en estrella presenta un 

alto nivel de desnormalización e integridad. Si el usuario no puede actualizar los datos, el 

proceso en su totalidad puede verse afectado. Asimismo, las medidas de seguridad y 

protección son limitadas en este esquema. 

Además, en comparación con el modelo analítico, el esquema en estrella no ofrece la 

misma flexibilidad. No brinda un soporte eficiente para múltiples relaciones, lo que puede 

limitar su capacidad para manejar y representar adecuadamente conexiones complejas 

entre los datos. 


29 
 

7.2.6. Ventajas y limitaciones del esquema copo de nieve 

 
Algunas de las ventajas que podemos encontrar en utilizar un esquema de tipo copo de 

nieve son las siguientes: 

• Ahorro de espacio en disco: Debido a su estructura normalizada, el modelo copo de 

nieve tiende a requerir menos espacio en disco en comparación con otros modelos, 

como el modelo estrella. La separación de atributos en tablas de subdimensiones 

permite eliminar redundancias y optimizar el almacenamiento de datos. 

 
• Mayor flexibilidad y escalabilidad: El modelo copo de nieve proporciona mayor 

flexibilidad para agregar nuevas dimensiones o atributos a los subdimensiones 

existentes sin afectar directamente la tabla central de hechos. Esto facilita la 

adaptación del modelo a medida que evolucionan las necesidades del negocio y se 

agregan más datos. 

 
• Mejor rendimiento en consultas específicas: En algunas situaciones, el modelo copo 

de nieve puede ofrecer un mejor rendimiento en consultas específicas en 

comparación con el modelo estrella. Esto se debe a la capacidad de dividir las 

dimensiones en subdimensiones y evitar la duplicación de datos en la tabla central 

de hechos. 

 
• Mayor nivel de normalización: La normalización en el modelo copo de nieve ayuda 

a mantener un alto nivel de integridad de datos y reduce la redundancia. Cada tabla 

de subdimensión almacena información específica y se relaciona con otras tablas a 

través de claves externas, lo que permite un mejor control de la calidad de los datos. 

 
• Manejo eficiente de dimensiones con muchos atributos: Cuando se tienen 

dimensiones con una gran cantidad de atributos, el modelo copo de nieve puede 

resultar más eficiente y manejable que el modelo estrella. La estructura 

descompuesta en subdimensiones facilita la gestión y el mantenimiento de atributos 

complejos. 


30 
 

La principal limitación que se presenta con el modelo copo de nieve (Snowflake) reside en 

los esfuerzos adicionales de mantenimiento que requiere debido al aumento en el número 

de tablas de dimensiones más pequeñas. A medida que se agregan más tablas al esquema, 

el mantenimiento y la gestión se vuelven más complejos. 

Además, la ejecución de consultas complejas puede dificultar la búsqueda y extracción de 

los datos necesarios. La complejidad del modelo puede afectar el rendimiento y la eficiencia 

en la recuperación de datos. 

Otra limitación del modelo copo de nieve es que el tiempo de implementación de las 

consultas puede ser más largo debido al mayor número de tablas involucradas en 

comparación con otros modelos. Esto puede afectar el tiempo de respuesta y la capacidad 

de generar resultados rápidamente. 

También se debe tener en cuenta que el modelo copo de nieve tiende a ser más rígido en 

términos de estructura y requiere mayores costos de mantenimiento en comparación con 

otros enfoques de modelado. Es importante considerar los recursos necesarios para 

mantener y actualizar las tablas y relaciones del modelo. 


31 
 

8. Construcción del nuevo diagrama de datos 
 
 
Ilustración 9. Diagrama del Data Warehouse. Fuente: Elaboración propia 

 
La Ilustración 2, muestra el diagrama de Data Warehouse que se ha construido tomando 

como base los orígenes de datos descritos. Este Data Warehouse pretende facilitar la 

obtención de reportes por edades, genero, fecha, etc. 

Es importante destacar que este es un modelo funcional que se adapta al requerimiento 

plateado por la DGME, pero que, sin embargo, puede crecer en el tiempo en caso de que 

en algún futuro sea necesario generar reportes con información que aún no este 

contemplado en ese modelo, es por ello por lo que a continuación se describirá el proceso 

de construcción de este modelo, a modo que sea más intuitivo el proceso de agregar más 

datos. 


32 
 

Este es un Data Warehouse de tipo copo de nieve, ya que cuenta con una sola tabla de 

hechos (se muestra en rojo) y muchas tablas de dimensiones (en amarillo), de la cual una 

está segregada para aportar mayor granularidad a los datos (la dimensión de restricción 

posee una llave foránea hacia la dimensión de autoridad), convirtiendo en modelo de tipo 

estrella a copo de nieve. 

La tabla de hechos (FACT_MOVIMIENTO_MIGRATORIO) contiene los aspectos de 

negocio, en este caso particular, los movimientos migratorios y también valores pre 

calculados. Es importante tener presente que esta tabla de hechos debe contener solo 

datos cuantificables, por ejemplo, para un Data Warehouse de una tienda, tendría sentido 

agregar precios o cantidades en stock de un producto; pero para los movimientos 

migratorios, la mayoría de los reportes se basan en cantidad de movimientos dadas ciertas 

características, es por ello por lo que solo se cuenta con un campo de edad, ya que el valor 

cuantificable que se estará utilizando ser la cantidad de registros como tal. En cuanto al 

campo de edad, es un valor que se utiliza en muchos de los reportes de la DGME por lo 

tanto se almacenara en un campo especifico al momento de registrar el movimiento 

migratorio, este es un ejemplo de porque las consultas utilizando este tipo de modelos es 

más rápida, pues en el actual modelo normalizado, obtener un reporte por edades requiere 

de realizar la operación matemática utilizando la fecha de nacimiento de la persona, sin 

mencionar la obtención de grandes cantidades de datos que no se utilizan. 

Por otro lado, las dimensiones servirán para filtrar las características que determinan un 

movimiento migratorio como lo son la ubicación de origen y destino, la persona que viaja, 

el tipo de movimiento, el punto de acceso, entre otras cosas. Estas son tablas de catálogo 

que deberán ser pobladas por medio de procesos ETL que se describirán más adelante, 

por ello es importante entender que datos debe almacenar cada tabla de dimensiones. Para 

las entidades mostradas en la imagen 1, cada una ha sido elaborada a partir de información 

que existe en el modelo relacional. 


33 
 

9. Indicadores de rendimiento 

El propósito de la implementación del Data Warehouse en la Dirección General de 

Migración y Extranjería es lograr una mejora notoria en la eficiencia y precisión en el manejo 

de datos relacionados con los movimientos migratorios. Para evaluar el impacto y éxito de 

esta implementación, se aplicarán los Key Performance Indicators (KPI) como métricas 

clave para medir el rendimiento y el logro de los objetivos establecidos. 

Los Key Performance Indicators (KPI), también conocidos como Indicadores Clave de 

Rendimiento, son métricas cuantitativas utilizadas para evaluar el rendimiento y el logro de 

los objetivos de una organización o proyecto. Los KPI proporcionan una medida objetiva y 

concreta del desempeño en áreas específicas, permitiendo el monitoreo, la medición y el 

análisis de los resultados. 

La selección adecuada de los KPI es fundamental para garantizar que se estén midiendo 

los aspectos clave del rendimiento que impactan directamente en los resultados deseados. 

Los KPI deben ser específicos, medibles, alcanzables, relevantes y estar limitados en 

tiempo, lo que se conoce como criterios SMART. 

Al implementar los KPI, se establecen metas y se realizan mediciones periódicas para 

evaluar el desempeño actual en relación con esas metas. Esto permite identificar áreas de 

mejora, detectar desviaciones y tomar acciones correctivas para mantener o mejorar el 

rendimiento. 

Los KPI pueden aplicarse en diversas áreas de una organización, como ventas, marketing, 

recursos humanos, operaciones, servicio al cliente, entre otras. También son ampliamente 

utilizados en proyectos para evaluar la eficacia en la ejecución y el logro de los objetivos 

establecidos. 

Los KPI se seleccionarán en función de las prioridades y metas de la institución, definiendo 

indicadores de rendimiento específicos para cada uno de ellos. Asimismo, se recopilarán y 

almacenarán los datos necesarios en el DW, permitiendo su posterior análisis y 

seguimiento. Los resultados obtenidos mediante los KPI serán interpretados para identificar 

áreas de mejora y tomar acciones correctivas, con el fin de asegurar el cumplimiento 

efectivo de los objetivos establecidos en materia migratoria. 

En la era de la información, las instituciones gubernamentales de todo el mundo enfrentan 

diversos desafíos en la gestión y análisis de datos. 


34 
 

Durante los últimos años el tema migratorio en Latinoamérica y principalmente en El 

Salvador ha sido objeto de diferentes estudios y cada institución tiene la tarea de 

modernizar sus procesos y saber interpretar la información que tienen en sus registros. La 

correcta administración de la información resulta fundamental para garantizar la seguridad, 

el control y la eficacia de los procesos migratorios. En este contexto, la implementación de 

un Data Warehouse (DW) emerge como una solución tecnológica que permite centralizar, 

integrar y analizar datos provenientes de diversas fuentes, facilitando la toma de decisiones 

y mejorando la eficiencia operativa. 

Como parte de la investigación se prioriza que los KPI puedan ser utilizados de manera 

efectiva en la institución, siendo utilizados para medir y evaluar el rendimiento del DW en 

relación con los objetivos específicos establecidos por la institución, proporcionando una 

visión clara del impacto y la efectividad de la implementación en los procesos de control 

migratorio. 

 
9.1. Ventajas de utilizar KPI en el control migratorio 

 
La implementación de KPI en un Data Warehouse para el control migratorio brinda una serie 

de ventajas significativas en comparación con la ausencia de estos indicadores: 

• Mejora en la toma de decisiones: Los KPI proporcionan información objetiva y 

cuantitativa sobre el rendimiento y los resultados de los procesos migratorios. Esto 

permite a los responsables de la toma de decisiones tener una visión clara de las 

áreas que requieren mejoras, así como identificar y priorizar acciones correctivas. 

 
• Monitoreo y seguimiento continuo: Los KPI permiten establecer un sistema de 

monitoreo y seguimiento constante del desempeño del control migratorio. Esto 

posibilita la detección temprana de desviaciones o problemas, lo que facilita la 

adopción de medidas correctivas oportunas para mantener el cumplimiento de los 

objetivos establecidos. 

 
• Identificación de tendencias y patrones: Los KPI proporcionan una visión amplia 

del comportamiento de los datos migratorios a lo largo del tiempo. Esto permite 

identificar tendencias, patrones y anomalías que podrían no ser evidentes de 

manera intuitiva. 


35 
 

Al comprender y anticipar estos factores, la institución puede implementar 

estrategias preventivas y adaptar sus políticas de control migratorio en 

consecuencia. 

 
• Transparencia y rendición de cuentas: Al tener KPI establecidos, la institución 

puede comunicar de manera clara y transparente su desempeño en el control 

migratorio. Estos indicadores proporcionan una base objetiva para evaluar el 

cumplimiento de los objetivos y brindar rendición de cuentas a los ciudadanos y 

otras partes interesadas. La transparencia fortalece la confianza en la institución y 

mejora su reputación en el ámbito migratorio. 

 
9.2. Identificación de los KPI relevantes 

 
• Tiempo de respuesta para la emisión de documentos de migración: Este KPI 

se enfoca en medir la eficiencia de la institución en la emisión oportuna de 

documentos migratorios. Un tiempo de respuesta rápido agiliza los trámites y mejora 

la experiencia del solicitante, lo que contribuye a un control migratorio más eficiente 

y una mayor satisfacción de los usuarios. 

Acciones: 

1. Establecer un proceso de seguimiento y registro de las solicitudes de 

documentos migratorios desde su recepción hasta la emisión final. 

2. Implementar un sistema de notificaciones automatizadas para mantener 

informados a los solicitantes sobre el estado de su trámite. 

3. Identificar y eliminar posibles cuellos de botella en el proceso de emisión de 

documentos migratorios, optimizando los recursos y la asignación de personal. 

4. Establecer metas y plazos claros para la emisión de cada tipo de documento 

migratorio, basados en la complejidad del trámite y los requisitos legales. 

5. Realizar un seguimiento regular del tiempo promedio de respuesta y compararlo 

con los objetivos establecidos, identificando oportunidades de mejora. 

 
• Precisión en la detección de casos de migración ilegal: Este KPI evalúa la 

capacidad del Data Warehouse para identificar de manera precisa los casos de 

migración ilegal. 


36 
 

Al contar con un sistema centralizado y análisis de datos, la institución podrá 

detectar patrones y anomalías que indiquen actividades migratorias irregulares. 

Esto permitirá tomar medidas oportunas para prevenir y controlar la migración ilegal, 

fortaleciendo la seguridad y el cumplimiento de las regulaciones migratorias. 

Acciones: 

1. Implementar algoritmos y técnicas de análisis de datos en el Data Warehouse 

para identificar patrones y anomalías que puedan indicar posibles casos de 

migración ilegal. 

2. Integrar bases de datos y fuentes de información relevantes para tener una 

visión completa y actualizada de la situación migratoria. 

3. Establecer alertas y notificaciones automáticas para informar sobre posibles 

casos de migración ilegal y activar medidas de control adicionales. 

4. Capacitar al personal encargado del análisis de datos para interpretar 

correctamente los resultados y actuar de manera adecuada ante las alertas 

generadas. 

5. Realizar revisiones periódicas de los resultados obtenidos y ajustar los 

algoritmos y técnicas utilizados según sea necesario. 

 
• Eficiencia en la gestión de solicitudes y trámites migratorios: Este KPI mide la 

eficiencia en el manejo de las solicitudes y trámites migratorios, desde su recepción 

hasta su resolución. 

Con un Data Warehouse, la institución puede automatizar y agilizar los procesos, 

reduciendo los tiempos de espera, minimizando errores y optimizando los recursos. 

Una gestión eficiente contribuye a un control migratorio más efectivo y a una mayor 

transparencia en los procedimientos. 

Acciones: 

1. Mapear y optimizar los procesos de gestión de solicitudes y trámites migratorios, 

identificando posibles ineficiencias y puntos de mejora. 

2. Automatizar aquellos procesos que sean susceptibles de ser ejecutados de 

manera más eficiente mediante el uso de herramientas tecnológicas, como 

formularios en línea y sistemas de gestión documental. 

3. Implementar un sistema de seguimiento de solicitudes y trámites migratorios, 

que permita tener visibilidad en tiempo real del estado de cada uno de ellos. 


37 
 

4. Capacitar al personal involucrado en la gestión de solicitudes y trámites 

migratorios para asegurar un manejo eficiente de los mismos y garantizar la 

aplicación de mejores prácticas. 

5. Establecer indicadores de tiempo de respuesta y calidad en cada etapa del 

proceso y realizar seguimientos periódicos para medir el cumplimiento y tomar 

acciones correctivas si es necesario. 

 
• Mejora en la generación de informes y análisis de datos migratorios: Este KPI 

se centra en la capacidad del Data Warehouse para generar informes completos y 

realizar análisis de datos migratorios de manera rápida y precisa. Al contar con una 

estructura de datos consolidada y herramientas de análisis avanzadas, la institución 

podrá obtener perspectivas y tomar decisiones informadas basadas en datos 

actualizados y confiables. Esto brinda una ventaja estratégica al mejorar la 

capacidad predictiva, la identificación de tendencias y la planificación de políticas 

migratorias. 

Acciones: 

1. Definir los requisitos y objetivos específicos de los informes migratorios, 

considerando las necesidades de los diferentes usuarios internos y externos. 

2. Diseñar y desarrollar modelos y visualizaciones de datos relevantes para la toma 

de decisiones y el análisis de tendencias migratorias. 

3. Garantizar la calidad y la integridad de los datos almacenados en el Data 

Warehouse, estableciendo mecanismos de validación y limpieza de datos. 


38 
 

10. Definición de los procesos de ETL 

 
El sistema de extracción, transformación y carga (ETL por sus siglas en inglés) consta de 

un área de trabajo, estructuras de datos instanciadas y un conjunto de procesos. El sistema 

ETL es todo entre los orígenes de datos y el Data Warehouse. (Kimball y Ross 2013). 

Hasta ahora hemos definido los orígenes de datos y hemos realizado el diagrama del Data 

Warehouse, que será nuestro destino de información y la fuente de la reportaría. Sin 

embargo, es importante que los datos sean trasladados de su origen a su destino de una 

manera óptima, y manteniendo la confiabilidad de los datos. Existen diversas herramientas 

para lograr este objetivo, más adelante en este documento se encuentra una comparativa 

de algunas de las alternativas por las que se puede optar, sin embargo, por ahora nos 

centraremos en la lógica del proceso como tal, por ese motivo ahora definiremos los 

procesos ETL que serán necesarios para popular el Data Warehouse. Para empezar, se 

definirá las 3 diferentes fases del proceso ETL. 

El primer paso del proceso ETL es la extracción de datos, en el cual se lee y entiende la 

información de los orígenes de datos, además se obtiene la información que será necesaria 

para el Data Warehouse y se prepara para la fase de transformación y carga. 

En este caso el proceso de carga deberá realizar las consultas correspondientes a la base 

de datos de restricciones y movimientos migratorios, incluyendo solo los campos que 

aportan valor para popular nuestro Data Warehouse. 

Una vez se haya extraído los datos se pasa al proceso de transformación. En este proceso 

se realizan varias operaciones como totalizaciones, limpia de datos, corrección de datos, 

etc. Un ejemplo de transformación de datos muy común es el de las fechas, en nuestro 

Data Warehouse contamos con una tabla de hechos de movimientos migratorios, pero esta 

tabla tendrá registros provenientes de 2 fuentes; la base de datos de movimientos 

migratorios, y la base de datos de restricciones. Supongamos que ambas bases de datos 

almacenan las fechas en formato diferente, una parte del proceso de transformación es 

convertir esas fechas a un solo formato para mantener el orden de los datos. También en 

este proceso se calculará la edad del viajero en base a su fecha de nacimiento, etc. 

Por último, se encuentra el proceso de carga de los datos, en el cual ya con los datos 

procesados procederemos a insertarlos al Data Warehouse dejándolo listo para reportes. 


39 
 

Estos procesos ETL deben ser automatizados y mantener los datos actualizados lo más 

rápido posible con respecto a los orígenes de datos, pero para ello es muy importante 

traducir entonces que significa cada uno de los campos en el destino, con base a los 

orígenes. A continuación, se describe la información que cada tabla del Data Warehouse 

deberá contener. 

DIM_TIEMPO: esta dimensión será utilizada para almacenar la fecha de registro del 

movimiento migratorio, se obtendrá a partir del campo FechaMovimiento de la tabla 

movimiento_migratorio, es importante destacar como en esta dimensión se ha agregado un 

campo de semestre el cual deberá contener los valores de 1 o 2, esto facilita la obtención 

de reportes semestrales sin necesidad de operar fechas en la consulta, de esta misma 

manera se podrían agregar campos para cuartos de año o trimestres. 

DIM_TIPO_TRANSPORTE: esta dimensión es un catálogo pre poblado a partir de la tabla 

tipodetransporte, Que servirá para identificar movimientos terrestres, marítimos o aéreos. 

DIM_PUNTO_ACCESO: esta dimensión es un catálogo pre poblado a partir de la tabla 

frontera y la tabla puertos, que servirá para identificar el punto de acceso o salida en el cual 

se produjo el movimiento migratorio. 

DIM_MOTIVOS_VIAJE: esta dimensión es un catálogo pre poblado a partir de la tabla 

motivosdeviaje, Que servirá para identificar la razón del registro de movimientos 

migratorios. Esta dimensión es importante para generar el reporte de retornados, que es 

uno de los motivos dentro del catálogo. 

DIM_UBICACION_GEOGRAFICA: esta dimensión es un catálogo pre poblado a partir de 

la tabla ubicaciones geográficas, que servirá para almacenar los orígenes y destinos dentro 

del movimiento migratorio. 

DIM_PERSONA: esta dimensión deberá contener la información de la persona motivo del 

movimiento migratorio, deberá ser poblada a partir de los valores de la tabla personas del 

modelo normalizado. 

DIM_TIPO_MOVIMIENTO: esta dimensión es un catálogo pre poblado a partir de la tabla 

tipodemovimiento, que servirá para determinar si es un movimiento de entrada o salida del 

país entre otras cosas. 


40 
 

DIM_RESTRICCION: esta dimensión será útil para registrar movimientos migratorios que 

fueron restringidos. Provienen de la base de datos de restricciones de la tabla prohibiciones, 

además incluye a la entidad que realiza la restricción. 

DIM_AUTORIDAD: esta dimensión especifica el ente que realiza una prohibición, tales 

como a la procuraduría, el ministerio de hacienda, entre otras. Sus valores provendrán de 

la tabla autoridad del modelo normalizado. 

FACT_MOVIMIENTO_MIGRATORIO: esta tabla se mapeara con la tabla 

movimiento_migratorio del modelo normalizado, sin embargo, en el modelo normalizado 

solo se encuentras los registros de movimientos migratorios que se llevaron a cabo, no 

obstante, ya que se plantea la necesidad de incluir reportes de restricciones migratorias, 

también se usara esta taba para almacenar aquellos movimientos que no se llevaron a cabo 

por restricciones migratorias, estos registros provendrán de la base de datos restricciones 

y de la tabla restricciones. En términos de reportaría se podrán diferenciar estos 

movimientos por medio de la llave foránea a la dimensión DIM_RESTICCION. Aquellos 

registros que posean un valor en esa llave pertenecen a movimientos que no se llevaron a 

cabo. 

Una vez que hemos comprendido los orígenes y destinos de los datos, podemos definir 

cuáles y cuantos procesos de ETL será necesario realizar. 

• El primer proceso será el de ETL_MOVIMIENTOS_MIGRATORIOS en este proceso 

se extraerá la data necesaria de la tabla de movimiento_migratorio y se puede 

realizar 1 vez por cada hora, a modo de tener la información lo más actualizada 

posible, este proceso puede tomar tiempo debido al volumen de datos que se 

pueden registrar en una hora. Es importante mencionar que, por cada registro, se 

creara uno nuevo en la tabla de hechos, sin embargo, las tablas de dimensiones 

solo registraran datos cuando estos no existan previamente, por ejemplo, en la 

dimensión de tiempo, solo deberá ingresar se 1 registro al día, ya que es el nivel de 

granularidad más bajo en esa tabla. 

• Un segundo proceso ETL será el de ETL_RESTRICCIONES en el cual se cargará 

la data de la base de datos de restricciones y se registrará un movimiento migratorio 

en la tabla hechos. 


41 
 

A diferencia del proceso anterior se espera que la carga de datos de estas consultas 

sea mucho menor, pues no es el caso más común que se realice una restricción si 

lo comparamos con los movimientos migratorios que si se llevan a cabo. 

Es recomendable que este proceso no se programe al mismo tiempo que el proceso 

anterior, para evitar sobrecargar el procesamiento del servidor en el cual se ejecutaran. 

Es importante destacar que los procesos ETL son ejecutados a intervalos regulares para 

garantizar que la información se mantenga actualizada. Esto implica la repetición de las 

etapas de extracción, transformación y carga para capturar nuevos datos y reflejar los 

cambios en la situación migratoria y de los extranjeros. 

En resumen, los procesos ETL en la Dirección General de Migración y Extranjería de El 

Salvador son fundamentales para gestionar y analizar datos relacionados con la migración 

y los extranjeros. Estos procesos permiten la extracción de datos de diversas fuentes, su 

transformación para mejorar la calidad y consistencia, y su carga en un repositorio 

centralizado para su posterior análisis y toma de decisiones informada. 


42 
 

11. Sistemas de información orientados a toma de decisiones. 

 
Si bien tener datos es de carácter importante saber tomar las decisiones es crucial, de esta 

manera se puede asegurar que la información que se obtenga ayude a crecer a la 

organización o a la empresa. Para ello, hay ciertas herramientas que ofrecen la ayuda 

necesaria, una estructura para poder identificar el valor de la información. 

Los sistemas de información (SI) están formados por elementos que se comunican e 

interactúan entre sí para apoyar las estrategias de un negocio y la toma de decisiones 

dentro de las organizaciones. Estos elementos están dados por datos, procesos, sistemas 

transaccionales, Data Warehouse o base de datos, interfases, información interna y 

externa. 

Es importante que se cuenta de una estructura e infraestructura organizacional en la cual 

la información fluye en todos los sentidos (áreas de la empresa) teniendo en cuenta su 

entorno. 

Todo sistema tiene cuatro actividades fundamentales: entrada, almacenamiento, 

procesamiento y salida de información. Que, dependiendo de la complejidad, involucra 

interfases automáticas de entrada y de salida. 

Este tipo de sistema que apoyan el proceso de toma de decisiones están orientados a los 

altos ejecutivos y usuarios que tienen esta responsabilidad dentro de la organización. Estos 

son conocidos como DSS (Decisión Support System), EIS (Executive Information Systems) 

y numerosos sistemas expertos que cada día proveen información en tiempo real y de 

manera gráfica y resumida. 

Los Sistemas de Información que se orientan a la toma de decisiones, están dirigidos a 

apoyar a los altos ejecutivos de una organización, presentando información relevante y 

haciendo uso de recursos visuales y de fácil interpretación, sacándole el mayor partido a la 

tecnología de los Sistemas de Información. 

Las principales características son las siguientes: 

 
• Se enfocan en cálculos más que sobre la entrada y salida de información. Así, por 

ejemplo, un modelo de indicadores de gestión necesita poca información de entrada, 

proporciona poca información como resultado, pero puede realizar muchos cálculos 

durante el proceso y accesos a la base de datos o repositorio de datos. 


43 
 

• Están diseñados a la medida de cada organización. 

• Logra que el usuario desarrolle de manera directa los modelos sin la intervención 

de profesionales de informática, lo que ayuda para que no sea dependiente del área 

de Tecnología. 

• Se les considera como soluciones que hacen parte del plan de mejoramiento 

organizacional y como un plan para lograr una ventaja competitiva. 

• Se desarrollan con altos estándares en sus interfases, caracterizado por gráficas de 

alta calidad, información tabular y en forma de texto. 

• Posee un protocolo de comunicación entre el ejecutivo y el sistema permite 

interactuar sin un entrenamiento previo. 

 
11.1. Sistema de soporte a la decisión. 

 
Los sistemas de soporte a la decisión (DSS) son herramientas tecnológicas diseñadas para 

ayudar a las personas o las organizaciones a tomar decisiones más informadas y efectivas. 

Estos sistemas utilizan una combinación de datos, modelos analíticos y software 

especializado para proporcionar información relevante y análisis detallados que respalden 

el proceso de toma de decisiones. 

Como plantea la definición anteriormente, los DSS resuelven problemas con diferentes 

grados de estructura (Turban, Aronson, & Liang, 2005) 

• Decisión estructurada: se realiza de acuerdo con procesos específicos. 

• Decisión no estructurada: posee un alto grado de libertad e incertidumbre. La 

información que se obtiene de un sistema es solo una porción del conocimiento total 

que se necesita para tomar una decisión. 

• Decisión semiestructurada: existen componentes estructurados como, por ejemplo: 

datos fijos, modelos o reglas de decisión, pero la decisión pertenece al usuario. 

Adicionalmente se conoce que un sistema DSS es una de las herramientas más 

emblemáticas del Business Intelligence, debido a que ofrece entre otras propiedades, poder 

resolver gran parte de las limitaciones de los programas de gestión. Estas son algunas de 

sus características principales (Bonilla Botia & Briceño Díaz, 2006): 


44 
 

• Informes dinámicos, flexibles e interactivos, de manera que el usuario no tenga que 

limitarse a los listados predefinidos que se configuraron en el momento de la 

implantación, y que, probablemente, no siempre responden a sus dudas reales. 

• No requiere conocimientos técnicos. Como se mencionó en un apartado anterior, no 

es necesario estar anclado al grupo de tecnología de la empresa y organización, un 

usuario no sin previo conocimiento técnico de la herramienta puede crear nuevos 

gráficos e informes y navegar entre ellos. Por tanto, para analizar la información 

disponible o hasta llegar a crear nuevas métricas. 

• Rapidez en el tiempo de respuesta, debido a que la base de datos suele ser un Data 

Warehouse corporativo o un Datamart, con modelos de datos en estrella o copo de 

nieve. Este tipo de bases de datos se caracterizan por estar optimizadas para el 

análisis de grandes volúmenes de datos. 

• Integridad entre todos los sistemas o departamentos de la compañía. El proceso de 

ETL previo a la implantación de un Sistema de Soporte a la Decisión asegura la 

calidad y la integración de los datos entre las diferentes unidades de la empresa. 

Llegando a lo que se llama: integridad referencial absoluta. 

• Cada usuario tiene información adecuada a su perfil. Está segmentado, no es 

conveniente que toda la organización tenga acceso a toda la información, sino de 

que el usuario tenga acceso a la información que necesita para que su trabajo sea 

lo más eficiente posible. 

• Información histórica. En estos sistemas está a la orden del día comparar los datos 

actuales con información de otros períodos históricos de la compañía, con el fin de 

analizar tendencias, fijar la evolución de parámetros de negocio, entre otros. 

A continuación, podemos una imagen de carácter ilustrativo de los componentes que 

conforman a un Sistema de Soporte de Dicciones (Bonilla Botia & Briceño Díaz, 2006). 

(Figura 10). 


45 
 

Ilustración 10. Componentes de un sistema de soporte a la toma de decisiones fuente (Bonilla Botia & Briceño Díaz, 2006) 
 
 
Entre sus componentes tenemos: 

 
• Las bases de datos (BD) es la estructura de datos de la organización, debido a esto 

es uno de los aportes más positivos para los Sistemas de Información, ya que 

provee a la organización de los datos de la empresa. 

• El subsistema de datos del DSS está compuesto de la base de datos del DSS, del 

sistema de administración de la base de datos, del directorio de datos y de la 

facilidad para hacer consultas. 

• El subsistema de administración del modelo del DSS, este comprende la base de 

modelo, el sistema de administración de la base de modelo, el lenguaje de 

modelación, el directorio del modelo, y el procesador de comandos, integración y 

ejecución del modelo. 

• El subsistema de interfase de usuario incluye no sólo el hardware y el software, sino 

también factores involucrados con la facilidad de uso, accesibilidad, e interacciones 

entre el usuario y la máquina. 


46 
 

• El usuario es la persona que debe tomar la decisión que pretende ser soportada por 

el DSS. Un DSS tiene dos clases de usuarios: los gerentes y los especialistas de 

staff. Generalmente, los gerentes esperan una interfase más amigable que aquélla 

esperada por los especialistas de staff ya que estos últimos son más detallistas y 

están dispuestos a utilizar sistemas más complejos. 

Sistemas más complejos adaptan otros componentes como el subsistema de 

administración del conocimiento, así como también módulos hechos a la medida para la 

resolución de problemas específicos. 

 
11.2. Tipos de Sistemas de Soporte a la Decisión 

 
Actualmente existen tecnologías que forman parte de los sistemas de soporte 

administrativo, las cuales solo se listarán, debido a que cada tema puede ser el inicio de un 

nuevo artículo (Ramos, 2006) 

• Management Science (MS) 

• Enterprise Resource Planning (ERP) 

• Business Analytics 

• Customer Resource Management (CRM) 

• Data Mining Supply Chain Management (SCM) 

• Data warehousing 

• Knowledge Management System (KMS) 

• Business Intelligence 

• Expert Systems (ES) 

• Online Analytical Processing 

• Artificial Neural Networks (ANN) 

• Computer Assisted Engineering 

• Intelligent Agents 

• Group Support Systems 

• Electronic Commerce DSS 

• Enterprise Information Systems 

• Enterprise Resource Management (ERM) 


47 
 

11.3. Diferencias con otras herramientas de Business Intelligence. 

 
Podemos destacar como principal objetivo de los Sistemas de Soporte a Decisiones, 

explotar al máximo la información residente en una base de datos corporativa, a diferencia 

de otras herramientas como los Cuadros de Mando (CMI) o los Sistemas de Información 

Ejecutiva (EIS), ya que proporcionan informes muy dinámicos y con gran potencial a nivel 

de información de datos, pero siempre con una interfaz gráfica amigable y sencilla. 

Otra diferencia importante radica en los usuarios a los que están destinadas las plataformas 

DSS: cualquier nivel gerencial dentro de una organización, tanto para situaciones 

estructuradas como no estructuradas. 

Por último, destacar que los DSS suelen requerir de un motor OLAP como base, que facilite 

el análisis casi ilimitado de los datos para hallar las causas raíz de los problemas de la 

organización (Sinergia e Inteligencia de Negocio S.L., 2023). 


48 
 

12. Análisis y definición de las herramientas a utilizar 

 
En este estudio, se ha realizado un análisis profundo sobre las herramientas existentes en 

el mercado. Dado que es una institución gubernamental, los datos deben están a 

disposición de manera inmediata, esto se traduce a alta disponibilidad, del mismo modo, 

debe ser escalable en el tiempo. Se debe tener en cuenta, como esta institución puede 

crecer en gran manera, los datos a ingresar, ya que se trata de movimientos de personas 

que se realizan todos los días, sobre cada punto fronterizo, por lo que se busca que pueda 

efectuar análisis de datos en poco tiempo y ofreciendo los resultados más versátiles 

posibles para posteriormente, se efectúen las tomas de decisiones. 

 
Hoy en día, los datos están en el centro de cualquier negocio. Las empresas precisan de 

datos confiables para poder tomar decisiones correctas en el menor tiempo posible y así 

lograr mantenerse a la vanguardia y poder ser competitivas en el mercado. 

 
Sin embargo, poder obtener valor o información de los datos que sea precisa para luego 

tomar decisiones, es una tarea cada vez más compleja. La proliferación de fuentes de datos 

distintas y heterogéneas, el crecimiento de su volumen, los tipos de datos complejos, la 

rápida adopción de entornos de nube pública, hacen que la integración sea un proceso 

importante. 

 
La integración de datos hace posible gestionar la complejidad en un único dominio, el de la 

tecnología de integración, dejando los datos libres de ser utilizados por las aplicaciones de 

negocio. 

 
12.1. Herramientas ETL 

 
Las empresas que manejan grandes volúmenes de datos con el fin de convertirlos en 

información significativa para reutilizarla en operaciones o simplemente para toma de 

decisiones, exigencias operacionales, análisis, grandes extracciones, así como 

transformaciones y carga de datos, requieren elegir la herramienta correcta. 

A medida que las empresas se acercan y son participes de la transformación digital, deben 

consolidar datos provenientes de múltiples fuentes para realizar un repositorio de datos 

centralizado y poder así, garantizar una única fuente de información. 


49 
 

Tener los datos, veraces, recopilarlos y almacenarlos de manera segura y organizada es 

sumamente importante para obtener información oportuna basada en ellos. Es debido a 

esto que las herramientas ETL se han vuelto indispensables para las organizaciones con 

visión de futuro, con la meta y objetivo de crecer. Un ETL permite a las organizaciones 

basadas en datos, extraer datos de fuentes dispares, transformarlos y cargarlos en 

sistemas de destino, como un lago de datos o un almacén de datos, para informes y análisis. 

Se describen sus siglas y contexto de la siguiente forma (Díaz, 2016): 

 
• Extracción 

 
El primer paso del proceso ETL es la extracción de datos. 

 
Las empresas reciben datos de varias fuentes, sistemas de archivos, bases de datos y 

aplicaciones en la nube. Estos datos están disponibles en diferentes tipos de formatos, 

como hojas de cálculo, archivos de texto, XML/JSON, PDF y más. 

Esto representa un desafío dentro de las empresas con aplicativos legados, ya que los 

datos no estructurados son difíciles de procesar y analizar. Afortunadamente, las soluciones 

ETL actuales permiten a las organizaciones extraer sin problemas datos estructurados, 

semiestructurados y no estructurados de múltiples fuentes de datos. 

 
• Transformación 

 
El segundo paso del proceso ETL es transformación de datos. 

 
Los datos extraídos de diferentes tipos de fuentes no siempre cumplen con un estándar y, 

a menudo, están plagados de calidad de los datos asuntos. Además, está en un formato 

normalizado con uniones que difícilmente se pueden analizar, lo que puede obstaculizar la 

eficiencia de la infraestructura de la base de datos. 

El proceso de transformación conlleva limpiar, estandarizar y validar los datos, mejorando 

asi su calidad. Este paso garantiza que los datos consolidados sean precisos, completos y 

valiosos para informes y análisis antes de que lleguen a su destino final. 


50 
 

• Carga 

 
El tercer paso del proceso ETL es carga de datos. 

 
Este es el último paso, donde los datos que ya han sido transformados se cargan en un 

almacén de datos, una base de datos o a su destino. Dependiendo del volumen, puede 

cargar datos en un almacén de datos en dos maneras: 

o Carga de tipo completa: también conocida como carga destructiva, implica 

cargar todos los datos de origen en el destino de una sola vez. En este 

enfoque, una tabla de destino se trunca antes de cargar los datos y se 

reemplaza por completo con conjuntos de datos actualizados. 

o Carga incremental: una carga incremental implica solo actualizar de manera 

paulatina los nuevos conjuntos de datos. Este enfoque es más eficiente ya 

que reducen los recursos informáticos y el tiempo que se necesita para 

cargar datos, lo que ayuda a procesar la información en tiempo real. 

 
12.1.1. Microsoft SSIS 

 
SQL Server Integration Services (SSIS) es una herramienta cuyo dueño es la empresa 

Microsoft, utilizada para realizar tareas de integración de datos. SSIS permite el manejo de 

datos, de la siguiente manera, ofrece desarrollar y administrar paquetes que extraen, 

transforman y cargan datos de diversas fuentes a destinos específicos. 

SSIS permite crear flujos de trabajo visuales llamados paquetes, en los cuales se 

especifican las tareas de extracción, transformación y carga de datos. Los anteriormente 

denominados paquetes, se pueden ejecutar de manera programada o manual, y ofrecen 

una amplia variedad de opciones y componentes para manipular datos de forma eficiente 

(Cote, Lah, & Sarka, 2017). 

Algunas de las características principales de SSIS incluyen: 

 
1. Conectividad: SSIS ofrece conectividad con una gran fuente de fuentes de datos, 

como bases de datos SQL Server, Oracle, Excel, archivos planos, servicios web y 

muchas más. 


51 
 

2. Transformaciones de datos: SSIS brinda una cantidad superior de transformaciones 

que permiten limpiar, filtrar, combinar, agregar y enriquecer datos durante el proceso 

de ETL. 

3. Flujo de control: SSIS ofrece componentes para manejar el proceso de ejecución de 

los paquetes, como bucles, tomas de decisiones y tareas condicionales. 

4. Programabilidad: SSIS permite personalizar el código, pudiendo escribir ya sea, en 

lenguaje SQL, C# o Visual Basic para realizar operaciones avanzadas de 

manipulación de datos o proporcionando una capa personalizada de la lógica del 

paquete. 

5. Programación y automatización: SSIS proporciona la versatilidad de poder 

programarse para ejecutarse de forma programada o se puede integrar con otras 

aplicaciones utilizando API y servicios web. 

6. Monitoreo y administración: SSIS proporciona herramientas para monitorear y 

administrar los paquetes en ejecución, así como para realizar tareas de depuración 

y registro de eventos. 

 
Se puede concluir que SSIS es una herramienta versátil para la integración de datos en el 

entorno de Microsoft SQL Server. Permite realizar actividades complejas de ETL de manera 

eficiente y brinda un entorno visual para diseñar, desarrollar y administrar los flujos de 

trabajo de datos. 

 
12.1.2. Pentaho Kettle 

 
Pentaho es una plataforma de Business Intelligence (BI) cuyo enfoque es la solución y de 

forma centrada en procesos que incluye los componentes requeridos para implementar 

soluciones basadas en procesos como minería de datos, ETL o informes. 

 
En la actualidad, muchas empresas han decidido utilizar Pentaho como herramienta BI para 

la mejora de la capacidad de análisis y de toma de decisiones, debido a que ofrece 

soluciones que se componen fundamentalmente de una infraestructura de herramientas de 

análisis e informes integrado con un motor de workflow de procesos de negocio (Pentaho 

Corporation, 2008). 


52 
 

Algunas características clave de Pentaho incluyen: 

 
1. Integración de datos: Pentaho brinda herramientas de ETL que facilitan extraer, 

transformar y cargar datos de múltiples fuentes hacia destinos específicos. Estas 

herramientas ayudan a limpiar, filtrar y transformar datos para su posterior análisis. 

2. Análisis de datos: Pentaho contiene herramientas para el análisis y la exploración 

de datos, permitiendo a los usuarios descubrir patrones, tendencias y relaciones 

dentro de los conjuntos de datos. Ofrece capacidades de generación de informes y 

paneles interactivos para la presentación de los resultados del análisis. 

3. Minería de datos: Pentaho ofrece funciones de minería de datos que permiten 

descubrir información oculta en grandes volúmenes de datos. Estas funciones 

pueden utilizarse para análisis predictivos, detección de patrones y segmentación 

de datos. 

4. Integración con Big Data: Pentaho es compatible con el procesamiento y análisis de 

datos en entornos de Big Data, como Hadoop. Permite la integración y el análisis de 

datos estructurados y no estructurados provenientes de diferentes fuentes. 

5. Visualización de datos: Pentaho ofrece capacidades de visualización de datos que 

permiten crear gráficos, tablas y paneles interactivos para presentar datos de 

manera comprensible y atractiva. 

 
Pentaho es utilizado en el ámbito empresarial y a nivel corporativo, debido a que brinda 

ayuda para la toma de decisiones basada en datos y la generación de informes. 

 
Al ser una plataforma de código abierto, ofrece flexibilidad y personalización, lo que la hace 

accesible para organizaciones de diferentes tamaños y necesidades (Pentaho Corporation, 

2006). 

 
Dentro de la herramienta Kettle Pentaho se pueden diferenciar cuatro grandes grupos de 

procesos de trabajo: 

 
• Reporting: este es el módulo de Kettle Pentaho está destinado a realizar informes, 

estos se adaptan a las distintas necesidades del usuario final. Los informes, pueden 

ser exportados fácilmente a pdf, xls, HTML o texto. Además, pueden automatizarse 

procesos de generación de informes según la ejecución de diferentes acciones o 

mediante una periodicidad estipulada. 


53 
 

• Análisis: por medio de tablas dinámicas, el módulo de analítica de Kettle Pentaho 

permite al usuario navegar por los datos extraídos, ajustando los filtros, campo, 

entre otros. Estos datos puros, pueden ser extraídos a su vez en formato SVG, Flash 

e incluso Excel para su tratamiento fuera de la herramienta. 

• Dashboards: ofrece la posibilidad de crear dashboards personalizados en base a 

las necesidades de la empresa u organización, ya que todos los módulos de la 

herramienta pueden integrarse dentro de estos dashboards. De esta manera se 

pueden visualizar gráficos, tablas o cualquier otro dato que se desee. 

• Integración de datos: este módulo trabaja mediante ETL y juega un papel crucial 

dentro del entramado sistema de Business Intelligence de la empresa. Este proceso 

es el responsable de aprovisionar los datos sobre los que posteriormente se 

trabajarán. 


54 
 

12.1.3. Informática Powercenter. 

 
Informática Power Center es una herramienta basada en una arquitectura ETL. La parte 

que lo componen ayudan a extraer los datos de distintas fuentes, transformarlos de una 

forma unificada y coherente según se estipulen en los requisitos del negocio y finalmente 

cargarlos en un almacén de datos de destino, típicamente un Data Warehouse o Hadoop. 

Además, Power Center brinda una solución completa de integración de datos y un sistema 

de gestión de datos. 

 
Power Center facilita llevar a cabo diversas tareas, como la limpieza de datos, creación de 

perfiles de datos, y transformación y programación de flujos de trabajo de origen a destino. 

Informática Power Center proporciona una de las mejores soluciones de integración de 

datos disponible actualmente, ya que dentro de sus beneficios es que puede comunicarse 

con cualquier base de datos y ofrece una poderosa herramienta de transformación de datos. 

 
En este sentido, Informática PowerCenter ofrece una plataforma única de integración de 

datos de extremo a extremo, con un amplio conjunto de capacidades para integrar datos 

brutos y fragmentados de diferentes fuentes y transformarlos en información completa, de 

alta calidad y preparada para el negocio (Belhaj, 2016). 

 
Entre los beneficios más destacados de Informática Powercenter podemos destacar 

(Informatica LLC., 2018): 

 
1. Proporciona a los perfiles de negocio la información correcta en el momento 

adecuado. 

2. Ayuda a encontrar soluciones a problemas de negocios tales como el abandono de 

clientes, la efectividad de las campañas, la detección de fraude y la mejora continua 

de ventas. 

3. Agiliza los proyectos gracias a una mejor productividad y colaboración del personal. 

4. Proporciona la integración de datos que vienen de distintos sistemas en una base 

de datos coherente. 

5. Permite escalar del mismo modo en que crecen las necesidades del negocio y se 

requiere más visibilidad sobre los datos. 

6. Ayuda a que los equipos de TI y de negocio trabajen juntos, mejor y más 

rápidamente. 


55 
 

7. Garantiza el éxito continuo de los procesos críticos de negocio. 

8. Minimiza los costes gracias a la reutilización de habilidades y recursos en todos los 

proyectos. 

 
12.1.4. Oracle Data Integrator 

 
Oracle Data Integrator (ODI) es una plataforma integral de integración de datos desarrollada 

por Oracle Corporation. Proporciona un conjunto de herramientas y tecnologías para 

extraer, transformar y cargar (ETL) datos en diferentes sistemas y plataformas. 

ODI ofrece una solución unificada para la construcción, el despliegue y la administración de 

almacenes de datos enfocado para entornos de Business Intelligence. Además, se 

caracteriza por combinar todos los elementos de la integración de datos (movimiento, 

sincronización, calidad, administración y servicios de datos) para asegurar que la data esté 

disponible de forma precisa y consistente en sistemas complejos (Rios, 2009). 

La principal característica de la arquitectura ODI es el repositorio. El repositorio de ODI 

puede almacenar información de configuración relacionada con metadatos de la aplicación, 

proyectos, escenarios y logs de ejecución. Ofrece la posibilidad de contar con varias 

instancias del repositorio, esto permite tener entornos separados (Hotman, 2010). Además, 

el repositorio actúa como un sistema de control de versiones a través de un número de 

versión para los objetos creados. 

ODI proporciona una interfaz gráfica que permite a los usuarios poder diseñar y administrar 

los procesos de integración de datos. Ofrece a su vez, que diversas fuentes y destinos de 

datos interactúen, por ejemplo, que bases de datos, sistemas de archivos, servicios web y 

más puedan comunicarse fácilmente (González, 2013). Las características clave de Oracle 

Data Integrator incluyen: 

 
1. Integración de datos: ODI ofrece a los usuarios definir procesos de integración 

de datos mediante una sintaxis declarativa. 

2. Diseño visual de flujo de datos: ODI permite un entorno gráfico intuitivo, en otras 

palabras, fácil de usar, para crear flujos de datos que incluyen transformaciones, 

filtrado y mapeo de datos. 


56 
 

3. Conectividad flexible: ODI acepta una amplia gama de fuentes y destinos de 

datos, por lo que es posible interactuar con bases de datos Oracle y no Oracle, 

sistemas de archivos, aplicaciones empresariales, servicios web y más. 

4. Transformaciones y limpieza de datos: ODI brinda una variedad de 

transformaciones y de limpieza de datos, lo que garantiza la calidad y 

consistencia de los datos integrados. 

5. Planificación y programación de trabajos: ODI permite programar y ejecutar 

procesos de integración de datos de manera automatizada, según los 

requerimientos definidos. 

6. Supervisión y administración: ODI proporciona herramientas para la supervisión 

y administración lo que facilita monitorear y gestionar los procesos de integración 

de datos, así como para realizar ajustes y mejoras. 

 
Oracle Data Integrator proporciona una solución completa de integración de datos que 

brinda a las organizaciones extraer, transformar y cargar datos de diversas fuentes a 

diferentes destinos, permitiendo crear un entorno visual y herramientas para el diseño, 

programación y administración de procesos de integración de datos. 

12.1.5. Talend 

 
Talend es una suite que brinda un grupo muy completo de herramientas para llevar a cabo 

la integración de datos que se ofrece en una versión de código libre o mejor conocido como 

open source. Es por ello, que esta es una de las herramientas de integración ETL más 

utilizadas dentro del mundo Big Data; de hecho, es la cuarta en la lista después de 

Informática Powercenter, IBM InfoSphere Datastage y Oracle Data Integrator (ODI) (Barton, 

2013). 

Por otra parte, esta suite cuenta con un Comunity Edition (CE) totalmente funcional. 

Además, es posible utilizar una gran cantidad de componentes para llevar a cabo una 

administración de datos personalizada. De hecho, TOS (Talend Open Studio) permite 

tareas complicadas de manera sencilla gracias a esta variedad de servicios. 


57 
 

Talend es Open Source, como se ha mencionado anteriormente, lo que significa que se 

puede conseguir esta herramienta de forma rápida y sencilla sin necesidad de registrarse 

a través de la web de Talend Open Studio o destinar un presupuesto exclusivo para la 

compra de licencias. Talend es más que un entorno de desarrollo de aplicaciones 

informáticas, es una plataforma de Data Integration (ETL), que administra e implementa 

procesos en las empresas, lo que te proporcionará una ventaja competitiva (Talend, 2020). 

Procesos como Análisis Avanzado y toma de decisiones, permite a su vez la 

implementación de Inteligencia Artificial a los procesos existentes o a nuevos, ofrece la 

cualidad de mejora de procesos de ecommerce, procesos de marketing digital enfocado al 

público objetivo, etc. 

Talend permite implementar todos los procesos de una manera sencilla, convirtiendo tu 

empresa en una empresa Data Driven, siendo impulsada por la importancia de los datos 

internos y externos que se manejan y utilizan. Entre sus características principales tenemos: 

 
1. Interfaz gráfica de diseño: Talend ofrece una interfaz visual que basada en 

componentes que permite a los usuarios crear flujos de trabajo de integración de 

datos arrastrando y soltando componentes predefinidos lo que facilita en gran 

manera la interacción con el usuario ya que permite la creac