Title: Alta Disponibilidad con Microsoft Cluster Server MSCS
1Alta Disponibilidad con Microsoft Cluster Server
(MSCS)
- David Cervigón Luna
- Microsoft IT Pro Evangelist
- davidce_at_microsoft.com
- http//blogs.technet.com/davidcervigon
2Agenda
- Introducción
- Arquitectura de MSCS
- Administración de MSCS
- Ejemplo práctico Exchange 2003 en Cluster
- Solución de problemas en MSCS
- DEMOS
3Introducción
4Escalabilidad y Alta Disponibilidad
- Ambas dirigidas a garantizar los niveles de
servicio (SLAs) - Escalabilidad
- Garantizar el servicio ante incrementos
sustanciales en la demanda de los mismos. - Facilitar la rápida implementación de nuevos
servicios sobre infraestructura existente. - Alta Disponibilidad
- Tolerancia a fallos (hw/sw)
- Desastres (naturales, accidentes, etc.)
- Facilitar las operaciones de mantenimiento
(backup, Actualizaciones de sw/hw, logísticas,
etc.)
5Usos de Microsoft Cluster Server
- Servidores conectados a sistemas de
almacenamiento compartidos que son capaces de
asumir de forma inmediata la carga de trabajo de
otro en caso de fallo - Los escenarios más utilizados son aquellos en los
que se quiere - Obtener tolerancia a fallos en servicios que
almacenan información importante en disco y/o
registro - Aplicaciones que deban mantener el estado entre
peticiones sucesivas. - Ideal para servicios back-end.
- Bases de datos SQL, Oracle, etc.
- Buzones de correo (Exchange 2000 2003)
- Aplicaciones LOB (SAP, etc.)
- Ficheros e Impresoras
- DHCP y/o WINS
- Virtual Server
6Antes de instalar un Cluster Server
- Software
- Windows Server 2003 Enterprise Edition o
DataCenter Edition en todos los nodos - Resolución de nombres (DNS, WINS)
- Miembros de un dominio
- Cuentas de servicio miembros del domino
- Derechos de Administrador local
- NO derechos de Administrador del dominio
- Ojo con los cambios de contraseña
- Hardware
- HCL
- Hardware idéntico en todos los nodos
participantes - Red
- Al menos dos interfaces de red
- Direccionamiento IP estático
- Almacenamiento compartido
- SCSI o Fiber Channel (HCL)
- NTFS, gt500MB
7Tolerancia a fallos de Cluster Server
Escalabilidad Hasta 8 nodos
Server Cluster
Virtual Server Address
Passive Server
Active Server
Active Server
Cluster Storage Devices
8Servidores Virtuales
- Una máquina real de cara a los clientes
- Representada por
- Una o varias IPs
- Nombre de red
- Otros recursos y servicios
- Discos
- DHCP, WINS
- BBDD (SQL, buzones Exchange)
- Ficheros y/o impresoras
- Etc.
- El servidor virtual vive en algunos de los
nodos reales (físicos) que conforman el cluster - Un Cluster puede albergar mas de un servidor
virtual
9Arquitectura
10Arquitectura y Componentes
Cluster Service
Node Manager
Event Log Replication Manager
Checkpoint Manager
Membership Manager
Global Update Manager
Backup/Restore Manager
Database Manager
Failover Manager
Log Manager
Resource Monitors
Windows File System
Windows Registry
Resource DLLs
11Arquitectura Database Manager
- Propósito
- Mantiene la base de datos de configuración del
cluster - Maneja la información acerca de todas las
entidades físicas y lógicas del cluster - Coopera con otras instancias del Database Manager
presentes en el cluster - Interacción con otros componentes
- Ofrece servicios al Failover Manager y al Node
Manager - Los cambios se escriben el en registro y en el
recurso del quorum - Los cambios son replicados por el Global Update
Manager - Implementa APIs usadas por las DLLs de recursos
12Arquitectura Node Manager
- Propósito
- Se ejecuta en cada nodo
- Mantiene una lista local con todos los nodos
presentes en el cluster - Envía los mensajes de heartbeat para detectar
fallos en otros nodos (UDP 3345). - Agrega nuevos nodos y expulsa nodos existentes
- Tras detectar un fallo en un nodo
- Envía un mensaje para que se inicie un regroup
event - El servicio de cluster evita las operaciones de
escritura en disco hasta que el estado de la
pertenencia al cluster de los miembros se
estabiliza - Mueve los grupos de recursos del nodo que ha
fallado a un nodo activo
13Arquitectura Failover Manager
- Propósito
- Arranca y para recursos
- Gestiona las dependencias entre recursos
- Determina que nodos poseen que recursos
- Failover y Failback
- Suceden por causa de un fallo, pero también se
pueden iniciar manualmente - Los grupos de recursos se mueven a un nodo
disponible - La recuperación de una situación de fallo
requiere estabilizar el estado de los recursos
del nodo que han fallado - Los nodos negocian la propiedad de los recursos a
recuperar - El proceso de Failback puede transferir la
propiedad de los grupos al nodo una vez
recuperado, si así se especifica en la
configuración del grupo.
14Arquitectura Checkpoint y Log Manager
- Checkpoint Manager
- Verifica las entradas del registro cuando un
recurso se pone online. - Escribe datos de checkpoint en el quorum cuando
un recurso se pone offline - Replica información del registro específica de la
aplicación - Log Manager
- Interactúa con el Checkpoint Manager para
asegurar que el recurso del quorum tiene la
información actualizada. - Permite que los cambios de configuración se
lleven a cabo incluso si algunos de los nodos
están caídos - Los nodos recuperados pueden actualizar su
información obsoleta desde el recurso del quorum
15Arquitectura Otros Managers
- Global Update Manager
- Replica los cambios en la base de datos del
cluster a todos los nodos que lo forman - Backup/Restore Manager
- Ofrece la funcionalidad para hacer backup y
restaurar la base de datos del cluster - Opera junto con el Failover Manager y el Database
Manager - Eventlog Replication Manager
- Replica los visores de sucesos locales a toso los
nodos del cluster - Membership Manager
- Mantiene una vista consistente del estado de
todos los nodos del cluster
16Arquitectura Monitores de Recursos y DLLs de
Recursos
- Usados por MSCS para manejar los recursos
clusterizados. - Ponen los recursos online
- Gestiona las interacciones con otros recursos
- Monitorizan la salud de los recursos
- DLLs de recursos disponibles para
- Recursos comunes (discos, carpetas compartidas,
etc.) - Aplicaciones Cluster-aware
- Aplicaciones genéricas no cluster-aware
- Los procesos del Resource Monitor hacen hosting
de las DLLs de recursos - Se ejecutan separadamente del servicio de cluster
17Arquitectura El recurso del Quorum
- Compartido por todos los nodos
- Ofrece una configuración consistente del cluster
- Asegura que un recurso es manejado exclusivamente
por un único nodo - Quorum log
- Mantiene la información de la configuración del
cluster - Tipos de Quorum
- Standard. Única base de datos de configuración
almacenada en un disco de la cabina compartida
(SCSI o Fibra) - Majority Node-Set
- Se crea si no hay discos compartidos disponibles
para almacenar el Quorum en el momento en que se
crea el cluster. - El Quorum log se copia en el disco de sistema de
cada nodo. - El recurso Majority Node-Set asegura la
consistencia de la información replicándose a los
quorums locales - Un cambio se considera completo si se ha llevado
a cabo en mas de la mitad de los nodos. Los nodos
no pueden poseer recursos a menos que pertenezcan
a esta mayoría.
18Administración
19Instalando un Cluster Server
20Componentes de MSCS
- Cluster Service (Clussvc.exe)
- C\Windows\Cluster
- Cluster Database (ClusDB)
- C\Windows\Cluster
- HKLM\Cluster
- Replicada en y a través del Quorum
- Cluster Disk driver (Clusdisk.sys)
- HKLM\System\CurrentControlSet\Services\Clusdisk
- Parameters\Signatures
- Parameters\AvailableDisks
- Cluster Network Driver (Clusnet.sys)
- HKLM\System\CurrentControlSet\Services\ClusNet
- Resource monitor y DLLs de recursos
(resrcmon.exe) - C\Windows\Cluster
21Creación de Grupos y Recursos
- Cada grupo suele estar asociado al menos a un
disco físico. - No poner diferentes servidores virtuales en el
mismo grupo. - Se puede hacer manualmente o por la instalación
de un servicio cluster-aware - Decidir los parámetros de cada recursos.
- Ejecutar en un monitor de recursos independiente
- Dependencias entre recursos.
- Un nombre de una IP
- Un share de un nombre, de una IP y de un disco
- Si un fallo individual afecta o no al grupo
- Umbral y periodo Cuantas veces y en cuento
tiempo se intentará recuperar el recurso - Chequeo de salud del recurso
- LooksAlive
- IsAlive
22DEMO DHCP en Cluster
23Ejemplo práctico Exchange Server 2003
24Requerimientos
- Windows 2000 (SP3 329938 o SP4)
- Advanced Server
- 2 nodos Activo/Pasivo
- 2 nodos Activo/Activo
- Datacenter Server
- 2 nodos Activo/Activo
- Hasta 4 nodos en Activo/Pasivo
- Windows Server 2003 (Enterprise o Datacenter)
- 2 nodos en Activo/Activo
- Hasta 8 nodos en Activo/Pasivo
- RECOMENDACIÓN Activo/Pasivo es el mejor modelo
- Limite N-1 nodos activos siendo N el numero de
nodos - En un modelo Activo/Activo (nº de EVS gt nº nodos)
- Menos de 1900 conexiones MAPI concurrentes
- CPU lt 40
25Dependencias entre los recursos
- Cuanto más plana, failovers más rápidos
Exchange 2000
Exchange 2003
26Modelos Activo/Pasivo con 8 nodos
27Permisos de la cuenta de servicio de Cluster
- Admimistrador local en cada nodo
- No requiere permisos en la organización de
Exchange
- Administrador Local en cada nodo Administrador
(en la organización si es el primero, o en el
Grupo Administrativo)
28Cómo crear un Exchange 2003 Virtual Server en
cluster
- Instalar los nodos y configurar el servicio de
cluster - Instalar MSDTC en cada nodo del cluster.
- Instalar Exchange Server 2003 en cada nodo del
cluster - La instalación es cluster-aware
- Copia binarios y registra DLLs de recursos
específicas de Exchange - Crear el EVS
- En un grupo separado
- Uno o varios discos compartidos (según modelo del
almacenamiento) - Al menos una IP
- Un Nombre de Red
- Un recurso de Exchange System Attendant
- En Exchange Server 2003, generara los demás
recursos necesarios - Eliminar el EVS Quitar Servidor Virtual de
Exchange en - El recurso Exchange System Attendant
29Diseño del Almacenamiento en el EVS
- 4 grupos de almacenamiento como máximo por EVS y
Nodo (ojo en configuraciones Activo/Activo) - 5 bases de datos por grupo de almacenamiento
- Separar bases de datos y logs en diferentes
discos para cada EVS - El número máximo de unidades de Windows Server
2003 es 24 - Solo se soportan 23 discos compartidos
- Pueden usarse Volume Mount Points
- Que sean únicos para evitar conflictos con otros
discos en el nodo o en el cluster - No crearlos entre discos compartidos y discos
locales ni con el Quorum - No crearlos entre discos pertenecientes a
diferentes grupos - Establecer correctamente las dependencias entre
los discos
30Diseño Front-End / Back-End
- Designar los servidores de Front-End
- Crear los servidores virtuales HTTP en el
Administrador del Sistema (Exchange) - Balancearlos con NLB, si es necesario
- Agregar servidores virtuales HTTP en el EVS del
cluster que correspondan a los de los frontales - Agregando servidores virtuales HTTP
- Agregando Directorios virtuales
- Mucha más información en
- http//www.microsoft.com/technet/prodtechnol/excha
nge/2003/library/febetop.mspx
31DEMO Exchange 2003 en Cluster
32Solución de Problemas en MSCS
33Herramientas
- Visor de Sucesos
- Cluster Log
- En C\WINDOWS\CLUSTER
- ClusterLogLevel2 por defecto
- Entradas para cada componente.
- http//support.microsoft.com/kb/168801/en-us
- http//support.microsoft.com/kb/286052/en-us
- Cluster Diagnostics and Verification Tool
(ClusDiag.exe) - http//www.microsoft.com/downloads/details.aspx?Fa
milyIDb898f587-88c3-4602-84de-b9bc63f02825Displa
yLangen - Cluster MPSReports
- http//www.microsoft.com/downloads/details.aspx?Fa
milyIdCEBF3C7C-7CA5-408F-88B7-F9C79B7306C0displa
ylangen
34Sustitución de Discos compartidos
- Windows 2000
- Dumpcfg.exe para cambiar la firma del disco
- http//support.microsoft.com/?id243195
- Windows Server 2003
- ConfDisk.exe sustituye a DumpCfg.exe
- ClusterRecovery.exe. Engloba a ConfDisk y Dumpcfg
- http//support.microsoft.com/kb/305793/en-us
- http//www.microsoft.com/downloads/details.aspx?fa
milyid2BE7EBF0-A408-4232-9353-64AAFD65306Ddispla
ylangen - Incluidas en el Kit de Recursos
35Algunos problemas más frecuentes
- How to enable User Mode Hang Detection on a
server cluster in Windows Server 2003 and in
Windows 2000 Server SP4 - http//support.microsoft.com/default.aspx?scidkb
EN-US815267 - How to troubleshoot Cluster Service Startup
Issues - http//support.microsoft.com/kb/266274
- How to troubleshoot event ID 9, event ID 11, and
event ID 15 error messages - http//support.microsoft.com/?kbid154690
- Cluster Network Name May Not Come Online with
Event ID 1052 - http//support.microsoft.com/kb/257903
- Troubleshooting Multiple Cluster Symptoms on the
Same SAN - http//support.microsoft.com/kb/311081/en-us
- Troubleshooting Cluster Event ID 1068
- http//support.microsoft.com/kb/306684/en-us
36REFERENCIAS
- Server Clusters
- Guide to Creating and Configuring a Server
Cluster under Windows Server 2003 White Paper - Cluster Configuration Best Practices for Windows
Server 2003 - Best practices for securing server clusters
- Cluster support for DHCP servers
- Deploying Exchange Server 2003 in a Cluster
- Exchange Server 2003 Cluster Configuration
Checklist - Solución de problemas en Cluster Server
37Más Acciones desde TechNet
- Para ver los webcast grabados sobre éste tema y
otros temas, diríjase a - http//www.microsoft.com/spain/technet/jornadas/we
bcasts/webcasts_ant.asp - Para información y registro de Futuros Webcast de
éste y otros temas diríjase a - http//www.microsoft.com/spain/technet/jornadas/we
bcasts/default.asp - Para mantenerse informado sobre todos los
Eventos, Seminarios y webcast suscríbase a
nuestro boletín TechNet Flash en ésta dirección - http//www.microsoft.com/spain/technet/boletines/d
efault.mspx - Para estar informado sobre novedades vea nuestros
Its Showtime en - http//www.microsoft.com/spain/technet/itsshowtime
/default.aspx - Para acceder a toda la información, betas,
actualizaciones, recursos, puede suscribirse a
Nuestra Suscripción TechNet en - http//www.microsoft.com/spain/technet/recursos/cd
/default.mspx
38PREGUNTAS?
David Cervigón Luna Microsoft IT Pro
Evangelist davidce_at_microsoft.com http//blogs.tech
net.com/davidcervigon