Title: NOC - Netowork Operation Center
1NOC - Netowork Operation Center
- Definição
- "Network Operational Control"(NOC) consiste
em uma coleção de atividades requeridas para
manter dinamicamente o nível de serviço em uma
rede ou conjunto de redes. Estas atividades
asseguram alta disponibilidade de recursos pelo
rápido reconhecimento de problemas e
degradação de performance, disparando funções de
controle quando for necessário
2Atuação
- Para verificar se o nível de serviço atual
corresponde ao desejado, informações são
extraidas da rede para obter a funcionalidade e
performance em tempo real. - As informações são extraidas continuamente ou sob
demanda e armazenadas no banco de dados da
gerencia da rede.
3Atuação
- Partes destes dados são submetidos à análise e
outros dados são utilizados para comparar o
status real da rede com aquele desejado
(planejado), permitindo verificar se alguma
anomalia está ocorrendo.
4Atuação
- Deve-se preparar uma série de atividades para
resolução de problemas, desde uma simples
substituição de um dispositivo defeituoso até a
execução de ferramentas mais sofisticadas para um
diagnóstico mais acurado do problema.
5O Sistema de acompanhamento de problemas
- A utilização de um "Sistema de Registro de
problemas"("Trouble Ticket System") auxilia
o NOC no diagnóstico do problema e permite criar
um Banco de Dados(BD) de experiências com
problemas, viabilizando a utilização de sistemas
especialistas na solução dos problemas. - Os TTS também agilizam o processo de controle da
rede porque permitem uma comunicação direta
com os responsáveis pelo NOC
6"TROUBLE TICKETING SYSTEMS(TTS)"
- Funções e características de um TTS
- Fazendo uma analogia com um "quadro hospitalar",
o "Registro de Problema" deve prover um histórico
completo do problema de forma que qualquer
operador possa tomar alguma iniciativa sem que
para isso tenha de consultar outro operador
7"TROUBLE TICKETING SYSTEMS(TTS)"
- Deve permitir um melhor escalonamento de
problemas atribuindo prioridades aos mesmos. Os
supervisores e operadores poderão tomar decisões
acerca da necessidade ou não de mais pessoal pela
carga corrente do "Centro de Operações de Rede". - Seria interessante permitir que a prioridade dos
registros mudassem de acordo com a hora do dia ou
em resposta a alarmes de tempo
8"TROUBLE TICKETING SYSTEMS(TTS)"
- Se o TTS for suficientemente integrado ao sistema
de mail então alguns registros podem ser
despachados diretamente ao responsável - Deve-se atribuir um "timeout" para cada registro
de problema. Caso o problema não seja resolvido
em tempo, automaticamente é acionado um alarme. A
fim de se evitar "postergação indefinida",
pode-se adotar um escalonamento baseado no tempo
de espera, no tipo de rede e na severidade do
problema - Caso a empresa opere em mais de um Centro de
Operações de Rede, deve-se canalisar os registros
ao grupo de engenheiros, operadores ou
representantes de clientes responsáveis por
aquela rede de onde provem o registro de
problema
9"TROUBLE TICKETING SYSTEMS(TTS)"
- Fornece mecanismos para a obtenção de
estatisticas tais como "Tempo médio entre falhas"
e "Tempo médio de conserto". Uma coleta e análise
apropriada de tais estatisticas permite que
se tome medidas preventivas a eventuais falhas em
dispositivos do sistema
10Potenciais Usuários de um TTS
- Os potenciais usuários de um TTS dependerão de
quão sofisticado será o sistema de registro de
problemas. - Se este sistema tiver um mecanismo de ajuda
orientado por um sistema especialista, boa parte
do registro pode ser feita quase que
automaticamente, dessa forma qualquer usuário(ou
seja, incluindo o usuário final) poderá usufruir
do sistema. - Deve-se ressaltar também que mecanismos de
segurança são fundamentais (prover logs e
passwords) para um bom e correto funcionamento de
um TTS. - Caso o TTS nao seja tão amigável, este poderá ser
utilizado somente pelo pessoal que detenha
conhecimento mais aprofundado do
sistema(administradores). - É importante que o TTS esteja disponível ao
usuário final porque diminui a burocracia na
solução de qualquer problema.
11Informações constantes em um TTS
- Hora e data do início do problema
- Operador que está abrindo o registro
- Severidade do problema
- Uma linha descrevendo o problema(para uso em
relatórios) - Máquina envolvida
- Rede envolvida
- Endereço da máquina envolvida
- Endereço da máquina destino
- Próxima ação
- Hora e data pra alarme
- Para quem este registro deveria ser enviado
- Responsável pelo registro
12Após a resolução do problema
- Hora e Data da resolução
- Duração
- Descrição sumária do que aconteceu
- Componente chave afetado
- Inspecionado por
- Escalado para
- Um "check mark" para eventuais investigações
estatísticas
13Responsabilidades do NOC
- Monitoramento e Coleta de Dados
- Projeto dos Displays de status de rede
- Determinando o Alcance do Controle
- Determinação de Problemas
- Testes sob Produção
- Roteamento Dinâmico e Alternativo
- "Network Recovery"
- Distribuição de Informação
- Ativando ou Desativando a Rede e/ou seus
componentes - Interfaces com outro pessoal do Suporte à Rede
- Avaliação das Ferramentas no Controle Operacional
da Rede
14Monitoramento e Coleta de Dados
- Para assegurar a manutenção do perfil do serviço
- Avaliado por
- Tempo de Resposta
- Disponibilidade
- Exatidão.
15Monitoramento e Coleta de Dados
- Coleta contínua x Coleta sob-demanda.
- A fim de atuar ao invés de somente reagir, é
necessário realizar medidas continuamente
16Monitoramento e Coleta de Dados
- A ocorrência da primeira informação sobre alguma
falha deve receber a maior atenção por duas
razões - Uma falha em um componente de rede pode não
prejudicar a operação até durante muito tempo
após a ocorrência da falha. Quando o impacto for
visível, dados sobre a falha podem não estar mais
disponíveis - A operação não pode ser interrompida para
"dumps"ou para esperar para que a falha
ocorra novamente.
17Monitoramento e Coleta de Dados
- A coleta de dados sob-demanda pode ser útil na
investigação de problemas especiais de
performance de rede ou para diagnosticar
problemas funcionais como parte da atividade de
controle operacional - Entretanto, ela não é adequada para supervisionar
a rede nem para propósito de planejamento.
18Monitoramento e Coleta de Dados
- Em um ambiente de comunicação, as seguintes
fontes de informações podem ser utilizadas - Características padrões do software de
comunicação - Ferramentas especiais executadas sob o software
de comunicação - Monitores de rede
- Monitores de aplicação
- Logs de problemas e alertas de várias interfaces.
19Controle Centralizado
- Vantagens
- Visão global
- Pessoal do NOC localizado em um só local
- Reação ótima a todas as redes
- Arquivos de registro de problemas e experiências
mantidos centralizados - Operador livre de sistemas remotos
- Base para automação
- Determinação mais rápida de problemas
- Coordenação de mudanças
- Implementação de padrões
- Relatórios e estatísticas através de dados
correlatos dependentes.
20(No Transcript)
21Controle Centralizado
- Desvantagens
- Muitos dados para serem filtrados
- Overhead no processamento
- Overhead na transmissão de dados
- Necessidade de um canal secundário
22Controle Remoto
- Vantagens
- Somente dados seletivos
- Reação mais rápida na área local
- Desvantagens
- Overhead no "download"
- Educação e contratação de pessoal especializado
para os locais remotos - Instalação de múltiplas ferramentas
- Somente otimização local
- Problemas de sincronização.
23Determinação de problemas
- Por problema se compreende um incidente ou evento
que causa um mal funcionamento do sistema. - Os objetivos principais são minimizar os efeitos
dos problemas e reduzir o tempo até a restauração
do estado normal. - A determinação de problema compreende quatro
passos - Detecção do problema
- Determinação do problema
- Diagnóstico do problema
- Resolução do problema.
24Determinação de problemas Níveis de complexidade
de problemas
- Primeiro nível
- Aqueles problemas simples que são resolvíveis
facilmente através de uma simples consulta à base
de dados do "Trouble Ticketing System"com o
auxílio de alguma ferramenta não tão sofisticada. - Aproximadamente 85 dos problemas podem ser
resolvidos desta forma - O diagnóstico destes problemas é simples
25Determinação de problemas Níveis de complexidade
de problemas
- Segundo nível
- Somente tratáveis por operadores da rede.
- Aproximadamente 10 dos problemas são deste
nível. O diagnóstico é considerável.
26Determinação de problemas Níveis de complexidade
de problemas
- Terceiro nível
- Tratáveis por especialistas em comunicação
(software e hardware). Estes problemas são
geralmente de natureza crítica e complexa e podem
requerer envolvimento de especialistas da empresa
fornecedora do software e/ou hardware envolvidos. - O diagnóstico requer recursos humanos
consideráveis e instrumentação apropriada.
27Determinação de problemas
- A detecção do problema ocorre
- Quando os limiares são excedidos, mensagens são
geradas e enviadas ao console de rede apropriado
alertando o operador acerca do problema,
geralmente com uma identificação do tipo e
localização do problema - Através de mensagens enviadas por clientes
28Determinação de problemas
- A determinação do problema significa poder
responder exatamente a seguinte questão - "O que está errado e onde está o problema na
rede? " - A determinação do problema pode ser facilitada
significativamente através da exibição de
informações tais como se o problema é funcional,
de serviço, de processamento, "link", etc.
29Diagnóstico do Problema
- Para diagnosticar o problema, utiliza-se
informações tais como - "arquivos de experiências anteriores"
- arquivos com recomendações do fornecedor do
produto (hardware / software)" - "arquivos de inventário", etc.
- Para o diagnóstico do problema se recomenda a
utilização de um sistema especialista, tendo como
base de dados os arquivos citados acima e outros
dados fornecidos pelo operador.
30Resolução do Problema
- A parte final da determinação do problema é a
delegação da resolução do problema para a
manutenção técnica(incluindo serviços dos
fornecedores) ou para a análise da performance da
rede.
31Testes sob Produção
- Visam verificar dinamicamente a operação correta
da rede - Os testes poderiam incluir componentes
individuais, tais como "nós" e "links". - Os testes podem ser executados durante a operação
normal mas eles não podem interferir na produção
de forma alguma
32 Tipos de testes
- Intrusivo Circuito normal e/ou a operação do
equipamento são interrompidos - Não-intrusivo Testes podem ser realizados sem
interromper os serviços de rede. - Usualmente, os testes são executados em canais
secundários.
33Automação dos testes
- Muitos dos testes que são implementados em
"hardware"e "software" são executados
automaticamente, sem nenhuma atenção do operador.
- Quando uma situação específica ocorre, o controle
é passado para uma rotina de teste. - O único meio para controlar a execução é através
da definição do "software".
34Network recovery
- "Network Recovery" se torna muito caro a menos
que procedimentos estejam definidos para
restauração rápida da rede após o reparo dos
componentes danificados. Após serem executados
todos os reparos, testes são executados para
verificar funcionamento normal. - Se os testes são satisfatórios, os componentes
reparados e/ou "links" podem ser ligados.
35Network recovery
- O controle operacional da rede é freqüentemente
tentado a ignorar responsabilidades a mais em
termos destes fatores - Fechamento dos registros de problemas fornecendo
comentários sobre as causas do problema - Atualização do Arquivo de Experiência
- Atualização do Arquivo do Fornecedor do produto
atingido pelo problema
36Network recovery
- Atualização do Arquivo de controle de inventário
através da inserção de informações adicionais
sobre o componente em consideração
37Network recovery
- Informar os clientes da rede acerca da
restauração da rede.
38Network recovery
- É importante em favor do gerenciamento da rede
assegurar que os operadores da rede sejam
propriamente educados, motivados e não
sobrecarregados de tal forma que suas únicas
preocupações sejam o sintoma e sua resolução ao
invés da causa e sua resolução.
39Distribuição de Informação
- Como parte da responsabilidade da determinação do
problema, o NOC deve manter o cliente informado
sobre condições excepcionais da rede. - Uma vez que partes da rede estão fora de ordem, o
NOC poderia procurar pela alternativa ótima para
mensagens de "broadcast". - Também é necessário comunicar informações sobre
alterações planejadas. - Isto pode ser incorporado em mensagens periódicas
40Ativando ou Desativando a Rede e/ou seus
componentes
- Quando for necessário fazer alguma manutenção na
rede que exija sua desativação temporária,
deve-se realizar uma série de atividades que
permitam que a desativação, reconfiguração e a
ativação ocorram de forma correta.
41Ativação
- Setar dados dinâmicos em estado de inicialização
- Setar todas as tabelas de "links" em estado de
inicialização - Comparar tabela com áreas adjacentes
- Verificar todas a linhas
- Ativar todas as linhas
- Verificar todas as estações da área
- Verificar os componentes de software
- Ativar partes do software para estado "idle".
42Desativação
- Desativar todas as linhas "livres" desocupadas
- Desativar o software de comunicação
- Esperar pelas linhas ocupadas
- Desativar os componentes de software.
43Reconfiguração
- Verificar/ativar todas linhas
- Verificar todas as estações do domínio
- Reconfigurar as tabelas de "links"
- Ativar os "links" de acordo com as tabelas de
"links" - Setar dados dinâmicos em estado de inicialização
- Ativar os componentes de software.
44Interfaces com outro pessoal do Suporte à Rede
- Devido a falta de tempo e treinamento, o NOC
freqüentemente tem de delegar problemas para
outros grupos. - Três grupos estão envolvidos
- Manutenção técnica
- Análise de performance e "tuning"
- Administração da Rede
45Análise de performance e "tuning"
- Localização de gargalos
- Investigações especiais
- Geração de software
- Realização de avaliações estatísticas com
propósitos especiais - Prover relatórios
- Preparação de procedimentos operacionais
fáceis-de-serem-utilizados - Planejar "upgrades" de software e/ou hardware
46Administração da Rede
- Manutenção de arquivos
- Avaliação dos níveis de serviço
- Prover novos padrões
- Avaliação dos "registros de problemas" e prover a
forma para a entrada de "registros de problemas"
- Negociação dos níveis de serviço com os clientes
- Assegurar que o NOC tem as facilidades,
treinamento e pessoal capacitado para atingir
seus propósitos - Relatar aos vendedores sobre as observações dos
operadores sobre a falta de simpatia dos
clientes.
47Avaliação das Ferramentas no Controle Operacional
da Rede
- A motivação do pessoal que trabalha do NOC é um
importante fator para que este atinja seus
objetivos. - Não é necessário delegar a responsabilidade para
a seleção do instrumento correto para o controle
operacional, mas o pessoal deveria estar
envolvido nas seguintes áreas - Definição de crítérios
- Pesar os critérios
- Avaliação dos critérios para um número
gerenciável de alternativas - Realização e avaliação do processo de instalação
- Ordenação das alternativas em termos de
tecnologia.
48Avaliação das Ferramentas no Controle Operacional
da Rede
- Esta política de envolvimento e educação é
crítica não somente para avaliação de
ferrramentas mas também na introdução de todo
novo upgrade de software e/ou hardware da rede.
49Considerações acerca da Implementação
- O primeiro passo consiste em realizar um
"checklist" sobre a situação atual. - A lista seguinte fornece algumas recomendações
para a elaboração do "checklist" - Lista de inventário de componentes
- nodos e "links"(velocidade,protocolos,etc)
- Disponibilidade de informação "on-line" a nível
de serviço - Metodologia de determinação de problema
- Disponibilidade de catálogos de "what-if"
- (de apoio a tomada de decisões
- do tipo o que fazer se isto ocorrer)