Questão Com que frequência executar os testes SMART no disco rígido?


Para um disco rígido com o SMART, com que frequência o teste rápido deve ser executado e com que frequência o teste completo deve ser executado? Os testes devem ser executados com mais freqüência à medida que o disco fica mais antigo? O fabricante e o tipo de unidade são importantes?

Note que eu faço backups regulares, então não estou dependendo do SMART para evitar backups até o último momento possível. É só que eu gostaria de um aviso prévio se algo der errado.


4


origem


Este é um computador de mesa que você visualiza ativamente, com o que você sabe o que está acontecendo? ou um computador seu encarregado de, mas nunca está em, um servidor (mesmo servidor de mídia) ou você se conecta remotamente e gostaria de saber por que algo não funciona? - Psycogeek
Se for um computador que você normalmente usa, existem utilitários que são carregados na inicialização e executados em segundo plano que monitoram os valores SMART e alertam você sobre um problema. Eu raramente uso o Windows, então não estou com as ofertas atuais, mas faço uma pesquisa no Google para ver o que está disponível agora. - fixer1234


Respostas:


Eu concordo com @ user1433123 resposta sobre o mau conselho de outras respostas, sugerindo que você ignore ou adie a execução de qualquer teste SMART até que você tenha um problema de disco. A finalidade dos atributos e autotestes SMART é antecipar problemas de disco quando possível.

O mínimo que você deve fazer é ativar a coleta automática de dados Offline e verificar os valores do atributo SMART uma vez por mês, mesmo que você não execute manualmente os autotestes SMART. (Observe que alguns atributos SMART não são atualizados, a menos que a coleta de dados off-line esteja ativada).

Dito isto, executar os autotestes curtos / longos (manualmente) com muita freqüência em um computador desktop pode ser uma perda de tempo. Em um servidor, a melhor abordagem é usar algo como "smartd" (do software smartmontools, Linux e Windows) para monitorar e executar os testes regularmente, para que você seja notificado quando surgir um possível problema.

Agora, em relação à sua pergunta sobre a frequência de execução: Para um servidor, sugiro habilitar a coleta de dados offline sempre e executar (automaticamente, usando smartd ou software similar) o auto-teste curto diariamente ou pelo menos semanalmente. -teste mensalmente. Observe que os autotestes não devem causar nenhum problema de desempenho.

Para uma área de trabalho, se você tiver que fazer isso manualmente, eu executaria o auto-teste curto mensalmente e apenas permitiria a coleta de dados off-line, talvez executar o auto-teste longo a cada dois meses aproximadamente. Se você puder usar ferramentas automatizadas como o smartd, poderá fazê-lo com mais frequência.

Para discos portáteis (como discos removíveis USB), sugiro executá-lo sempre que possível, pois o disco rígido em movimento é um pouco mais propenso a problemas e os valores SMART podem fornecer um aviso antecipado. Por exemplo, usamos algum disco rígido removível para backups externos e o script de backup que usamos usa o relatório SMART do programa smartclt para um registro local e executa um teste curto SMART toda vez que fazemos um backup (semanalmente); Enquanto o teste curto está sendo executado (leva de 3 a 5 minutos), o pessoal de backup lê o relatório SMART procurando por alguma anomalia.

Então, em resumo, eu diria que:

  • Sempre ative a coleta de dados off-line SMART.
  • Quanto mais críticos os dados, mais frequentes você deve executar os autotestes SMART.
  • Sempre tente usar software automatizado que execute os testes para você.

Verifique a página man do smartctl (do smartmontools) para obter algumas informações sobre cada tipo de teste (http://smartmontools.sourceforge.net/man/smartctl.8.html), mesmo se você usar um programa GUI como o GSmartControl para executar os testes.

Atenciosamente, MV.


7





"Você realmente não deve precisar verificar o HDD até que esteja próximo ao final do período de garantia. Nesse caso, Eu recomendo que você jogue fora a unidade. Em vez disso, para acertar o fato de que é perto da morte súbita e imprevisível ".

Isso é um mau conselho. Se você está preocupado com a falha de sua unidade, execute testes inteligentes para identificar rapidamente a unidade com falha e tomar medidas, se necessário.

Smart é projetado para avisá-lo de uma falha de unidade antes que isso aconteça, enquanto que um bom hardware como um controlador RAID permitirá que você saiba quando ele falhar.

O comprimento da garantia não é uma indicação da integridade da unidade.

Meu conselho para você seria

  1. Cópia de segurança
  2. Execute um teste rápido diário da SMART em unidades críticas, como na matriz RAID do servidor local ou em dispositivos NAS, se elas forem compatíveis.
  3. Se a (s) unidade (s) for especialmente crítica, execute um teste semanal em horas de inatividade para identificar uma unidade com falha o mais rápido possível antes que os dados fiquem ilegíveis.

Depois de identificar um problema, RMA a unidade se estiver na garantia ou adquira uma substituição, se não estiver.

Se o tempo de atividade for necessário, invista em uma solução RAID simples, como o RAID 1/5/6, se os dados precisarem estar disponíveis 24 horas por dia, sete dias por semana.

Eu não sei de uma única pessoa que está proativamente substituindo seus discos rígidos de laptop a cada 1-3 anos, dependendo da garantia.


2



A execução de testes em unidades RAID é especialmente importante. Considere a seguinte sequência de eventos em um sistema RAID 1 (espelhamento) simples contendo 2 unidades: 1) A unidade 1 se torna silenciosamente degradada. Por sorte, ninguém acessa setores defeituosos na unidade 1. 2) A unidade 2 falha catastroficamente. Raid software relata falha. 3) Administrador substitui a Unidade 2. 4) O software Raid reconstrói a unidade 2. Enquanto a unidade 2 está sendo recriada, a unidade 1 falha catastroficamente. 5) Perda de dados ocorre. A perda de dados poderia ter sido evitada se a unidade 1 tivesse sido substituída entre a etapa 1 e a etapa 2. - Brian
Por favor, note que a sequência de eventos que descrevi no comentário acima é baseada na experiência pessoal. É mais provável que uma unidade com falha morra durante uma reconstrução (porque a unidade está experimentando mais leituras do que o normal e essas leituras tocam mais na unidade). Aqui, o objetivo do teste é reduzir a probabilidade de sobreposição de falhas de unidade, limitando o período de tempo em que uma unidade com falha está em uso (detectando a falha mais rapidamente, permitindo que a unidade seja substituída). - Brian


Eu não iria executá-lo a menos que eu suspeitasse que algo estava errado - sons estranhos ou algo parecido. Dito isto, se você absolutamente teve para, eu faria um teste rápido uma vez por mês - meu laptop vem com um software que faz isso automaticamente, ou instala algo que faz isso automaticamente, como monitor de acionamento acronis.

Eu diria que os drives que estão falhando nos testes inteligentes são um sinal de que algo definitivamente está errado, mas você pode ter problemas com drives que parecem bons. A morte repentina acontece - a vida é muito curta para continuar verificando seus discos, mas não muito curta para fazer backups regulares.


1