Questão Se um disco rígido desenvolve um setor ruim, ele deve ser substituído?


Recentemente, encontrei um erro de E / S lendo um arquivo no meu disco rígido. O exame dos dados do SMART mostra que a unidade possui um setor defeituoso (a contagem Current_Pending_Sector é 1). O arquivo foi criado recentemente (algumas horas atrás), portanto, essa falha deve ser bem recente.

Uma opção é substituir imediatamente a unidade. Outra é simplesmente recuperar o arquivo ilegível dos backups; reescrevendo o setor fará com que seja remapeado para um setor físico diferente. Isso economizaria a despesa e o incômodo de substituir a unidade. Mas se o setor ruim sugerir que um novo fracasso provavelmente acontecerá em breve, isso apenas adia o inevitável.

A aparência de uma única evidência de setor ruim é de que a unidade está falhando e precisa ser substituída?

Em outras palavras, imagine que eu tenha dois discos rígidos idênticos. A unidade A tem 0 setores defeituosos. A unidade B acaba de desenvolver um setor ruim. O Drive B é significativamente mais provável do que o Drive A para desenvolver outros setores defeituosos, ou falhar de alguma outra forma séria, no futuro próximo?

Se possível, gostaria de ver respostas apoiadas por dados ou estatísticas em grande escala, em vez de opinião ou anedota. Há muita pseudociência e desinformação por aí com relação à falha no disco rígido, por isso quero ter certeza de basear minha decisão em fatos.

Meu entendimento é que um "setor defeituoso" significa que um determinado setor no disco não pode ser lido pelo hardware de maneira sensata ou contém dados que não correspondem à soma de verificação armazenada na unidade. Então, por qualquer motivo, o setor efetivamente não contém mais os dados originalmente escritos lá. Eu posso imaginar várias causas possíveis para tal falha; alguns deles sugerem que a falha provavelmente progredirá e outros não. Talvez um raio cósmico tenha virado alguns pedaços naquele setor; Nesse caso, a falha foi totalmente aleatória, e não há razão para pensar que essa unidade seja mais propensa a sofrer mais falhas do que uma nova unidade seria. Ou talvez haja um minúsculo verme mastigando os domínios magnéticos no disco; acabou de comer um setor e agora vai comer um pouco mais, portanto, mais perda de dados é iminente. :-) Na prática, um cenário é muito mais prevalente que o outro?

Se for relevante, a unidade em questão é uma unidade magnética SATA de 2,5 GB e 650 GB, vendida pela Samsung e tem cerca de 5 anos. O arquivo que contém o setor defeituoso foi criado há menos de um dia. O sistema operacional é o Ubuntu 14.04. Todos os dados importantes são salvos em backup, portanto, uma falha na unidade significaria apenas comprar uma nova unidade em curto prazo, tempo de inatividade para substituir a unidade e talvez perda de alguns dados muito recentes.O sistema é um servidor doméstico, portanto o tempo de inatividade é inconveniente, mas não seriamente caro.


4


origem


Sry - não leu o post inteiro, mas eu vi discos rígidos que funcionam bem com ~ 15% de setores ruins. Se é apenas um - esqueça isso. Evitar o HDD rotacional de setores defeituosos é dificilmente. Os HDDs têm solução nativa (nível de hardware) para setores defeituosos, mas se forem muitos, irão falhar. Você pode digitalizar todo o disco com algum software. - Ifch0o1
Nessa situação, você pode considerar o uso de mdadm RAID1 ou ZFS mirror com os A e B do disco rígido, enquanto as duas unidades ainda podem ser usadas. Dessa forma, quando um deles falhar, não será tão inconveniente. Apenas certifique-se de executar scrubs regulares da matriz para que, quando um disco relatar um erro de leitura, o controlador RAID possa informar ao disco quais dados ele deve ter nesse bloco e o disco rígido possa remapear o bloco, se necessário. Você também pode verificar o estudo do HDD sobre estatísticas inteligentes sobre backblaze.com/blog/hard-drive-smart-stats - BeowulfNode42
@ BeowulfNode42: Lamentavelmente, esta máquina possui apenas um compartimento de unidade e não é fácil conectar o SATA externo. - Nate Eldredge


Respostas:


Com um único setor ruim e considerando a idade da unidade, eu ficaria preocupado; no entanto, você diz que não será um grande problema se ele falhar e você estiver seguindo uma boa estratégia de backup, então eu sinto que você está bem esperando que ele faça o que está certo.

Isso pode acontecer amanhã ou pode acontecer daqui a 10 anos. Pode acontecer depois de desenvolver mais setores defeituosos ou nunca acontecer. Você menciona raios cósmicos - isso é exatamente a coisa - poderia ter sido qualquer coisa que fez o setor ir mal. Deixe o disco rígido e o SO marcarem o setor como algo ruim e continuar fazendo o que você está fazendo no que diz respeito a backups. Quando você tiver tempo e recursos para substituir a unidade, faça isso, mas eu não me preocuparia em torná-la uma prioridade.


5





Eu enfrentei esta situação.Em caso de setores defeituosos depois de algum tempo você não será capaz de copiar os dados de volta do disco que tem setor ruim.Depois de algum tempo você vai começar a enfrentar problemas de lentidão que acabará por levar ao colapso do sistema operacional .
Em suma, basta substituir a unidade e não arriscar seus dados.


3



Isso realmente não responde à minha pergunta. Estou bem ciente das conseqüências de setores defeituosos - ler o arquivo resulta em um atraso enquanto o arquivo é relido e, finalmente, um erro de E / S. O erro presente é facilmente corrigido, reescrevendo o arquivo, como mencionei. Eu entendo que mais erros seriam um problema - eu quero saber como é provável que eles realmente ocorram. Estou disposto a aceitar um certo nível de risco, pois, como mencionei, tenho backups, mas quero quantificar o risco que realmente estou assumindo. - Nate Eldredge
Como os setores defeituosos são o sinal de falha do seu disco rígido, eles continuarão aumentando (tentei usar o meu como externo após a substituição, mas falhei miseravelmente). - Rahul Dahiya
"Eu quero saber como é provável que eles realmente ocorram." Muito provável. Pode ser daqui a um dia ou daqui a um ano. Um HDD tem apenas um certo número de setores sobressalentes quando estes acabarem, você começará a perder dados permanentemente. - Ramhound
Na verdade, depende do uso do disco rígido, se você continuar usando o disco rígido pesadamente (o que eu fiz eu continuo a reinstalar o Windows sempre que ele não consegue carregar e não demorou mais de um mês) eu não acho vai demorar mais de um mês.O problema com o sistema de arquivos do Windows é que ele não armazena dados continuamente, então vamos dizer se você tem um setor defeituoso em um determinado local, o Windows irá encontrá-lo novamente, enquanto você continua escrevendo e lendo dados do disco rígido, o que resultará em lentidão e, finalmente, falha. - Rahul Dahiya


Eu sugeriria ficar de olho na contagem do setor ruim. Se permanecer o mesmo por um longo período, digamos um mês, então você está bem; o defeito foi provavelmente um problema de fabricação ou algum outro evento aleatório. No entanto, se a sua contagem de setores ruins continuar a crescer, você definitivamente terá problemas e precisará substituir a unidade.

Edit: Atualizando minha resposta para dizer que a unidade questionável deve ser verificada diariamente. Se depois de um mês não houver novos setores defeituosos, então a unidade está quase certa, mas se você vir novos todos os dias, a unidade precisa ser substituída o mais rápido possível. Você também precisa certificar-se de que a unidade ou o computador esteja em uma superfície sólida que não seja facilmente empurrada.


1



Este é um conselho razoável (e não deveria ter sido downvoted IMO), a menos que você seja paranóico. Se esta for uma unidade externa ou em um laptop, é menos provável que seja um defeito de fabricação e possivelmente o resultado de choque / vibração. - sawdust


Eventualmente

No entanto, as unidades são projetadas para serem resilientes a setores defeituosos e muitas unidades continuam funcionando por um tempo com setores defeituosos. Sua unidade tem setores sobressalentes para lidar com eles, e você precisa olhar para a grande figura ao decidir substituir sua unidade.

Eu estou supondo que você está olhando para dados inteligentes e syslog. Há erros específicos no último - isso indicaria o que exatamente está errado e seria útil aqui. Procure por erros corrigíveis relacionados à unidade (que são um pouco assustadores, mas não tanto) e incorrigíveis (que são um sinal de destruição iminente). Não me lembro dos erros no topo da minha cabeça.

O fato de que é um pendente A contagem do setor é preocupante. O setor deve ser substituído imediatamente. Eu também verificaria o "Uncorrectable Sector Count" e qualquer outra coisa que rosa aqui na página da Wikipedia sobre atributos inteligentes. Há também um atributo inteligente que mostra o número crescente de setores defeituosos. Abaixe o melhor lá, mas é um sinal de fracasso gradual em vez de cair morto.

Há alguns sinais de perigo aqui

  1. Setores não estão sendo substituídos ainda. Concedido é um número muito baixo e você deve ficar bem por um tempo

  2. A unidade tem 5 anos de idade. Está no final de um ciclo de garantia mais longo / ciclo de vida típico de design de computador.

Há algumas coisas que são reconfortantes. Você sabe que a unidade pode morrer a qualquer momento e ter backup e estamos preparado para perda de dados. Eu não diria que sair correndo e comprar uma unidade agora, mas seria prudente planejar uma unidade de substituição em breve. Você sempre pode usar a unidade antiga para dados transitórios até que ela morra.


1