Questão Como posso baixar um site inteiro?


Como posso baixar todas as páginas de um site?

Qualquer plataforma está bem.


314


origem


Confira serverfault.com/questions/45096/website-backup-and-download na falha do servidor. - Marko Carter
@tnorthcutt, estou surpreso também. Se eu não me lembro muito errado, minha resposta Wget costumava ser aceita, e isso parecia uma coisa resolvida. Eu não estou reclamando - de repente a atenção renovada me deu mais do que o valor da recompensa. : P - Jonik
você tentou o IDM? superuser.com/questions/14403/… meu post está enterrado. O que você achou perdido no IDM? - Lazer
@joe: Pode ajudar se você fornecer detalhes sobre quais são os recursos ausentes ... - Ilari Kajaste
browse-offline.com pode baixar a árvore completa do site para que você possa ... navegar offline - Menelaos Vergis


Respostas:


HTTRACK funciona como um campeão para copiar o conteúdo de um site inteiro. Esta ferramenta pode até mesmo pegar as peças necessárias para fazer um site com conteúdo de código ativo funcionar offline. Estou espantado com as coisas que pode replicar offline.

Este programa fará tudo o que você precisar.

Caçada feliz!


302



Tenho usado isso há anos - altamente recomendado. - Umber Ferrule
Você também pode limitar a velocidade de download para não usar muita largura de banda em detrimento de todos os demais. - Umber Ferrule
Isso copiaria o código ASP real que é executado no servidor? - Taptronic
@Optimal Solutions: Não, isso não é possível. Você precisaria acessar os servidores ou o código-fonte para isso. - Sasha Chedygov
Depois de tentar tanto o httrack quanto o wget para sites com autorização, eu tenho que me inclinar em favor do wget. Não foi possível obter o httrack para funcionar nesses casos. - Leo


Wget é uma ferramenta clássica de linha de comando para esse tipo de tarefa. Ele vem com a maioria dos sistemas Unix / Linux, e você pode obtê-lo para Windows também. No Mac, Homebrew é a maneira mais fácil de instalá-lo (brew install wget).

Você faria algo como:

wget -r --no-parent http://site.com/songs/

Para mais detalhes, veja Manual do Wget e os seus exemplosou, e. estes:


240



Não há melhor resposta do que isso - wget pode fazer qualquer coisa: 3 - Phoshi
+1 para incluir o --no-pai. definitivamente use --mirror em vez de -r. e você pode querer incluir -L / - relativo a não seguir links para outros servidores. - quack quixote
Como eu também pedi para o httrack.com - essa ferramenta de linha de cmd obteria o ASP código ou seria apenas obter a renderização do HTML? Eu tenho que tentar isso. Isso pode ser um pouco preocupante para os desenvolvedores se isso acontecer ... - Taptronic
@optimal, a saída HTML é claro - ele só receberia o código se o servidor estivesse mal configurado - Jonik
infelizmente não funciona para mim - há um problema com links para arquivos css, eles não são alterados para parentes, ou seja, você pode ver algo assim em arquivos: <link rel = "stylesheet" type = "text / css" href = "/ static / css / reset.css" media = "tela" /> que não funciona bem localmente, a menos que haja um waz para enganar o firefox ao pensar que determinada dir é uma raiz. - gorn


Use o wget:

wget -m -p -E -k www.example.com

As opções explicadas:

-m, --mirror            Turns on recursion and time-stamping, sets infinite 
                          recursion depth, and keeps FTP directory listings.
-p, --page-requisites   Get all images, etc. needed to display HTML page.
-E, --adjust-extension  Save HTML/CSS files with .html/.css extensions.
-k, --convert-links     Make links in downloaded HTML point to local files.

123



+1 para fornecer as explicações para as opções sugeridas. (Embora eu não pense --mirror é muito autoexplicativo. Aqui está a partir da página man: "Essa opção ativa a recursão e a marcação de hora, define a profundidade de recursão infinita e mantém as listagens de diretório de FTP. É atualmente equivalente a -r -N -l inf --no-remove-listing") - Ilari Kajaste
Se você não quiser fazer o download de tudo em uma pasta com o nome do domínio que deseja espelhar, crie sua própria pasta e use a opção -nH (que ignora a parte do host). - Rafael Bugajewski
E se o Auth for necessário? - Val
Eu tentei usar o seu wget --mirror -p --html-extension --convert-links www.example.com e acabou de baixar o índice. Eu acho que você precisa do -r para baixar o site inteiro. - Eric Brotto
Para aqueles preocupados em matar um site devido a tráfego / muitos pedidos, use o -w seconds (esperar um número de secconds entre os pedidos, ou o --limit-rate=amount, para especificar a largura de banda máxima a ser usada durante o download - vlad-ardelean


Você deveria dar uma olhada Página de recados, uma extensão do Firefox. Tem um modo de captura detalhado.

enter image description here


8



Não é mais compatível com o Firefox após a versão 57 (Quantum). - Yay295


Gerenciador de download da internet tem um utilitário Site Grabber com muitas opções - o que permite que você baixe completamente qualquer site que quiser, do jeito que você quiser.

  1. Você pode definir o limite do tamanho das páginas / arquivos para download

  2. Você pode definir o número de sites de filiais a serem visitados

  3. Você pode mudar a maneira como os scripts / popups / duplicates se comportam

  4. Você pode especificar um domínio, somente sob esse domínio todas as páginas / arquivos que atendem às configurações necessárias serão baixadas

  5. Os links podem ser convertidos em links off-line para navegação

  6. Você tem modelos que permitem escolher as configurações acima para você

enter image description here

O software não é gratuito - veja se ele atende às suas necessidades, use a versão de avaliação.


8





itsucks - Esse é o nome do programa!


7





Vou abordar o buffer on-line que os navegadores usam ...

Normalmente, a maioria dos navegadores usa um cache de navegação para manter um pouco os arquivos dos quais você faz o download de um site, para que você não precise baixar imagens estáticas e conteúdo repetidamente. Isso pode acelerar bastante as coisas em algumas circunstâncias. De um modo geral, a maioria dos caches do navegador é limitada a um tamanho fixo e, quando atingir esse limite, excluirá os arquivos mais antigos no cache.

ISPs tendem a ter servidores de armazenamento em cache que mantêm cópias de sites comumente acessados, como ESPN e CNN. Isso poupa o trabalho de acessar esses sites toda vez que alguém em sua rede vai até lá. Isso pode significar uma economia significativa na quantidade de solicitações duplicadas para sites externos ao ISP.


5