Questão Aranha / rastrear um site e obter cada URL e título da página em um arquivo CSV


Estou mudando de um antigo site de carrinho de compras do ASP para um site do Drupal / Ubercart. Parte desse movimento é garantir que os links antigos sejam redirecionados para os novos. Para fazer isso, tudo o que preciso é uma maneira de obter uma lista de todos os links do site antigo.

De preferência, os resultados teriam o título da página e, idealmente, eu poderia dar um jeito de retornar outros dados da página (por exemplo, um seletor de CSS).

Eu preferiria se estivesse no OS X, mas também posso usar aplicativos do Windows.

eu tentei Integridade, mas a saída é quase impossível de decifrar, além de não funcionar bem.


1


origem


R, pode lidar com isso. Mas não sei como fazer isso para um site inteiro. Veja um exemplo de análise de uma página: stackoverflow.com/questions/3746256/… - Brandon Bertelsen


Respostas:


Se você não se importa de escrever scripts Perl ...

este   módulo   implementa um mecanismo configurável de travessia via web, para um robô ou outro   agente da web. Dada uma página web inicial (URL), o robô receberá o   conteúdo dessa página e extrair todos os links da página, adicionando-os   para uma lista de URLs a visitar.


0



Eu sou horrível com o Perl, e não consigo descobrir como instalar um módulo do CPAN = p - Tyler Clendenin