Questão Como baixar páginas que terminam de certa forma com o httrack?


Eu estava tentando baixar algumas páginas que terminam em uma determinada frase. Eu olhei pela documentação e não consegui descobrir como. Se há ou não é uma maneira, por favor diga-me e se sim como.

EDIT: Por exemplo, eu estou tentando obter esses sites: example.com/sdfsdfs/awrf235/sdgsdg/important_page.html example.com/sdfsasdasddfs/awrfg235/sdgsdg/important_page.html example.com/sdfsdfsdfs/awrf235g/sdsagsdg/important_page.html

E há mais 100 daqueles que terminam em /important_page.html e mais 1000 de outras coisas inúteis. Como eu poderia baixar os que terminam em /important_page.html


1


origem


Voce pode fornecer mais informação. Descreva mais o que você está tentando realizar (exemplo), as obstígolas e as coisas que você já experimentou até agora. - Tom Ruh
em geral, é o formato do que você está tentando raspar example.com/RANDOM/RANDOM/important_page.html (isto é, example.com e important_page.html são fixos e as outras partes do caminho podem variar? - meatspace
Sim, isso é exatamente certo. - Ford Smith


Respostas:


Vamos para Options / Scan Rulesclique Incluir link (s) e adicione uma regra de verificação para o nome do arquivo que você deseja corresponder:

1

2
(A imagem acima mostra uma regra de exclusão sendo adicionada, mas a interface do usuário é a mesma para as regras de inclusão também.)

Documentação para filtros / regras de varredura e filtros avançados.


0