Questão Como faço para remover HTML do documento do MS Word 2010 com Find / Replace Wildcards / Regex?


Eu encontrei um site para me ajudar a escolher nomes de domínio. Eu tenho minha lista de produtos que não posso exportar, mas preciso compartilhar a lista com alguns outros membros da equipe primeiro. Ele também não me permite copiar e colar a lista de domínios.

Com meu conhecimento limitado, cliquei em inspecionar elemento, editar como HTML, copiar e colar no MS Word 2010. Então, fiquei com um monte de HTML parecido com isto:

<div id="cartList">
<div id="cartdomain_mydomain1.com" class="wordDiv">
    <img class="deleteImage" src="/images/trans.gif">
    <button class="buyButton">Buy</button>
    <div title="mydomain1.com">mydomain1.com</div>
</div>
<div id="cartdomain_mydomain2.com" class="wordDiv">
    <img class="deleteImage" src="/images/trans.gif">
    <button class="buyButton">Buy</button>
    <div title="mydomain2.com">mydomain2.com</div>
</div>

Como faço para remover todo o código HTML para que eu fique apenas com mydomain1.com, mydomain2.com em uma lista de texto simples?


1


origem


Bem-vindo ao superusuário. Sua pergunta não é ruim; só precisa ser melhorado. Por favor, tire um minuto para ler Como pedir, então editar sua pergunta para incluir detalhes apropriados sobre o que você tentou fazer por conta própria. - CharlieRB
Bem, eu apertei ctrl + h, e tentei brincar com isso, mas percebi que não sabia nada sobre regex e esperava que alguém pudesse me ajudar com a sintaxe apropriada? - user325124
Da próxima vez use ferramentas mais apropriadas, permitindo regexp completo: Notepad ++ ou Ms Expression Web - AndriuZ


Respostas:


Certifique-se de ter o "Mais >>"painel desdobrado e para selecionar"Use curingas". Você pode então usar esta expressão:

Encontre o que: \<div id="cartdomain?*\<div title="([!"]*)"?*\</div\>?*\</div\>

Substituir com: \1

Ao clicar em "Substituir tudo", você ficará com sua primeira linha (<div id="cartList">) seguido por tudo o que está no parâmetro "title".

O MS2010 não usa a sintaxe regex padrão e é muito limitado. A maneira como a expressão funciona é:

  • < e > são delimitadores especiais, eles têm que ser escapados com \
  • ?* é basicamente o equivalente a .*?: corresponde a qualquer número de qualquer caractere, não avidamente
  • os parênteses são usados ​​para definir um bloco de captura, que é referido como \1 no With: campo
  • [!"]* significa "qualquer número de qualquer caracter que não seja uma aspa dupla"

0



Oh espere, tinha esquecido de clicar em "usar curingas" - funciona muito bem, obrigado. - user325124
@ user325124 Ah, esqueci desse detalhe: D Se deu certo, você pode (upvote e) validar a resposta! - m4573r