« Linux Magazine número 3 sai no final do mês | Main | Folha explica como instalar o Firefox »

quinta-feira, 11 de novembro de 2004

Construindo um serviço avançado de busca com o ht://Dig

O NewsForge publicou um interessante guia para construir seu próprio sistema de busca com o ht://Dig. Esta ferramenta é bastante conhecida dos administradores de webs... (Ler na íntegra)

Publicado por brain às 10:11

Comentários dos leitores

(Termos de Uso)

» Comentário de Nuxli () em 11/11 16:09

Essa semana precisei fazer uma busca em documentos pdf e rtf, em um site que fiz.

O que fiz para resolver o problema:
Quando os arquivos são enviados para o site, transformo eles em html, usando pdftohtml e unrtf, depois uso expressões regulares para limpar a formatação e transformar os arquivos html em txt.. dessa forma crio um cache com os arquivos em txt.. quando alguem busca alguma coisa, o sistema procura nos arquivos txt e da como link o arquivo pdf ou rtf originais.

Esse sistema ai permite que eu fassa isso de uma meneira mais fassil?

» Comentário de Adalberto () em 11/11 17:38

Olha só Nuxli, implementei a solução do htDig e após tudo funcionar como explicado no howto, fui bisbilhotar o funcionamento do sistema. Ao que puder perceber ele faz exatamente isso q vc falou, passa o pdf pra html, depois para texto, faz umas conversões aqui e ali e quarda o cache de palavras em um arquivo texto.
Estive a tempos procurando uma solução para pesquisa em pdfs até mesmo estou desenvolvendo uma meio estranha mas que se der certo após o feriado libero a versao gpl pro pessoal, mas esta passada tem o problema de ser um tanto quanto presa a string passada, a não ser que vc coloque uns 500 "and" ou "not" mas fica meio neandertal fazer isso.
Tem muitos pontos positivos, facil instalação, mas para meu problema especifico nao contribuiu muito.

O formulário de comentários está desativado devido à mudança de sistema de gerenciamento de conteúdo.