« Linux Magazine número 3 sai no final do mês | Main | Folha explica como instalar o Firefox »
quinta-feira, 11 de novembro de 2004
Construindo um serviço avançado de busca com o ht://Dig
O NewsForge publicou um interessante guia para construir seu próprio sistema de busca com o ht://Dig. Esta ferramenta é bastante conhecida dos administradores de webs... (Ler na íntegra)Publicado por brain às 10:11
Comentários dos leitores
(Termos de Uso)
» Comentário de Nuxli ( $ipip="200.225.194.49"; $partes = explode(".", $ipip); echo "$partes[0].$partes[1].$partes[2].xxx"; ?>) em 11/11 16:09
Essa semana precisei fazer uma busca em documentos pdf e rtf, em um site que fiz.
O que fiz para resolver o problema:
Quando os arquivos são enviados para o site, transformo eles em html, usando pdftohtml e unrtf, depois uso expressões regulares para limpar a formatação e transformar os arquivos html em txt.. dessa forma crio um cache com os arquivos em txt.. quando alguem busca alguma coisa, o sistema procura nos arquivos txt e da como link o arquivo pdf ou rtf originais.
Esse sistema ai permite que eu fassa isso de uma meneira mais fassil?
» Comentário de Adalberto ( $ipip="200.103.146.86"; $partes = explode(".", $ipip); echo "$partes[0].$partes[1].$partes[2].xxx"; ?>) em 11/11 17:38
Olha só Nuxli, implementei a solução do htDig e após tudo funcionar como explicado no howto, fui bisbilhotar o funcionamento do sistema. Ao que puder perceber ele faz exatamente isso q vc falou, passa o pdf pra html, depois para texto, faz umas conversões aqui e ali e quarda o cache de palavras em um arquivo texto.
Estive a tempos procurando uma solução para pesquisa em pdfs até mesmo estou desenvolvendo uma meio estranha mas que se der certo após o feriado libero a versao gpl pro pessoal, mas esta passada tem o problema de ser um tanto quanto presa a string passada, a não ser que vc coloque uns 500 "and" ou "not" mas fica meio neandertal fazer isso.
Tem muitos pontos positivos, facil instalação, mas para meu problema especifico nao contribuiu muito.
O formulário de comentários está desativado devido à mudança de sistema de gerenciamento de conteúdo.