![]() |
Indexando seu site com o ht://dig
| Linux in Brazil Documentação original e de qualidade em bom português |
Um dos usos mais frequentes do Linux em redes de empresas é como servidor
web para uso interno ou até mesmo para a Internet. A maior parte das
distribuições comerciais de Linux já vem com o servidor web Apache
pré-configurado, pronto para hospedar os seus documentos HTML.
Entretanto, muitos usuários recentes do Linux ignoram outra ferramenta
importante que é distribuída com a maior parte das distribuições: o
ht://Dig, um sistema capaz de gerar índices e pesquisas no seu servidor web.
O ht://Dig tem muitos recursos interessantes, capazes de gerar uma
ferramenta de busca completa e incrementar bastante os recursos do seu site,
seja ele uma Intranet ou um site na Internet. Particularmente, a aparência
das páginas geradas por ele é bastante configurável, o que vai alegrar os
designers do seu site, já que eles poderão fazer com que o seu sistema de
busca tenha a "cara" do seu site.
O ht://Dig indexa as páginas através de um robô de busca ou aranha. Isto
significa que você não terá que fazer nenhuma alteração na configuração do
seu servidor web, ou nas suas páginas, para que ele seja executado. Basta
informar ao ht://Dig qual o endereço da página inicial do seu site, e quais
os domínios que ele pode indexar, e ele sairá seguindo automaticamente todos
os links do seu site, e gerando a base de dados de pesquisa. Esta tarefa
pode inclusive ser rodada a partir de um processo na cron do Linux, e
você terá atualizações periódica (digamos, de 2 em 2 horas) da sua base de
dados de pesquisa, automaticamente.
Outra vantagem do funcionamento através de robôs é que o ht://Dig não
precisa estar instalado na mesma máquina onde estão as páginas que ele irá
indexar. Basta que as páginas estejam em um servidor web (mesmo que seja um
servidor proprietário, como o IIS ou o Domino) ao qual o ht://Dig tenha
condições de se conectar! Do ponto de vista do seu servidor web, o ht://Dig
é apenas mais um cliente...
Além de tudo isso, e ao contrário de outras ferramentas de busca mais
simples, o ht://Dig tem amplo suporte ao nosso alfabeto, incluindo a
acentuação.
Em suma, o ht://Dig está longe de poder se comparar ao Altavista, Lycos ou
outro dos search engines de grande porte - e nem tem esta intenção -
mas apresenta
funcionalidades semelhantes para sites de tamanho limitado, como por exemplo
as páginas de uma universidade ou empresa.
Todas as distribuições de Linux que tenham chegado ao nosso conhecimento
incluem uma versão do htdig, o que nos poupa a necessidade de explicar como
instalá-lo. Siga os procedimentos padronizados pela sua distribuição, e tudo
deverá correr bem. Caso você realmente necessite, faça o download do ht://Dig
em htdig.org, e siga as instruções de
instalação que o acompanham.
A configuração do ht://Dig é bastante simples, principalmente se você
conhecer bem a arquitetura do seu servidor web e da máquina onde o ht://Dig
irá rodar (caso sejam diferentes). Não apresentaremos um tutorial de
configuração (que você encontra no site oficial do
ht://Dig), mas daremos algumas dicas básicas, para que você tenha
idéia da simplicidade do processo.
O principal arquivo de configuração é o htdig.conf, que pode estar em
/etc/htdig/htdig.conf ou em outro diretório a critério dos autores de sua
distribuição de Linux. Neste arquivo serão informados parâmetros como a URL
da página inicial do site a ser indexado, o path para gravação das bases de
dados, os domínios a serem incluídos na busca, e vários outros. As opções
básicas deste arquivo constam na configuração de exemplo que é distribuída,
repletas de comentários (em inglês) que transformam a configuração inicial
em uma tarefa ao alcance até de administradores iniciantes.
Outro arquivo que você irá querer alterar logo no início é o search.html,
que contém o formulário básico de pesquisa. O formulário padrão é bastante
sem-graça, e não é preciso ser nenhum gênio de HTML para encontrar idéias
criativas de formulários.
Os outros quatro arquivos de configuração são o header.html, footer.html,
nomatch.html e syntax.html. Os dois primeiros são respectivamente o
cabeçalho e rodapé que serão anexados ao documento de resposta das pesquisas
bem-sucedidas. O nomatch.html é o documento que será exibido ao usuário que
executar uma pesquisa para a qual não houver resposta positiva. E o
syntax.html será exibido ao usuário que tentar fazer uma pesquisa com erros.
A ferramenta de busca do Trix, que você pode usar para
pesquisar todo o
conteúdo do Linux in Brazil, é baseada no ht://Dig. Confira!