Artigo sobre raspagem de dados
Enviado por Mauro Pichiliani (pichilianiΘuol·com·br):
“O conceito de raspagem de dados, ou data scrapping, não é novo. Desde os primórdios da informática já havia a necessidade e soluções para se obter dados a partir da tela do computador, ou seja, obter os dados que estão em telas, relatórios e outros formatos que não são convencionais. Neste artigo comento sobre uma idéia que já é antiga, mas vem ganhando alguma atenção recentemente: a raspagem de dados. Comentarei sobre o que se trata, alguns detalhes, um exemplo e também apresentarei outras questões relevantes.” [referência: imasters.uol.com.br]
• Publicado por Augusto Campos em
2010-01-08
meio gambiarra não?
Bem, achei interessante a idéia e não tão gambiarresca assim não.
O engraçado foi o cara utilizar um incrível utilitário para Windows chamado wget.exe para baixar as páginas :-)
Ás vezes me assusto com as coisas que são possíveis de serem feitas com o lynx, wget, curl, sed e alguns pipes juntando tudo isso :-)
Há como converter documentos como PDF para xml, o que facilita bastante a obtenção de conteúdo destas fontes binárias.
ue ? o cara descobriu o wget.exe semana passada, dá um desconto pro cara, o artigo está excelente!
:D
Em ambientes de desenvolvimento onde existem muitas migrações de sistemas, é uma idéia bem interessante.
@abngo, eu achei interessante a idéia e o artigo. O wget.exe não foi uma cítica não :-)
Só pra poder trollar: 15 linhas em Python com urllib e pyxml.