M?ltiplas buscas num mesmo site

  • Post author:
  • Post category:Sem categoria

Colabora??o: Ot?vio Penatti

H? situa??es nas quais precisamos obter informa??es de muitos
itens em um mesmo site. Eu, por exemplo, tive que pesquisar
numa base de dados de enzimas na internet o nome de v?rias
enzimas, por?m era invi?vel ficar digitando c?digo por c?digo
no sistema de busca do site e depois analisar p?gina por p?gina
para obter o nome da enzima. Para facilitar esse trabalho eu
fiz um script shell que faz a busca para mim e j? analisa os
resultados. Fiz o seguinte:

– coloquei todos os c?digos das enzimas num arquivo texto,
separando os c?digos por espa?o;
– verifiquei que no site em que eu precisava pesquisar, as
consultas eram passadas como par?metros na URL da p?gina,
como abaixo:

http://us.expasy.org/cgi-bin/get-enzyme-entry?3.2.2.1

Na qual “3.2.2.1” era o c?digo da enzima que eu desejava obter o nome;

– verifiquei tamb?m que na p?gina resultado o nome da enzima
aparecia sempre numa linha que come?ava com a string “DE”

– ent?o fiz um la?o que varre meu arquivo com os c?digos
das enzimas e coloca cada c?digo na URL da p?gina. Depois,
passa essa URL como entrada para o Lynx (browser modo texto)
com o par?metro “-dump”, que faz com que o Lynx jogue a p?gina
carregada no terminal. Ent?o usei o “grep” para selecionar da
p?gina obtida apenas a linha que come?asse com “DE”.

O arquivo com os c?digos das enzimas (enzimas.txt) ficou assim:

1.16.3.1 3.1.1.2 3.1.8.1 3.4.21.5 3.4.21.7 3.4.21.47 3.4.21.45 3.4.21.42

O script ficou assim:

#!/bin/bash

for i in `cat enzimas.txt`;
do
echo $i
lynx -dump “http://us.expasy.org/cgi-bin/get-enzyme-entry?$i” |
grep “DE “
done

Os resultados foram os seguintes:

1.16.3.1
DE Ferroxidase.
3.1.1.2
DE Arylesterase.
3.1.8.1
DE Aryldialkylphosphatase.
3.4.21.5
DE Thrombin.
3.4.21.7
DE Plasmin.
3.4.21.47
DE Alternative-complement-pathway C3/C5 convertase.
3.4.21.45
DE Complement factor I.
3.4.21.42
DE Complement subcomponent C1s.

No terminal ent?o eu chamo o script da seguinte forma:

./script.sh

Os resultados tamb?m poderiam ser direcionados para um arquivo, como abaixo:

./script.sh > resultados.txt

——————————————————————–
Colabore com a Dicas-L. Publique seu coment?rio sobre esta mensagem
em http://www.Dicas-L.unicamp.br/dicas-l/20041208.php
——————————————————————–
As mensagens da lista Dicas-L s?o veiculadas diariamente
para 26112 assinantes.

Todas as mensagens da Dicas-L ficam armazenadas em
http://www.Dicas-L.unicamp.br/dicas-l/

A redistribui??o desta e outras mensagens da lista Dicas-L pode
ser feita livremente, desde que o conte?do, inclusive esta nota,
n?o sejam modificados.
——————————————————————–