19 August 2020 -
5 mins read time Tags:
Web Scraping
Nesse primeito post vou mostrar como fazer Web Scraping básico porém poderoso.
O site que faremos o scraping será o https://www.worlddata.info, que contém uma série de dados sobre os países.
O objetivo desse post é apenas para estudo! Use por sua conta e risco!
Primeiro importamos as bibliotecas necessárias:
O pacote requests é utilizado para fazer requisições aos servidores que hospedam a página.
Do pacote bs4 vamos utilizar o BeautifulSoup que vai nos ajudar no tratamento do html.
Com o pandas vamos criar um dataframe para manipular de maneira mais fácil os dados.
url é o endereço da página alvo
cabecalhos é para o servidor interpretar que é um browser Chrome que está fazendo a requisição GET
pagina é o retorno da nossa requisição
html é o nosso arquivo formatado pelo BeaultifulSoup
Aqui fazemos a extração da tabela que contém os dados que precisamos:
A variável tabela está recebendo a parte do html que contém a table com a classe std100 hover
Agora vamos extrair os cabeçalhos da tabela, lembrando que esses cabeçalhos são diferentes dos que usamos anteriormente na requisição da pagina!
Aqui a variável cabecalhos recebe todos os elementos th que existiam dentro da variável tabela
Saída:
Fazemos a extração apenas do texto que existe em cada elemento th
Saída:
Aqui pesquisamos todos os tr que existem dentro da variável tabela
Um trecho da saída:
Próximo passo é remover o M e % que existe em alguns td