Utilização de ferramentas de web scraping para mineração automatizada de notícias


Edição: XIII JIC - 2020

ID: 1275

Participantes:

  • [VOLUNTARIO] - Gabriela Vieira Martins | gabimartins969@gmail.com
  • [ORIENTADOR] - Roberto Irajá Tavares da Costa Filho | robertocosta@charqueadas.ifsul.edu.br

Número de Registro: PE03190619/083

Campus: Charqueadas

Nível: Ensino Médio

Área: Ciências Exatas e da Terra

Temática: Multidisciplinar


Resumo

A rápida propagação das notícias falsas (também conhecidas por fake news) consiste em um fenômeno de escala global que amplifica a desinformação e reduz o impacto de notícias verdadeiras. Uma vez que as pessoas estão cada vez mais polarizadas, e com alta rejeição a tudo que é contrário ao seu pensamento, a propagação de notícias falsas acaba se manifestando como uma consequência do desejo dos indivíduos de reforçar o seu ponto de vista. Este trabalho está inserido em um projeto maior que objetiva empregar aprendizado de máquina para inferir a probabilidade de uma notícia ser falsa. Mais precisamente, o presente trabalho visa construir, por meio de um Web Scraping, um coletor automatizado de notícias previamente classificadas. De forma complementar ao cadastro manual de notícias, a coleta automatizada confere maior escalabilidade ao sistema de treinamento do aprendizado de máquina. Para realizar esse projeto, foi construído um script na linguagem Python, empregando o framework Scrapy, muito utilizado para fazer o mapeamento de sites. Esse script realiza o mapeamento de sites através das Tags HTML. Em um segundo momento, os testes foram realizados em sites selecionados de notícias, buscando sites que possuam um padrão bem definido de estrutura HTML para todas as notícias. Como principais resultados é possível destacar o estudo do sistema operacional Linux; estudo do framework Scrapy; estudo e implementação de um script em Python, usando a framework Scrapy; além da realização de testes do script em sites de notícias. A elaboração da ferramenta para coleta automatizada de notícias, apesar das dificuldades enfrentadas, permitiu um aprendizado significativo sobre tecnologias especializadas que não são abordadas ao longo do curso técnico em informática.

Palavras-chave

mineração de dados;automatização; web scraping

Banner

Clique aqui para abrir o banner.

Vídeo/Pitch

Caso o vídeo não abra, clique aqui.

Realização

Apoio e Sistema

PROPESP - Pró-reitoria de Pesquisa, Inovação e Pós-graduação

R. Gonçalves Chaves, 3218 - Centro
Pelotas-RS/Brasil - CEP 96015-560

R. General Balbão, 81 - Centro
Charqueadas-RS/Brasil - CEP 96745-000

+55 53 30266091

jic@ifsul.edu.br