UMA APLICAÇÃO DE BIG DATA PARA CLASSIFICAÇÃO DE SENTENÇAS DEPRESSIVAS DO TWITTER

José Walmir Gonçalves Duque; Abner Lucas Raymundo; Pedro Ferreira Neto

José Walmir Gonçalves Duque
Abner Lucas Raymundo
Pedro Ferreira Neto

Palavras-chave: Big Data, Processamento de Linguagem Natural, Análise de Sentimento, Mineração de Texto

Resumo

Com o crescente número de casos de depressão, foi pensada uma aplicação de Inteligência Artificial que, utilizando-se Processamento de Linguagem Natural, realizasse Análise de Sentimentos em publicações da rede social Twitter e, então, identificasse se um texto contém uma mensagem depressiva. Portanto, este trabalho tem por objetivo desenvolver um protótipo de software que possa ser um classificador que, ao receber um texto livre, seja capaz de identificar padrões depressivos. Para a realização deste trabalho, foi utilizada a linguagem Python com a biblioteca NLTK, a qual é alicerçada no teorema de Naive Bayes. Para criar a base de dados de teste, foram utilizados 1200 tweets coletados de Big Data de terceiros, que foram classificados manualmente. Em seguida foi realizado um tratamento dessa lista, composto pelas fases de remoção de stopwords, palavras que não possuem peso na análise, e de extração de radical, para melhor aproveitamento do vocabulário. Com a base de treinamento já tratada, foi realizado o treinamento do algoritmo. Para validar o algoritmo, foi utilizada uma base de testes com 120 tweets, quando foi realizada comparação entre resultados já esperados da base de testes e os gerados pela inteligência - foi alcançado índice de 75% de acerto. Assim, comprovou-se a possibilidade de identificar pessoas que publicam frequentemente textos depressivos em uma rede social por meio de algoritmo inteligente. Palavras