InDeCS: Método automatizado de classificação de páginas Web de Saúde usando mineração de texto e Descritores em Ciências da Saúde (DeCS)

Alex Esteves Jaccoud Falcão, Felipe Mancini, Thiago Martini da Costa, Anderson Diniz Hummel, Fabio Oliveira Teixeira, Daniel Sigulem, Ivan Torres Pisa

Resumo


Introdução: A quantidade de páginas web tem crescido exponencialmente, potencialmente levando conhecimento a mais pessoas, mas com a desvantagem de dificultar a localização de informação relevante e confiável. Objetivo: Apresentar resultados sobre a construção de um método automatizado de classificação e indexação de páginas web de saúde. Métodos: Foram selecionados endereços de páginas web classificadas manualmente como “saúde” e “não-saúde”. Em uma segunda etapa foi calculada a similaridade dos termos do conteúdo destas páginas web com os Descritores de Ciência em Saúde (DeCS). Utilizando os valores de similaridade foram desenvolvidos e ajustados parâmetros de classificadores automatizados. Resultados: Para os experimentos foram coletadas 1.132 páginas web, separadas nas bases “saúde”, “não-saúde” e “Merck”, gerando mais de 3 milhões de composições até 3-gramas. Experimento usando as bases “saúde” e “não-saúde” resultou acerto, sensibilidade, especificidade e área sob a curva ROC de, respectivamente, 85,10%; 0,81; 0,88 e 0,92. Experimento usando as bases “Merck” e “não-saúde” resultou, respectivamente, 97,44%; 0,92; 1,00 e 0,98. Conclusão: Os resultados preliminares da investigação sobre o uso de métricas da mineração de texto e vocabulários controlados para aperfeiçoar o resultado de buscadores web especificamente para a área da saúde se mostraram significativos. 

Palavras-chave


Internet; Saúde; Classificação; Inteligência Artificial; Sistemas de Recuperação de Informação

Texto completo: PDF


Journal of Health Informatics - ISSN 2175-4411
Rua Tenente Gomes Ribeiro, 57 - sala 33 CEP 04038-040 São Paulo - SP - Brasil
Tel./Fax: + 55 11 3791 3343 - E-mail: jhi@sbis.org.br