Identificação automática de termos de domínio do consumidor em saúde

Josceli Maria Tenório, Ivan Torres Pisa

Resumo


Objetivo: Deste estudo é descrever um processo de identificação automática de termos candidatos a partir de conteúdos disponíveis na web para fins de construção de um CHV no idioma português-brasileiro. Método: Inicialmente realizou-se recuperação de conteúdos da web, especificamente por meio de notícias curtas provenientes de feeds Really Simple Syndication (RSS). Como segunda etapa foram organizados vocabulários de controle baseados em CID-10 e Wikipédia, e finalmente foram aplicadas técnicas de análise de textos para fins de identificação e classificação de termos candidatos. Resultados: Foram recuperados 128 termos por meio do vocabulário controlado CID-10. O vocabulário Wikipédia resultou em 411 termos distintos. Os termos foram classificados utilizando a métrica estatística tf-idf possibilitando uma análise de sua relevância. Conclusão: A utilização e análise de conteúdos jornalísticos disponíveis na web podem apoiar significativamente o desenvolvimento de um CHV.

Palavras-chave


Vocabulário controlado; Vocabulário; Informática aplicada à saúde dos consumidores

Texto completo: PDF


Journal of Health Informatics - ISSN 2175-4411
Rua Tenente Gomes Ribeiro, 57 - sala 33 CEP 04038-040 São Paulo - SP - Brasil
Tel./Fax: + 55 11 3791 3343 - E-mail: jhi@sbis.org.br