Recuperação de Informações em Campos de Texto Livres de Prontuários Eletrônicos do Paciente Baseada em Semelhança Semântica e Ortográfica

Amilton Souza Martha, Daniel Sigulem, Carlos José Reis de Campos

Resumo


A maior parte da informação médica em forma digital se encontra na forma de textos livres como nos sites de medicina e saúde, artigos científicos em banco de dados da literatura biomédica e em prontuários eletrônicos do paciente (PEP). Muitos problemas podem ocorrer em sistemas de recuperação de informações médicas como o uso de sinonímia, erros de digitação e variações semânticas na linguagem médica. Para analisar a quantidade de informações que são perdidas em sistemas de busca tradicionais, que fazem um busca do termo exato, foram selecionados 34 termos médicos de duas bases de dados de PEPs e pesquisados com um algoritmo tradicional de busca direta embutido em um PEP chamado Clinic Manager? e um sistema desenvolvido batizado SIRIMED que embutiu algoritmos de semelhança semântica (incorporação de sinônimos) e semelhança ortográfica (edit distance+stemming).
Os resultados mostram que a recuperação dos termos aumenta em cerca de 30% em relação à busca tradicional, com uma quantidade de falsos positivos baixa (menos de 1%), o que mostra que muitas informações são perdidas normalmente.

Palavras-chave


information retrieval; approximate string matching; semantic similarity; free texts

Texto completo: PDF


Journal of Health Informatics - ISSN 2175-4411
Rua Tenente Gomes Ribeiro, 57 - sala 33 CEP 04038-040 São Paulo - SP - Brasil
Tel./Fax: + 55 11 3791 3343 - E-mail: jhi@sbis.org.br