Vitor Pamplona

Innovation on Vision: Imaging , Enhancement and Simulation

Anotação Automática de Imagens

  Algoritmos de anotação automática de imagens são formalmente descritos como: dado uma imagem I com características visuais V I = { v 1 , v 2 ,..., v n } e um conjunto de palavras-chave W I = { w 1 , w 2 ,..., w m }, encontre um subconjunto W p W I , que descreve apropriadamente a imagem I . Historicamente, estas anotações eram informadas por bibliotecários para cada imagem separadamente, um processo exaustivo e caro nos tempos atuais [Lavrenko et al.2003].

A área de Visão Computacional (VC) tem se esforçado em extrair o conjunto de características necessárias para representar uma imagem isolada. A similaridade de saliências entre várias imagens previamente anotadas permite identificar palavras-chave compartilhadas e, através da freqüência em que ocorrem, associar palavras-chaves diretamente às saliências. Apesar do avanço da área, as anotações manuais ainda são exigidas e os algoritmos dependem diretamente da qualidade destas anotações. Vale lembrar que o propósito dos algoritmos de visão computacional são diferentes dos de busca e anotação de imagens [Smeulders et al.2000]. Uma segmentação completa da imagem em objetos, como quer a VC, pode não melhorar a nomeação de palavras-chave relevantes.

Motivadas pelos serviços de busca, técnicas de recuperação de informações (RI) são utilizadas para refinar o conjunto de palavras-chave previamente identificado pela VC, acrescentando um índice de relevância à palavra-chave a fim de organizar os resultados de uma busca. Recentemente, técnicas de processamento de linguagem natural (PLN) estão sendo utilizadas para remover a classificação manual, substituindo-a por uma compilação do texto associado a imagem. As imagens isoladas possuem apenas informação léxica e sintática (posição de objetos, cores, freqüência, etc), enquanto que imagens associadas a um texto possuem informação temporal, semântica ou contextual. [Feng and Lapata2008].

Neste artigo, descrevo o modelo probabilista de Feng e Lapata [Feng and Lapata2008] que, através de técnicas conhecidas de VC e PLN, cria um estimador para as palavras-chave mais relevantes de uma imagem. O modelo assume apenas que há uma descrição da imagem e que pode haver um documento associado a imagem. Tanto a descrição da imagem quanto o texto possuem muito ruído. A validação do modelo foi feita utilizando um conjunto de notícias extraídas do site BBC News. Os resultados indicam que o modelo a ser descrito é, em média, 50% superior em todos as comparações com o estado da arte. Você pode acompanhar o artigo pela apresentação abaixo.

2     Alguns Trabalhos Relacionados

Até onde conhecemos, os trabalhos da área se classificam entre modelos de classificação, de co-ocorrência, de tradução, e de relevância. Vailaya et al. [Vailaya et al.2001] treinou classificadores Bayesianos para alguns contextos de alto nível a fim de categorizar as imagens em uma árvore semântica. As 6931 fotografias foram classificadas em 3 níveis: (i) em cenas internas e externas; (ii) as externas são subclassificadas em cidade e paisagem; as paisagens ainda podem ser (iii) pôr do sol, floresta ou montanha. O sistema alcançou 90,5% de acurácia no primeiro nível, 95% para o segundo e 96% para o terceiro. Smeulders [Smeulders et al.2000] fez um bom levantamento com mais de 200 referências sobre este tema.

O trabalho de Mori el al. [Mori et al.1999] gera anotações baseado na co-ocorrência de palavras a partir de uma segmentação regular da imagem. Duygulu et al. [Duygulu et al.2002] continuou o trabalho utilizando o normalized cuts [Shi and Malik1997], um método de segmentação que modela uma imagem como um grafo unidirecional, onde uma aresta é formada entre cada par de pixels e é associado um peso proporcional a similaridade destes pixels. Arestas similares transformam-se em um segmento. Cada segmento recebe uma assinatura baseado em suas características e esta assinatura é procurada em todas as outras imagens do banco de dados. Através de métodos probabilistas o modelo relaciona automaticamente palavras-chave e assinaturas.

Em uma linha diferente de trabalho, Jeon et al. [Jeon et al.2003] faz uma analogia à associação de palavras-chave em regiões de uma imagem. Segundo ele, o problema é muito semelhante ao problema de busca de textos multi-língua. Seu modelo de relevância entre línguas (CMRM) utiliza técnicas de tradução automática para anotar as imagens e organizá-las por relevância.

Lavrenko et al. [Lavrenko et al.2003] divide uma imagem em regiões e encontra um conjunto de características relevantes para cada região. Se difere dos anteriores por possuir uma parte contínua, por não fazer assunções sobre a estrutura topológica e por possibilitar nível de detalhe no processamento das regiões. Feng et al. [Feng et al.2004] continuou o trabalho aplicando uma segmentação regular sobre as imagens e considerando também a posição relativa entre as regiões. A segmentação regular, além de aumentar a performance do método, simplificou o modelo pois o número de segmentos é sempre o mesmo.

O modelo de Lavrenko et al. e sua continuação por Feng et al. [Feng et al.2004] é muito similar ao demonstrado neste artigo. O que os difere é a inclusão de uma probabilidade para anotar palavras-chave que não estão na descrição da imagem, mas sim em um documento relacionado a ela.

3     Modelo de Feng e Lapata

O método desenvolvido por Feng e Lapata [Feng and Lapata2008] é uma extensão ao modelo de anotações de relevância contínua de Lavrenko [Lavrenko et al.2003], onde as imagens isoladas anotadas manualmente foram substituídas por imagens em páginas de notícias que estão disponíveis livremente e em grande quantidade na internet. Os captions HTML das imagens sugerem as palavras-chave iniciais, dispensando a etapa de anotar imagens manualmente para treinamento do sistema. Feng e Lapata utilizam algoritmos de VC e PLN para melhorar e reorganizar estas palavras-chave.

Para ser válido, o modelo faz algumas assunções:

  • O captions HTML da imagem devem descrever diretamente ou indiretamente a imagem. Os captions podem ser denotativos, descrevendo os objetos na imagem, ou conotativos, indicando atitudes e ações apresentadas na imagem. Ambas são palavras-chave consistentes, mas nem todas as palavras dos captions são palavras-chave relevantes. Uma análise inicial identificou que os captions do banco utilizado (BBC News) descrevem o conteúdo da imagem em 90% das vezes.
  • Pode não ser possível nomear todos os objetos na imagem, mas os objetos mais relevantes devem constar na classificação. Como é um algoritmo de recuperação de informações e não de visão computacional, esta assunção não chega a causar problemas.
  • O documento associado a imagem descreve de alguma forma a imagem. Para artigos de notícia, isto geralmente é verdade.

3.1     Descrição do Modelo

O modelo estima para uma imagem não conhecida I , a probabilidade das palavras-chave W I e das regiões V I estarem relacionadas através da equação:  

Feng e Lapata
onde D é o número de tuplas (imagem, palavra) no banco de treinamento, V I são as características visuais que representam I , W I são as palavras-chave de I , s é uma tupla (imagem, palavra) e P ( s ) é a probabilidade de s definido como uma distribuição uniforme

onde N D é o número de tuplas no banco. Para estimar a probabilidade das regiões da imagem V I ocorrerem dado s tem-se um produtório de cada região v r da imagem I ocorrer dado que s ocorra.

onde N V I é o número de regiões na imagem I . Lavrenko et al. [Lavrenko et al.2003] assume uma distribuição gaussiana para as regiões:

onde n s v o número de regiões na imagem s , v i a assinatura para a região i em s , k a dimensão da assinatura e | ∑ | a matriz de covariância. Para simplificar, | ∑ | é assumida uma matriz diagonal (não há covariância) | ∑ | = β M , onde M é a matriz de identidade e β é um valor escalar otimizado para o conjunto de imagens.

Ao contrário de Lavrenko et al., Feng e Lapata estimaram a probabilidade das palavras W ocorrerem dado P ( W I | s ) através de uma binomial múltipla

onde P ( w | s ) denota a probabilidade do w - ésimo componente da ocorrer dado s . Para estimá-lo pode-se incluir o documento como

onde α é um parâmetro de suavização configurado durante o desenvolvimento, s a é uma anotação de s e s d é o documento correspondente. Esta equação suaviza a influência nas palavras-chave anotadas e permite corrigir o efeito negativo do ruído no banco de imagens. Como as imagens estão implicitamente anotadas com a tag caption do HTML, não há garantias que todas as palavras são apropriadas. Ao considerar P est ( w | s d ) é possível anotar uma imagem com uma palavra que aparece no documento mas não está incluída no texto.

Usando probabilidade frequentista, pode-se estimar P est ( w | s a )

onde µ é uma constante de suavização, b w , s a é 1 se w aparece em s a e 0 se w não aparece em s a e N w é um número de imagens que possuem w em sua anotação. O mesmo é feito com P est ( w | s d )

onde N w , s d é o número de vezes que w ocorre em s d e N s d é o número total de palavras no documento.

3.2     Implementação

O modelo foi treinado com 2881 documentos com imagem retirados do site da BBC News. Primeiramente, um part of speech tagger classificou as palavras e um lemmatizer as normalizou. Os autores removeram todas as palavras exceto substantivos, verbos e adjetivos. O vocabulário total ficou em 8309 palavras.

Para segmentar as imagens, os autores utilizaram um grid regular 6 x 5 a fim de evitar erros dos algoritmos de segmentação, simplificar a implementação e a estimativa de parâmetros. 46 características foram utilizadas para descrever cada região: média e desvio padrão dos componentes RGB, LUV, LAB; saída de uma transformacão DCT, saída de um Gabor filtering ; saída de um algoritmo de deteccão de borda, e a divisão entre o número de pixels de borda e não borda de cada região.

3.3     Resultados

O modelo desenvolvido tem uma precisão - número de anotações corretas pelo número total - de 14% se forem consideradas apenas as 10 palavras-chave com maior probabilidade e 9.72% com as melhores 20 palavras-chave. Avaliando o número de palavras-chave identificadas corretamente pelo número de palavras-chave identificadas manualmente para a mesma imagem, o modelo tem 27.95% com as melhores 10 palavras-chave e 36.77%. Em termos de comparacao, este modelo tem um ganho de 50% comparado com o método de Lavrenko et al [Lavrenko et al.2003] em precisão e recall , independente do número de palavras-chave utilizadas para a anotação.

4     Análise Crítica

Ainda há um amplo campo de pesquisa em classificação e anotação de imagens quando estas possuem um texto associado. O ruído presente no vocabulário é muito grande e as técnicas ainda se baseiam em palavras-chave isoladas, sem contexto semântico, temporal ou estrutura hierárquica. A informação contida no texto é aproveitada somente em termos sintáticos. Palavras que não são substantivos, verbos e advérbios são sumariamente removidas do modelo. Se assumirmos que texto de busca possui informação semântica, os algoritmos atuais não poderiam utilizar esta informação.

A etapa de segmentação e os algoritmos de identificação de características nas imagens, em todos os artigos lidos, podem ser melhorados. Tanto o grid regular quanto o normalized cuts tem suas limitações e a ambiguidade é grande. Algoritmos como o SIFT [Lowe2004], por exemplo, podem identificar características em imagem de uma maneira que o mesmo ponto característico pode ser escalado ou rotacionado que permanecerá com a mesma assinatura. Apesar de apresentar problemas com texturas, o método é muito mais preciso que as informações de cor utilizadas neste artigo.

Os modelos aqui descritos poderiam obter melhores resultados com o uso da wordnet para trabalhar com sinônimos, super-classes e especializações, gerando ao invés de palavras-chave isoladas, uma hierarquia com índice de relevância. Os algoritmos de categorização de imagens da VC também poderiam se beneficiar da wordnet, mesmo processando imagens isoladas.

Nenhum artigo relatou o uso de tradutores automáticos para criar palavras-chave em outras línguas e facilitar a pesquisa multi-língua. Na internet é possível que a mesma imagem seja utilizada em várias páginas diferentes. Seria interessante, então, verificar se há melhoria na anotação automática usando várias fontes para o texto e para o caption das palavras.

Referências

[ Duygulu et al. 2002]
P. Duygulu, K. Barnard, J. de Freitas, and D. Forsyth. 2002. Object recognition as machine translation: learning a lexicon for a fixed image vocabulary. In Proceedings of the 7th European Conference on Computer Vision , pages 97 – 112, Copenhagen, Danemark.
[ Feng and Lapata 2008]
Y. Feng and M. Lapata. 2008. Automatic image annotation using auxiliary text information. In Proceedings of ACL-08 HLT , pages 272 – 280.
[ Feng et al. 2004]
S. Feng, V. Lavrenko, and R. Manmatha. 2004. Multiple bernoulli relevance models for image and video annotation. In Proceedings of the International Conference on Computer Vision and Pattern Recognition , pages 1002 – 1009, Washington, DC.
[ Jeon et al. 2003]
J. Jeon, V. Lavrenko, and R. Manmatha. 2003. Automatic image annotation and retrieval using cross-media relevance models. In In Proceedings of the 26th Intl. ACM SIGIR Conf. Pages 119 – 126.
[ Lavrenko et al. 2003]
V. Lavrenko, R. Manmatha, and J. Jeon. 2003. A model for learning the semantics of pictures. In Proceedings of the 16th Conference on Advances in Neural Information Processing Systems , Vancouver, BC.
[ Lowe 2004]
D. G. Lowe. 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision , 60:91 – 110.
[ Mori et al. 1999]
Y. Mori, H. Takahashi, and R. Oka. 1999. Image-to-word transformation based on dividing and vector quantizing images with words. In Proceedings of the 1st International Workshop on Multimedia Intelligent Storage and Retrieval Management , Orlando, FL.
[ Shi and Malik 1997]
J. Shi and J.   Malik. 1997. Normalized cuts and image segmentation. IEEE Conference on Computer Vision and Pattern Recognition , pages 731 – 737.
[ Smeulders et al. 2000]
A. W. Smeulders, M. Worring, S. Santini, A. Gupta, and R. Jain. 2000. Content-based image retrieval at the end of the early years. IEEE Transactions on Pattern Analysis and Machine Intelligence , 22 (12): 1349 – 1380.
[ Vailaya et al. 2001]
A. Vailaya, M. Figueiredo, A. Jain, and H. Zhang. 2001. Image classification for content-based indexing. IEEE Transactions on Image Processing , 10:117 – 130.

Posted in Dec 18, 2008 by Vitor Pamplona - Edit - History

Showing Comments

Muito interessante seu blog. Parabéns.

http://demoniodemaxwell.wordpress.com /

- - Demônio de Maxwell

- - Posted in Dec 20, 2008 by 164.41.201.81

Add New Comment

Your Name:


Write the code showed above on the text below.