#rss rss

   nsu: no solo usabilidad journal 

   Portada Organización y Recuperación de Información

   17 de Abril de 2009

La Desambiguación del Sentido de las Palabras: revisión metodológica

     Resumen:
     Se presenta una revisión del tema de la desambiguación del sentido
     de las palabras, una tarea que se contextualiza en el conjunto de
     técnicas conocido como Procesamiento de Lenguaje Natural, que trata
     los fenómenos lingüísticos de diversa índole de forma automatizada
     mediante computadoras. La interpretación automática de un enunciado
     implica la correcta desambiguación de la palabra. La ambigüedad
     surge cuando una estructura gramatical puede ser interpretada de
     varias maneras o admitir distintas interpretaciones y dar, por
     consiguiente, motivo a confusión en el sentido de la oración.

1. Introducción

   La Desambiguación del Sentido de las Palabras (WSD: Word Sense
   Disambiguation), es una tarea que podemos contextualizar en un
   conjunto más amplio de técnicas llamado Procesamiento de Lenguaje
   Natural (PLN), que básicamente trata los fenómenos lingüísticos de
   diversa índole de forma automatizada mediante computadoras.

   WSD es una fase necesaria para la consecución de acciones como son el
   análisis sintáctico o la interpretación semántica en tareas del PLN,
   así como para el desarrollo de aplicaciones finales, tanto de
   recuperación de información, como de clasificación de textos, análisis
   de discurso, traducción automática o análisis gramatical, entre otras
   (Ide and Veronis, 1998). WSD es considerada como una 'tarea
   intermedia' en algunas actividades de PLN (Wilks and Stevenson, 1996),
   pero indispensable para lograr la mayoría de ellas.

   Una de las tareas más difíciles en el PLN es la resolución de la
   ambigüedad de las palabras. Esta resolución es necesaria en la medida
   en que una palabra pueda ser interpretada de diferentes formas, es
   decir, posea más de un significado o sentido (fenómeno lingüístico
   conocido como polisemia). Lo que persigue la WSD es la asignación
   automática de sentidos a las palabras de un texto.

   Determinar el sentido correcto de una palabra en un texto o en una
   conversación es una tarea cotidiana en la comunicación humana que rara
   vez causa problemas. En cambio, para una computadora se convierte en
   una tarea de enorme dificultad. Esto se debe a que las computadoras
   procesan los textos como un conjunto de palabras sin significado y/o
   valor. Para lograr la comprensión e interpretación adecuada de la
   información, es necesario analizar a fondo cada una de las palabras y
   así obtener la interpretación o sentido más apropiado.

   El contexto de la palabra es considerado como un conjunto de palabras
   que la acompañan, junto con las relaciones sintácticas y categorías
   semánticas (Vázquez et al., 2003). Es precisamente este contexto, el
   que parece haberse demostrado como el medio más eficaz para
   identificar el sentido de una palabra polisémica.

2. Clasificación de los métodos de WSD

   Actualmente existen dos categorías principales para la clasificación
   de los métodos empleados para la WSD: métodos basados en conocimiento
   y métodos basados en corpus.

2.1. Métodos basados en conocimiento

   Estos métodos utilizan un conocimiento lingüístico previamente
   adquirido. La idea básica consiste en utilizar recursos externos para
   desambiguar las palabras, tales como diccionarios, tesauros
   (vocabularios controlados que representan las relaciones semánticas
   con otros palabras y sus significados), textos sin ningún tipo de
   etiquetado e incluso recursos de la Web (Agirre et al., 2000). Los
   recursos utilizados por estos métodos son los conocidos como
   diccionarios MRD (Machine Readable Dictionaries) (Ide and Véronis,
   1998). Algunos diccionarios MRD son:
     * Longman Dictionary of Contemporary English (LDOCE)
     * Collins English Dictionary (CED) (http://www.collinslanguage.com/)

2.2. Métodos basados en corpus

   Estos métodos se basan en el uso de técnicas estadísticas y de
   aprendizaje automático para inducir modelos del lenguaje a partir de
   grandes conjuntos de ejemplos textuales (Pedersen, 2001). Por corpus
   se entiende una colección de textos, ya sean sobre un mismo tema o
   varios. El propósito de un corpus es servir de fuente de datos,
   proporcionando ejemplos de oraciones y ejemplos de uso de varias
   palabras para ser utilizados en algoritmos de aprendizaje automático.

   Los métodos basados en corpus pueden subdividirse en: métodos
   supervisados (corpus etiquetado) y métodos no supervisados (corpus no
   etiquetado). Es decir, en el aprendizaje supervisado se conoce la
   clase de cada elemento dentro del conjunto de aprendizaje (etiqueta de
   sentido) mientras que en el no supervisado la clasificación de los
   datos de entrenamiento no es conocida (Raghavan et al.,2008).

2.2.1. Métodos supervisados

   En este enfoque, la WSD se reduce a un problema de clasificación donde
   se asigna a una palabra objetivo el sentido más apropiado dado un
   conjunto de posibles combinaciones de las palabras de su contexto
   (Mihalcea and Pedersen, 2004). Es decir, estos métodos utilizan
   clasificadores o algoritmos de aprendizaje para llevar a cabo la
   desambiguación. Generalmente el proceso se divide en dos fases: el
   entrenamiento y la desambiguación de los sentidos (o clasificación en
   términos de aprendizaje automático).

2.2.2. Métodos no supervisados

   Al contrario que los métodos supervisados y los basados en
   conocimiento, los métodos no supervisados identifican patrones en los
   conjuntos de datos sin el beneficio de los datos etiquetados o de
   otros recursos como son los MRD (Stevenson, 2003) (Mihalcea and
   Pedersen, 2004). Estos patrones se utilizan para dividir los datos en
   grupos, donde cada uno de los miembros de un grupo posee varias
   características comunes con el resto de los miembros del mismo grupo.
   Este enfoque se basa en la hipótesis de que las palabras con
   significados similares tienden a tener contextos similares. El
   procedimiento general de este enfoque normalmente se basa en la
   selección de aquellas palabras que se desean discriminar con su
   respectivo contexto. A partir de estas palabras seleccionadas se
   realizan las agrupaciones basándose en el contexto de las palabras
   seleccionadas.

3. Recursos léxicos para la WSD

   Como hemos visto, los diccionarios electrónicos, tesauros y corpus son
   los principales recursos léxicos utilizados en PLN para la resolución
   de la ambigüedad. Los diccionarios electrónicos son bases de datos
   léxicas que agrupan grandes cantidades de palabras, proporcionando
   definiciones y almacenando las relaciones semánticas entre los
   conjuntos de palabras. A continuación se describen algunos recursos
   léxicos disponibles para la WSD.

3.1. Longman Dictionary of Contemporary English (LDOCE)

   Es uno de los diccionarios más ampliamente utilizados en esta área.
   Tiene aproximadamente 50,000 definiciones de palabras. Una de las
   características de LDOCE (http://www.ldoceonline.com) es la inclusión
   de etiquetas por área, las cuales pueden ser equivalentes a las
   etiquetas de dominio utilizadas para cada sentido de la palabra.
   Cuenta con una versión especialmente desarrollada para PLN, llamada
   LDOCE3 NLP database, muy utilizada en experimentos de WSD.

3.2. WordNet

   WordNet (http://wordnet.princeton.edu/) es un MRD para el idioma
   inglés (Miller et al., 1990), (Fellbaum, 1998), (Harabagui et al.,
   1999), que se ha convertido en uno de los recursos más valiosos para
   el PLN.

   Este recurso posee una base de datos que agrupa las palabras en
   conjuntos de sinónimos llamados synsets y provee definiciones,
   comentarios y ejemplos de uso de estas palabras y sus sentidos. De
   esta manera, combina los elementos de un diccionario (definiciones y
   algunos ejemplos) y los de un tesauro (sinónimos). Actualmente, el
   tesauro WordNet contiene alrededor de 155,000 palabras organizadas en
   más de 117,000 synsets formando un total de más de 206,000
   definiciones y sentidos. WordNet maneja 4 categorías léxicas (o tipos
   de partes de la oración) en sus synsets: sustantivos, verbos,
   adjetivos y adverbios.

3.3. WordNet Domains

   Con el paso del tiempo se han ido generando diversos recursos para el
   Procesamiento del Lenguaje Natural (PLN) en forma de corpus anotados
   semánticamente, etiquetas de dominio, concordancias, etc.

   WordNet Domains (http://wndomains.itc.it/) (Magnini and Strapparava,
   2000) es un conjunto de etiquetas de dominio que catalogan sentidos de
   nombres de WordNet versión 1.6 (WN1.6). Algunos investigadores
   (Magnini and Strapparava, 2000), (Montoyo et al., 2001) proponen la
   utilización de etiquetas de dominio, que sin ser tan minuciosas como
   los synsets, no son tan generales como las categorías lexicográficas.
   Las etiquetas son listas de descriptores utilizados para clasificar
   noticias de prensa o para la catalogación bibliográfica. Actualmente,
   ciertas tareas de búsqueda y clasificación automatizada de documentos
   parecen más abordables desde el punto de vista de estos lexicones, e
   incluso más eficaces. Los desarrolladores de WordNet Domains (Magnini
   et al., 2001) tienen la intención de que éste sea útil tanto para WSD
   como para toda tarea a la que se quiera incorporar semántica.

3.4. EuroWordNet

   EuroWordNet (http://www.illc.uva.nl/EuroWordNet) es una base de datos
   léxica multilingüe con relaciones semánticas entre las palabras de
   varios idiomas de la comunidad europea: inglés, holandés, español,
   italiano, alemán, francés, checo y estonio (Vossen, 1998). Esta base
   de datos se estructura en forma de redes semánticas formadas por
   unidades denominadas synsets. El carácter multilingüe de EuroWordNet
   requiere una estructura adicional que permita interconectar los
   synsets de idiomas diferentes. Esta estructura es un
   Inter-Lingual-Index (ILI) (Vossen et al., 1999) que representa una
   lista no estructurada de conceptos (ILI-records) independiente del
   idioma. Estos conceptos constituyen un superconjunto de los conceptos
   que aparecen en las distintas redes de cada idioma.

3.5. SemCor (SEMantic COncoRdance)

   Como hemos visto, en el procesamiento del lenguaje natural los
   ejemplos son representados por colecciones de textos en lenguaje
   natural que adoptan el nombre de corpus, que pueden estar anotados o
   etiquetados con información adicional. El corpus SemCor
   (http://multisemcor.itc.it/) (Miller et al., 1994), contiene
   aproximadamente 700,000 palabras, cada una etiquetada con un concepto
   de WordNet.

   En SemCor todas las palabras están etiquetas gramaticalmente y más de
   200,000 están también lematizadas y etiquetadas por su sentido de
   acuerdo a WordNet 1.6. SemCor está compuesto por 352 textos, de los
   cuales 186 textos contienen palabras de clase abierta (sustantivos,
   verbos, adjetivos y adverbios) y están anotados gramaticalmente,
   lematizados y con su sentido. En los 166 textos restantes, solamente
   los verbos han sido anotados con lemas y sentidos. Ha sido adaptado y
   usado para evaluar tareas de Recuperación de Información (Gonzalo et
   al., 1998), y para evaluar la categorización de textos (Petridis et
   al., 2001). No existe otra colección etiquetada con información
   conceptual con tanto detalle, por lo que resulta un recurso muy
   valioso en tareas de desambiguación mediante corpus.

3.6. Senseval

   Los congresos de Senseval (http://www.senseval.org/) tienen como
   principal objetivo la organización de tareas de evaluación y
   validación de sistemas de WSD con respecto a la desambiguación de
   determinadas palabras, diferentes aspectos de un idioma, distintos
   idiomas y diferentes aplicaciones. Senseval pone a disposición de los
   investigadores un conjunto de datos (corpus) para el entrenamiento y
   prueba de los sistemas.

   Por ejemplo en Senseval-3 el conjunto de datos English all words
   contiene aproximadamente 5000 palabras de textos que se han extraído
   de dos artículos de Wall Street Journal y un extracto de The Brown
   Corpus (Snyder and Palmer, 2004), etiquetadas de acuerdo a Penn
   Treebank II (Marcus et al., 1993) y coherentes con los sentidos de
   WordNet 1.7.1. El conjunto de datos para la tarea English lexical
   sample proporciona, tanto para entrenamiento y prueba, alrededor de 60
   sustantivos, adjetivos y verbos ambiguos. Los ejemplos son extraídos
   del British National Corpus (http://www.natcorp.ox.ac.uk/). El
   diccionario utilizado para el inventario de los sentidos para
   sustantivos y adjetivos fue WordNet 1.7.1, y para los sentidos de los
   verbos se usó el diccionario Wordsmyth (www.wordsmyth.net/) (Mihalcea
   et al., 2004).

4. Conclusiones

   En este artículo se ha presentado una revisión del tema de
   Desambiguación del Sentido de las Palabras, en el que se ha descrito
   la problemática de la ambigüedad de las palabras en los textos, las
   ventajas de su resolución, la clasificación de los métodos utilizados
   para la resolución de la WSD, así como los principales recursos
   léxicos disponibles para realizar la tarea de WSD dentro del
   Procesamiento del Lenguaje Natural.

   Cabe mencionar que la mayoría de los recursos léxicos solo están
   disponibles para el idioma inglés.

5. Bibliografía

   Agirre, E., O. Ansa, E. Hovy, and D. Martínez. (2000). "Enriching very
   large ontologies using the WWW". In Proceedings of the Ontology
   Learning Workshop. Berlin: ECAI, 2000.

   Fellbaum, C. (1998). "WordNet: an Electronic Lexical Database". USA:
   The MIT Press, 1998.

   Gonzalo, J., F. Verdejo, I. Chugur, and J. Cigarran. (1998). "Indexing
   with wordnet synsets can improve text retrieval". In Proceedings of
   the COLING/ACL Workshop on Usage of WordNet in Natural Language
   Processing Systems. Canada: ACL, 1998.

   Harabagui, S., G. Miller, and D. Moldovan. (1999). "Wordnet: A
   morphologically and semantically enhanced resource". In Proceedings of
   the SIGLEX Workshop. USA: ACL, 1999.

   Ide, N. and J. Véronis. (1998). "Word sense disambiguation: The state
   of the art". Computational Linguistics, 24(1998): 1-40.

   Magnini, B. and C. Strapparava. (2000). "Experiments in word domain
   disambiguation for parallel texts". In Proceedings of the ACL Workshop
   on Word Senses and Multilinguality. Hong Kong, China: ACL, 2000.

   Magnini, B., C. Strapparava, G. Pezzulo, and A. Gliozzo. (2001).
   "Using domain information for word sense disambiguation". In
   Proceedings of the 2nd International Workshop on Evaluating Word Sense
   Disambiguation Systems (SENSEVAL-2). France: ACL, 2001.

   Marcus, M. P., B. Santorini, and M. A. Marcinkiewicz. (1993).
   "Building a large annotated corpus of english: The penn Treebank".
   Computational Linguistics, 2-19(1993): 313-330.

   Mihalcea, R. and T. Pedersen. (2004). "Advances on word sense
   disambiguation". In IX Ibero-American Conference on Artificial
   Intelligence (IBERAMIA) 2004. Puebla, México: Springer, 2004.

   Mihalcea, R., T. Chklovski, and A. Kilgarriff. (2004). "The senseval-3
   english lexical sample task." In Rada Mihalcea and Phil Edmonds,
   editors: Senseval-3: Third International Workshop on the Evaluation of
   Systems for the Semantic Analysis of Text. Barcelona, Spain: ACL,
   2004.

   Miller, G.A., M. Chodorow, S. Landes, C. Leacock, and R. Thomas.
   (1994). "Using a semantic concordance for sense identification". In
   Proceedings of the ARPA Workshop on Human Language Technology.
   Plainsboro, NJ: ACL, 1994.

   Miller, G.A., R. Beckwith, C. Fellbaum, D. Gross, and K. Miller.
   (1990). "Introduction to wordnet: An on-line lexical database".
   International Journal of Lexicography, 4-3(1990): 235-244.

   Montoyo, A., M. Palomar, and G. Rigau. (2001). "Wordnet enrichment
   with classification systems". In Proceedings of WordNet and Other
   Lexical Resources: Applications, Extensions and Customisations
   Workshop (NAACL-01). Pittsburgh, USA: ACL, 2001.

   Pedersen, T. (2001). "A decision tree of bigrams is an accurate
   predictor of word sense". In Proceedings of the Second Annual Meeting
   of the North American Chapter of the Association for Computational
   Linguistics. Pittsburgh, USA: ACL, 2001.

   Petridis, V., V. Kaburlasos, P. Fragkou, and A. Kehagias. (2001).
   "Text classification using the sigma-flnmap neural network". In
   Proceedings of the 2001 International Joint Conference on Neural
   Networks, 2001.

   Raghavan, P., C. Manning, and H. Schütze. (2008). "Introduction to
   Information Retrieval". New York: Cambridge University Press, 2008.

   Snyder, B. and M. Palmer. (2004). "The english all-words task". In
   Rada Mihalcea and Phil Edmonds, editors: Senseval-3: Third
   International Workshop on the Evaluation of Systems for the Semantic
   Analysis of Text. Barcelona, Spain: Association for Computational
   Linguistics, 2004.

   Stevenson, M. (2003). "Word sense disambiguation: The case for
   combinations of knowledge sources". Cambridge, UK: CSLI
   Publications-Cambridge Universit Press, 2003.

   Suárez, A. and M. Palomar. (2002). "Desambiguación del sentido y del
   dominio de las palabras con modelos de probabilidad de máxima
   entropía". Procesamiento del Lenguaje Natural, 28(2002): 45-53.

   Vázquez, S., A. Montoyo, and G. Rigau. (2003). "Método de
   desambiguación léxica basada en el recurso léxico : dominios
   relevantes". Procesamiento del Lenguaje Natural, 31(2003): 141-148.

   Vossen, P. (1998). "Introduction to EuroWordNet". Kluwer Academic
   Publishers, Norwell, MA, USA. 1998.

   Vossen, P., W. Peters, and J. Gonzalo. (1999). "Towards a universal
   index of meaning". In Proceedings of ACL/SIGLEX'99: Standarizing
   Lexical Resources. USA: ACL, 1999.

   Wilks, Y. and M. Stevenson. (1996). "The grammar of sense: Is
   word-sense tagging much more than part-of-speech tagging?". CoRR,
   cmp-lg/9607028, 1996.

   Autor/a:

   Edgar Tello Leal

   Profesor de Tiempo Completo del programa educativo de Ingeniería en
   Sistemas Computacionales en la Unidad Académica de Ciencias de la
   Salud y Tecnología de la Universidad Autónoma de Tamaulipas en México.

   Licenciado en Computación Administrativa (TI) por la Facultad de
   Comercio y Administración-Victoria de la Universidad Autónoma de
   Tamaulipas, México (UAT). Microsoft Certified Systems Administrator
   (MCSA) y Cisco Certified Network Associate (CCNA). Master en Docencia
   por la Universidad Autónoma de Tamaulipas, aspirante al Doctorado en
   Ciencias Computacionales y actualmente realiza una estancia de
   investigación en el Laboratorio de Tecnologías de Información del
   CINVESTAV-Unidad Tamaulipas. Ha dictado cursos de gestión de redes de
   cómputo y seguridad en redes de cómputo. Los principales temas de
   investigación son seguridad en redes inalámbricas, protocolos de
   seguridad, desambiguación del sentido de las palabras y la brecha
   digital en México.

   email:etello@uat.edu.mx

   Citación recomendada:

   Tello Leal, Edgar; (2009). La Desambiguación del Sentido de las
   Palabras: revisión metodológica. En: No Solo Usabilidad, nº 8, 2009.
   <nosolousabilidad.com>. ISSN 1886-8592

   mini-logo nsu 
   No Solo Usabilidad journal - ISSN 1886-8592. Todos los derechos
   reservados, 2003-2009
   email: info (arroba) nosolousabilidad.com