"Portada Organizaci Recuperacie Informaci
17 de Abril de 2009
La Desambiguaciel Sentido de las Palabras: revisietodola
Resumen:Se presenta una revisiel tema de la desambiguaciel sentido de las palabras, una tarea que se contextualiza en el conjunto de ticas conocido como Procesamiento de Lenguaje Natural, que trata los fenos lingos de diversa ole de forma automatizada mediante computadoras. La interpretaciutomca de un enunciado implica la correcta desambiguacie la palabra. La ambigsurge cuando una estructura gramatical puede ser interpretada de varias maneras o admitir distintas interpretaciones y dar, por consiguiente, motivo a confusin el sentido de la oraci
1. IntroducciLa Desambiguaciel Sentido de las Palabras (WSD: Word Sense Disambiguation), es una tarea que podemos contextualizar en un conjunto mamplio de ticas llamado Procesamiento de Lenguaje Natural (PLN), que bcamente trata los fenos lingos de diversa ole de forma automatizada mediante computadoras.
WSD es una fase necesaria para la consecucie acciones como son el ansis sintico o la interpretaciemica en tareas del PLN, asomo para el desarrollo de aplicaciones finales, tanto de recuperacie informacicomo de clasificacie textos, ansis de discurso, traducciutomca o ansis gramatical, entre otras (Ide and Veronis, 1998). WSD es considerada como una 'tarea intermedia' en algunas actividades de PLN (Wilks and Stevenson, 1996), pero indispensable para lograr la mayorde ellas.
Una de las tareas mdifles en el PLN es la resolucie la ambigde las palabras. Esta resolucis necesaria en la medida en que una palabra pueda ser interpretada de diferentes formas, es decir, posea mde un significado o sentido (feno lingo conocido como polisemia). Lo que persigue la WSD es la asignaciutomca de sentidos a las palabras de un texto.
Determinar el sentido correcto de una palabra en un texto o en una conversacis una tarea cotidiana en la comunicaciumana que rara vez causa problemas. En cambio, para una computadora se convierte en una tarea de enorme dificultad. Esto se debe a que las computadoras procesan los textos como un conjunto de palabras sin significado y/o valor. Para lograr la comprensi interpretacidecuada de la informacies necesario analizar a fondo cada una de las palabras y asbtener la interpretaci sentido mapropiado.
El contexto de la palabra es considerado como un conjunto de palabras que la acompa junto con las relaciones sinticas y categor semicas (Vuez et al., 2003). Es precisamente este contexto, el que parece haberse demostrado como el medio meficaz para identificar el sentido de una palabra polisca.
2. Clasificacie los mdos de WSD
Actualmente existen dos categor principales para la clasificacie los mdos empleados para la WSD: mdos basados en conocimiento y mdos basados en corpus.
2.1. Mdos basados en conocimiento
Estos mdos utilizan un conocimiento lingo previamente adquirido. La idea bca consiste en utilizar recursos externos para desambiguar las palabras, tales como diccionarios, tesauros (vocabularios controlados que representan las relaciones semicas con otros palabras y sus significados), textos sin ningpo de etiquetado e incluso recursos de la Web (Agirre et al., 2000). Los recursos utilizados por estos mdos son los conocidos como diccionarios MRD (Machine Readable Dictionaries) (Ide and Vnis, 1998). Algunos diccionarios MRD son:
Longman Dictionary of Contemporary English (LDOCE) Collins English Dictionary (CED) (http://www.collinslanguage.com/)
2.2. Mdos basados en corpus
Estos mdos se basan en el uso de ticas estadicas y de aprendizaje automco para inducir modelos del lenguaje a partir de grandes conjuntos de ejemplos textuales (Pedersen, 2001). Por corpus se entiende una coleccie textos, ya sean sobre un mismo tema o varios. El propo de un corpus es servir de fuente de datos, proporcionando ejemplos de oraciones y ejemplos de uso de varias palabras para ser utilizados en algoritmos de aprendizaje automco.
Los mdos basados en corpus pueden subdividirse en: mdos supervisados (corpus etiquetado) y mdos no supervisados (corpus no etiquetado). Es decir, en el aprendizaje supervisado se conoce la clase de cada elemento dentro del conjunto de aprendizaje (etiqueta de sentido) mientras que en el no supervisado la clasificacie los datos de entrenamiento no es conocida (Raghavan et al.,2008).
2.2.1. Mdos supervisados
En este enfoque, la WSD se reduce a un problema de clasificacionde se asigna a una palabra objetivo el sentido mapropiado dado un conjunto de posibles combinaciones de las palabras de su contexto (Mihalcea and Pedersen, 2004). Es decir, estos mdos utilizan clasificadores o algoritmos de aprendizaje para llevar a cabo la desambiguaciGeneralmente el proceso se divide en dos fases: el entrenamiento y la desambiguacie los sentidos (o clasificacin tinos de aprendizaje automco).
2.2.2. Mdos no supervisados
Al contrario que los mdos supervisados y los basados en conocimiento, los mdos no supervisados identifican patrones en los conjuntos de datos sin el beneficio de los datos etiquetados o de otros recursos como son los MRD (Stevenson, 2003) (Mihalcea and Pedersen, 2004). Estos patrones se utilizan para dividir los datos en grupos, donde cada uno de los miembros de un grupo posee varias caractericas comunes con el resto de los miembros del mismo grupo. Este enfoque se basa en la hipis de que las palabras con significados similares tienden a tener contextos similares. El procedimiento general de este enfoque normalmente se basa en la seleccie aquellas palabras que se desean discriminar con su respectivo contexto. A partir de estas palabras seleccionadas se realizan las agrupaciones basose en el contexto de las palabras seleccionadas.
3. Recursos lcos para la WSD
Como hemos visto, los diccionarios electros, tesauros y corpus son los principales recursos lcos utilizados en PLN para la resolucie la ambig Los diccionarios electros son bases de datos lcas que agrupan grandes cantidades de palabras, proporcionando definiciones y almacenando las relaciones semicas entre los conjuntos de palabras. A continuacie describen algunos recursos lcos disponibles para la WSD.
3.1. Longman Dictionary of Contemporary English (LDOCE)
Es uno de los diccionarios mampliamente utilizados en esta a. Tiene aproximadamente 50,000 definiciones de palabras. Una de las caractericas de LDOCE (http://www.ldoceonline.com) es la inclusie etiquetas por a, las cuales pueden ser equivalentes a las etiquetas de dominio utilizadas para cada sentido de la palabra. Cuenta con una versispecialmente desarrollada para PLN, llamada LDOCE3 NLP database, muy utilizada en experimentos de WSD.
3.2. WordNet
WordNet (http://wordnet.princeton.edu/) es un MRD para el idioma ingl(Miller et al., 1990), (Fellbaum, 1998), (Harabagui et al., 1999), que se ha convertido en uno de los recursos mvaliosos para el PLN.
Este recurso posee una base de datos que agrupa las palabras en conjuntos de sinos llamados synsets y provee definiciones, comentarios y ejemplos de uso de estas palabras y sus sentidos. De esta manera, combina los elementos de un diccionario (definiciones y algunos ejemplos) y los de un tesauro (sinos). Actualmente, el tesauro WordNet contiene alrededor de 155,000 palabras organizadas en mde 117,000 synsets formando un total de mde 206,000 definiciones y sentidos. WordNet maneja 4 categor lcas (o tipos de partes de la oracien sus synsets: sustantivos, verbos, adjetivos y adverbios.
3.3. WordNet Domains
Con el paso del tiempo se han ido generando diversos recursos para el Procesamiento del Lenguaje Natural (PLN) en forma de corpus anotados semicamente, etiquetas de dominio, concordancias, etc.
WordNet Domains (http://wndomains.itc.it/) (Magnini and Strapparava, 2000) es un conjunto de etiquetas de dominio que catalogan sentidos de nombres de WordNet versi.6 (WN1.6). Algunos investigadores (Magnini and Strapparava, 2000), (Montoyo et al., 2001) proponen la utilizacie etiquetas de dominio, que sin ser tan minuciosas como los synsets, no son tan generales como las categor lexicogrcas. Las etiquetas son listas de descriptores utilizados para clasificar noticias de prensa o para la catalogaciibliogrca. Actualmente, ciertas tareas de bda y clasificaciutomatizada de documentos parecen mabordables desde el punto de vista de estos lexicones, e incluso meficaces. Los desarrolladores de WordNet Domains (Magnini et al., 2001) tienen la intencie que e sea tanto para WSD como para toda tarea a la que se quiera incorporar semica.
3.4. EuroWordNet
EuroWordNet (http://www.illc.uva.nl/EuroWordNet) es una base de datos lca multiling relaciones semicas entre las palabras de varios idiomas de la comunidad europea: ingl holand espa italiano, alem franc checo y estonio (Vossen, 1998). Esta base de datos se estructura en forma de redes semicas formadas por unidades denominadas synsets. El carer multilingEuroWordNet requiere una estructura adicional que permita interconectar los synsets de idiomas diferentes. Esta estructura es un Inter-Lingual-Index (ILI) (Vossen et al., 1999) que representa una lista no estructurada de conceptos (ILI-records) independiente del idioma. Estos conceptos constituyen un superconjunto de los conceptos que aparecen en las distintas redes de cada idioma.
3.5. SemCor (SEMantic COncoRdance)
Como hemos visto, en el procesamiento del lenguaje natural los ejemplos son representados por colecciones de textos en lenguaje natural que adoptan el nombre de corpus, que pueden estar anotados o etiquetados con informacidicional. El corpus SemCor (http://multisemcor.itc.it/) (Miller et al., 1994), contiene aproximadamente 700,000 palabras, cada una etiquetada con un concepto de WordNet.
En SemCor todas las palabras estetiquetas gramaticalmente y mde 200,000 esttambilematizadas y etiquetadas por su sentido de acuerdo a WordNet 1.6. SemCor estompuesto por 352 textos, de los cuales 186 textos contienen palabras de clase abierta (sustantivos, verbos, adjetivos y adverbios) y estanotados gramaticalmente, lematizados y con su sentido. En los 166 textos restantes, solamente los verbos han sido anotados con lemas y sentidos. Ha sido adaptado y usado para evaluar tareas de Recuperacie InformaciGonzalo et al., 1998), y para evaluar la categorizacie textos (Petridis et al., 2001). No existe otra coleccitiquetada con informacionceptual con tanto detalle, por lo que resulta un recurso muy valioso en tareas de desambiguaciediante corpus.
3.6. Senseval
Los congresos de Senseval (http://www.senseval.org/) tienen como principal objetivo la organizacie tareas de evaluaci validacie sistemas de WSD con respecto a la desambiguacie determinadas palabras, diferentes aspectos de un idioma, distintos idiomas y diferentes aplicaciones. Senseval pone a disposicie los investigadores un conjunto de datos (corpus) para el entrenamiento y prueba de los sistemas.
Por ejemplo en Senseval-3 el conjunto de datos English all words contiene aproximadamente 5000 palabras de textos que se han extra de dos artlos de Wall Street Journal y un extracto de The Brown Corpus (Snyder and Palmer, 2004), etiquetadas de acuerdo a Penn Treebank II (Marcus et al., 1993) y coherentes con los sentidos de WordNet 1.7.1. El conjunto de datos para la tarea English lexical sample proporciona, tanto para entrenamiento y prueba, alrededor de 60 sustantivos, adjetivos y verbos ambiguos. Los ejemplos son extras del British National Corpus (http://www.natcorp.ox.ac.uk/). El diccionario utilizado para el inventario de los sentidos para sustantivos y adjetivos fue WordNet 1.7.1, y para los sentidos de los verbos se us diccionario Wordsmyth (www.wordsmyth.net/) (Mihalcea et al., 2004).
4. Conclusiones
En este artlo se ha presentado una revisiel tema de Desambiguaciel Sentido de las Palabras, en el que se ha descrito la problemca de la ambigde las palabras en los textos, las ventajas de su resolucila clasificacie los mdos utilizados para la resolucie la WSD, asomo los principales recursos lcos disponibles para realizar la tarea de WSD dentro del Procesamiento del Lenguaje Natural.
Cabe mencionar que la mayorde los recursos lcos solo estdisponibles para el idioma ingl
5. Bibliograf
Agirre, E., O. Ansa, E. Hovy, and D. Martz. (2000). "Enriching very large ontologies using the WWW". In Proceedings of the Ontology Learning Workshop. Berlin: ECAI, 2000.
Fellbaum, C. (1998). "WordNet: an Electronic Lexical Database". USA: The MIT Press, 1998.
Gonzalo, J., F. Verdejo, I. Chugur, and J. Cigarran. (1998). "Indexing with wordnet synsets can improve text retrieval". In Proceedings of the COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems. Canada: ACL, 1998.
Harabagui, S., G. Miller, and D. Moldovan. (1999). "Wordnet: A morphologically and semantically enhanced resource". In Proceedings of the SIGLEX Workshop. USA: ACL, 1999.
Ide, N. and J. Vnis. (1998). "Word sense disambiguation: The state of the art". Computational Linguistics, 24(1998): 1-40.
Magnini, B. and C. Strapparava. (2000). "Experiments in word domain disambiguation for parallel texts". In Proceedings of the ACL Workshop on Word Senses and Multilinguality. Hong Kong, China: ACL, 2000.
Magnini, B., C. Strapparava, G. Pezzulo, and A. Gliozzo. (2001). "Using domain information for word sense disambiguation". In Proceedings of the 2nd International Workshop on Evaluating Word Sense Disambiguation Systems (SENSEVAL-2). France: ACL, 2001.
Marcus, M. P., B. Santorini, and M. A. Marcinkiewicz. (1993). "Building a large annotated corpus of english: The penn Treebank". Computational Linguistics, 2-19(1993): 313-330.
Mihalcea, R. and T. Pedersen. (2004). "Advances on word sense disambiguation". In IX Ibero-American Conference on Artificial Intelligence (IBERAMIA) 2004. Puebla, Mco: Springer, 2004.
Mihalcea, R., T. Chklovski, and A. Kilgarriff. (2004). "The senseval-3 english lexical sample task." In Rada Mihalcea and Phil Edmonds, editors: Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Barcelona, Spain: ACL, 2004.
Miller, G.A., M. Chodorow, S. Landes, C. Leacock, and R. Thomas. (1994). "Using a semantic concordance for sense identification". In Proceedings of the ARPA Workshop on Human Language Technology. Plainsboro, NJ: ACL, 1994.
Miller, G.A., R. Beckwith, C. Fellbaum, D. Gross, and K. Miller. (1990). "Introduction to wordnet: An on-line lexical database". International Journal of Lexicography, 4-3(1990): 235-244.
Montoyo, A., M. Palomar, and G. Rigau. (2001). "Wordnet enrichment with classification systems". In Proceedings of WordNet and Other Lexical Resources: Applications, Extensions and Customisations Workshop (NAACL-01). Pittsburgh, USA: ACL, 2001.
Pedersen, T. (2001). "A decision tree of bigrams is an accurate predictor of word sense". In Proceedings of the Second Annual Meeting of the North American Chapter of the Association for Computational Linguistics. Pittsburgh, USA: ACL, 2001.
Petridis, V., V. Kaburlasos, P. Fragkou, and A. Kehagias. (2001). "Text classification using the sigma-flnmap neural network". In Proceedings of the 2001 International Joint Conference on Neural Networks, 2001.
Raghavan, P., C. Manning, and H. Sch(2008). "Introduction to Information Retrieval". New York: Cambridge University Press, 2008.
Snyder, B. and M. Palmer. (2004). "The english all-words task". In Rada Mihalcea and Phil Edmonds, editors: Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Barcelona, Spain: Association for Computational Linguistics, 2004.
Stevenson, M. (2003). "Word sense disambiguation: The case for combinations of knowledge sources". Cambridge, UK: CSLI Publications-Cambridge Universit Press, 2003.
Suz, A. and M. Palomar. (2002). "Desambiguaciel sentido y del dominio de las palabras con modelos de probabilidad de mma entrop. Procesamiento del Lenguaje Natural, 28(2002): 45-53.
Vuez, S., A. Montoyo, and G. Rigau. (2003). "Mdo de desambiguacica basada en el recurso lco : dominios relevantes". Procesamiento del Lenguaje Natural, 31(2003): 141-148.
Vossen, P. (1998). "Introduction to EuroWordNet". Kluwer Academic Publishers, Norwell, MA, USA. 1998.
Vossen, P., W. Peters, and J. Gonzalo. (1999). "Towards a universal index of meaning". In Proceedings of ACL/SIGLEX'99: Standarizing Lexical Resources. USA: ACL, 1999.
Wilks, Y. and M. Stevenson. (1996). "The grammar of sense: Is word-sense tagging much more than part-of-speech tagging?". CoRR, cmp-lg/9607028, 1996.
Autor/a:
Edgar Tello Leal
Profesor de Tiempo Completo del programa educativo de Ingenieren Sistemas Computacionales en la Unidad Acadca de Ciencias de la Salud y Tecnologde la Universidad Auta de Tamaulipas en Mco.
Licenciado en Computacidministrativa (TI) por la Facultad de Comercio y Administraciictoria de la Universidad Auta de Tamaulipas, Mco (UAT). Microsoft Certified Systems Administrator (MCSA) y Cisco Certified Network Associate (CCNA). Master en Docencia por la Universidad Auta de Tamaulipas, aspirante al Doctorado en Ciencias Computacionales y actualmente realiza una estancia de investigacin el Laboratorio de Tecnolog de Informaciel CINVESTAV-Unidad Tamaulipas. Ha dictado cursos de gestie redes de cto y seguridad en redes de cto. Los principales temas de investigacion seguridad en redes inalricas, protocolos de seguridad, desambiguaciel sentido de las palabras y la brecha digital en Mco.
email:etello@uat.edu.mx
Citaciecomendada:
Tello Leal, Edgar; (2009). La Desambiguaciel Sentido de las Palabras: revisietodola. En: No Solo Usabilidad, nº 8, 2009. . ISSN 1886-8592
"No Solo Usabilidad journal - ISSN 1886-8592. Todos los derechos reservados, 2003-2009 email: info (arroba) nosolousabilidad.com
"