Identiﬁcación de unidades léxicas y sintácticas de texto informal en español

Oscar Cano Félix

Por favor, use este identificador para citar o enlazar este ítem: https://ri-ng.uaq.mx/handle/123456789/1884

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.rights.license	http://creativecommons.org/licenses/by-nc-nd/4.0	es_ES
dc.contributor	Wilfrido Jacobo Paredes García	es_ES
dc.creator	Oscar Cano Félix	es_ES
dc.date	2020-01-12	-
dc.date.accessioned	2020-01-16T16:28:59Z	-
dc.date.available	2020-01-16T16:28:59Z	-
dc.date.issued	2020-01-12	-
dc.identifier.uri	http://ri-ng.uaq.mx/handle/123456789/1884	-
dc.description	El procesamiento del lenguaje natural es una herramienta ampliamente utilizada hoy en día dentro de la web, así como en aplicaciones móviles entablando interacciones naturales entre humanos y computadoras. Apesar de que muchos estudios han sido publicados y el auge de las inteligencias artiﬁciales para el entendimiento del lenguaje ha permitido desarrollar modelos que logren determinar el sentido de la oración, el análisis morfológico, etc. el procesamiento del lenguaje natural tiene mucho trabajo por delante. Un área un poco olvidada dentro del procesamiento del lenguaje natural es el preprocesamiento de los textos, ya que se supone que la entrada del texto a examinar es un texto limpio y solo con ciertos errores ya identiﬁcados, aunque esto no es cierto en el mundo real, ya que en el texto informal en el que el ser humano se comunica, tiene presente errores inherentes y diferentes, que, además de ser difíciles de identiﬁcar, estos errores evolucionan con el tiempo, por lo que suponer que el preprocesamiento de un texto informal es una tarea ya estudiada es un error. En el presente trabajo se propone una aproximación para inferir los puntos clave de una tarea del preprocesamiento del lenguaje natural que es la identiﬁcación de unidades léxicas y sintácticas en el idioma español mexicano, mediante la subtarea de la segmentación de oraciones, siendo el que se determine una propiedad de existencia o que se acople a un modelo de palabra desconocidas basado en n-gramas para la manipulación de estos. La característica primordial de la investigación se centra en el modelo de ordenamiento y selección, sin olvidar que el modelo para puntuar probabilísticamente una palabra desconocida, en si es una innovación en el lenguaje español. El modelo para el ordenamiento y selección consiste en la aplicación de algoritmos de árboles binarios basados en reglas de composición, complementado con algoritmos de optimización de creación y selección de candidatos tal como el algoritmo voraz o la propiedad de Markov.	es_ES
dc.format	Adobe PDF	es_ES
dc.language.iso	Español	es_ES
dc.relation.requires	Si	es_ES
dc.rights	Acceso Abierto	es_ES
dc.subject	Procesamiento del lenguaje natural	es_ES
dc.subject	Optimización	es_ES
dc.subject	n-gramas	es_ES
dc.subject	Árboles binarios	es_ES
dc.subject.classification	INGENIERÍA Y TECNOLOGÍA	es_ES
dc.title	Identiﬁcación de unidades léxicas y sintácticas de texto informal en español	es_ES
dc.type	Tesis de maestría	es_ES
dc.creator.tid	CURP	es_ES
dc.contributor.tid	curp	es_ES
dc.creator.identificador	CAFO911101HMSNLS08	es_ES
dc.contributor.identificador	PAGW890917HGTRRL07	es_ES
dc.contributor.role	Director	es_ES
dc.degree.name	Maestría en Ciencias (Ingeniería Matemática)	es_ES
dc.degree.department	Facultad de Ingeniería	es_ES
dc.degree.level	Maestría	es_ES
Aparece en:	Maestría en Ciencias (Ingeniería Matemática)

Archivos:

Fichero	Descripción	Tamaño	Formato
RI004948.pdf		2.61 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro sencillo del ítem