Minería de opinión como técnica para el análisis de información en línea

Minería de opinión como una técnica para el análisis de información en línea

índafice

El post que hoy les traigo proviene de la tesis de licenciatura Loliett Borges Zayas en la cual fungí como tutor. Trata sobre la técnica de minería de opinión para el análisis  de información en línea. Pues nada ahí les va:

¿Qué son los comentarios y cómo se analizan?

El análisis de los grandes cúmulos de información que coexisten hoy en internet demanda de técnicas complejas y miradas multidisciplinares, máxime si se trata de la información que constantemente están generando las personas, sobre todo los comentarios.

Según Díaz (2008) los comentarios en entornos reticulares, radica en “la conversación virtual de muchos a muchos, en la interacción de usuarios que traspasa las barreras físicas y geográficas, y en la escritura colectiva donde el autor es tan importante como lo que puedan opinar sus lectores.”

El análisis de los comentarios demanda la forzosa interacción con el lenguaje natural, el procesamiento de este deviene en técnica fundamental para el referido análisis, pues es el lenguaje natural la base de los comentarios.

La Minería de Opinión constituye una de las técnicas socorrida para el análisis de comentario la cual va más allá de la transformación de una secuencia de palabras a un lenguaje entendido por computadoras, sino que se centra en estudiar la capacidad de sistemas de interpretar y clasificar de forma automática, la carga subjetiva presente en textos emitidos por usuarios. Se trata sin duda alguna de un logro para la Inteligencia artificial, que ha integrado experiencias desde distintos campos de conocimientos, en especial de la lingüística computacional, para diseñar sistemas capacitados para clasificar contenidos.

¿Qué es la minería de opinión?

Resulta extremadamente complejo hallar un modelo conceptual establecido para la clasificación de emociones. Son varias las teorías que pretenden establecer categorías a los sentimientos expresados por las personas a partir de sus acciones, interpretaciones, comportamientos u opiniones. La carga subjetiva implícita en estos procesos impide definir con precisión que se entiende por sentimiento o emoción. Teniendo en cuenta la complejidad de asignar una clasificación binaria a los sentimientos expresados por los seres humanos, mediante sistemas automatizados que se fundamentan en la aplicación de algoritmos matemáticos. O sea que,  el término Minería de Opinión se refiere al proceso de detectar expresiones subjetivas en textos.

Las emociones y los sentimientos son cualidades que representan el grado de afectividad de los seres humanos, posibilitando reflejar el estado de ánimo. Al expresarnos manifestamos nuestro estado emocional, y en función de este adoptamos determinadas actitudes. Por tanto al comentar sobre un tema en específico, ya sea de forma presencial o por escrito, se establece una comunicación emocional donde quedan expresadas las intenciones del emisor, hablante o escritor.

Los términos más utilizados en la literatura para denominar la clasificación de documentos basada en la opinión son los siguientes:

  • Análisis de sentimientos
  • Minería de Opinión
  • Análisis de la subjetividad,
  • Brandmonitoring
  • Buzzmonitoring
  • Conversation mining
  • Online consumer intelligence
  • User generated content.

Una característica determinante al realizar técnicas de Minería de Opinión, es tener en cuenta el contexto desde el cual el usuario se manifiesta, debido a que existen palabras que presentan una orientación semántica en sí misma, como es el caso de los términos pobre o excelente. Un término con evidentes implicaciones negativas puede tener una interpretación positiva, en función del contexto en el que se utiliza. Estos términos son reconocidos en la literatura sobre el tema como expresiones polares.

¿Cómo se aplica la minería de opinión?

La técnica Minería de Opinión engloba diferentes tareas, encaminadas al procesamiento de texto no estructurado, para ello se persigue dar una valoración cuantitativa a expresiones subjetivas asociadas a opiniones y sentimientos, además se busca identificar el grado de polaridad –positivo, negativo o neutro– en el que se califica a todo tipo de “entidades”. Las tareas que define el autor son las siguientes:

Clasificación de la subjetividad: “Tarea cuyo objetivo es la identificación de fragmentos de texto que poseen un significado o una carga subjetiva, expresada por parte de la persona que ha escrito el texto, ya sea una opinión, la expresión de un sentimiento, etc.”

Esta tarea permite distinguir entre comentarios que expresan una opinión sobre un asunto determinado, de aquellas que se limitan a narrar un hecho sin brindar un punto de vista. La clasificación de la subjetividad es considerada con frecuencia, como un paso previo antes de realizar otras actividades de la Minería de Opinión como es el caso del cálculo de la polaridad.

Clasificación de la intensidad: Esta tarea pretende clasificar los textos de entrada de acuerdo a la intensidad emocional expresada. De esta manera, la mayoría de las aproximaciones que abordan este problema trabajan con lo que se denomina clasificación en tres clases de intensidad: positivo, neutro y negativo.

Los estudios se basan en que hay palabras que poseen mayor carga emotiva que otras, este autor pone como ejemplo los términos cáncer y refriado, que aunque ambos tienen obvias implicaciones negativas, mientras que el primero expresa malestar o incomodidad, la palabra cáncer conlleva a emociones más intensas como la tristeza o la pérdida. La clasificación de la intensidad está encaminada a profundizar en la opinión del emisor.

Minería de Opinión basada en tópicos/características: Generalmente, este tipo de sistemas suelen evaluar documentos que recogen opiniones sobre productos o servicios donde ciertos aspectos de esos productos o servicios condicionan más que otros la carga afectiva global de la opinión¨.

Se refiere a la capacidad de un sistema de determinar las distintas características del producto tratadas en la opinión escrita por el usuario, y para cada una de esas características mencionadas en la opinión, ser capaces de extraer una polaridad.

Clasificación de la polaridad: Tarea que pretende, como última finalidad, clasificar fragmentos de texto, que pueden ser desde documentos hasta sintagmas, en positivo o negativo dependiendo de su significado emocional.

La presente investigación se centra en la tarea de clasificar la polaridad por tanto es válido profundizar en su ejecución. La clasificación de la polaridad se aborda desde dos aproximaciones, que permiten capturar el significado emocional de un texto; a estas metodologías se les denomina como supervisadas y no supervisadas. La primera de ellas se basa en el aprendizaje máquina o aprendizaje automático, es decir en el entrenamiento de un sistema con términos que han sido clasificados previamente. Requieren la utilización de un corpus que contenga textos previamente clasificados, para crear un sistema capaz de clasificar nuevos textos, es decir utilizan un conjunto de datos que han sido clasificados en cuanto a polaridad, con el objetivo de que estos funcionen como referentes para clasificar nuevos documentos.

Son varias las investigaciones que han decidido emplear una metodología híbrida al determinar la polaridad de textos, es decir utilizan tanto fórmulas matemáticas y recursos léxicos, como algoritmos de aprendizaje automático. Esto se debe a que la Minería de Opinión se encuentra aún en una fase de experimentación, por lo que se debe hallar un método que brinde mayores posibilidades de precisión en el análisis, método que permita imbricar la minería de opinión con la utilización de otros indicadores que dote al análisis de comentarios de una perspectiva holística cuyos resultados describan la mayor cantidad de matices de los comentarios.

Otra las alternativas diseñadas para respaldar la tarea de análisis de comentarios en medios digitales, se expresa en la identificación de características similares entre los comentarios, que permitan agruparlos de acuerdo determinados rasgos en común. El debate suscitado a partir de la publicación de un artículo, aporta información relevante con respecto al grado de interacción entre los usuarios, de esta forma se podrá determinar qué usuarios suelen responder a otros comentarios, y la naturaleza del contenido de los mensajes. Todos estos elementos permitirán profundizar en el aspecto cualitativo del análisis de los comentarios, sustentando, reforzando y complementando a la clasificación binaria de la polaridad.

¿Por qué hacer la minería de opinión?

La gran mayoría de los comentarios que se realizan en la web provienen de usuarios de diversas peculiaridades, siendo usual encontrar textos que no son gramaticalmente correctos, y que presentan  faltas de ortografía, mal uso de los signos de puntuación, errores de redacción, expresiones informales y otras irregularidades lingüísticas como es el caso del sarcasmo, la ambigüedad, o la ironía. Este hecho repercute directamente en las tareas de Minería de Opinión, ya que los sistemas automáticos hasta el momento se muestran incapaces de lidiar con este tipo de anomalías en lenguaje, dificultando así el correcto procesamiento de los comentarios. Con el objetivo de crear herramientas automatizadas con mayor grado de exactitud en la clasificación, ha surgido una serie de estudios, aún en ciernes, encaminados a incorporar en dichos sistemas, la capacidad de detectar el sarcasmo en los textos, además de ampliar y enriquecer el análisis lingüístico. Entre las soluciones encontradas por los académicos para contrarrestar los problemas del lenguaje es utilizar herramientas computacionales que procesan el texto y corrigen las deficiencias gramaticales.

Además, cada día crece el número de empresas y organizaciones que confía en el análisis a los comentarios generados por sus usuarios, como un indicador para medir la satisfacción de los mismos. Tradicionalmente las encuestas se han considerado como la técnica estrella para recopilar información sobre el grado de satisfacción de los individuos, pero a raíz del auge de Internet, y en consecuencia con las grandes cantidades de información que se generan diariamente a través de este medio, las compañías han recurrido al procesamiento automático de las opiniones. En función del procesamiento de la información recopilada dependerá la posterior toma de decisiones. Una gran cantidad de estudios han examinado el sentido en que la inteligencia artificial puede apoyar los procesos de análisis e interpretación de las opiniones. El desarrollo de sistemas capaces de suplir el procesamiento manual de grandes volúmenes de datos, a través de algoritmos matemáticos constituye uno de los grandes retos de los analistas de información, en parte a consecuencia del aumento exponencial de contenidos generados por usuarios en la Web 2.0.

Visitas:1591

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *