Una introducci - PowerPoint PPT Presentation

About This Presentation
Title:

Una introducci

Description:

Una introducci n al Sentiment Analysis Ferm n Cruz fcruz_at_us.es Clasificaci n de la perspectiva Unidad textual Clasificador Get out the vote: Determining support or ... – PowerPoint PPT presentation

Number of Views:58
Avg rating:3.0/5.0
Slides: 44
Provided by: Ferm152
Learn more at: https://nlp.lsi.upc.edu
Category:

less

Transcript and Presenter's Notes

Title: Una introducci


1
Una introducción al Sentiment Analysis
Fermín Cruz fcruz_at_us.es
2
Contenido
3
Motivación
4
Definición
Sentiment Analysis Tratamiento computacional de
las opiniones, sentimientos y fenómenos
subjetivos en los textos.
otras formas de llamarlo opinion mining,
sentiment classification, subjectivity analysis,
review mining, appraisal extraction, affective
computing,
5
Aplicaciones
  • Websites recopilatorios de reviews de productos
  • Recopilación automática
  • Resumen automático
  • Corrección de las puntuaciones

también aplicable a artículos políticos,
críticas de cine o música
6
Aplicaciones
  • Business and Government Intelligence
  • (aplicaciones en el lado oscuro)
  • Análisis de las opiniones de los clientes de una
    empresa con respecto a sus productos
  • Seguimiento de la valoración de los clientes en
    el tiempo
  • Monitorización de fuentes de información
    políticas para la detección de hostilidades
  • Seguimiento de la popularidad de candidatos
    políticos.

7
Aplicaciones
  • Como componente de otras tecnologías
  • Sistemas de recomendación
  • Detección de lenguaje ofensivo
  • Publicidad automática
  • Extracción de información
  • Question Answering
  • Resumen automático
  • Análisis de citas en artículos
  • Interfaces de usuario sentiment-aware

8
Aplicaciones
  • Aplicación a otros campos científicos
  • Ciencias políticas
  • Sociología
  • Derecho (blawgs)
  • Psicología

9
Retos
Qué hace a estas tareas especialmente difíciles?
Un caso Sentiment Classification vs Topic
Classification Un dato Usando técnicas de
machine learning aplicadas frecuentemente a la
clasificación de documentos clásica, se obtienen
resultados en torno a un 80 de precisión (Pang
et al.,2002)
10
Retos
Algunos textos de ejemplo (Pang and Lee, 2008)
If you are reading this because it is your
darling fragance, please wear it at home
exclusively, and tape the windows shut.
No hay palabras claramente negativas !
11
Retos
Algunos textos de ejemplo (Pang and Lee, 2008)
go read the book!
Positivo o negativo?...Depende del dominio
12
Retos
Algunos textos de ejemplo (Pang et al., 2002)
The film should be brilliant. It sounds like a
great plot, the actors are first grade, and the
supporting cast is good as well, and Stallone is
attemping to deliver a good performance. However,
it cant hold up.
Multitud de palabras positivas pero es una
opinión negativa!
13
Retos
Algunos textos de ejemplo
El director nos regala otra de las joyas a las
que nos tiene acostumbrados.
  • Opinión negativa o positiva?
  • Quién es el director?
  • Qué otras películas ha dirigido?
  • Qué opiniones existen sobre esas otras películas?

14
Retos
  • Qué hace a estas tareas especialmente difíciles?
  • Fuerte dependencia con el contexto y con el
    dominio
  • Importancia fundamental de la estructura del
    discurso
  • Necesidad de disponer de conocimiento del mundo
  • Ambigüedad inherente
  • Fenómenos pragmáticos

15
Tareas
  • Algunas de las tareas englobadas dentro del
    término Sentiment Analysis
  • Clasificación de documentos de opinión
  • Binaria (Sentiment polarity)
  • Multiclases (Rating inference)
  • Detección de subjetividad
  • Extracción de opiniones
  • Clasificación de la perspectiva
  • Determinación de la intensidad de las opiniones
  • Clasificación de las emociones
  • Detección de humor

16
Clasificación de documentos de opinión
Clasificador binario
Opinión positiva
Opinión negativa
Documento de opinión
Clasificador
17
Clasificación de documentos de opinión
Rating Inference
5
Puntuación
1
Documento de opinión
Clasificador
18
Clasificación de documentos de opinión
Thumbs up or thumbs down? Semantic orientation
applied to unsupervised classification of reviews
(Turney, 2002)
  • Extracción de bigramas se seleccionan bigramas
    que contengan adjetivos o adverbios, según cinco
    reglas morfosintácticas muy simples.
  • Orientación semántica valor real cuyo signo
    determina la implicación positiva o negativa del
    término y cuyo valor absoluto determina la
    intensidad de dicha implicación.

19
Clasificación de documentos de opinión
Thumbs up or thumbs down? Semantic orientation
applied to unsupervised classification of reviews
(Turney, 2002)
20
Clasificación de documentos de opinión
Thumbs up or thumbs down? Semantic orientation
applied to unsupervised classification of reviews
(Turney, 2002)
Domain of Review Accuracy
Automobiles 84.00
Banks 80.00
Movies 65.83
Travel Destinations 70.53
All 74.39
21
Clasificación de documentos de opinión
Clasificación de documentos basada en la opinión
experimentos con un corpus de críticas de cine en
español (F.Cruz et al., 2008)
  • Corpus en castellano formado por críticas de
    cine extraídas de http//www.muchocine.net
  • Críticas introducidas por usuarios
  • Textos procesados con FreeLing (Atserias et al.,
    2006)
  • Disponible en http//www.lsi.us.es/fermin/corpus
    Cine.zip

22
Clasificación de documentos de opinión
Clasificación de documentos basada en la opinión
experimentos con un corpus de críticas de cine en
español (F.Cruz et al., 2008)
Tres experimentos realizados
23
Clasificación de documentos de opinión
Clasificación de documentos basada en la opinión
experimentos con un corpus de críticas de cine en
español (F.Cruz et al., 2008)
Experimento aciertos positivas acierto negativas aciertos total
Semillas simples 35,5 91,5 63,5
Semillas múltiples 70 69 69,5 umbral
Supervisado(semillas simples) 72,5 82,5 77,5 13
Supervisado(semillas múltiples) 75 72,5 73,75 -2,25
24
Clasificación de documentos de opinión
Thumbs up? Sentiment Classification using Machine
Learning Techniques (Pang et al., 2002)
  • Corpus de críticas de cine extraídas de iMDb
  • Afrontan el problema como si se tratara de una
    clasificación basada en topic.
  • Estudio previo selección de palabras clave para
    cada categoría

25
Clasificación de documentos de opinión
Thumbs up? Sentiment Classification using Machine
Learning Techniques (Pang et al., 2002)
  • Aplicación de tres algoritmos de machine
    learning
  • Naive Bayes
  • Maximum Entropy
  • Support Vector Machines

26
Clasificación de documentos de opinión
Sentiment Classification Using Word Sub-sequences
and Dependency Sub-trees (Matsumoto et al., 2005)
  • Sobre el mismo corpus anterior, se emplean
    features que capturan la aparición de secuencias
    frecuentes de palabras y de subárboles de
    dependencias.
  • Utilizan SVM
  • Alcanzan una precisión
  • de 92.9

27
Clasificación de documentos de opinión
Seeing stars Exploiting class relationships for
sentiment categorization with respect to rating
scales (Pang and Lee,2005)
  • Rating inference dado un documento de opinión,
    determinar si la opinión es positiva o negativa
    dentro de una escala (p.ej. de 1 a 5)
  • Tres aproximaciones
  • Clasificador multiclases
  • Regresión
  • Metric labelling

SVM
Multiclases lt Regresión Metric labelling
28
Detección de subjetividad
Objetivo
Subjetivo (opinión)
Unidad textual
Clasificador
29
Detección de subjetividad
Learning Extraction Patterns for Subjective
Expressions (Riloff and Wiebe,2003)
  • Primero, se utilizan clasificadores con alta
    precisión (pero baja cobertura) para detectar
    oraciones objetivas y subjetivas. Basados en
    items léxicos (palabras y n-gramas) recolectados
    a mano.
  • A partir de las oraciones identificadas, se
    construyen mediante aprendizaje reglas de
    extracción de patrones. Se restringe el tipo de
    patrones que se pueden extraer, mediante
    plantillas sintácticas, e.g., ltsubjgt
    passive-verb.
  • Se utilizan los patrones aprendidos para extraer
    nuevas oraciones objetivas y subjetivas. El
    proceso se repite

30
Detección de subjetividad
Learning Extraction Patterns for Subjective
Expres (Riloff and Wiebe,2003)
  • Algunos patrones extraídos

31
Extracción de opiniones

Opcional
Detector de features
Documento de opinión (Análisis de un producto)
Detector de opiniones
Clasificador de opiniones
Opiniones
32
Extracción de opiniones
Mining Opinion Features in Customer Reviews (Hu
and Liu, 2004)
  • Generación de un resumen de las opiniones
    acerca de un producto extraídas de un conjunto de
    reviews
  • Digital_camera_1
  • picture quality
  • Positive 253 ltindividual reviewsgt
  • Negative 6 ltindividual reviewsgt
  • size
  • Positive 134 ltindividual reviewsgt
  • Negative 10 ltindividual reviewsgt
  • Tres problemas
  • Extracción de features
  • Extracción de opiniones
  • Clasificación de las opiniones

33
Extracción de opiniones
Mining Opinion Features in Customer Reviews (Hu
and Liu, 2004)
  • Extracción de features
  • Se extraen palabras o n-gramas frecuentes
  • Se eliminan aquellos que
  • Si aparece de manera compacta en menos de dos
    oraciones
  • Si están contenidos en un feature de más tamaño
  • Extracción de opiniones
  • Adjetivos cercanos a los features
  • Clasificación de las opiniones
  • Se utiliza WordNet para decidir la orientación
    semántica de los adjetivos (Miller et al., 1990)

34
Clasificación de la perspectiva
A favor
En contra
Unidad textual
Clasificador
35
Clasificación de la perspectiva
Get out the vote Determining support or
opposition from Congressional floor-debate
transcripts (Thomas et al.,2006)
  • Corpus generado a partir de http//govtrack.us
  • Transcripciones de debates legislativos,
    divididos por intervenciones. Cada intervención
    es etiquetada según la votación posterior del
    político (apoya o no apoya la ley).
  • Problema ante una nueva intervención, decidir
    si es de apoyo o de rechazo a la ley.

36
Clasificación de la perspectiva
Get out the vote Determining support or
opposition from Congressional floor-debate
transcripts (Thomas et al.,2006)
  • Sistema en dos niveles
  • Clasificador binario (SVM) decide de forma
    independiente la probabilidad de que una
    intervención sea de apoyo o de rechazo.
  • Detección de acuerdos (SVM) detecta acuerdos o
    desacuerdos entre dos intervenciones.
  • Ambos modelos son entrenados sobre un mismo
    training.
  • Se utiliza una técnica basada en grafos (minimum
    cuts) para encontrar las clases de salida
    óptimas.
  • Precisión 71,28

37
Otras tareas
  • Intensidad de las opiniones
  • Puede verse como una clasificación no binaria de
    la subjetividad (p.ej. neutral, low, medium,
    high)
  • Just how mad are you? Finding strong and weak
    opinion clauses (Wilson et al., 2004)
  • Clasificación de emociones
  • Clasificar unidades textual según la emoción que
    contienen anger, disgust, fear, happiness,
    sadness y suprise (Ekman, 1982)
  • Emotions from text machine learning for
    text-based emotion prediction (Alm et al.,2005)
  • Detección de humor
  • Clasificar una unidad textual como humorística o
    no
  • Humor Prosody Analysis and Automatic Recognition
  • for FRIENDS (Purandare et al., 2006)

38
Recursos
  • Corpus
  • Blog06 colección de entradas de blogs, con
    opiniones etiquetadas (positive, negative,
    mixture)
  • http//ir.dcs.gla.ac.uk/test_collections/access_to
    _data.html
  • Congressional floor-debate transcripts
  • http//www.cs.cornell.edu/home/llee/data/convote.h
    tml
  • Cornell movie-review datasets
  • Sentiment polarity
  • Sentence-level polarity
  • Sentiment-scale
  • Subjectivity dataset
  • http//www.cs.cornell.edu/people/pabo/movie-review
    -data/

39
Recursos
  • Corpus
  • Customer review dataset reviews de cinco
    productos electrónicos extraídos de Amazon y
    Cnet, etiquetados con features y opiniones
  • http//www.cs.ui.edu/liub/FBS/CustomerReviewData.
    zip
  • Corpus Muchocine
  • http//www.lsi.us.es/fermin/corpusCine.zip

40
Recursos
  • Recursos léxicos
  • General Inquirer incluye términos con varios
    tipos de orientaciones semánticas positivas o
    negativas, y palabras relacionadas con acuerdo y
    desacuerdo
  • http//www.wjh.harvard.edu/inquirer
  • OpinionFinders Subjectivity Lexicon
    diccionario de indicadores de subjetividad
  • http//www.cs.pitt.edu/mpqa/
  • SentiWordnet los synsets de WordNet con
    puntuaciones que reflejan estádísticasmente
    cuando expresan opinión positiva/negativa, o
    cuando son objetivos
  • http//sentiwordnet.isti.cnr.it/

41
Recursos
  • Competiciones
  • TREC Blog tracks las sesiones organizadas en
    2006, 2007 y 2008 proponen tareas de extracción y
    clasificación de opiniones de blogs
  • NTCIR-6 detección de oraciones con opinión y
    clasificación de las mismas (positivas, negativas
    o neutrales)
  • NTCIR-7 añade a la tarea anterior la
    clasificación de la intensidad de las opiniones
    (débil, media o fuerte)
  • Opinion pilot (TAC 08) resumen multidocumentos
    de opiniones a partir de blogs

42
Recursos
  • Para saber más
  • Opinion Mining and Sentiment Analysis survey
    realizado por Bo Pang y Lillian Lee de la
    Universidad de Cornell (2008)


Cualquier parecido con los contenidos de esta
presentación es pura casualidad )
43
Gràcies!
Fermín Cruz fcruz_at_us.es
Write a Comment
User Comments (0)
About PowerShow.com