Aprendizaje de reglas/patrones - PowerPoint PPT Presentation

1 / 38
About This Presentation
Title:

Aprendizaje de reglas/patrones

Description:

Adaptability Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning of rules Learning of statistical models – PowerPoint PPT presentation

Number of Views:89
Avg rating:3.0/5.0
Slides: 39
Provided by: tur61
Learn more at: https://www.cs.upc.edu
Category:

less

Transcript and Presenter's Notes

Title: Aprendizaje de reglas/patrones


1
Adaptability
Summary
  • Information Extraction Systems
  • Evaluation
  • Multilinguality
  • Adaptability
  • Introduction
  • Learning of rules
  • Learning of statistical models
  • Multistrategy learning

2
Aprendizaje de reglas
Adaptability
  • Tendencia a la no supervisión disminución
    considerable del coste de anotación
  • Aprendizaje de antecedentes (patrones)post-anotac
    ión
  • Normalmente, patrónexpresión de constituyentes
    generalizados
  • Heuristic driven specializations
  • AutoSlog-TSRiloff96, HarabagiuMaiorano00
  • Observation-based learning
  • EssenceCatalà03
  • Bootstrapping
  • DIPREBrin98, ExDISCOYangarber00,
    Yangarber03
  • Surdeanu et al.06

3
Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)
  • Heuristic-driven specialization
  • Anotación de documentos (rel, norel)
  • Adquisición de reglas single-slot (extrapolable)
  • Uso de AutoSlog

4
Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)
  • Cálculo del ranking de un patron pi
  • ratio(pi) log2(freq_pi) si ratio(pi)
    gt 0.5
  • 0 en otro caso
  • ratio(pi) Pr(relevant_texttext_contain_pi)
    rel_freq_pi / total_freq_pi


5
Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)
  • Pros
  • Menos supervisión
  • Resultados comparables a AutoSlog
  • Cons (todos los métodos no supervisados de este
    área)
  • Clasificar manualmente a posteriori cada patrón
    con respecto al conjunto de slots del escenario
  • Validar manualmente los patrones resultados
  • Cons (específicos)
  • La formula de relevancia tiende a subir patrones
    frecuentes y bajar muchos patrones relevantes
    menos frecuentes

6
Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00
  • Heuristic-driven specialization
  • Conjunto de palabras relevantes
  • Adquisición de reglas multi-slot (eventos)
  • Método similar a AutoSlog
  • Meta-patrones sustituidos por espacio semantico
    inducido a partir de la palabras relevantes sobre
    WordNet

7
Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00
WordNet
keywords
semantic space
( ? ) ( ? ) ( ? )
S V O
  • Generalización de los conceptos enlazados
  • Selección de los patrones más generales
  • (Máxima cobertura)

8
Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00
  • Pros
  • Menor supervisión que AutoSlog y AutoSlog-TS
  • Cons
  • Método automático para la selección?
  • Ningún resultado sobre la cobertura de los
    patrones aprendidos.

9
Aprendizaje de reglas (no supervisado)
Adaptability
Essence Català03
  • Observation-based Learning
  • Conjunto de palabras relevantes
  • Adquisición de reglas multi-slot
  • Método similar a CRYSTAL
  • Observación contexto de ocurrencia de palabra
    relevante o alguna extension WordNet
  • patron específico de constituyentes
  • Algoritmo de cobertura bottom-up generalización
    sintáctico-semántica (WordNet) de los patrones
    específicos

10
Aprendizaje de reglas (no supervisado)
Adaptability
  • Bootstrapping
  • Requiere un conjunto inicial pequeño de ejemplos
    y un corpus grande no anotado
  • Se aprenden patrones a partir del conjunto de
    ejemplos iniciales
  • Se reconocen nuevos ejemplos con los que se
    aprenden nuevos patrones

11
Aprendizaje de reglas (no supervisado)
Adaptability
ExDISCO Yangarber02
  • Bootstrapping
  • Conjunto inicial de patrones SVO
  • Clasificación de los textos (rel/norel)
  • Adquisición de nuevos patrones a partir de los
    textos relevantes de forma similar a AutoSlog-TS

12
Aprendizaje de reglas (no supervisado)
Adaptability
  • Bootstrapping
  • Pros
  • Poca supervisión
  • Cons
  • Dependiente del conjunto inicial de ejemplos
  • Poco robusto a la aceptación de patrones erroneos
  • Condición de parada?

Yangarber03
13
Aprendizaje de reglas (no supervisado)
Adaptability
Yangarber03
  • Bootstrapping via Counter-training
  • Condición de parada para bootstrapping
  • Aprendizaje de patrones para diferentes
    escenarios en paralelo
  • Cada proceso computa la precisión de cada patrón
    aprendido en cada iteración
  • Evidencia positiva (relevancia inter-escenario)
  • Evidencia negativa (relevancia intra-escenario)
  • Repetir hasta que solo queda un proceso activo

14
Aprendizaje de reglas (no supervisado)
Adaptability
Yangarber03
  • Bootstrapping via Counter-training
  • Contra
  • Requiere la clasificación a priori de los
    documentos

15
Aprendizaje de reglas (no supervisado)
Adaptability
Surdeanu et al.06
  • Bootstrapping via Co-training
  • A cada iteración
  • Aprendizaje de patrones de diferentes escenarios
  • Aprendizaje de clasificador de documentos
    (palabras)
  • Repetir hasta que no se aprendan patrones nuevos
    o in

16
Aprendizaje de reglas (no supervisado)
Adaptability
Surdeanu et al.06
Bootstrapping via Co-training
Labeled seed docs Unlabeled docs
Init Pattern acquisition
Pattern Acquisition iteration
no
NB-EM iteration
Init NB-EM
si
patterns
no
si
17
Adaptability
Summary
  • Information Extraction Systems
  • Evaluation
  • Multilinguality
  • Adaptability
  • Introduction
  • Learning of rules
  • Learning of statistical models
  • Multistrategy learning

18
Aprendizaje de modelos estadísticos
Adaptability
  • Aprendizaje supervisado
  • slot-filler extraction models, relation
    extraction models
  • Hidden Markov Models (HMMs)
  • Maximum Entropy Models (MEMs)
  • Dynamic Bayesian Networks (DBNs)
  • Conditional Random Fields (CRFs)
  • Hyperplane Separators

19
Aprendizaje de modelos estadísticos
Adaptability
  • Hidden Markov Model (HMM) autómata finito que
    tiene probabilidades asociadas a las transiciones
    entre estados y a la emisión de símbolos desde
    cada estado.
  • Pros robustez, facilidad de desarrollo y
    evaluación
  • Cons conocimiento a priori de la topología del
    modelo requieren enormes conjuntos de
    entrenamiento un atributo por token
    (representación pobre)
  • Ejemplos
  • Texto semi-estructurado Freitag and
    McCallum99,00, Seymore et al.99
  • Texto no restingido Freitag and McCallum99,00,
    Ray and Craven01

20
Aprendizaje de modelos estadísticos (HMM)
Adaptability
  • HMM conjunto de estados
  • q0, q1, ..., qn conjunto de transiciones
  • ( q ? q ) vocabulario símbolos de
    emisión S s 0, s 1, ..., s m
    estado inicial q0 estado final qn
    probabilidades de transición entre estados
  • P( q ? q )
  • probabilidades de emisión de símbolos
    desde un estado P( q ? s )

21
Aprendizaje de modelos estadísticos (HMM)
Adaptability
  • Ejemplo extracción de info en cabeceras de
    artículos (etiquetar cada palabra de la cabecera
    como title, author, date, keyword).

22
Aprendizaje de modelos estadísticos (HMM)
Adaptability
  • EI usando HMMs
  • Dado un modelo M y sus parámetros, la EI se lleva
    a cabo determinando la secuencia de estados más
    probable que haya generado el documento
    (observación).
  • Esta secuencia puede ser calculada usando
    programación dinámica algoritmo de Viterbi.

23
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum99
Crea un HMM para cada slot. Se fija la
topología y se aprenden las probabilidades de
transición y emisión. Dos tipos de estados,
background y target, con conexiones limitadas
para capturar el contexto. Texto
semi-estructurado y texto no restringido.
24
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum99
Variaciones en la topología tamaño de la
ventana de contexto y substitución de un target
por un conjunto de caminos paralelos de distinta
longitud. Probs. Transición y emisión se
aprenden tratando la sparseness
25
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum00
Freitag and McCallum00, la topología se
aprende vía stochastic optimization (hill
climbing en el espacio de topologías
posibles). - modelo inicial simple M0 -
conjunto de operadores (state-split, state-add,
trans-add,) - h(Mi) F1 Mejoran los
resultados
26
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Topologías aprendidas para location y
speaker. Freitag and McCallum00
27
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Seymore et al.99
  • A partir de los datos de entrenamiento
  • aprender la topología del HMM (usando técnica de
    Bayesian model merging) y
  • estimar sus parámetros
  • datos etiquetados (maximum likelihood),
  • no etiquetados (algoritmo de Baum-Welch) y
  • distantly-labeled (para estimar probabilidades de
    emisión)

28
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Ray and Craven01
Las sentencias no sólo son secuencias de tokens
se añade su estructura gramatical. Los estados
del HMM representan información gramatical de una
sentencia (type) y su anotación (label) los
parámetros maximizan la correcta asignación de
etiquetas a ciertos segmentos no a toda la
sentencia. Texto no restringido.
NP_SEGMENT this enzyme NP_SEGMENTPROTEIN
ubc6 NP_SEGMENT localizes PP_SEGMENT
to NP_SEGMENTLOCATION the endoplasmic
reticulum PP_SEGMENT with NP_SEGMENT the
catalyctic domain VP_SEGMENT facing NP_SEGMENT
the cytosol
This enzyme, UBC6, localizes to the endoplasmic
reticulum, with the catalytic domain facing the
cytosol.
29
Aprendizaje de modelos estadísticos
Adaptability
  • Maximum Entropy Model (MEM) estima la
    probabilidad de que cierta clase ocurra en
    cierto contexto, sujeta a restricciones
    impuestas por las observaciones
    (p.e. POS adecuado a un token en un contexto,
    traducción de un palabra en un contexto).
  • Pros facilidad para extender la cantidad y el
    tipo de atributos atributos dependientes método
    de estimación general (reutilizable)
  • Cons coste computacional
  • Ejemplos
  • Texto semi-estructurado Chieu and Ng02
  • Texto no restringido Chieu and Ng02,
    Kambhatla04

30
Adaptability
Aprendizaje de modelos estadísticos (MEM)
Chieu and Ng02
Paso I (single-slot) clasificar cada palabra en
una de las clases posibles (slots o partes de un
slot). Después, usa Viterbi para seleccionar la
secuencia de clases más probable. Paso II
(multi-slot) determinar si dos slot fillers
forman parte de la misma templeta, usando un
clasificador de relaciones. Texto
semi-estructurado y texto no restringido.
31
Adaptability
Aprendizaje de modelos estadísticos (MEM)
Ejemplo de Chieu and Ng02
Bronczek, vice president of Federal Express
Canada Ltd., was named senior vice president,
Europe, Africa and Mediterranean, at this
air-express concern.
32
Adaptability
Aprendizaje de modelos estadísticos (MEM)
Kambhatla04
Construye MEMs para predecir el tipo de
relación que existe entre pares de menciones (ACE
RDC task) en una frase. Combina atributos
léxicos, semánticos y sintácticos. Los
atributos sintácticos se derivan del árbol
sintáctico y del árbol de dependencias, obtenidos
usando un parser estadístico basado en
ME. Texto no restringido.
33
Aprendizaje de modelos estadísticos
Adaptability
  • Dynamic Bayesian Networks generalización de HMM
    para permitir la codificación de dependencias
    entre características.
  • Pros permite reducir el coste del aprendizaje
    usando conocimiento del dominio permite
    múltiples atributos por token pero no su contexto
  • Cons estructura de la red predefinida
    manualmente
  • Ejemplos
  • texto semi-estructurado Peshkin and Pfeffer03

34
Aprendizaje de modelos estadísticos
Adaptability
  • Conditional Random Fields modelo de estados
    finito de probabilidad condicional.
  • Pros relaja requerimiento de independencia entre
    variables de los HMM
  • Cons probabilidad condicional sobre una única
    variable
  • Ejemplos
  • texto semi-estructurado Coxe05

Presentación
35
Aprendizaje de modelos estadisticos
Adaptability
  • Hyperplane separators aprenden un hiperplano en
    el espacio de las características que separa los
    ejemplos de un concepto entre i - (p.e. SVM,
    Voted Perceptron)
  • Pros pueden trabajar con muchas propiedades
  • Cons
  • Ejemplos Roth and Yih01, Sun et al.03, Chieu
    et al.03, Zelenko et al.03, Finn and
    Kushmerick04, Zhao and Grishman05

36
Aprendizaje de hiperplanos separadores
Adaptability
  • Ejemplos
  • texto semi-estructurado Roth and Yih01
  • texto no restringido Sun et al.03, Chieu et
    al.03, Zelenko et al.03, Finn and
    Kushmerick04, Zhao and Grishman05

37
Adaptability
Summary
  • Information Extraction Systems
  • Evaluation
  • Multilinguality
  • Adaptability
  • Introduction
  • Learning of rules
  • Learning of statistical models
  • Multistrategy learning

38
Métodos multiestrategia
Adaptability
  • Combinan distintos métodos de aprendizaje
    automático.
  • Freitag98 rote memorization, term-space text
    classification y inducción de reglas relacionales
    (SRV)
  • Turmo and Rodríguez02, Turmo02 closed-loop
    learning, deductive restructuring y constructive
    induction
Write a Comment
User Comments (0)
About PowerShow.com