Aprendizaje de reglas/patrones - PowerPoint PPT Presentation

1 / 38

About This Presentation

Title:

Aprendizaje de reglas/patrones

Description:

Adaptability Summary Information Extraction Systems Evaluation Multilinguality Adaptability Introduction Learning of rules Learning of statistical models – PowerPoint PPT presentation

Number of Views:65

Avg rating:3.0/5.0

Slides: 39

Provided by: tur61

Learn more at: https://www.cs.upc.edu

Category:

more less

Transcript and Presenter's Notes

Title: Aprendizaje de reglas/patrones

1
Adaptability
Summary

Information Extraction Systems
Evaluation
Multilinguality
Adaptability
Introduction
Learning of rules
Learning of statistical models
Multistrategy learning

2
Aprendizaje de reglas
Adaptability

Tendencia a la no supervisión disminución
considerable del coste de anotación
Aprendizaje de antecedentes (patrones)post-anotac
ión
Normalmente, patrónexpresión de constituyentes
generalizados
Heuristic driven specializations
AutoSlog-TSRiloff96, HarabagiuMaiorano00
Observation-based learning
EssenceCatalà03
Bootstrapping
DIPREBrin98, ExDISCOYangarber00,
Yangarber03
Surdeanu et al.06

3
Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)

Heuristic-driven specialization
Anotación de documentos (rel, norel)
Adquisición de reglas single-slot (extrapolable)
Uso de AutoSlog

4
Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)

Cálculo del ranking de un patron pi
ratio(pi) log2(freq_pi) si ratio(pi)
gt 0.5
0 en otro caso
ratio(pi) Pr(relevant_texttext_contain_pi)
rel_freq_pi / total_freq_pi

5
Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)

Pros
Menos supervisión
Resultados comparables a AutoSlog

Cons (todos los métodos no supervisados de este
área)
Clasificar manualmente a posteriori cada patrón
con respecto al conjunto de slots del escenario
Validar manualmente los patrones resultados

Cons (específicos)
La formula de relevancia tiende a subir patrones
frecuentes y bajar muchos patrones relevantes
menos frecuentes

6
Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00

Heuristic-driven specialization
Conjunto de palabras relevantes
Adquisición de reglas multi-slot (eventos)
Método similar a AutoSlog
Meta-patrones sustituidos por espacio semantico
inducido a partir de la palabras relevantes sobre
WordNet

7
Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00
WordNet
keywords
semantic space
( ? ) ( ? ) ( ? )
S V O

Generalización de los conceptos enlazados
Selección de los patrones más generales
(Máxima cobertura)

8
Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00

Pros
Menor supervisión que AutoSlog y AutoSlog-TS

Cons
Método automático para la selección?
Ningún resultado sobre la cobertura de los
patrones aprendidos.

9
Aprendizaje de reglas (no supervisado)
Adaptability
Essence Català03

Observation-based Learning
Conjunto de palabras relevantes
Adquisición de reglas multi-slot
Método similar a CRYSTAL
Observación contexto de ocurrencia de palabra
relevante o alguna extension WordNet
patron específico de constituyentes
Algoritmo de cobertura bottom-up generalización
sintáctico-semántica (WordNet) de los patrones
específicos

10
Aprendizaje de reglas (no supervisado)
Adaptability

Bootstrapping
Requiere un conjunto inicial pequeño de ejemplos
y un corpus grande no anotado
Se aprenden patrones a partir del conjunto de
ejemplos iniciales
Se reconocen nuevos ejemplos con los que se
aprenden nuevos patrones

11
Aprendizaje de reglas (no supervisado)
Adaptability
ExDISCO Yangarber02

Bootstrapping
Conjunto inicial de patrones SVO
Clasificación de los textos (rel/norel)
Adquisición de nuevos patrones a partir de los
textos relevantes de forma similar a AutoSlog-TS

12
Aprendizaje de reglas (no supervisado)
Adaptability

Bootstrapping
Pros
Poca supervisión
Cons
Dependiente del conjunto inicial de ejemplos
Poco robusto a la aceptación de patrones erroneos
Condición de parada?

Yangarber03
13
Aprendizaje de reglas (no supervisado)
Adaptability
Yangarber03

Bootstrapping via Counter-training
Condición de parada para bootstrapping
Aprendizaje de patrones para diferentes
escenarios en paralelo
Cada proceso computa la precisión de cada patrón
aprendido en cada iteración
Evidencia positiva (relevancia inter-escenario)
Evidencia negativa (relevancia intra-escenario)
Repetir hasta que solo queda un proceso activo

14
Aprendizaje de reglas (no supervisado)
Adaptability
Yangarber03

Bootstrapping via Counter-training
Contra
Requiere la clasificación a priori de los
documentos

15
Aprendizaje de reglas (no supervisado)
Adaptability
Surdeanu et al.06

Bootstrapping via Co-training
A cada iteración
Aprendizaje de patrones de diferentes escenarios
Aprendizaje de clasificador de documentos
(palabras)
Repetir hasta que no se aprendan patrones nuevos
o in

16
Aprendizaje de reglas (no supervisado)
Adaptability
Surdeanu et al.06
Bootstrapping via Co-training
Labeled seed docs Unlabeled docs
Init Pattern acquisition
Pattern Acquisition iteration
no
NB-EM iteration
Init NB-EM
si
patterns
no
si
17
Adaptability
Summary

Information Extraction Systems
Evaluation
Multilinguality
Adaptability
Introduction
Learning of rules
Learning of statistical models
Multistrategy learning

18
Aprendizaje de modelos estadísticos
Adaptability

Aprendizaje supervisado
slot-filler extraction models, relation
extraction models
Hidden Markov Models (HMMs)
Maximum Entropy Models (MEMs)
Dynamic Bayesian Networks (DBNs)
Conditional Random Fields (CRFs)
Hyperplane Separators

19
Aprendizaje de modelos estadísticos
Adaptability

Hidden Markov Model (HMM) autómata finito que
tiene probabilidades asociadas a las transiciones
entre estados y a la emisión de símbolos desde
cada estado.

Pros robustez, facilidad de desarrollo y
evaluación

Cons conocimiento a priori de la topología del
modelo requieren enormes conjuntos de
entrenamiento un atributo por token
(representación pobre)

Ejemplos
Texto semi-estructurado Freitag and
McCallum99,00, Seymore et al.99
Texto no restingido Freitag and McCallum99,00,
Ray and Craven01

20
Aprendizaje de modelos estadísticos (HMM)
Adaptability

HMM conjunto de estados
q0, q1, ..., qn conjunto de transiciones
( q ? q ) vocabulario símbolos de
emisión S s 0, s 1, ..., s m
estado inicial q0 estado final qn
probabilidades de transición entre estados
P( q ? q )
probabilidades de emisión de símbolos
desde un estado P( q ? s )

21
Aprendizaje de modelos estadísticos (HMM)
Adaptability

Ejemplo extracción de info en cabeceras de
artículos (etiquetar cada palabra de la cabecera
como title, author, date, keyword).

22
Aprendizaje de modelos estadísticos (HMM)
Adaptability

EI usando HMMs
Dado un modelo M y sus parámetros, la EI se lleva
a cabo determinando la secuencia de estados más
probable que haya generado el documento
(observación).
Esta secuencia puede ser calculada usando
programación dinámica algoritmo de Viterbi.

23
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum99
Crea un HMM para cada slot. Se fija la
topología y se aprenden las probabilidades de
transición y emisión. Dos tipos de estados,
background y target, con conexiones limitadas
para capturar el contexto. Texto
semi-estructurado y texto no restringido.
24
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum99
Variaciones en la topología tamaño de la
ventana de contexto y substitución de un target
por un conjunto de caminos paralelos de distinta
longitud. Probs. Transición y emisión se
aprenden tratando la sparseness
25
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum00
Freitag and McCallum00, la topología se
aprende vía stochastic optimization (hill
climbing en el espacio de topologías
posibles). - modelo inicial simple M0 -
conjunto de operadores (state-split, state-add,
trans-add,) - h(Mi) F1 Mejoran los
resultados
26
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Topologías aprendidas para location y
speaker. Freitag and McCallum00
27
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Seymore et al.99

A partir de los datos de entrenamiento
aprender la topología del HMM (usando técnica de
Bayesian model merging) y
estimar sus parámetros
datos etiquetados (maximum likelihood),
no etiquetados (algoritmo de Baum-Welch) y
distantly-labeled (para estimar probabilidades de
emisión)

28
Adaptability
Aprendizaje de modelos estadísticos (HMM)
Ray and Craven01
Las sentencias no sólo son secuencias de tokens
se añade su estructura gramatical. Los estados
del HMM representan información gramatical de una
sentencia (type) y su anotación (label) los
parámetros maximizan la correcta asignación de
etiquetas a ciertos segmentos no a toda la
sentencia. Texto no restringido.
NP_SEGMENT this enzyme NP_SEGMENTPROTEIN
ubc6 NP_SEGMENT localizes PP_SEGMENT
to NP_SEGMENTLOCATION the endoplasmic
reticulum PP_SEGMENT with NP_SEGMENT the
catalyctic domain VP_SEGMENT facing NP_SEGMENT
the cytosol
This enzyme, UBC6, localizes to the endoplasmic
reticulum, with the catalytic domain facing the
cytosol.
29
Aprendizaje de modelos estadísticos
Adaptability

Maximum Entropy Model (MEM) estima la
probabilidad de que cierta clase ocurra en
cierto contexto, sujeta a restricciones
impuestas por las observaciones
(p.e. POS adecuado a un token en un contexto,
traducción de un palabra en un contexto).
Pros facilidad para extender la cantidad y el
tipo de atributos atributos dependientes método
de estimación general (reutilizable)
Cons coste computacional
Ejemplos
Texto semi-estructurado Chieu and Ng02
Texto no restringido Chieu and Ng02,
Kambhatla04

30
Adaptability
Aprendizaje de modelos estadísticos (MEM)
Chieu and Ng02
Paso I (single-slot) clasificar cada palabra en
una de las clases posibles (slots o partes de un
slot). Después, usa Viterbi para seleccionar la
secuencia de clases más probable. Paso II
(multi-slot) determinar si dos slot fillers
forman parte de la misma templeta, usando un
clasificador de relaciones. Texto
semi-estructurado y texto no restringido.
31
Adaptability
Aprendizaje de modelos estadísticos (MEM)
Ejemplo de Chieu and Ng02
Bronczek, vice president of Federal Express
Canada Ltd., was named senior vice president,
Europe, Africa and Mediterranean, at this
air-express concern.
32
Adaptability
Aprendizaje de modelos estadísticos (MEM)
Kambhatla04
Construye MEMs para predecir el tipo de
relación que existe entre pares de menciones (ACE
RDC task) en una frase. Combina atributos
léxicos, semánticos y sintácticos. Los
atributos sintácticos se derivan del árbol
sintáctico y del árbol de dependencias, obtenidos
usando un parser estadístico basado en
ME. Texto no restringido.
33
Aprendizaje de modelos estadísticos
Adaptability

Dynamic Bayesian Networks generalización de HMM
para permitir la codificación de dependencias
entre características.
Pros permite reducir el coste del aprendizaje
usando conocimiento del dominio permite
múltiples atributos por token pero no su contexto
Cons estructura de la red predefinida
manualmente
Ejemplos
texto semi-estructurado Peshkin and Pfeffer03

34
Aprendizaje de modelos estadísticos
Adaptability

Conditional Random Fields modelo de estados
finito de probabilidad condicional.
Pros relaja requerimiento de independencia entre
variables de los HMM
Cons probabilidad condicional sobre una única
variable
Ejemplos
texto semi-estructurado Coxe05

Presentación
35
Aprendizaje de modelos estadisticos
Adaptability

Hyperplane separators aprenden un hiperplano en
el espacio de las características que separa los
ejemplos de un concepto entre i - (p.e. SVM,
Voted Perceptron)
Pros pueden trabajar con muchas propiedades
Cons
Ejemplos Roth and Yih01, Sun et al.03, Chieu
et al.03, Zelenko et al.03, Finn and
Kushmerick04, Zhao and Grishman05

36
Aprendizaje de hiperplanos separadores
Adaptability

Ejemplos
texto semi-estructurado Roth and Yih01
texto no restringido Sun et al.03, Chieu et
al.03, Zelenko et al.03, Finn and
Kushmerick04, Zhao and Grishman05

37
Adaptability
Summary

Information Extraction Systems
Evaluation
Multilinguality
Adaptability
Introduction
Learning of rules
Learning of statistical models
Multistrategy learning

38
Métodos multiestrategia
Adaptability

Combinan distintos métodos de aprendizaje
automático.
Freitag98 rote memorization, term-space text
classification y inducción de reglas relacionales
(SRV)
Turmo and Rodríguez02, Turmo02 closed-loop
learning, deductive restructuring y constructive
induction

Write a Comment

User Comments (0)