Title: Aprendizaje de reglas/patrones
1Adaptability
Summary
- Information Extraction Systems
- Evaluation
- Multilinguality
- Adaptability
- Introduction
- Learning of rules
- Learning of statistical models
- Multistrategy learning
2Aprendizaje de reglas
Adaptability
- Tendencia a la no supervisión disminución
considerable del coste de anotación - Aprendizaje de antecedentes (patrones)post-anotac
ión - Normalmente, patrónexpresión de constituyentes
generalizados - Heuristic driven specializations
- AutoSlog-TSRiloff96, HarabagiuMaiorano00
- Observation-based learning
- EssenceCatalà03
- Bootstrapping
- DIPREBrin98, ExDISCOYangarber00,
Yangarber03 - Surdeanu et al.06
3Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)
- Heuristic-driven specialization
- Anotación de documentos (rel, norel)
- Adquisición de reglas single-slot (extrapolable)
- Uso de AutoSlog
4Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)
- Cálculo del ranking de un patron pi
- ratio(pi) log2(freq_pi) si ratio(pi)
gt 0.5 - 0 en otro caso
- ratio(pi) Pr(relevant_texttext_contain_pi)
rel_freq_pi / total_freq_pi
5Aprendizaje de reglas (no supervisado)
Adaptability
AutoSlog-TS (Riloff96)
- Pros
- Menos supervisión
- Resultados comparables a AutoSlog
- Cons (todos los métodos no supervisados de este
área) - Clasificar manualmente a posteriori cada patrón
con respecto al conjunto de slots del escenario - Validar manualmente los patrones resultados
- Cons (específicos)
- La formula de relevancia tiende a subir patrones
frecuentes y bajar muchos patrones relevantes
menos frecuentes
6Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00
- Heuristic-driven specialization
- Conjunto de palabras relevantes
- Adquisición de reglas multi-slot (eventos)
- Método similar a AutoSlog
- Meta-patrones sustituidos por espacio semantico
inducido a partir de la palabras relevantes sobre
WordNet
7Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00
WordNet
keywords
semantic space
( ? ) ( ? ) ( ? )
S V O
- Generalización de los conceptos enlazados
- Selección de los patrones más generales
- (Máxima cobertura)
8Aprendizaje de reglas (no supervisado)
Adaptability
Harabagiu Maiorano 00
- Pros
- Menor supervisión que AutoSlog y AutoSlog-TS
- Cons
- Método automático para la selección?
- Ningún resultado sobre la cobertura de los
patrones aprendidos.
9Aprendizaje de reglas (no supervisado)
Adaptability
Essence Català03
- Observation-based Learning
- Conjunto de palabras relevantes
- Adquisición de reglas multi-slot
- Método similar a CRYSTAL
- Observación contexto de ocurrencia de palabra
relevante o alguna extension WordNet - patron específico de constituyentes
- Algoritmo de cobertura bottom-up generalización
sintáctico-semántica (WordNet) de los patrones
específicos
10Aprendizaje de reglas (no supervisado)
Adaptability
- Bootstrapping
- Requiere un conjunto inicial pequeño de ejemplos
y un corpus grande no anotado - Se aprenden patrones a partir del conjunto de
ejemplos iniciales - Se reconocen nuevos ejemplos con los que se
aprenden nuevos patrones
11Aprendizaje de reglas (no supervisado)
Adaptability
ExDISCO Yangarber02
- Bootstrapping
- Conjunto inicial de patrones SVO
- Clasificación de los textos (rel/norel)
- Adquisición de nuevos patrones a partir de los
textos relevantes de forma similar a AutoSlog-TS
12Aprendizaje de reglas (no supervisado)
Adaptability
- Bootstrapping
- Pros
- Poca supervisión
- Cons
- Dependiente del conjunto inicial de ejemplos
- Poco robusto a la aceptación de patrones erroneos
- Condición de parada?
Yangarber03
13Aprendizaje de reglas (no supervisado)
Adaptability
Yangarber03
- Bootstrapping via Counter-training
- Condición de parada para bootstrapping
- Aprendizaje de patrones para diferentes
escenarios en paralelo - Cada proceso computa la precisión de cada patrón
aprendido en cada iteración - Evidencia positiva (relevancia inter-escenario)
- Evidencia negativa (relevancia intra-escenario)
- Repetir hasta que solo queda un proceso activo
14Aprendizaje de reglas (no supervisado)
Adaptability
Yangarber03
- Bootstrapping via Counter-training
- Contra
- Requiere la clasificación a priori de los
documentos
15Aprendizaje de reglas (no supervisado)
Adaptability
Surdeanu et al.06
- Bootstrapping via Co-training
- A cada iteración
- Aprendizaje de patrones de diferentes escenarios
- Aprendizaje de clasificador de documentos
(palabras) - Repetir hasta que no se aprendan patrones nuevos
o in
16Aprendizaje de reglas (no supervisado)
Adaptability
Surdeanu et al.06
Bootstrapping via Co-training
Labeled seed docs Unlabeled docs
Init Pattern acquisition
Pattern Acquisition iteration
no
NB-EM iteration
Init NB-EM
si
patterns
no
si
17Adaptability
Summary
- Information Extraction Systems
- Evaluation
- Multilinguality
- Adaptability
- Introduction
- Learning of rules
- Learning of statistical models
- Multistrategy learning
18Aprendizaje de modelos estadísticos
Adaptability
- Aprendizaje supervisado
- slot-filler extraction models, relation
extraction models - Hidden Markov Models (HMMs)
- Maximum Entropy Models (MEMs)
- Dynamic Bayesian Networks (DBNs)
- Conditional Random Fields (CRFs)
- Hyperplane Separators
19Aprendizaje de modelos estadísticos
Adaptability
- Hidden Markov Model (HMM) autómata finito que
tiene probabilidades asociadas a las transiciones
entre estados y a la emisión de símbolos desde
cada estado.
- Pros robustez, facilidad de desarrollo y
evaluación
- Cons conocimiento a priori de la topología del
modelo requieren enormes conjuntos de
entrenamiento un atributo por token
(representación pobre)
- Ejemplos
- Texto semi-estructurado Freitag and
McCallum99,00, Seymore et al.99 - Texto no restingido Freitag and McCallum99,00,
Ray and Craven01
20Aprendizaje de modelos estadísticos (HMM)
Adaptability
- HMM conjunto de estados
- q0, q1, ..., qn conjunto de transiciones
- ( q ? q ) vocabulario símbolos de
emisión S s 0, s 1, ..., s m
estado inicial q0 estado final qn
probabilidades de transición entre estados
- P( q ? q )
- probabilidades de emisión de símbolos
desde un estado P( q ? s )
21Aprendizaje de modelos estadísticos (HMM)
Adaptability
- Ejemplo extracción de info en cabeceras de
artículos (etiquetar cada palabra de la cabecera
como title, author, date, keyword). -
22Aprendizaje de modelos estadísticos (HMM)
Adaptability
- EI usando HMMs
- Dado un modelo M y sus parámetros, la EI se lleva
a cabo determinando la secuencia de estados más
probable que haya generado el documento
(observación). - Esta secuencia puede ser calculada usando
programación dinámica algoritmo de Viterbi. -
23Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum99
Crea un HMM para cada slot. Se fija la
topología y se aprenden las probabilidades de
transición y emisión. Dos tipos de estados,
background y target, con conexiones limitadas
para capturar el contexto. Texto
semi-estructurado y texto no restringido.
24Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum99
Variaciones en la topología tamaño de la
ventana de contexto y substitución de un target
por un conjunto de caminos paralelos de distinta
longitud. Probs. Transición y emisión se
aprenden tratando la sparseness
25Adaptability
Aprendizaje de modelos estadísticos (HMM)
Freitag and McCallum00
Freitag and McCallum00, la topología se
aprende vía stochastic optimization (hill
climbing en el espacio de topologías
posibles). - modelo inicial simple M0 -
conjunto de operadores (state-split, state-add,
trans-add,) - h(Mi) F1 Mejoran los
resultados
26Adaptability
Aprendizaje de modelos estadísticos (HMM)
Topologías aprendidas para location y
speaker. Freitag and McCallum00
27Adaptability
Aprendizaje de modelos estadísticos (HMM)
Seymore et al.99
- A partir de los datos de entrenamiento
- aprender la topología del HMM (usando técnica de
Bayesian model merging) y - estimar sus parámetros
- datos etiquetados (maximum likelihood),
- no etiquetados (algoritmo de Baum-Welch) y
- distantly-labeled (para estimar probabilidades de
emisión) -
28Adaptability
Aprendizaje de modelos estadísticos (HMM)
Ray and Craven01
Las sentencias no sólo son secuencias de tokens
se añade su estructura gramatical. Los estados
del HMM representan información gramatical de una
sentencia (type) y su anotación (label) los
parámetros maximizan la correcta asignación de
etiquetas a ciertos segmentos no a toda la
sentencia. Texto no restringido.
NP_SEGMENT this enzyme NP_SEGMENTPROTEIN
ubc6 NP_SEGMENT localizes PP_SEGMENT
to NP_SEGMENTLOCATION the endoplasmic
reticulum PP_SEGMENT with NP_SEGMENT the
catalyctic domain VP_SEGMENT facing NP_SEGMENT
the cytosol
This enzyme, UBC6, localizes to the endoplasmic
reticulum, with the catalytic domain facing the
cytosol.
29Aprendizaje de modelos estadísticos
Adaptability
- Maximum Entropy Model (MEM) estima la
probabilidad de que cierta clase ocurra en
cierto contexto, sujeta a restricciones
impuestas por las observaciones
(p.e. POS adecuado a un token en un contexto,
traducción de un palabra en un contexto). - Pros facilidad para extender la cantidad y el
tipo de atributos atributos dependientes método
de estimación general (reutilizable) - Cons coste computacional
- Ejemplos
- Texto semi-estructurado Chieu and Ng02
- Texto no restringido Chieu and Ng02,
Kambhatla04
30Adaptability
Aprendizaje de modelos estadísticos (MEM)
Chieu and Ng02
Paso I (single-slot) clasificar cada palabra en
una de las clases posibles (slots o partes de un
slot). Después, usa Viterbi para seleccionar la
secuencia de clases más probable. Paso II
(multi-slot) determinar si dos slot fillers
forman parte de la misma templeta, usando un
clasificador de relaciones. Texto
semi-estructurado y texto no restringido.
31Adaptability
Aprendizaje de modelos estadísticos (MEM)
Ejemplo de Chieu and Ng02
Bronczek, vice president of Federal Express
Canada Ltd., was named senior vice president,
Europe, Africa and Mediterranean, at this
air-express concern.
32Adaptability
Aprendizaje de modelos estadísticos (MEM)
Kambhatla04
Construye MEMs para predecir el tipo de
relación que existe entre pares de menciones (ACE
RDC task) en una frase. Combina atributos
léxicos, semánticos y sintácticos. Los
atributos sintácticos se derivan del árbol
sintáctico y del árbol de dependencias, obtenidos
usando un parser estadístico basado en
ME. Texto no restringido.
33Aprendizaje de modelos estadísticos
Adaptability
- Dynamic Bayesian Networks generalización de HMM
para permitir la codificación de dependencias
entre características. - Pros permite reducir el coste del aprendizaje
usando conocimiento del dominio permite
múltiples atributos por token pero no su contexto - Cons estructura de la red predefinida
manualmente - Ejemplos
- texto semi-estructurado Peshkin and Pfeffer03
34Aprendizaje de modelos estadísticos
Adaptability
- Conditional Random Fields modelo de estados
finito de probabilidad condicional. - Pros relaja requerimiento de independencia entre
variables de los HMM - Cons probabilidad condicional sobre una única
variable - Ejemplos
- texto semi-estructurado Coxe05
Presentación
35Aprendizaje de modelos estadisticos
Adaptability
- Hyperplane separators aprenden un hiperplano en
el espacio de las características que separa los
ejemplos de un concepto entre i - (p.e. SVM,
Voted Perceptron) - Pros pueden trabajar con muchas propiedades
- Cons
- Ejemplos Roth and Yih01, Sun et al.03, Chieu
et al.03, Zelenko et al.03, Finn and
Kushmerick04, Zhao and Grishman05
36Aprendizaje de hiperplanos separadores
Adaptability
- Ejemplos
- texto semi-estructurado Roth and Yih01
- texto no restringido Sun et al.03, Chieu et
al.03, Zelenko et al.03, Finn and
Kushmerick04, Zhao and Grishman05
37Adaptability
Summary
- Information Extraction Systems
- Evaluation
- Multilinguality
- Adaptability
- Introduction
- Learning of rules
- Learning of statistical models
- Multistrategy learning
38Métodos multiestrategia
Adaptability
- Combinan distintos métodos de aprendizaje
automático. - Freitag98 rote memorization, term-space text
classification y inducción de reglas relacionales
(SRV) - Turmo and Rodríguez02, Turmo02 closed-loop
learning, deductive restructuring y constructive
induction