Title: Miner
1Minería de Texto aplicada a revistas de Negocios
Internacionales
Carlos Vílchez Román 4 de noviembre de 2009
2Qué veremos en esta sesión?
- Arquitectura de un sistema de Minería de Texto.
- Definiciones de minería textual.
- Técnicas de minería textual.
- Beneficios y Aplicaciones de la Minería de
Texto. - Caso práctico Revistas de Negocios
Internacionales. - Análisis de contenido tradicional.
- Análisis multidimensional.
3Grandes volúmenes de información no estructurada
- 90 de contenidos de una empresa no está
estructurado. - Minería de Texto Visualización de la
Información. - Tecnologías de búsqueda basadas en la
exploración.
(Archivo de OCLC, 2003)
4Definiciones de Minería de Texto
Descubrimiento semi automatizado de patrones y
tendencias en grandes conjuntos de datos
textuales, cuyo objetivo es descubrir información
y conocimiento que previamente se desconocía y
que no aparecía en ninguno de los documentos
analizados. (M. Hearst, 2003). Proceso de
compilar, organizar y analizar grandes
colecciones de documentos para apoyar en la
distribución de información a los analistas y a
las personas encargadas de tomar decisiones, y
para descubrir relaciones entre hechos
relacionados que se reparten entre distintos
dominios de investigación.
(D. Sullivan, 2001).
5Definiciones de Minería de Texto
Proceso de extracción automática de información
fundamental de textos, detección automática de
temas predominantes en un conjunto de documentos
y búsqueda de textos relevantes mediante
consultadas de grandes prestaciones y
flexibilidad.
(IBM, 1998). Proceso de investigar una gran
colección de documentos en texto libre, para
descubrir y usar el conocimiento disponible en la
totalidad de la colección.
(SAS, 2002).
6Arquitectura de un sistema de Minería de Texto
Extraer información
Adquirir información
Minería
Presentación
Identificar el idioma Extraer las
propiedades Analizar el léxico Evaluar
la sintaxis Analizar la semántica
Definir tareas y metas
Datos
Buscar Acopiar Limpiar Transformar Organiz
ar
Visuali- zación
Seleccionar
Datos
Clustering
Base de textos
Bús- quedas
Archivo de docs.
Base de textos 1
Datos
Explo- ración
Datos
(Trybula, 1999)
7Minería de Texto y Visualización de la Información
Técnicas empleadas- Análisis de conglomerados
dendrogramas - Escalamiento multidimensional
mapas bidimensionales - Análisis de redes
sociales sociogramas - Análisis de redes
neuronales
8Beneficios de la Minería de Texto
- Reduce el tiempo empleado para tomar decisiones.
- Mejora el desempeño, ahorrando dinero y horas de
trabajo. - Logra una visión más exacta de la documentación
interna. - Reconoce tendencias y anticipa oportunidades de
negocio.
9Campos de aplicación de la Minería de Texto
- Estudios e investigaciones
- Detectar tendencias en los estudios en
ciencia y tecnología. - Márketing y relaciones públicas
- Análisis de grupos focales, entrevistas
abiertas y quejas de clientes - Medicina y salud pública
- Detectar tendencias en historias clínicas y
diagnósticos. - Medios informativos
- Análisis de noticias, encuestas de opinión y
archivos de prensa.
10Revistas especializadas en Minería de Texto
- Computational Linguistics
- http//www.mitpressjournals.org/loi/coli?cook
ieSet1 - Data Mining and Knowledge Discovery
- http//www.springerlink.com/content/100254/
- Natural Language Engineering
- http//journals.cambridge.org/action/displayJ
ournal?jidNLE - Information Retrieval
- http//www.springerlink.com/content/103814/
11Caso práctico Revistas de Negocios
Internacionales
- Objetivo identificar los principales ejes
temáticos. - Muestra 12 revistas indizadas en el SSCI de
ISI. - Corpus documental datos disponibles en
internet. - Herramientas empleadas VBPro VBMap XLStat
Excel. - Campos analizados de cada artículo.
- Título y resumen.
- Palabras clave.
12Base de datos Web de la Ciencia (WoS)
13Base de datos Web de la Ciencia (WoS)
14Análisis de las Revistas de Negocios
Internacionales
15Caso práctico Revistas de Negocios
Internacionales
16Caso práctico análisis de contenido tradicional
Nota Las palabras aparecen listadas según su
frecuencia, pero fuera de su contexto de origen
(oración o párrafo).
17Caso práctico Coordenadas X,Y de cofrecuencias
Archivo importado desde MS Excel
Archivo generado por VBMap
18Caso práctico Mapa bidimensional de cofrecuencias
Cuáles son los ejes temáticos abordados con
mayor frecuencia de acuerdo al título de los
artículos? Al combinar las dos dimensiones
obtenemos los siguientes ejes temáticos -
Empresas transnacionales - Empresas locales -
Industria export. transnacional - Industria
exportadora local
19Caso práctico Mapa bidimensional de cofrecuencias
Cuáles son los ejes temáticos abordados con
mayor frecuencia de acuerdo al resumen de los
artículos? Al combinar las dos dimensiones
obtenemos los siguientes ejes temáticos -
Investigación de negocios - Mercados - Locales -
Internacionales
20Qué hemos visto en esta sesión?
- Arquitectura de un sistema de Minería de Texto.
- Definiciones de minería textual.
- Técnicas de minería textual.
- Beneficios y Aplicaciones de la Minería de
Texto. - Caso práctico Revistas de Negocios
Internacionales. - Análisis de contenido tradicional.
- Análisis multidimensional.