ZDYSCYPLINOWANY OPIS JEZYK - PowerPoint PPT Presentation

1 / 43
About This Presentation
Title:

ZDYSCYPLINOWANY OPIS JEZYK

Description:

Title: Marek widzi ski Author: Marek widzi ski Last modified by: Marek Created Date: 10/3/2002 8:57:06 AM Document presentation format: Pokaz na ekranie (4:3) – PowerPoint PPT presentation

Number of Views:315
Avg rating:3.0/5.0
Slides: 44
Provided by: MarekSwi
Category:

less

Transcript and Presenter's Notes

Title: ZDYSCYPLINOWANY OPIS JEZYK


1
ZDYSCYPLINOWANY OPIS JEZYKÓW NATURALNYCH I
KORPUSY TEKSTÓWProseminarium doktoranckie2013/20
14, semestr letni
  • Prof. dr hab. Marek Swidzinski
  • Zaklad Jezykoznawstwa Komputerowego
  • Instytut Jezyka Polskiego UW
  • e-mail m.r.swidzinski_at_uw.edu.pl
  • Konsultacje wt 15.30-16.30, pok. 1
  • Strona internetowa
  • www.mswidz.republika.pl

2
  • Spotkanie 1
  • Wstep.

3
Cele
  • Cel wprowadzenie w warsztat lingwistyki
    strukturalnej, formalnej i korpusowej.
  • Zawartosc tresciowa pokaz narzedzi przetwarzania
    korpusu tekstów przeszukiwania, rozwiazywania
    homonimii, interpretacji róznych typów metody
    interpretacji skladniowej gramatyki formalne i
    automatyczne analizatory skladniowe produkty
    slowniki, bazy danych lingwistycznych, SGJP
    analiza tekstu jezyka obcego cwiczenia
    dystrybucyjne jezyki wizualno-przestrzenne.
  • Nasze zajecia
  • moje opowiadanie, wyklady gosci
  • referowanie
  • trening i rozwiazywanie zadan badawczych (w
    ideale Waszych...).

4
Literatura
  • Collins COBUILD English Language Dictionary, red.
    J. Sinclair, Collins London Glasgow 1987.
  • Derwojedowa, M., Rudolf, M., Swidzinski, M.
    Dehomonimizacja i desynkretyzacja w procesie
    automatycznego przetwarzania wielkich korpusów
    tekstów polskich. W Biuletyn Polskiego
    Towarzystwa Jezykoznawczego LVIII, Warszawa 2002.
    187-199.
  • Korpus_IPI_PAN http//korpus.pl/
  • Korpus_PWN http//korpus.pwn.pl/
  • Looking Up An Account of the COBUILD Project in
    Lexical Computing. Red. J. Sinclair,
    HarperCollins Publishers Limited London
    Glasgow 1987.
  • Narodowy Korpus Jezyka Polskiego http//nkjp.pl/
  • Przepiórkowski, A. Korpus IPI PAN. Wersja
    wstepna. IPI PAN Warszawa 2004.
  • Rudolf, M. Metody automatycznej analizy korpusu
    tekstów polskich. Uniwersytet Warszawski
    Wydzial Polonistyki Warszawa 2004.

5
Literatura
  • Saloni, Z., Wolinski, M., Wolosz, R.,
    Gruszczynski, W., Skowronska, D. Slownik
    gramatyczny jezyka polskiego, wyd. II, Wiedza
    Powszechna Warszawa 2012.
  • SFPW (1990) I. Kurcz, A. Lewicki, J. Sambor, K.
    Szafran, J. Woronczak, Slownik frekwencyjny
    polszczyzny wspólczesnej. Red. Zygmunt Saloni.
    Kraków Polska Akademia Nauk Instytut Jezyka
    Polskiego.
  • Swidzinski, M. Gramatyka formalna jezyka
    polskiego. WUW Warszawa 1992 (dostepna w wersji
    elektronicznej).
  • Swidzinski, M. Lingwistyka korpusowa w Polsce
    zródla, stan, perspektywy. W LingVaria, nr 1.
    Kraków 2006. 23-32.
  • Swidzinski, M., Rudolf, M. Narzedzia
    informatyczne obslugi wielkich korpusów tekstów
    wyszukiwarka Holmes. W Biuletyn Polskiego
    Towarzystwa Jezykoznawczego LXII, Warszawa 2006.
  • Wolinski, M. Komputerowa weryfikacja gramatyki
    Swidzinskiego. Niepublikowana rozprawa doktorska.
    IPI PAN Warszawa 2004.

6
Przedmiot
  • jezykoznawstwo XXI stulecia to ...
    lingwistyka korpusowa. Rozwija sie ona juz od
    jakiegos czasu wynikla w sposób naturalny z dosc
    szczesliwego splotu róznorodnych okolicznosci
    zdominowala inne nurty i odmiany jezykoznawstwa
    nieodwracalnie. Nie mozna byc dzis jezykoznawca i
    nie otrzec sie o nia chocby jako uzytkownik
    narzedzi. A skoro tak, to warto wejsc w ten swiat
    z wyboru, zadan bowiem jest moc i bedzie ich
    coraz wiecej. W swiecie jest na te najnowsza
    lingwistyke, nie na dowolna, mnóstwo pieniedzy
    i zajmuja sie nia cale rzesze to dowodzi, ze cos
    jest na rzeczy, ze czemus to sluzy...
  • Swidzinski, M. Lingwistyka korpusowa w Polsce
    zródla, stan, perspektywy. W LingVaria, nr
    1. Kraków 2006. 23-32.

7
Hasla
  • Co to jest
  • przetwarzanie tekstu (NLP),
  • korpus reprezentatywny / zrównowazony /
    oportunistyczny,
  • Korpus IPIPAN / Korpus PWN / NKJP,
  • homonimia / synkretyzm,
  • homonimia strukturalna,
  • tekst znakowany,
  • tagowanie / POS-tagging / tagset,
  • analizator morfologiczny,
  • lematyzacja / dehomonimizacja / desynkretyzacja,
  • rozwiazywanie homonimii slabe / mocne /
    jakosciowe / ilosciowe,
  • wyszukiwarka / search engine / Poliqarp,
  • gramatyka formalna,
  • drzewo skladników / drzewo zaleznosci,
  • parser

8
Tematy
  • Lingwistyka korpusowa. Korpus jako zródlo
    informacji lingwistycznej.
  • Homonimia jako problem teoretyczny i praktyczny.
  • Slownik gramatyczny jezyka polskiego.
  • Narzedzia NLP. Automatyczne analizatory
    morfologiczne a.  wyszukiwarka Korpusu PWN, b.
    (Sherlock-)Holmes, c.  Poliqarp.
  • Collins COBUILD i Looking up.
  • Slownik frekwencyjny polszczyzny wspólczesnej.
  • Gramatyki formalne. GFJP. Analizatory skladniowe
    Swigra. Dendrarium. Baza danych wypowiedników
    polskich.

9
Tematy
  1. Opis strukturalny tekstu jezyka obcego. Polski
    Jezyk Migowy i techniki analizy tekstu
    wizualno-przestrzennego.
  2. Zadania praktyczne (a) referowanie prac wlasnych
    i cudzych, (b) trening kwerend korpusowych, (c)
    fakty dystrybucyjne i ich zapis gramatyczny i
    slownikowy, (d) przygotowywanie i ocena
    prezentacji, (e) analiza krytyczna naukowego
    tekstu lingwistycznego.

10
Skutki
  • Po ukonczeniu przedmiotu student
  • potrafi traktowac tekst jezyka rodzimego tak,
    jakby to byl tekst jezyka obcego
  • zna dwa glówne postulaty metodologiczne
    empirysty jawnosc i wyczerpujacosc
  • potrafi analizowac tekst jezyka obcego
  • potrafi interpretowac zdyscyplinowane (takze
    formalne) opisy jezyków naturalnych
  • potrafi korzystac z narzedzi komputerowych
    obslugi korpusów tekstowych
  • potrafi rozwiazywac lingwistyczne zadania
    badawcze z wykorzystaniem danych korpusowych
  • potrafi zaprojektowac i przedstawic prezentacje.

11
Morfeusz
12
SGJP
13
Wyszukiwarka Korpusu PWN
14
Holmes
15
Poliqarp
16
GFJP
  • fno(mian, nij/poj, 3, Neg, I, pyt, licz, Tak,
    Sub, Pk)
  • --gt s(no),
  • fpt(mian, R/L, St, Neg1, I1, Pnw1, Kl1, Tak1,
    po, Pk1),
  • oblink(I, I1, I2), oblink(I, I2, I3),
    oblnegf(Neg, Neg1, Neg2) ,
  • flicz(mian, R/L, O, Neg2, I2, Pnw2, nuzg, Tak2,
    na, Pk2),
  • fno(dop, R/L, O, Neg3, I3, Pnw3, Kl3, Tak3, po,
    Pk),
  • rozne(R, mos), rowne(pyt, Pnw1.Pnw2),
    rowne(Pnw1, npyt.pyt),
  • rowne(Pnw2, npyt.pyt), rowne(Pnw3, npyt.pyt),
    obltak(Tak, Tak1, Tak2),
  • rozne(Kl3, licz), obltak(Tak, Tak2, Tak3) .

17
Swigra
18
Dendrarium
19
Drzewka
20
Drzewka
21
Szkic historii lingwistyki
  1. Lingwistyka I polowy XX wieku strukturalizm (F.
    de Saussure, J.N. Baudouin de Courtenay, M.
    Kruszewski, O. Jespersen, N. Trubeckoj, L.
    Hjelmslev, L. Tesniére, J. Kurylowicz, L.
    Bloomfield, Z. S. Harris) opis struktury, nie
    genezy. Jezyk naturalny dwuklasowy system
    semiotyczny sluzacy danej populacji do
    komunikacji uniwersalnej.
  2. Lingwistyka formalna opisy typu matematycznego
    twierdzenia, dowody, rachunki. Opis na
    papierze!!! Wynik definicja drzew struktury.
    Jezyk naturalny zbiór wszystkich wyrazen
    poprawnych i tylko takich. Generatywizm N.
    Chomsky, Syntactic Structures (1957). Inne
    formalizmy GPSG, HPSG, DCG, wiele innych.

22
Szkic historii lingwistyki
  • Lingwistyka informatyczna zadania inzynierskie
    budowa korpusu, automatyczna analiza tekstu,
    przetwarzanie tekstów, przeszukiwanie itp. Opis
    jest urzadzeniem na przyklad programem
    komputerowym. Wynik okreslony podzbiór korpusu,
    lista skladników spelniajacych zadane warunki,
    rzeczywiste drzewa struktury dla danego wyrazenia
    (parsing trees).
  • Pojecie implementacji opisu (formalnego).
  • Lingwistyka korpusowa.

23
Korpusy
  • korpus m IV, D. -u, Ms. sie lm M. -y
  • 1. cialo czlowieka lub zwierzecia prócz konczyn
    i glowy tulów
  • 2. gt garmond
  • 3. archit. glówna czesc budowli w architekturze
    palacowej czesc centralna budynku o charakterze
    reprezentacyjnym w architekturze sakralnej
    czesc nawowa kosciola
  • 4. techn. glówna, tworzaca calosc, czesc
    jakiegos urzadzenia, maszyny, przyrzadu itp.
    kadlub
  • Korpus obrabiarki, okretu.
  • 5. wojsk. duza jednostka taktyczna skladajaca
    sie z kilku dywizji lub brygad wchodzi w sklad
    armii lub moze dzialac samodzielnie
  • Korpus zmechanizowany. Korpus piechoty,
    kawalerii.
  • FR. Korpus oficerów, korpus oficerski ogól
    oficerów wchodzacych w sklad dowództwa
    wojskowego
  • FR.Korpus kadetów szkola wojskowa, poczatkowo
    szkola oficerska, pózniej srednia szkola
    ogólnoksztalcaca, przygotowujaca kandydatów do
    szkól oficerskich w Polsce istniala do roku
    1956

24
Korpusy
  • FR. polit. Korpus dyplomatyczny ogól
    przedstawicieli panstw obcych akredytowanych przy
    rzadzie danego kraju personel dyplomatyczny oraz
    wszyscy czlonkowie obcych misji dyplomatycznych
    korzystajacych z przywilejów i immunitetów
  • FR. Korpus konsularny ogól konsulów w okreslonym
    panstwie lub miejscowosci szefowie placówek
    konsularnych oraz czlonkowie personelu
    konsularnego korzystajacy z przywilejów i
    immunitetów
  • (wg KSJP)

25
Korpusy
  • korpus
  • ...
  • 6 Korpus tekstów to zbiór ksiazek, czasopism,
    artykulów itp. przeznaczony do jakichs prac lub
    badan. Termin specjalistyczny. komputerowy
    korpus jezyka polskiego.
  • (wg ISJP)

26
Korpusy
  • Korpus to dowolny zbiór tekstów.
  • Korpus to dowolny zbiór tekstów, w którym czegos
    szukamy.
  • Korpus to dowolny zbiór tekstów bedacy podstawa
    badan (np. naukowych).
  • Korpus narodowy???

27
Korpusy
  • Klasyfikacje
  • Rozmiar wielki sredni maly
  • Waga zasadniczy pomocniczy
  • Cel podstawowy przykladowy (sample)
  • Zakres ogólny szczególowy
  • Status naukowy (kulturowy) komercyjny

28
Korpusy
  • LOB Corpus Lancaster Oslo/Bergen
  • 1970-1978
  • Geoffrey Leech, Stig Johansson
  • BNC 1991-1995
  • Oxford, Lancaster, Longman
  • PELCRA Polish and English Language Corpora
    for Research and Applications
  • COBUILD
  • http//korpus.pwn.pl/ Korpus PWN
  • http//korpus.pl/ Korpus IPI PAN

29
Korpusy
  • Inne jezyki
  • Ceský Narodní Korpus
  • Korpus niemiecki Berlinskiej Akademii Nauk (DWDS)
  • Korpusy IDS (Institut für Deutsche Sprache)
  • ??????????? ?????? ???????? ?????
  • korpusy francuskie
  • korpusy hiszpanskie
  • korpusy portugalskie

30
Korpusy
  • ? LOB
  • The Lancaster/Oslo-Bergen Corpus
  • Approximately 1,000,000 words of British written
    English dating from 1960. The corpus is made up
    of 15 different genre categories. Available as
    orthographic text, and tagged with the CLAWS1
    part-of-speech tagging system. The
    Leeds-Lancaster Treebank and Lancaster Parsed
    Corpus are analyzed subsamples of the LOB corpus.
    For further information see the corpus manual
    (1978) and the tagged corpus manual (1986).
    (There is a local on-line copy of the tagged
    corpus manual at Lancaster.)
  • http//khnt.hit.uib.no/icame/manuals/lob/INDEX.HTM

30
31
Korpusy
  • ? BNC (British National Corpus)

32
Korpusy
  • ? PELCRA

33
Korpusy
  • London and
  • Glasgow
  • 1987
  • 33

34
Korpusy
  • 34

35
Korpusy
  • 35

36
Korpusy
  • http//korpus.pwn.pl/ Korpus PWN
  • Wydawnictwo Naukowe PWN przygotowalo i
    udostepnilo sieciowa wersje Korpusu Jezyka
    Polskiego PWN wielkosci 40 milionów slów. Korpus
    sklada sie z fragmentów 386 róznych ksiazek, 977
    numerów 185 róznych gazet i czasopism, 84
    nagranych rozmów, 207 stron internetowych oraz
    kilkuset ulotek reklamowych.
  • Pelna wersja sieciowa korpusu jest dostepna
    odplatnie (40 mln), a bezplatnie wersja
    demonstracyjna wielkosci ponad 7,5 miliona slów.

37
Korpusy
38
Korpusy
  • http/korpus.pl/ Korpus IPI PAN
  • 2. wydanie Korpusu IPI PAN (marzec 2006)
  • 2.all.250.bin.tar.bz2 pelny Korpus IPI PAN,
    czyli ponad 250 mln. segmentów.
  • 2.sample.30.bin.tar.bz2 próbka Korpusu IPI PAN
    dostepna na stronie http//korpus.pl/ ponad 30
    mln. segmentów. Niniejsza wersja sample jest
    korpusem róznorodnym o nastepujacym skladzie
  • proza wspólczesna ponad 10
  • proza dawna prawie 10
  • teksty ksiazkowe niebeletrystyczne (glównie
    naukowe) 10
  • prasa 50
  • stenogramy sejmowe i senackie (w tym z komisji
    sledczej) 15
  • ustawy 5

39
Korpusy

40
Korpusy
  • http//nklp.pl/ NKJP
  • Swoje korpusy narodowe maja juz Brytyjczycy,
    Niemcy, Czesi i Rosjanie. Takze Polakom potrzebny
    jest wielki, zrównowazony gatunkowo i
    tematycznie, korpus jezykowy internetowy
    skarbiec polszczyzny.
  • Narodowy Korpus Jezyka Polskiego jest wspólna
    inicjatywa Instytutu Podstaw Informatyki PAN
    (koordynator), Instytutu Jezyka Polskiego PAN,
    Wydawnictwa Naukowego PWN oraz Zakladu
    Jezykoznawstwa Komputerowego i Korpusowego
    Uniwersytetu Lódzkiego, zrealizowana jako projekt
    badawczy rozwojowy Ministerstwa Nauki i
    Szkolnictwa Wyzszego.
  • Te cztery instytucje wspólnie zbudowaly korpus
    referencyjny polszczyzny wielkosci ponad póltora
    miliarda slów. Wyszukiwarki korpusowe (menu po
    prawej stronie) pozwalaja przeszukiwac zasoby
    NKJP zaawansowanymi narzedziami uwzgledniajacymi
    odmiane polskich wyrazów, a nawet analizujacymi
    budowe polskich zdan.

41
Korpusy
42
Narzedzia i produkty
  • Korpus PWN przegladarka http//korpus.pwn.pl/
  • Korpus PWN (Sherlock) Holmes
  • Morfeusz http//nlp.ipipan.waw.pl/wolin
    ski/morfeusz/
  • Korpus IPIPAN Poliqarp http//korpus.pl/
  • Swigra http//nlp.ipipan.waw.pl/wolinski/swigra
    /
  • Komputerowy slownik jezyka polskiego
  • Slownik gramatyczny jezyka polskiego
  • http//nlp.ipipan.waw.pl/wolinski/sgjp/

43
Podsumowanie
  • Lingwistyka XXI wieku korpusowa.
  • Korpus zbiór tekstów wymagajacych narzedzi
    obslugi.
  • Polszczyzna dobrze opisana gramatycznie.
  • Istnieja narzedzia do pracy z korpusem tekstów
    polskich.
  • Istnieja narzedzia analizy morfologicznej i
    skladniowej.
  • Wspólczesny leksykograf musi byc lingwista
    korpusowym.
Write a Comment
User Comments (0)
About PowerShow.com