Półrocznik Językoznawczy Tertium/ Tertium Linguistic Journal

Vol 4, No 1 (2019)

O roli samodzielnie przygotowanych korpusów w badaniach językoznawczych

Marcin Zabawa

Abstrakt

Celem niniejszego artykułu, o charakterze teoretyczno-przeglądowym, jest omówienie problematyki związanej z budową własnego korpusu językowego. Badacz, chcący skupić się np. na analizie neologizmów, musi oprzeć swoje badania na określonych źródłach: o ile dawniej często wykorzystywano do tego celu prasę, o tyle obecnie znacznie częściej są to korpusy językowe (np. NKJP) oraz Internet. Autor artykułu stawia tezę, że zarówno NKJP, jak i Internet jako całość, nie są jednak najlepszym wyborem w wypadku chęci badania np. najnowszego słownictwa polszczyzny, a już na pewno nie są wystarczające. Jeszcze więcej problemów stwarza wybór języka mówionego jako podstawy analiz. Najlepszym wyjściem, choć jednocześnie najtrudniejszym i najbardziej czasochłonnym, jest budowa własnego korpusu językowego. W artykule wykazano, dlaczego użycie prasy czy Internetu jako całości niekoniecznie jest najlepszym rozwiązaniem, a także omówiono różnego rodzaju aspekty teoretyczne związane z budową własnego korpusu (np. wybór rodzaju tekstów, wielkość korpusu, wykorzystanie narzędzi informatycznych ułatwiających tworzenie korpusu).

 

Bibliografia

Adamczyk, Małgorzata Joanna (2009) „Język sieciowych dyskusji w opiniach samych dyskutantów”. [W:] Danuta Ulicka (red.), Tekst (w) sieci. Tom 1: Tekst, Język, Gatunki. Warszawa: Wydawnictwa Akademickie i Profesjonalne; 171−184.

Algeo, John (1993) Fifty Years Among the New Words: A Dictionary of Neologisms, 1941−1991. Cambridge: Cambridge University Press.

Andrzejczuk, Anna, Maciej Czupryniak (2008) „O wykorzystaniu zasobów internetowych w pracy językoznawcy”. Polonica XXIX; 189−204.

Baker, Paul (2010) Sociolinguistics and Corpus Linguistics. Edinburgh: Edinburgh University Press.

Bartłomiejczyk, Magdalena (2012) „O języku kierowców autokarów”. Socjolingwistyka XXVI; 191‒204.

Bugajski, Marian (2015) „Kultura języka w Internecie”. Poradnik Językowy 9; 68‒80.

Chapman, Richard (2014) „«Small is Beautiful?» Shakespeare’s Sonnets as a Linguistic Corpus”. Litteraria Pragensia 24/47; 84‒96.

Chomczyński, Piotr (2006) „Wybrane problemy etyczne w badaniach. Obserwacja uczestnicząca ukryta”. Przegląd Socjologii Jakościowej II 1; 68-87 [pobrane z: http://www.qualitativesociologyreview.org/PL/Volume2/PSJ_2_1_Chomczynski.pdf. Data ostatniego dostępu: 02.04.2019].

Crystal, David (2008) A Dictionary of Linguistics and Phonetics, 6th edition. Oxford: Blackwell Publishing.

Data, Krystyna (2009) „Wpływ komunikacji sieciowej na współczesną polszczyznę”. [W:] Danuta Ulicka (red.), Tekst (w) sieci. Tom 1: Tekst, Język, Gatunki. Warszawa: Wydawnictwa Akademickie i Profesjonalne; 131−138.

Deignan, Alice (2005) Metaphor and Corpus Linguistics. Amsterdam−Philadelphia: John Benjamins.

Dunaj, Bogusław, Mirosława Mycawka (2009) „Norma i kodyfikacja”. [W:] Anna Piotrowicz, Krzysztof Skibski, Michał Szczyszek (red.), Kształtowanie się wzorów i wzorców językowych. Poznań: Wydawnictwo Poznańskie; 67−75.

Feliksiak, Michał (2015) Komunikat z badań CBOS nr 90/2015. Internauci 2015 [pobrane z: http://www.cbos.pl/SPISKOM.POL/2015/K_090_15.PDF. Data ostatniego dostępu: 02.04.2019].

Fernandez-Diaz, Gabriela (2008) „A Political Language Corpus and its Applications in Language Teaching”. Respectus Philologicus 1; 46‒57.

Godzic, Wiesław (2000) „Język w Internecie: Czy piszemy to, co myślimy?”. [W:] Jerzy Bralczyk, Katarzyna Mosiołek-Kłosińska (red.), Język w mediach masowych. Warszawa: Oświata UN-O; 176−185.

Greń, Zbigniew (2009) „Zabawy językowe w dyskusjach internetowych”. [W:] Danuta Ulicka (red.), Tekst (w) sieci. Tom 1: Tekst, Język, Gatunki. Warszawa: Wydawnictwa Akademickie i Profesjonalne; 91−100.

Grzenia, Jan (2007) Komunikacja językowa w Internecie. Warszawa: Wydawnictwo Naukowe PWN.

Hebal-Jezierska, Milena (2013) „Podstawowe zasady korzystania z korpusów przy badaniu języka”. [W:] Wojciech Chlebda (red.), Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Opole: Wydawnictwo Uniwersytetu Opolskiego; 17‒30.

Karwatowska, Małgorzata, Beata Jarosz (2013) „Forum internetowe, czyli (cyber)komunikacja o ograniczonym zasięgu społecznym”. Polonica XXXIII; 109‒121.

Kieraś, Witold, Łukasz Kobyliński, Maciej Ogrodniczuk (2018) „Korpusomat – a Tool for Creating Searchable Morphosyntactically Tagged Corpora”. Computational Methods in Science and Technology 24(1); 21–27.

Krok, Iwona (2011) „Selected English Borrowings in Popular Contemporary Russian Press on the Example of Ogonyok”. [W:] Ewa Willim (red.), English in Action. Language Contact and Language Variation. Kraków: Krakowskie Towarzystwo Edukacyjne – Oficyna Wydawnicza AFM; 43−52.

Kuratczyk, Magdalena (2006) „Narzędzia korpusowe w leksykografii dwujęzycznej”. Biuletyn Polskiego Towarzystwa Językoznawczego LXII; 69−81.

Libura, Agnieszka (2006) „Internet. Między wielokulturowością a globalizacją kultury”. Język a kultura 18; 45−58.

Loewe, Iwona (2006) „Internet i jego zasoby w polskich badaniach lingwistycznych. Rekonesans”. Biuletyn Polskiego Towarzystwa Językoznawczego LXII; 93−103.

Mair, Christian (2015) „Parallel Corpora. A Real-time Approach to the Study of Language Change in Progress”. Diacronia 1; 1‒9. DOI: 10.17684/i1A6en.

Majkowska, Grażyna, Halina Satkiewicz (1999) „Język w mediach”. [W:] Walery Pisarek (red.), Polszczyzna 2000. Orędzie o stanie języka na przełomie tysiącleci. Kraków: Ośrodek Badań Prasoznawczych; 181−196.

Mańczak-Wohlfeld, Elżbieta (1994) Angielskie elementy leksykalne w języku polskim. Kraków: Universitas.

Naruszewicz-Duchlińska, Alina (2009) „Internetowe grupy dyskusyjne. Wstępna charakterystyka gatunku”. Język Polski LXXXIX 3; 191−198.

Naruszewicz-Duchlińska, Alina (2011) Internetowe grupy dyskusyjne. Analiza językowa i charakterystyka gatunku. Olsztyn: Wydawnictwo Uniwersytetu Warmińsko-Mazurskiego.

Niepytalska-Osiecka, Anna (2014) „O fejku, lajku i hejcie w polszczyźnie internetowej”. Język Polski XCIV 4; 343‒352.

Otwinowska-Kasztelanic, Agnieszka (2000) A Study of the Lexico-semantic and Grammatical Influence of English on the Polish of the Younger Generation of Poles (19-35 Years of Age). Warszawa: Wydawnictwo Akademickie Dialog.

Pachowicz, Małgorzata (2012) „W (nie)zgodzie z normą językową w portalach internetowych”. Język Polski XCII 1; 29−36.

Pęzik, Piotr (2013) „Wybrane aspekty reprezentatywności małych i średnich korpusów”. [W:] Wojciech Chlebda (red.), Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Opole: Wydawnictwo Uniwersytetu Opolskiego; 45−58.

Piotrowski Tadeusz, Łukasz Grabowski (2013) „Interpretacja danych frekwencyjnych z korpusów językowych: opis pewnych problemów (na kilku przykładach z życia wziętych)”. [W:] Wojciech Chlebda (red.), Na tropach korpusów. W poszukiwaniu optymalnych zbiorów tekstów. Opole: Wydawnictwo Uniwersytetu Opolskiego; 59−71.

Podhajecka, Mirosława (2006) „Kilka uwag o wykorzystaniu zasobów internetowych do analiz korpusowych języka”. Język Polski LXXXVI 5; 338−347.

Sikora, Agata (2009) „E-mail ‒ między listem a rozmową”. [W:] Danuta Ulicka (red.), Tekst (w) sieci. Tom 1: Tekst, Język, Gatunki. Warszawa: Wydawnictwa Akademickie i Profesjonalne; 245‒252.

Smółkowa, Teresa (2000) „Nowe słownictwo w prasie”. [W:] Jerzy Bralczyk, Katarzyna Mosiołek-Kłosińska (red.), Język w mediach masowych. Warszawa: Oświata UN-O; 67−78.

Smółkowa, Teresa (2010) „Prasa jako źródło wiedzy o języku”. Poradnik Językowy 5; 5‒14.

Szymański, Leszek (2012) „Konwencje zapisu wyrazów na czacie internetowym”. Język Polski XCII 1; 20−28.

Świdziński, Marek, Michał Rudolf (2006) „Narzędzia informatyczne obsługi wielkich korpusów tekstów: wyszukiwarka Holmes”. Biuletyn Polskiego Towarzystwa Językoznawczego LXII; 31−43.

Urzędowska, Aleksandra (2015) „Poprawność języka w Internecie (na przykładzie facebookowych fanpage’y)”. Poradnik Językowy 9; 94‒104.

Zabawa, Marcin (2009) „«My blogasek bierze udział w konQursie» – czy polskie blogi internetowe są pisane po polsku?”. [W:] Mirosław Filiciak, Grzegorz Ptaszek (red.), Komunikowanie (się) w mediach elektronicznych – język, edukacja, semiotyka. Warszawa: Wydawnictwa Akademickie i Profesjonalne; 60‒78.

Zabawa, Marcin (2012) English Lexical and Semantic Loans in Informal Spoken Polish. Katowice: Wydawnictwo Uniwersytetu Śląskiego.

Zabawa, Marcin (2014) „Subkultura Internetu: język internetowy najmłodszego pokolenia”. [W:] Joanna Bierówka, Katarzyna Pokorna-Ignatowicz (red.), Media ‒ kultura popularna ‒ polityka. Wzajemne oddziaływania i nowe zjawiska. Kraków: Krakowskie Towarzystwo Edukacyjne ‒ Oficyna Wydawnicza AFM; 223‒244.

Zabawa, Marcin (2017) English Semantic Loans, Loan Translations, and Loan Renditions in Informal Polish of Computer Users. Katowice: Wydawnictwo Uniwersytetu Śląskiego.