Abstract
The paper discusses and compares several semi-automatic methods used to extract neologisms from linguistic corpora. All the methods are based on the concept of discriminants, or textual features (both lexis and punctuation), that either precede (lexical discriminants) or confine (punctuation discriminants) phrases in which the occurrence of neologisms is higher than elsewhere in the text. Excerption and comparison was conducted on a corpus of 45 million words, articles from Nature scientific magazine. The putative neologisms were extracted using morphological analysis and frequency of their occurrence in the Google search engine. The result is a list of 1000 neologisms and assessment of the efficacy of each method.References
Bańko, M. 2001. Z pogranicza leksykografii i językoznawstwa. Warszawa: Wydawnictwo Wydziału Polonistyki UW.
Bień, J. S., Szafran, K. 2001. Analiza morfologiczna języka polskiego w praktyce. Biuletyn Polskiego Towarzystwa Językoznawczego, LVII, pp. 171-184.
Buczyński, A. 2004. Pozyskiwanie z Internetu tekstów do badań lingwistycznych. Warszawa: Instytut Informatyki UW.
Buttler, D. 1962. Neologizm i terminy pokrewne. Poradnik Językowy, 5-6. pp. 235-244.
Buttler, D. 1993. Neologizmy z formantem -acja w powojennej polszczyźnie. Przeglądfilologiczny, 38. pp. 7-15.
Chlebda, W. 1991. Elementy frazematyki. Wprowadzenie do frazeologii nadawcy. Opole: WSP.
Dias, G. et al. 2000. Normalization of Association Measures for Multiword Lexical Unit Extraction. International Conference on Artificial and Computational Intelligence fo r Decision Control and Automation in Engineering and Industrial Applications (ACIDCA'2000). Monastir, Tunisia. pp. 207-216.
Doroszewski, W. 1958-1969. Słownik języka polskiego. Warszawa: Wiedza Powszechna.
Golding, A.R., Schabes, Y. 1996. Combining Trigram-based and Feature-based Methods for Context-Sensitive Spelling Correction. Proceedings o f the 34th Annual Meeting o f the Association for Computational Linguistics. Santa Cruz, CA.
Gries, S. Th., Stefanowitsch. 2004. A. Extending collostructional analysis. A corpus-based perspective on ‘alternations’.
International Journal o f Corpus Linguistics, 9:1. pp. 97-129.
Krzemińska, W., Nowak, P. (eds). 2002. Przestrzenie informacji. Poznań: Sorus.
Moszczyński, R. 2006. Formal approaches to multiword lexemes. Warszawa: Instytut Anglistyki UW.
Puppel, S. (ed.). 2005. Scripta Neophilologica Posnaniensa. Tom VII. Poznań: Wydział Neofilologii UAM.
Siepmann 2005. Collocation, colligation and encoding dictionaries. Part I: Lexicological Aspects. International Journal of Lexicography, 18(4). pp. 409-443.
Smółkowa, T. 2001. Neologizmy we współczesnej leksyce polskiej. Kraków: IJP PAN.
Stoberski, Z. 1976. O centralną rejestrację neologizmów naukowych. Poradnik Językowy, 4. pp. 186-189.
Wawrzyńczyk, J. 1994. Tak zwane nowe słownictwo polskie w świetle dokumentacji „Polskiego Informatorium Wyrazowego”. Katowice: Śląsk.
Wawrzyńczyk, J. 1999. Nowe słownictwo polskie. Fikcje i fakty. Warszawa: UW.
Wawrzyńczyk, J. 2000. Słownik bibliograficzny języka polskiego: wersja przedelektroniczna. T. 1, A-Ć. Warszawa: Uniwersytet Warszawski. Instytut Informacji Naukowej i Studiów Bibliologicznych.
Wierzchoń, P. 2002. Automatyzacja ekscerpcji definiowanych połączeń wyrazowych. Filtry wyrażeń regularnych. In Krzemińska, W., Nowak, P. (eds.). 2005. Przestrzenie informacji (pp. 119-184). Poznań: Sorus.
Wierzchoń, P. 2003. Z cudzysłowów do poczekalni leksykograficznej. Warszawa: KLiKR UL.
Wierzchoń, P. 2005a. Z cudzysłowów do poczekalni leksykograficznej II. Warszawa: KLiKR UL.
Wierzchoń, P. 2005b. Automatyczne metody ekscerpcji neologizmów, czyli językoznawstwo faktograficzne. In Puppel, S. (ed.). 2005. Scripta Neophilologica Posnaniensa. Tom VII (pp. 221-240). Poznań: Wydział Neofilologii UAM.