From SGML to XML with TEI: Automated Conversion of a Corpus of Polish from P3 to P4 Format

Main Article Content

Maciej Ogrodniczuk

Abstrakt

The article presents experiences gathered in the process of migration of an SGML corpus encoded in TEI P3 format to XML-enabled TEI P4.

Downloads

Download data is not yet available.

Article Details

Jak cytować
Ogrodniczuk, M. (2004). From SGML to XML with TEI: Automated Conversion of a Corpus of Polish from P3 to P4 Format. Investigationes Linguisticae, 11, 1-9. https://doi.org/10.14746/il.2004.11.7
Dział
Artykuły

Bibliografia

  1. Bień, J. S., Woliński, M. 2003. Wzbogacony korpus Słownika frekwencyjnego polszczyzny współczesnej. [In:] J. Linde-Usiekniewicz, R. Huszcza (Eds.) Prace językoznawcze dedykowane Profesor Jadwidze Sambor. Warszawa: Wydział Polonistyki Uniwersytetu Warszawskiego, pp. 6 –10.
  2. Bień, J. S., Woliński, M. (Eds.) 2001. Wzbogacony korpus Słownika frekwencyjnego polszczyzny współczesnej. Warszawa. Compressed CD image: http://www.mimuw.edu.pl/polszczyzna/wksf/wksf.iso.bz2.
  3. Clark, J. 1997. Comparison of SGML and XML. World Wide Web Consortium Note. http://www.w3.org/TR/NOTE-sgml-xml.html.
  4. Dürst, M. J. 2004. Language tagging in HTML and XML. World Wide Web Consortium. http://www.w3.org/International/O-HTML-tags.html.
  5. Extensible Markup Language (XML) 1.0 2004. (Third Edition). World Wide Web Consortium. W3C Recommendation. http://www.w3.org/TR/xpath.
  6. Głowińska, K. Taksonomia morfologiczna dla Słownika frekwencyjnego. [In:] [2], Dokumentacjataksonomia.pdf.
  7. ISO 8879 Information Processing – Text and Office Systems – Standard Generalized Markup Language (SGML). Geneva 1986. ISO (International Organization for Standardization).
  8. ISO/IEC 10744 Information Technology – Hypermedia/Time-based Structuring Language (HyTime). Geneva 1992. ISO (International Organization for Standardization).
  9. Kurcz, I., Lewicki, A., Sambor, J., Woronczak, J. Szafran, K. 1990. Sownik frekwencyjny polszczyzny współczesnej. Kraków 1990. Instytut Języka Polskiego PAN.
  10. Langendoen, D. Terence, Simons, Gary F. A Rationale for the TEI Recommendations for Feature-Structure Markup. [In:] N. Ide and J. Veronis (Eds.) Text Encoding Initiative – Background and Context. Kluwer Academic Publishers, pp. 191-209.
  11. Ogrodniczuk, M. 2000. Wykorzystanie SGML i TEI do zapisu polskich danych lingwistycznych. Master thesis, prepared under supervision of Dr. Janusz S. Bień. Warsaw: Faculty of Mathematics, Informatics and Mechanics, Warsaw University.
  12. Ogrodniczuk, M. 2003. Nowa edycja wzbogaconego korpusu słownika frekwencyjnego. [In:] Stanisław Gajda (Ed.) Językoznawstwo w Polsce. Stan i perspektywy. Polska Akademia Nauk – Komitet Językoznawstwa, Uniwersytet Opolski – Instytut Filologii Polskiej. Opole, pp. 181-190. http://www.mimuw.edu.pl/~jsbien/MO/JwP03/.
  13. Ogrodniczuk, M. 2003. Rozszerzenie opisów morfologicznych w tekstach korpusu „Słownika frekwencyjnego polszczyzny współczesnej". [In:] Jadwiga Linde-Usiekniewicz, Romuald Huszcza (Ed.) Prace językoznawcze dedykowane Profesor Jadwidze Sambor. Wydział Polonistyki Uniwersytetu Warszawskiego, pp. 164--168.
  14. Sperberg-McQueen, C. M., Burnard, L. (Eds.) 2001. TEI P4. Guidelines for Electronic Text Encoding and Interchange. XML-compatible edition. Chicago, Oxford: The Association for Computers and the Humanities (ACH), The Association for Computational Linguistics (ACL), The Association for Literary and Lingustic Computing (ALLC). http://www.tei-c.org/P4X/.
  15. TEI SGML to XML Migration Introduction and Workflow Recommendations. Second Draft, 2003. http://www.tei-c.org/Activities/MI/miw03d.html.
  16. Wall, L., Christiansen, T., Schwartz, R. L. 1996. Programming Perl, 2nd Edition., O'Reilly and Associates, Inc., ISBN 1-6592-149-6.
  17. XML Path Language (XPath), version 1.0. World Wide Web Consortium, 1999. http://www.w3.org/TR/REC-xml/.