Паралелни корпуси у Србији — могућности за паралелно проналажење информација на два или више језика

Аутори

  • Јелена С. Андоновски Универзитетска библиотека „Светозар Марковић”, Београд

##plugins.pubIds.doi.readerDisplayName##:

https://doi.org/10.18485/bibliotekar.2021.63.1.3

Кључне речи:

корпусна лингвистика, језички корпуси, паралелни корпуси, обрада природних језика, проналажење информација

Сажетак

Паралелни корпуси представљају врсту вишејезичних корпуса који су последњих деценија постали изузетно значајни у области обраде природних језика (енгл. Natural Language Processing – NLP) и један од важнијих ресурса за истраживаче у различитим областима лингвистике и сродним језичким дисциплинама. Под паралелним корпусима подразумевају се језички корпуси који садрже један текст или више оригиналних текстова и њихове преводе на један језик или више језика, поравнате на једном нивоу или више структурних нивоа текста (на пример, на нивоу реченице, пасуса и одељка). Они су најчешће двојезични, али није ретко да постоје и на једном језику што подразумева да корпусни садржај чине различита издања истог текста на одабраном језику. Паралелне корпусе који обухватају српски језик у Србији развија Група за језичке технологије која је у међувремену прерасла у Друштво за језичке ресурсе и технологије – ЈеРТех. До данас су развијени следећи корпуси: два већа корпуса, српско-француски (СрпФранКор) и српско-енглески (СрпЕнгКор) корпус, затим, дигитална библиотека Библиша која садржи више паралелних двојезичних колекција и вишејезична колекција Вишејезични Верн. Поред ових корпуса текстови на српском језику део су и вишејезичних корпуса Платонова Република и Орвелова 1984 који су развијени у оквиру међународних пројеката, али и неких корпуса који се тренутно развијају у региону и свету. У раду ће бити приказани корпуси које развија Друштво за језичке ресурсе и технологије, њихова структура и намена, као и могућности за проналажење информација у њима.

Референце

Andonovski, Jelena. „Mreža povezanih otvorenih podataka i jezički resursi u procesu izgradnje srpsko-nemačkog literarnog korpusa”. Doktorska dis., Filološki fakultet, Beograd, 2019, http://phaidrabg.bg.ac.rs/o:22874 (na ćirilici)

Balvet, Antonio, Dejan Stosic and Aleksandra Miletic. „TALC-Sef a Manually-revised POS-Tagged Literary Corpus in Serbian, English and French”. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), eds. Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Hrafn Loftsson, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk and Stelios Piperidis, 26–31. Reykjavik: European Language Resources Association, 2014, http://www.lrec-conf.org/proceedings/lrec2014/index.html (preuzeto 2. 3. 2021).

Blaney, Jonathan. „Introduction to the Principles of Linked Open Data”. The Programming Historian (12. 5. 2020), https://programminghistorian.org/en/lessons/intro-to-linked-data (preuzeto 1. 3. 2021). https://doi.org/10.46430/phen0068.

Dimitrova, Ludmila, Nancy Ide, Vladimir Petkevic, Tomaz Erjavec, Heiki Jaan Kaaler and Dan Tufis. „MULTEXT-East: Parallel and Comparable Corpora and Lexicons for Six Central and Eastern European Languages”. In Volume 1 Proceedings of the 17th international conference on Computational linguistics (Association for Computational Linguistics, 1998), http://www.aclweb.org/anthology/P98-1050 (preuzeto 2. 3. 2021).

Dobrić, Nikola. „Corpus Linguistics – the Basic Form of Linguistic Analysis”. Philologiano 7 (2009): 31–41, https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2309960 (preuzeto 1. 3. 2021).

Erjavec, Tomaž. „MULTEXT-East Version 3: Multilingual Morphosyntactic Specifications, Lexicons and Corpora”. In LREC, 2544–2547. 2004, http://nl.ijs.si/et/teach/jsi07-hlt/Bib/Multext_LREC04.pdf (preuzeto 2. 3. 2021).

Erjavec, Tomaž and Nancy Ide. „The MULTEXT-East Corpus”. In Proceeding of First International Conference on Language Resources & Evaluation, Granada, Spain, 28–30 May, 971–974. 1998, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.465.5846&rep=rep1&type=pdf, (preuzeto 2. 3. 2021).

Erjavec, Tomaž, Ann Lawson and Laurent Romary. eds. East Meets West: A Compendium of Multilingual Resources. Mannheim: TELRI Association, e.V., Institut für deutsche Sprache, 1998.

Erjavec, Tomaž, Cvetana Krstev, Vladimír Petkevič, Kiril Simov, Marko Tadić and Duško Vitas. „The MULTEXT-East Morphosyntactic Specifications for Slavic Languages”. In Proceedings of the Workshop on Morphological Processing of Slavic Languages: 10th Conference of the European Chapter, EACL, eds. Tomaž Erjavec and Duško Vitas, 25–32. Budapest, 2003, http://poincare.matf.bg.ac.rs/~cvetana/biblio/04erjavec.pdf (preuzeto 2. 3. 2021).

Gavrilidou, Maria, Peny Labropoulou, Elina Desipri, Voula Giouli, Vasilis Antonopoulos and Stelios Piperidis. „Building Parallel Corpora for eContent Professionals”, in MLR ’04 Proceedings of the Workshop on Multilingual Linguistic Ressources (Stroudsburg: Association for Computational Linguistics, 2004), 97–100, https://www.aclweb.org/anthology/W04-2213.pdf (preuzeto 2. 3. 2021).

Krstev, Cvetana and Duško Vitas. „An Effective Method for Developing a Comprehensive Morphological E-dictionary of Compounds”. In Arena Romanistica, eds. B. Lamiroy, E. Laporte, T. Kyriakopoulou, 204–212. Bergen: University of Bergen, Department of Foreign Languages, 2009, http://poincare.matf.bg.ac.rs/~cvetana/biblio/Krstev-Vitas-LGC09.pdf (preuzeto 9. 3. 2021).

Krstev, Cvetana and Duško Vitas. „Analigned English-Serbian Corpus”. In Volume I ELLSIIR Proceedings (English Language and Literature Studies: Image, Identity, Reality), Belgrade, 4–6 December 2009, eds. N. Tomović & J. Vujić, 495–508. Belgradе: Faculty of Philology, University of Belgrade, 2011, http://poincare.matf.bg.ac.rs/~cvetana/biblio/AlignedCorpus-full-final.pdf (preuzeto 2. 3. 2021).

Krstev, Cvetana, Duško Vitas and Agata Savary. „Prerequisites for a Comprehensive Dictionary of Serbian”. In Proceedings of the 5th International Conference on NLP, FinTAL 2006, Turku, Finland, August, 2006, eds. Tapio Salakoski, Filip Ginter, Sampo Pyysalo, Tapio Pahikkala. Serija Lecture Notes in Artificial Intelligence: Subseries of Lecture Notes in Computer Science, eds. J.G. Carbonell, J. Siekmann, 552–564. Heidelberg, Berlin: Springer, 2006.

Krstev, Cvetana, Duško Vitas and Tomaž Erjavec. „Morpho-Syntactic Descriptions in MULTEXT-East – the Case of Serbian”. Informatica Vol. 28, No. 4 (2004): 431–436, http://poincare.matf.bg.ac.rs/~cvetana/biblio/mtesr-inform04.pdf (preuzeto 2. 3. 2021).

Laporte, Eric, Duško Vitas and Cvetana Krstev. „Preparation and Exploitation of Bilingual Texts”. Lux Coreana No. 1 (2006): 110–132, http://poincare.matf.bg.ac.rs/~cvetana/biblio/VKL.pdf (preuzeto 1. 3. 2021).

McEnery, Tony and Andrew Wilson. Corpora and Translation: Uses and Future Prospects, 1993, http://ucrel.lancs.ac.uk/papers/techpaper/vol2.pdf (preuzeto 1. 3. 2021).

Stanković, Ranka, Cvetana Krstev, Ivan Obradović, Aleksandra Trtovac and Miloš Utvić. „A Tool for Enhanced Search of Multilingual Digital Libraries of E-journals”. In Proceedings of the 8th International Conference on Language Resources and Evaluation, LREC 2012, Istanbul, Turkey, 23–25 May 2012, eds. Nicoletta Calzolari et al., 1710–1717. Istanbul: European Language Resources Association, 2012, http://www.lrec-conf.org/proceedings/lrec2012/pdf/375_Paper.pdf (преузето 3. 3. 2021).

Stanković, Ranka, Cvetana Krstev, Ivan Obradović, Olivera Kitanović. „Indexing of Textual Databases Based on Lexical Resources: A Case Study for Serbian”. In Semantic Keyword-Based Search on Structured Data Sources – First COST Action IC1302 International KEYSTONE Conference, IKC 2015, Coimbra, Portugal, September 8–9, 167–181. Springer, 2015. DOI 10.1007/978-3-319-27932-9_15

Stanković, Ranka, Cvetana Krstev, Duško Vitas, Nikola Vulović and Olivera Kitanović. „Keyword-Based Search on Bilingual Digital Libraries”. In Semantic Keyword-Based Search on Structured Data Sources – Second COST Action IC1302 International KEYSTONE Conference, IKC 2016, Cluj-Napoca, Romania, September 8–9, eds. A. Calì, D. Gorgan and M. Ugarte, LNCS 10151, 112–123. Springer, 2017.

Tyers, Francis M. and Murat Serdar Alperen. „South-East European Times: A Parallel Corpus of Balkan Languages”. In Proceedings of the LREC Workshop on Exploitation of Multilingual Resources and Tools for Central and (South-) Eastern European Languages, 2010, 49–53.

Utvić, Мiloš. „Izgradnja referentnog korpusa savremenog srpskog jezika”. Doktorska dis., Filološki fakultet, Beograd, 2013, http://phaidrabg.bg.ac.rs/o:10061 (preuzeto 1. 3. 2021).

Vitas, Duško and Cvetana Krstev. „[Electronic Edition of Serbian Translation of Orwell’s 1884 aligned with 7 languages by Duško Vitas, Cvetana Krstev]”. In East Meets West – A compendium of Multilingual Resources, eds. Tomaž Erjavec, Ann Lawson, Laurent Romary. Mannheim: TELRI Association e.V., Institut für deutsche Sprache, 1998.

Vitas, Duško and Cvetana Krstev. „Literature and Aligned Texts”. In Readings in Multilinguality, eds. Milena Slavcheva, Galia Angelova and Kiril Simov, 148–155. Sofia: Institute for Parallel Processing, Bulgarian Academy of Sciences, 2006, http://poincare.matf.bg.ac.rs/~cvetana/biblio/CvDv-Paskaleva.pdf (preuzeto 2. 3. 2021).

Vitas, Duško and Cvetana Krstev. „Construction and Exploitation of X-Serbian Bitexts”. In Multilingual Processing in Eastern and Southern EU Languages: Low-Resourced Technologies and Translation, eds. Cristina Vertan and Walther v. Hahn, 207–227. Cambridge: Cambridge Scholars Publishing, 2012, http://poincare.matf.bg.ac.rs/~cvetana/biblio/DvCv-CambridgeS-2012.pdf (preuzeto 2. 3. 2021).

Vitas, Duško i Ljubomir Popović. „Konspekt za izgradnju referentnog korpusa srpskog standardnog jezika”. U Naučni sastanak slavista u Vukove dane, 31(1): 221–227. Beograd: MSC, 2003. (na ćirilici)

Vitas, Duško, Goran Nenadić and Cvetana Krstev. „[Electronic Edition of Serbian Translation of Plato’s Republic Aligned with 17 Languages by Duško Vitas, Goran Nenadić, Cvetana Krstev]”. In East meets West – A Compendium of Multilingual Resources, eds. Tomaž Erjavec, Ann Lawson, Laurent Romary. Mannheim: TELRI Association e.V., Institut für deutsche Sprache, 1998.

Vitas, Duško, Svetla Koeva, Cvetana Krstev and Ivan Obradović. „Tour du monde through the dictionaries”. In Actes du 27eme Colloque International sur le Lexique et la Gammaire, eds. M. Constant, T. Nakamura, M. De Gioia, S. Vecchiato, 249–256. Paris: Universite Paris-Est, Institut Gaspard-Monge, 2008, http://poincare.matf.bg.ac.rs/~cvetana/biblio/akvila-en-fin.pdf (preuzeto 2. 3. 2021).

Vitas, Duško and Cvetana Krstev. „Processing of Corpora of Serbian Using Electronic Dictionaries”. Prace Filologiczne Vol. LXIII (2012): 279–292, http://poincare.matf.bg.ac.rs/~cvetana/biblio/22_Vitas_Krstev.pdf (preuzeto 9. 3. 2021)

##submission.downloads##

Објављено

2021-12-13