КОРПУСА,
ЗАПАДНОСЛАВЯНСКИЕ ЯЗЫКИ
|
Чешский язык
Český
národní
korpus
Объем
корпуса составляет 100 млн. слов, возможен поиск по словам,
словосочетаниям, по грамматическим характеристикам.
The Prague Dependency Treebank
Синтаксически аннотированный корпус чешского языка
Словацкий язык
Slovenský
národný
korpus
Словацкий национальный корпус
является научно-исследовательским проектом создания электронного
корпуса текстов современного словацкого языка (1955 – 2005) с
ориентацией на письменные тексты, осуществляемом в Институте
языкознания им. Л. Штура Словацкой академии наук. Постепенно
корпус будет пополняться текстами из других периодов времени и
сфер употребления словацкого языка. На первом этапе планируется
обработка письменных текстов периода 1990 – 2003 гг. в объеме
около 30 млн. слов с лемматизацией, морфологической и
метатекстовой аннотацией. На втором этапе (до 2006 г.)
репрезентативный объем письменных текстов будет все время
пополняться текстами современного языка (1955 – 2005 гг.) в
объеме 200 млн. слов и отобранные образцы будут аннотироваться и
синтаксически.
Oдновременно
будут создаваться специфические подкорпусы диахронных и
диалектных текстов, а также терминологическая и
лексикографическая база данных.
Польский язык
Korpus
IPI PAN
Корпус
института информатики Польской академии наук. Объем свыше 300
млн. словоупотреблений. Морфосинтаксическая разметка.
Korpus Języka
Polskiego Wydawnictwa Naukowego PWN
Объем
открытого в Интернете корпуса –1 817 058 слов (49% периодика,
27% научная и публицистическая литература, 19% художественная
литература, 7% устные тексты).
Поиск
по словам и выражениям, возможен поиск по лексеме всех ее форм.
Polish and English Language Corpora for Research and
Applications (PELCRA)
Совместный проект отделения английского языка университета г.
Лодзь и Отделения лингвистики и современного английского языка
университета г. Ланкастер. В рамках проекта планируется создание
различных корпусов, в частности, Польского национального
корпуса, который по объему и структуре должен повторять
Британский национальный корпус, и параллельного
польско-английского и англо-польского корпуса.
На настоящий момент объем Польского национального корпуса
составляет 130 млн. словоупотреблений. Свободного доступа к
корпусу на данный момент нет, но в будущем планируется поместить
в Интернете фрагмент корпуса.
R. Antoszewski
Nowa netografia
Список
электронных библиотек
Marek Adamiec
Wirtualna biblioteka literatury polskiej
Электронная библиотека
Skarbnica literatury polskiej
Электронная
библиотека, в основном поэзия, но представлена и проза.
Instytut
Filologii Polskiej,
Wydział
Filologiczno-Historyczny
(Uniwersytet
Gdański)
Biblioteka literatuy polskiej w internecie
Электронная библиотека
Staropolska on-line
Электронная библиотека
Верхнелужицкий язык
Sorbisches Institut
Hornjoserbski tekstowy korpus
(поиск
по слову/выражению с возможностью выбора подкорпуса)
Лужицкий язык
Institut für Sorabistik, Universität Leipzig
Antologija serbskeje literatury
|