Южнославянские языки
South Slavic Literature Library
Электронная
библиотека
Corpora of spoken Bulgarian
Собрание
неаннотированных текстов (в т.ч. парламентские дебаты, записи из чата)
Bulgarische virtuelle Bibliotheken
Список адресов
электронных библиотек
The Oslo Corpus of Bosnian Texts
Объем корпуса
составляет примерно 1,5 миллиона словоупотреблений. Корпус включает
тексты различных типов (художественная литература, публицистика,
юридические, религиозные тексты), написанные авторами из Боснии и
Герцеговины и опубликованные в основном в 1990-е гг. Поиск может
осуществляться по отдельному слову или его части, а также по нескольким
словам (в т.ч. расположенным на определенном расстоянии друг от друга).
Corpus of Serbian Language by Đorđe Kostić
Корпус
представляет совместный проект Института экспериментальной фонетики и
патологии речи (Белград) и в лаборатории экспериментальной психологии
Белградского университета. Объем корпуса составляет 11 миллионов
словоупотреблений, из которых примерно 4 миллиона образуют тексты 12-20
вв., а 7 миллионов – современные тексты.
Каждому слову
в корпусе вручную приписаны его морфологическая характеристика,
фонологическая структура, количество графем и слогов.
Поиск в
корпусе (пока?) недоступен.
Projekat Rastko, Biblioteka srpske kulture
Электронная
библиотека
Корпус
разрабатывается в Институте лингвистики Загребского университета. На
данный момент объем корпуса свыше 9 млн. словоупотреблений. Планируемый
объем корпуса – 30 млн. словоупотреблений. Предполагается, что корпус
будет включать как современные, так и более ранние тексты.
Возможен поиск
по словам и их частям по всему корпусу или подкорпусам (газеты, журналы,
худ. литература).
Tübinger BKS-Korpus - Bosnisch/Kroatisch/Serbisches Korpus - TUSNELDA
electronic version
Тюбингенский
боснийско-хорватско-сербский корпус включает в себя несколько
подкорпусов: боснийские интервью (интервью с боснийскими беженцами),
Новосадский корпус разговорной речи 1980/2000 (спонтанные диалоги,
записанные в различных ситуациях), «Комический корпус» (коллекция
хорватские и сербские комиксы). Общий объем составляет 127 тыс.
словоупотреблений. Корпус создавался в рамках проекта по изучению
дейктических элементов, поэтому только этим единицам в корпусе приписаны
грамматические пометы.
Beseda
Корпус,
разработанный Институтом словенского языка Научно-исследовательского
центра Словенской академии наук и искусств. Объем корпуса составляет 148
млн. слов (из них 109 млн. – газета «DELO»
1998-2004 гг., представлена также художественная, научно-техническая
литература).
Возможен поиск
по слову или его части, по частотности (выше заданной), по длине слова.
Korpus
slovenskega jezika FIDA
Сбалансированный корпус объемом свыше 100 млн. слов, доступ платный.
Открытая в
Интернете пробная версия находит не более 10 примеров употребления
заданного слова/словосочетания. Возможен поиск словоформ заданной
лексемы.
Большинство
текстов относится к 1990-м гг.
Slovenian on the Web
David F. Stermole, Toronto.
Электронная библиотека
(в т.ч. диалектные тексты)
Zbirka slovenskih leposlovnih besedil
Miran Hladnik.
Электронная
библиотека |