РОССИЙСКАЯ ЛИНГВИСТИКА   (RUSLING)

 

 КОРПУСА, СЛАВЯНСКИЕ ЯЗЫКИ

 

Русский язык

Национальный корпус русского языка

 Корпус был подготовлен в рамках программы РАН «Филология и информатика» специалистами из Института русского языка РАН, ВИНИТИ РАН, Института языкознания РАН при участии других институтов и университетов Москвы и Санкт-Петербурга.

Планируемый объем корпуса 200 млн. слов. Корпус включает метатекстовую, морфологическую, семантическую и акцентную разметку.
В настоящее время на сайте размещен корпус современных текстов (второй половины XX — начала XXI века) объемом свыше 100 млн. слов; размещение остальных текстов планируется в ходе дальнейшей работы над Корпусом.

 

Ханко - Хельсинкский аннотированный корпус

 Планируемый объем – 100 тыс. слов (из журнала «Итоги»)

Проект по созданию Хельсинкского аннотированного корпуса русских текстов ХАНКО осуществляется на Отделении славянских и балтийских языков и литератур Хельсинкского университета. Предполагается, что корпус будет содержать морфологическую, синтаксическую и функциональную информацию о текстах общим объемом около 100 тыс. текстоформ, извлеченных из журнала "Итоги". Проект осуществляется под руководством профессора Арто Мустайоки. Одним из основных принципов создания корпуса является направленность на максимальный охват грамматической информации, а не на объем материала.

 

Тюбингенский корпус

 Корпус разрабатывается сотрудниками отделения славистики Тюбингенского университета в рамках проекта по изучению форм обращения и вежливости в русском языке. Морфологически размеченная часть корпуса включает в себя тексты Уппсальского корпуса, а также тексты произведений Тургенева и Булгакова. Возможен поиск по словоформе, ее части, по группе словоформ, а также по грамматическим характеристикам формы.

 

Компьютерный корпус текстов русских газет конца ХХ-oго века

 Корпус разрабатывается в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ. Предлагаемый для доступа в Интернете фрагмент компьютерного корпуса газетных текстов является тестовым. Он содержит тексты общим объемом более 200 тыс. словоупотреблений. Планируемый объем корпуса составляет более 1 млн. словоупотреблений.

Поиск по корпусу может осуществляться по словам, корням слов и по различным типам информации, характеризующим русские лексемы, словоформы и тексты в целом (всего 20), встретившиеся в корпусе.

 

 На главную страницу | Новости | Организации | Исследования и публикации | Журналы | Персоналии | Ресурсы | Обучение | Ссылки

Hosted by uCoz