РОССИЙСКАЯ ЛИНГВИСТИКА   (RUSLING)

 

 

 КОРПУСА, ДРУГИЕ (НЕСЛАВЯНСКИЕ) ЯЗЫКИ

Немецкий язык

Textkorpora des IDS

Коллекция COSMAS, поддерживаемая Институтом немецкого языка, представляет собой самое большое в мире электронное собрание современных немецкоязычных текстов. Хотя коллекция нацелена на охват максимально возможного объема текстов, а не на сбалансированность их состава, в ней представлены различные типы текстов: художественная проза, научная и научно-популярная литература, периодика и др. В части корпуса произведена автоматическая морфологическая разметка текстов. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Ресурс включает созданную на основе корпуса базу данных по сочетаемости слов немецкого языка

Около 2 млрд. слов

Доступ к полной версии корпуса имеют только сотрудники Института немецкого языка. Сторонним пользователям предоставляется возможность поиска по словоформе или лексеме по части корпуса, отражающей письменный язык (свыше 1,1 млрд. словоупотреблений), но выдаваемые при этом контексты не превышают 5 слов справа и слева от искомого и не выходят за границы предложения. В свободном доступе частично находится база данных по сочетаемости слов немецкого языка

  

Negra Corpus

Корпус Negra разрабатывается в университете г. Саарбрюкен (Германия). В него вошли тексты статей из газеты Frankfurter Rundschau. Тексты снабжены синтаксической разметкой

355 тыс. слов.
Для доступа к корпусу необходимо получить разрешение на его использование

  

Bibliotheca Augustana

Собрание латинской, греческой, немецкой, английской, французской, итальянской, испанской и русской литературы разных эпох

Свободный доступ

  

Французский язык

Project for American and French Research on the Treasury of the French Language (ARTFL)

Коллекция, созданная в рамках совместного проекта Чикагского университета и Национального центра научных исследований (Нанси), включает в себя произведения французской художественной литературы с 12 по 20 вв., а также некоторые нехудожественные тексты различных жанров. Предоставляется возможность поиска слова, его части или группы слов по выбранному массиву текстов

Около 115 млн. слов.
Доступ только для зарегистрированных организаций и их сотрудников. Регистрация осуществляется на платной основе

  

The French Collection at University of Virginia

Электронная библиотека французской литературы, создаваемая в Университете Вирджинии. Предоставляется возможность просматривать тексты целиком или осуществлять поиск заданного слова или его части по произвольной выборке текстов

Свободный доступ к части коллекции

  

Bibliothèque Universelle

Электронная библиотека включает произведения французской литературы, а также некоторые переводные тексты на французском языке. Возможен просмотр целых текстов и поиска слова или группы слов по всему корпусу

Предполагается расширить возможности поиска: поиск заданной единицы можно будет осуществлять не только по всему массиву текстов, но и по выбранному пользователем его подмножеству
288 текстов 101 автора
Свободный доступ

  

ATHENA französische Texte

Электронная библиотека включает произведения французской литературы, а также некоторые переводные тексты на французском языке. Возможность поиска по текстам не предусмотрена.

электронная библиотека; французский язык

Свободный доступ

   

Испанский язык

Corpus de Referencia del Español Actual (CREA)

Представительный корпус испанского языка, отражающий язык во всех его национальных вариантах за период с 1975 по 1999 гг. 50% корпуса образуют европейские тексты, 50% - латиноамериканские тексты. 90% объема корпуса занимают письменные тексты, 10% приходится на долю записей устной речи. Корпус характеризуется использованием целых текстов. Тексты снабжены метаразметкой. Поиск в корпусе может осуществляться по словоформе, ее части или группе словоформ на базе всего корпуса или заданного пользователем подкорпуса. Подкорпус можно выбрать по различным параметрам: автор, название произведения, время создания текста, страна его происхождения, тип издания (книга, газета и т.п.), тип и тематика текста.

Планируемый объем корпуса - 125 млн. словоупотреблений
Свободный доступ

 

Corpus Diacrónico del Español (CORDE)

Корпус отражает историческое развитие испанского языка. Его образуют тексты различных типов (художественные (проза, поэзия, драматургия), дидактические, религиозные, общественные, научные, документально-исторические, юридические), представляющие различные исторические эпохи: 21% объема приходится на тексты, написанные до 1492 г., 28% - на тексты, написанные с 1493 по 1713 гг., 51% - на тексты, написанные с 1714 по 1974 гг. По географическому признаку тексты разделены следующим образом: 74% образуют тексты, созданные в Испании, 26% - тексты, созданные в других регионах. Корпус характеризуется использованием целых текстов. Поиск в корпусе может осуществляться по словоформе, ее части или группе словоформ на базе всего корпуса или заданного пользователем подкорпуса. Подкорпус можно выбрать по различным параметрам: автор, название произведения, время создания текста, страна его происхождения, тип издания, тип и тематика текста.

Планируемый объем корпуса - 125 млн. словоупотреблений30
Свободный доступ

 

Итальянский язык

CORIS/CODIS - corpus di Italiano Scritto contemporaneo

Представительный корпус современного письменного итальянского языка. В него вошли тексты, созданные в основном в 1980-е — 1990-е гг.

корпус; итальянский язык

Предполагается, что каждые два года корпус будет пополняться новыми текстами.
100 млн. словоупотреблений
Настоящая версия корпуса является экспериментальной, поэтому для доступа к корпусу достаточно получить разрешение на его использование

 

 На главную страницу | Новости | Организации | Исследования и публикации | Журналы | Персоналии | Ресурсы | Обучение | Ссылки

Hosted by uCoz