РОССИЙСКАЯ ЛИНГВИСТИКА   (RUSLING)

 

 КОРПУСА, ДРУГИЕ (НЕСЛАВЯНСКИЕ) ЯЗЫКИ

Английский язык
British National Corpus
Большой представительный корпус британского английского языка, по образцу которого создавались многие современные корпуса различных языков. Корпус включает метатекстовую и частеречную разметку, характеризуется использованием полных текстов и наличием подкорпуса устной речи объемом 10 млн. словоупотреблений.
Объем корпуса – свыше 100 млн. словоупотреблений

 

The Bank of English
Постоянно пополняемый корпус английского языка, характеризующийся очень большим объемом. В состав корпуса входят различные типы письменных текстов и устной речи. Корпус включает метатекстовую разметку, а также частеречную с элементами морфологической разметку. В общедоступной версии корпуса существует возможность выбора подкорпуса: британские книги, газеты, журналы, радиопередачи и др. (36 млн. словоупотреблений); американские книги, радиопередачи и др. (10 млн. словоупотреблений); британская устная речь (10 млн. словоупотреблений)
Объем корпуса – 524 млн. словоупотреблений, объем общедоступной части корпуса – 56 млн. словоупотреблений.
Доступ к полной версии корпуса платный. В свободном доступе находится небольшая часть корпуса (56 млн. словоупотреблений), количество выдаваемых в этой версии контекстов ограничено

 

The International Corpus of English (ICE)
Корпус отражает словоупотребление в различных вариантах английского языка (Австралия, Великобритания, Гонконг, Индия, Ирландия, Канада, Кения, Малайзия, Новая Зеландия, Сингапур, США, Танзания, Филиппины, Шри-Ланка, Южная Африка, Ямайка). Каждый подкорпус включает письменные тексты разных типов и записи устной речи. В настоящее время полностью подготовлен Британский компонент корпуса (ICE-GB), его тексты снабжены морфологической и синтаксической разметкой
Предполагается дополнить записи устной речи аудиозаписями
Объем каждого национального подкорпуса – 1 млн. словоупотреблений
Британский компонент корпуса ICE распространяется на диске на платной основе, в свободном доступе находится его маленький фрагмент (20 тыс. словоупотреблений)

 

Brown Corpus
Первый в истории представительный корпус, создан в 1960-е гг. Корпус состоит из 500 прозаических фрагментов в 2000 слов, взятых из текстов, опубликованных в США в 1961 г. В конце 1970-х гг. корпус был дополнен разметкой частей речи и морфологических признаков слов
корпус; английский язык; американский вариант английского языка
1 млн. словоупотреблений
Свободный доступ к корпусу предоставляется через LDC (Linguistic Data Consortium) по адресу: http://wave.ldc.upenn.edu/cgi-bin/ldc/textcorpus?doc=yes&corpus=BROWN. Кроме того, Брауновский корпус распространяется на платной основе Международным компьютерным архивом современного английского языка (ICAME) (Берген, Норвегия)

 

Penn Treebank
Корпус создавался в конце 1980-х – начале 1990-х гг. в США в Пенсильванском университете. Основную часть корпуса образуют тексты из Wall Street Journal за 1989 г. Корпус включает морфологическую и синтаксическую разметку
корпус; английский язык
Объем корпуса – 1 млн. словоупотреблений
Корпус распространяется через LDC (Linguistic Data Consortium) на платной основе

 

The SUSANNE Corpus
Корпус SUSANNE создавался в университете Суссекса. Он представляет собой синтаксически аннотированный фрагмент Брауновского корпуса
корпус; английский язык; американский вариант английского языка
130 тыс. словоупотреблений
Свободный доступ

 

The CHRISTINE Corpus
Корпус устной речи CHRISTINE создавался в университете Суссекса как развитие проекта, в рамках которого сначала был создан корпус письменных текстов SUSANNE. В корпус CHRISTINE вошли записи британской спонтанной устной речи. Предполагается, что в корпус будут привлечены материалы из разных источников, но все доступные на настоящий момент тексты взяты из подкорпуса устной речи Британского национального корпуса. Тексты снабжены морфологической и синтаксической разметкой, используется специальная разметка для явлений, характерных для устной речи (паузы, повторы, дискурсивные маркеры и др.)
корпус; английский язык
Свободный доступ

 

Saarbrücken Corpus of Spoken English
Саарбрюкенский корпус разговорного английского языка состоит из трех подкорпусов: 1) беседы, записанные на магнитофон (большей частью с ведома информантов, в некоторых случаях тайно) профессором Н. Норриком и студентами Университета Северного Иллинойса; это, как правило, разговоры в кругу семьи, среди друзей, коллег и т. п.; 2) интервью с людьми старше 80 лет в Индианаполисе, записанные проф. Н. Норриком; 3) анекдоты, записанные профессором Н. Норриком и студентами Университета Северного Иллинойса и Университета Саарланда
Тексты корпуса можно скачать в формате pdf

 

American National Corpus
Американский национальный корпус создается по образцу Британского национального корпуса. На первом этапе основную часть корпуса будут составлять тексты 1990-х гг., однако в дальнейшем в корпус будут включаться и более ранние тексты (вплоть до 1960-х гг. и раньше). В настоящий момент готова первая версия корпуса, в которую вошли 10% от предполагаемого объема корпуса (10 млн. словоупотреблений). Представлены как письменные тексты, так и записи устной речи. Хотя планируется создание представительного корпуса, на данный момент тексты включаются в корпус в порядке поступления, поэтому готовый фрагмент корпуса не является сбалансированным. Тексты снабжаются метаразметкой и частеречной разметкой
Планируется создание представительного корпуса объемом 100 млн. словоупотреблений. Объем готового фрагмента корпуса – 10 млн. словоупотреблений.
Готовый фрагмент корпуса распространяется через LDC (Linguistic Data Consortium) на платной основе

 

Cambridge International Corpus
Кембриджский международный корпус создавался прежде всего как база для составления учебных материалов и словарей английского языка. Он представляет собой очень большую коллекцию текстов, в которую вошли британские тексты разных типов (500 млн. словоупотреблений), американские тексты разных типов (237 млн. словоупотреблений), записи устной речи носителей британского (18 млн.) и американского (22 млн.) вариантов английского языка.
Отдельный подкорпус (Cambridge Learner Corpus, 20 млн. словоупотреблений) образуют тексты экзаменационных работ студентов из разных стран, изучающих английский язык в качестве иностранного. Корпус постоянно пополняется новыми текстами
Свыше 700 млн. словоупотреблений
На настоящий момент к корпусу имеют доступ только авторы, работающие над книгами для издательства Cambridge University Press

 

ICAME Corpus Collection
Коллекция корпусов английского языка (в т. ч. Брауновский корпус - первый в истории представительный корпус; британский корпус LOB, созданный по модели Брауновского; австралийский корпус английского языка (ACE); корпуса устной речи; корпуса, отражающие историю английского языка), выпущенная на CD-ROM Международным компьютерным архивом современного английского языка. Ресурс включает описания всех поставляемых корпусов
Коллекция корпусов ICAME поставляется на платной основе

 На главную страницу | Новости | Организации | Исследования и публикации | Журналы | Персоналии | Ресурсы | Обучение | Ссылки

Hosted by uCoz