|
КОРПУСА, ДРУГИЕ (НЕСЛАВЯНСКИЕ) ЯЗЫКИ
|
Английский
язык
Большой представительный корпус британского английского
языка, по образцу которого создавались многие современные
корпуса различных языков. Корпус включает метатекстовую и
частеречную разметку, характеризуется использованием полных
текстов и наличием подкорпуса устной речи объемом 10 млн.
словоупотреблений.
Объем корпуса – свыше 100 млн. словоупотреблений
Постоянно пополняемый
корпус английского языка, характеризующийся очень большим
объемом. В состав корпуса входят различные типы письменных
текстов и устной речи. Корпус включает метатекстовую
разметку, а также частеречную с элементами морфологической
разметку. В общедоступной версии корпуса существует
возможность выбора подкорпуса: британские книги, газеты,
журналы, радиопередачи и др. (36 млн. словоупотреблений);
американские книги, радиопередачи и др. (10 млн.
словоупотреблений); британская устная речь (10 млн.
словоупотреблений)
Объем корпуса – 524 млн. словоупотреблений, объем
общедоступной части корпуса – 56 млн. словоупотреблений.
Доступ
к полной версии корпуса платный. В свободном доступе
находится небольшая часть корпуса (56 млн.
словоупотреблений), количество выдаваемых в этой версии
контекстов ограничено
Корпус отражает словоупотребление в различных вариантах
английского языка (Австралия, Великобритания, Гонконг,
Индия, Ирландия, Канада, Кения, Малайзия, Новая Зеландия,
Сингапур, США, Танзания, Филиппины, Шри-Ланка, Южная Африка,
Ямайка). Каждый подкорпус включает письменные тексты разных
типов и записи устной речи. В настоящее время полностью
подготовлен Британский компонент корпуса (ICE-GB), его
тексты снабжены морфологической и синтаксической разметкой
Предполагается дополнить записи устной речи аудиозаписями
Объем каждого национального подкорпуса – 1 млн.
словоупотреблений
Британский компонент корпуса ICE
распространяется на диске на платной основе, в свободном
доступе находится его маленький фрагмент (20 тыс.
словоупотреблений)
Первый в истории представительный корпус, создан в 1960-е
гг. Корпус состоит из 500 прозаических фрагментов в 2000
слов, взятых из текстов, опубликованных в США в 1961 г. В
конце 1970-х гг. корпус был дополнен разметкой частей речи и
морфологических признаков слов
корпус; английский язык; американский вариант английского
языка
1 млн.
словоупотреблений
Свободный доступ к корпусу предоставляется через LDC (Linguistic Data Consortium) по адресу: http://wave.ldc.upenn.edu/cgi-bin/ldc/textcorpus?doc=yes&corpus=BROWN.
Кроме того, Брауновский корпус распространяется на платной
основе Международным компьютерным архивом современного
английского языка (ICAME) (Берген, Норвегия)
Корпус создавался в конце 1980-х – начале
1990-х гг. в США в Пенсильванском университете. Основную
часть корпуса образуют тексты из Wall Street Journal за 1989
г. Корпус включает морфологическую и синтаксическую разметку
корпус; английский язык
Объем корпуса – 1 млн. словоупотреблений
Корпус распространяется через LDC (Linguistic
Data Consortium) на платной основе
Корпус SUSANNE создавался в университете
Суссекса. Он представляет собой синтаксически аннотированный
фрагмент Брауновского корпуса
корпус; английский язык; американский вариант английского
языка
130 тыс. словоупотреблений
Свободный доступ
Корпус устной речи CHRISTINE создавался в
университете Суссекса как развитие проекта, в рамках
которого сначала был создан корпус письменных текстов
SUSANNE. В корпус CHRISTINE вошли записи британской
спонтанной устной речи. Предполагается, что в корпус будут
привлечены материалы из разных источников, но все доступные
на настоящий момент тексты взяты из подкорпуса устной речи
Британского национального корпуса. Тексты снабжены
морфологической и синтаксической разметкой, используется
специальная разметка для явлений, характерных для устной
речи (паузы, повторы, дискурсивные маркеры и др.)
корпус; английский язык
Свободный доступ
Саарбрюкенский корпус разговорного английского языка состоит
из трех подкорпусов: 1) беседы, записанные на магнитофон
(большей частью с ведома информантов, в некоторых случаях
тайно) профессором Н. Норриком и студентами Университета
Северного Иллинойса; это, как правило, разговоры в кругу
семьи, среди друзей, коллег и т. п.; 2) интервью с людьми
старше 80 лет в Индианаполисе, записанные проф. Н. Норриком;
3) анекдоты, записанные профессором Н. Норриком и студентами
Университета Северного Иллинойса и Университета Саарланда
Тексты корпуса можно скачать в формате pdf
Американский национальный корпус создается по образцу
Британского национального корпуса. На первом этапе основную
часть корпуса будут составлять тексты 1990-х гг., однако в
дальнейшем в корпус будут включаться и более ранние тексты
(вплоть до 1960-х гг. и раньше). В настоящий момент готова
первая версия корпуса, в которую вошли 10% от
предполагаемого объема корпуса (10 млн. словоупотреблений).
Представлены как письменные тексты, так и записи устной
речи. Хотя планируется создание представительного корпуса,
на данный момент тексты включаются в корпус в порядке
поступления, поэтому готовый фрагмент корпуса не является
сбалансированным. Тексты снабжаются метаразметкой и
частеречной разметкой
Планируется создание представительного корпуса объемом 100
млн. словоупотреблений. Объем готового фрагмента корпуса –
10 млн. словоупотреблений.
Готовый фрагмент корпуса распространяется через LDC (Linguistic Data Consortium) на платной основе
Кембриджский международный корпус создавался прежде всего
как база для составления учебных материалов и словарей
английского языка. Он представляет собой очень большую
коллекцию текстов, в которую вошли британские тексты разных
типов (500 млн. словоупотреблений), американские тексты
разных типов (237 млн. словоупотреблений), записи устной
речи носителей британского (18 млн.) и американского (22
млн.) вариантов английского языка.
Отдельный подкорпус (Cambridge
Learner Corpus, 20 млн. словоупотреблений) образуют тексты
экзаменационных работ студентов из разных стран, изучающих
английский язык в качестве иностранного. Корпус постоянно
пополняется новыми текстами
Свыше 700 млн. словоупотреблений
На настоящий момент к корпусу имеют доступ
только авторы, работающие над книгами для издательства Cambridge University Press
Коллекция корпусов английского языка (в т. ч. Брауновский корпус - первый в истории представительный
корпус; британский корпус LOB, созданный по модели
Брауновского; австралийский корпус английского языка (ACE);
корпуса устной речи; корпуса, отражающие историю английского
языка), выпущенная на CD-ROM Международным компьютерным
архивом современного английского языка. Ресурс включает
описания всех поставляемых корпусов
Коллекция корпусов ICAME поставляется на платной
основе
|
|