Португальский
язык
AC/DC
Portuguese corpora
Ресурс
предоставляет доступ к различным по содержанию корпусам (в
основном корпуса текстов португальских и бразильских газет,
но также коллекция произведений португальской художественной
литературы, бразильские электронные письма и др.). В целом
большую часть в собрании занимают тексты, отражающие
бразильский вариант португальского языка. Почти все тексты
снабжены морфологической разметкой
Общий
объем корпусов –70,8 млн. словоупотреблений, из них 69,8
млн. морфо-логически аннотировано
Свободный доступ
The Oslo Corpus of Tagged Norwegian Texts
Корпус
состоит из двух частей, отражающих две формы норвежского
языка: букмол и нюнорск. Хотя корпус не задуман как
представительный, в него входят различные типы текстов:
художественная литература (букмол – 1,7 млн.; нюнорск – 2,1
млн. словоупотреблений); газетные и журнальные тексты (букмол
– 9,6 млн., нюнорск – 1 млн. словоупотреблений),
фактологические тексты (букмол – 7,1 млн., нюнорск – 0,7
млн. словоупотреблений). Тексты снабжены морфологической,
синтаксической и метаразметкой. Возможен поиск по слову, его
части или группе слов, а также по грамматическим признакам
лексемы и/или словоформы. Поиск может осуществляться по
всему корпусу или по заданному пользователем подкорпусу
Букмол –
18,5 млн. словоупотреблений; нюнорск – 3,8 млн.
словоупотреблений.
Для
доступа к корпусу необходимо получить разрешение на его
использование
Шведский
язык
PAROLE
Корпус
шведского языка создавался в рамках проекта
PAROLE,
инициирован-ного Европейским Союзом и направленного на
создание европейской сети языковых ресурсов. Шведская часть
проекта осуществлялась Институтом шведского языка при Гетеборгском университете. В корпус вошли тексты различных
типов (в основном художественная литература и газетные
тексты), опубликованные в период с 1976 по 1997 гг. Тексты
снабжены морфологической разметкой. Поиск может
осуществляться по словоформе, ее части или
последовательности словоформ, а также по грамматическим
признакам лексемы и/или словоформы
Свыше 19
млн. словоупотреблений
Свободный доступ
Projektet Källtext
Собрание
древнешведских текстов Института шведского языка при
Гетеборг-ском университете. Предоставляется возможность
просмотра текстов, а также поиска заданного слова по всему
массиву текстов
корпус;
шведский язык; древнешведский язык
Свыше 1
млн. словоупотреблений
Свободный доступ
Språkbankens konkordanser
Система,
разработанная Институтом шведского языка при Гетеборгском
университете, позволяет осуществлять поиск по различным
коллекциям текстов (например, художественная литература,
пресса за разные годы, научно-популярная литература,
парламентские дебаты, древние тексты, собрание сочинений
Стриндберга и др.). Тексты не содержат морфосинтаксической
разметки.
147 млн.
словоупотреблений
Свободный доступ
Датский
язык
Korus 2000
Целью
проекта «Korpus
2000» было зафиксировать датский язык в том виде, в котором
он существовал во временном отрезке вокруг 2000-го года. В
корпус вошли тексты различных типов, созданные с 1998 по
2002 гг. Тексты снабжены морфологической аннотацией и
метаразметкой. Поиск может осуществляться по словоформе или
последовательности словоформ.
корпус;
датский язык; 2002
Около
28 млн. слов.
Свободный доступ
Литовский язык
Latvia Latvia kalbos tekstynas
Представительный корпус литовского языка, созданный в Центре
компьютерной лингвистики университета г. Каунас. Возможен
поиск по одному слову или его части
Свыше
100 млн. словоупотреблений.
Свободный доступ
Ирландский язык
National Corpus of Irish
Национальный корпус ирландского языка создавался в рамках
проекта
PAROLE,
инициированного Европейским Союзом и направленного на
создание европейской сети языковых ресурсов. В корпус вошли
современные ирландские тексты различных типов –
художественная литература, периодика и др. Все тексты
снабжены метаразметкой, часть текстов (объемом 8 млн.
словоупотреблений) содержит морфологическую разметку
корпус;
ирландский язык
30 млн.
словоупотреблений.
Платный
доступ
Венгерский язык
Hungarian National Corpus
Венгерский национальный корпус, разрабатываемый Институтом
лингвистики при Венгерской академии наук, задумывался как
100-миллионный сбалансированный корпус. На настоящий момент
его объем превзошел первоначально запланированный. В корпус
входят следующие типы текстов: тексты из средств массовой
информации (81 млн. словоупотреблений); художественная
литература (14,5 млн. словоупотреблений, этот объем
планируется увеличить до 40 млн.); научная литература (20,5
млн. словоупотреблений); официальные тексты (юридические
тексты, парламентские дебаты и т.д. – 19,9 млн.
словоупотреблений); бытовые тексты (обсуждения в
Интернет-форумах – 17,8 млн. словоупотреблений). Тексты
снабжены морфологической разметкой. Возможен поиск по
лексеме или словоформе, их последовательности, а также по
грамматическим признакам лексемы и/или словоформы. Поиск
может осуществляться по всему корпусу или по заданному
пользователем подкорпусу.
корпус;
венгерский язык
153,7
млн. словоупотреблений.
Для
доступа к корпусу необходимо получить разрешение на его
использование
Эстонский
язык
Corpus of Estonian Written Texts
Корпус
содержит эстонские письменные тексты, опубликованные с 1983
по 1987 гг.: газетные тексты, художественная литература,
научные и научно-популярные тексты и др. Тексты снабжены
метаразметкой. Поиск по корпусу не предусмотрен, для
просмотра можно скачать или содержащийся в одном файле
корпус без разметки, или разбитый на отдельные файлы по
типам текстов размеченный корпус
1 млн.
словоупотреблений.
Свободный доступ
Иврит
Automatically tagged Hebrew corpus of Arutz7
newswires
Корпус
включает в себя тексты новостей информационного агентства
Arutz7
за несколько лет. Возможность поиска по корпусу не
предусмотрена, можно скачать корпус для просмотра. Тексты
снабжаются морфологической разметкой при помощи
автоматического морфологического анализатора. Тексты с
морфологической разметкой предполагается разместить на сайте
в ближайшее время. Кроме того, пользователь может скачать
морфологический анализатор и применять его к имеющимся у
него текстам
Свыше 55
тысяч новостных статей.
Для
доступа к корпусу необходимо получить разрешение на его
использование
Hebrew Corpus represented in XML of 2000
Haaretz sentences withmorpho-syntactical annotations
Содержание корпуса образуют предложения из газеты
Haaretz,
снабженные морфологической и синтаксической разметкой. Поиск
по корпусу не предусмотрен, можно скачать корпус для
просмотра.
корпус;
иврит
1892
предложения, около 36 тыс. словоупотреблений.
Свободный доступ
The Corpus of Spoken Israeli Hebrew
Описывается проект по созданию корпуса устного иврита.
Предполагается, что корпус будет отражать все географические,
этнические, социальные и ситуативные варианты устного языка,
функционирующие на территории Израиля, в том числе речь
иммигрантов, для которых иврит не является родным языком. В
корпус предполагается включать как транскрибированную речь,
так и аудио- и видеозаписи
корпус;
иврит
Предполагается создать корпус объемом 5 млн.
словоупотреблений.
Свободный доступ
Китайский язык
Scripta Sinica
Представительный корпус китайского языка
|