РОССИЙСКАЯ ЛИНГВИСТИКА   (RUSLING)

 

 КОРПУСА, ДРУГИЕ (НЕСЛАВЯНСКИЕ) ЯЗЫКИ

Португальский язык

 AC/DC Portuguese corpora

Ресурс предоставляет доступ к различным по содержанию корпусам (в основном корпуса текстов португальских и бразильских газет, но также коллекция произведений португальской художественной литературы, бразильские электронные письма и др.). В целом большую часть в собрании занимают тексты, отражающие бразильский вариант португальского языка. Почти все тексты снабжены морфологической разметкой

Общий объем корпусов –70,8 млн. словоупотреблений, из них 69,8 млн. морфо-логически аннотировано
Свободный доступ

 

Норвежский язык

The Oslo Corpus of Tagged Norwegian Texts

Корпус состоит из двух частей, отражающих две формы норвежского языка: букмол и нюнорск. Хотя корпус не задуман как представительный, в него входят различные типы текстов: художественная литература (букмол – 1,7 млн.; нюнорск – 2,1 млн. словоупотреблений); газетные и журнальные тексты (букмол – 9,6 млн., нюнорск – 1 млн. словоупотреблений), фактологические тексты (букмол – 7,1 млн., нюнорск – 0,7 млн. словоупотреблений). Тексты снабжены морфологической, синтаксической и метаразметкой. Возможен поиск по слову, его части или группе слов, а также по грамматическим признакам лексемы и/или словоформы. Поиск может осуществляться по всему корпусу или по заданному пользователем подкорпусу

Букмол – 18,5 млн. словоупотреблений; нюнорск – 3,8 млн. словоупотреблений.
Для доступа к корпусу необходимо получить разрешение на его использование

  

Шведский язык

PAROLE

Корпус шведского языка создавался в рамках проекта PAROLE, инициирован-ного Европейским Союзом и направленного на создание европейской сети языковых ресурсов. Шведская часть проекта осуществлялась Институтом шведского языка при Гетеборгском университете. В корпус вошли тексты различных типов (в основном художественная литература и газетные тексты), опубликованные в период с 1976 по 1997 гг. Тексты снабжены морфологической разметкой. Поиск может осуществляться по словоформе, ее части или последовательности словоформ, а также по грамматическим признакам лексемы и/или словоформы

Свыше 19 млн. словоупотреблений
Свободный доступ

  

Projektet Källtext

Собрание древнешведских текстов Института шведского языка при Гетеборг-ском университете. Предоставляется возможность просмотра текстов, а также поиска заданного слова по всему массиву текстов

корпус; шведский язык; древнешведский язык

Свыше 1 млн. словоупотреблений
Свободный доступ

  

Språkbankens konkordanser

Система, разработанная Институтом шведского языка при Гетеборгском университете, позволяет осуществлять поиск по различным коллекциям текстов (например, художественная литература, пресса за разные годы, научно-популярная литература, парламентские дебаты, древние тексты, собрание сочинений Стриндберга и др.). Тексты не содержат морфосинтаксической разметки.

147 млн. словоупотреблений
Свободный доступ

 

Датский язык

Korus 2000

Целью проекта «Korpus 2000» было зафиксировать датский язык в том виде, в котором он существовал во временном отрезке вокруг 2000-го года. В корпус вошли тексты различных типов, созданные с 1998 по 2002 гг. Тексты снабжены морфологической аннотацией и метаразметкой. Поиск может осуществляться по словоформе или последовательности словоформ.

корпус; датский язык; 2002

Около 28 млн. слов.
Свободный доступ

 

Литовский язык

Latvia Latvia kalbos tekstynas

Представительный корпус литовского языка, созданный в Центре компьютерной лингвистики университета г. Каунас. Возможен поиск по одному слову или его части

Свыше 100 млн. словоупотреблений.
Свободный доступ

 

Ирландский язык

National Corpus of Irish

Национальный корпус ирландского языка создавался в рамках проекта PAROLE, инициированного Европейским Союзом и направленного на создание европейской сети языковых ресурсов. В корпус вошли современные ирландские тексты различных типов – художественная литература, периодика и др. Все тексты снабжены метаразметкой, часть текстов (объемом 8 млн. словоупотреблений) содержит морфологическую разметку

корпус; ирландский язык

30 млн. словоупотреблений.
Платный доступ

  

Венгерский язык

Hungarian National Corpus

Венгерский национальный корпус, разрабатываемый Институтом лингвистики при Венгерской академии наук, задумывался как 100-миллионный сбалансированный корпус. На настоящий момент его объем превзошел первоначально запланированный. В корпус входят следующие типы текстов: тексты из средств массовой информации (81 млн. словоупотреблений); художественная литература (14,5 млн. словоупотреблений, этот объем планируется увеличить до 40 млн.); научная литература (20,5 млн. словоупотреблений); официальные тексты (юридические тексты, парламентские дебаты и т.д. – 19,9 млн. словоупотреблений); бытовые тексты (обсуждения в Интернет-форумах – 17,8 млн. словоупотреблений). Тексты снабжены морфологической разметкой. Возможен поиск по лексеме или словоформе, их последовательности, а также по грамматическим признакам лексемы и/или словоформы. Поиск может осуществляться по всему корпусу или по заданному пользователем подкорпусу.

корпус; венгерский язык

153,7 млн. словоупотреблений.
Для доступа к корпусу необходимо получить разрешение на его использование

  

Эстонский язык

Corpus of Estonian Written Texts

Корпус содержит эстонские письменные тексты, опубликованные с 1983 по 1987 гг.: газетные тексты, художественная литература, научные и научно-популярные тексты и др. Тексты снабжены метаразметкой. Поиск по корпусу не предусмотрен, для просмотра можно скачать или содержащийся в одном файле корпус без разметки, или разбитый на отдельные файлы по типам текстов размеченный корпус

1 млн. словоупотреблений.
Свободный доступ

  

Иврит

Automatically tagged Hebrew corpus of Arutz7 newswires

Корпус включает в себя тексты новостей информационного агентства Arutz7 за несколько лет. Возможность поиска по корпусу не предусмотрена, можно скачать корпус для просмотра. Тексты снабжаются морфологической разметкой при помощи автоматического морфологического анализатора. Тексты с морфологической разметкой предполагается разместить на сайте в ближайшее время. Кроме того, пользователь может скачать морфологический анализатор и применять его к имеющимся у него текстам

Свыше 55 тысяч новостных статей.
Для доступа к корпусу необходимо получить разрешение на его использование

  

Hebrew Corpus represented in XML of 2000 Haaretz sentences withmorpho-syntactical annotations

Содержание корпуса образуют предложения из газеты Haaretz, снабженные морфологической и синтаксической разметкой. Поиск по корпусу не предусмотрен, можно скачать корпус для просмотра.

корпус; иврит

1892 предложения, около 36 тыс. словоупотреблений.
Свободный доступ

  

The Corpus of Spoken Israeli Hebrew

Описывается проект по созданию корпуса устного иврита. Предполагается, что корпус будет отражать все географические, этнические, социальные и ситуативные варианты устного языка, функционирующие на территории Израиля, в том числе речь иммигрантов, для которых иврит не является родным языком. В корпус предполагается включать как транскрибированную речь, так и аудио- и видеозаписи

корпус; иврит

Предполагается создать корпус объемом 5 млн. словоупотреблений.
Свободный доступ

 

Китайский язык

Scripta Sinica

Представительный корпус китайского языка

 

 На главную страницу | Новости | Организации | Исследования и публикации | Журналы | Персоналии | Ресурсы | Обучение | Ссылки

Hosted by uCoz