Зеленым отмечены синонимы, присутствующие в словаре. Красным отмечены синонимы, отсутствующие в словаре.
Зеленым отмечены антонимы, присутствующие в словаре. Красным отмечены антонимы, отсутствующие в словаре.
Наш проект занимается созданием корпуса текстов с лингвистической разметкой.
Источник: 0151835
Лингвистическая разметка — это разнообразная информация о тексте: кто и когда его написал, о чём текст; и о словах в нём: к какой части речи относится слово, в каком падеже оно стоит, какая у него словарная форма, с какими словами в предложении оно связано, где в предложении подлежащее и сказуемое.
Источник: 0151835
Поскольку разметка корпуса выполняется вручную или почти вручную, а сами по себе корпуса довольно велики (речь идёт о сотнях тысяч словоупотреблений) то эти размеченные данные составляют существенную часть стоимости получающихся технологий.
Источник: 0151835
Разметка в нашем проекте создаётся усилиями волонтёров и результат публикуется под лицензией CC-BY-SA.
Источник: 0151835
Через несколько недель (да, мы работаем очень медленно) после сообщения кто-то из редакторов разметки придёт, почитает ваш ЖЖ, выберет часть постов и комментариев и поместит их в корпус.
Источник: 0151835
Потом придут другие редакторы и добавят другие "слои" разметки: уберут неправильные грамматические разборы слов и т.д..
Источник: 0151835
Какие посты будет выбирать редактор разметки?
Источник: 0151835
Можно также поучаствовать в проекте в качестве редактора разметки, программиста или как-нибудь ещё.
Источник: 0151835
Вспомните те далёкие — по сетевым, конечно, меркам — времена, когда каждому пользователю Сети хотелось иметь веб-страничку в интернете, но для этого ему приходилось учить язык гипертекстовой разметки HTML.
Источник: 18737 Программирование как хобби
Язык разметки
Источник: Машиночитаемость
Особенно важно рассказать слушателям о способах лингвистической разметки корпусов, а именно – о метаязыке XML и понятии тэгов.
Источник: Компьютерные технологии в формировании профессиональной компетенции переводчика
XML – это фактически набор правил, позволяющих создавать собственные языки разметки (наиболее известным из них является HTML, который часто используют в создании сайтов).
Источник: Компьютерные технологии в формировании профессиональной компетенции переводчика
Для этого необходимо разработать формальную лингвистическую систему разметки ошибок на основе языка XML.
Источник: Корпус несовершенных переводов: необходимость проекта
К сожалению публикации, посвящённые собственно переводческой разметке, в отечественном и зарубежном переводоведении редки, хотя тема представляется весьма актуальной.
Источник: Корпус несовершенных переводов: необходимость проекта
Разметка переводных устных корпусов разрабатывается в университете Тампере, Финляндия, но в ней не учитываются переводческие ошибки.
Источник: Корпус несовершенных переводов: необходимость проекта
В данном проекте мы планируем основываться на работе «Применение дескриптивной разметки для формализации оценки качества перевода».
Источник: Корпус несовершенных переводов: необходимость проекта
Задача лингвистов-переводоведов будет заключаться в разработке критериев отбора текстов в корпус, самой процедуре отбора, создании схемы дескриптивной разметки ошибок и её применении к корпусу.
Источник: Корпус несовершенных переводов: необходимость проекта
Конечно же, основной проблемой станет разметка корпуса по ошибкам: если небольшой корпус ещё можно разметить вручную, то огромные объёмы текстов потребуют автоматизации этого процесса (с последующей проверкой человеком).
Источник: Корпус несовершенных переводов: необходимость проекта
3. Разметка переводческих ошибок в пилотном корпусе.
Источник: Корпус несовершенных переводов: необходимость проекта
6. Разметка основного корпуса.
Источник: Корпус несовершенных переводов: необходимость проекта
Учтя замечания пользователей, мы проведём в нём разметку ошибок, а затем приступим к формированию основного массива корпуса.
Источник: Корпус несовершенных переводов: необходимость проекта
Вёрстка — составление страниц (полос) газеты, журнала, книги определённого размера из набранных строк, заголовков, иллюстраций и тому подобного в соответствие с разметкой или макетом.
Источник: Глава 7