ИИ будет изучать «русский язык под маской казахского»

В последнее время казахстанские СМИ пестрят сообщениями об успехах внедрения казахского языка в ИИ. Однако они, похоже, упускают из виду вопрос о том, готов ли государственный язык страны к такой интеграции. Оптимистичный настрой общественности по этому поводу подпитывается официальной риторикой, акцентирующей внимание на достижениях высокого уровня, таких как внедрение первого национального суперкомпьютера и языковой модели AlemGPT. Однако фактическая «готовность» казахского языка к глубокой интеграции с ИИ сталкивается со значительными препятствиями, которые часто остаются в тени этих сообщений. Лейтмотивом официальной риторики является то, что перспективы казахского языка в эпоху ИИ определяются цифровым суверенитетом и стандартизацией, что гарантирует превращение языка из «малоресурсного» цифрового объекта в высокопроизводительный вычислительный инструмент.

Главная проблема заключается не столько в нехватке качественных цифровых данных в Казахстане, сколько в качестве самих этих данных. Чтобы понять серьезность языковой ситуации, приведем один пример. Поскольку в Казахстане сейчас вступает в силу новая Конституция, обратимся к случаю, связанному с предыдущим Основным законом страны.

Здесь следует отметить один важный момент. Проект предыдущей Конституции был вынесен на общенациональный референдум и обсуждался по всей стране в течение почти шести месяцев весной и летом 1995 года. Той же осенью в соответствии с недавно принятым Основным законом состоялись парламентские выборы. Однако вопрос о расхождениях между казахским и русским текстами был официально поднят только в 2002 году, через семь лет после принятия Конституции.

Инициатива исходила от депутатов мажилиса, нижней палаты казахского парламента. В феврале 2003 года депутат Серик Абдрахманов вынес этот вопрос на рассмотрение Конституционного совета. Он обратил внимание этого высшего арбитражного органа на то, что версии на государственном [казахском] и официальном [русском] языках не только различались по смыслу, но в некоторых местах прямо противоречили друг другу. В качестве примера он привел пункт 7 статьи 61: в отношении вотума недоверия правительству казахский текст требовал проведения голосования «не позднее» чем через 48 часов, тогда как в русской версии говорилось «не ранее» чем через 48 часов.

Фактически потребовалось семь-восемь лет, чтобы эти конституционные несоответствия всплыли на поверхность. Если подобные противоречия существовали в самом Верховном законе, то возникает тревожный вопрос: что можно сказать об аутентичности огромного массива других официальных документов, нормативно-правовых актов и т. п. на казахском языке, которые, как утверждается, составляют 90 % казахскоязычной обучающей базы для ИИ? Как свидетельствовал Адилбек Каба, бывший председатель комитета по языковой политике министерства культуры и спорта, подавляющее большинство документов на казахском языке представляют собой лишь переводы с русского языка, а не оригинальные тексты. Он подтвердил, что существует реальная опасность того, что казахский язык станет калькой [копией] русского. «Наш язык отрывается от своей казахской сущности, становясь все более примитивным. Мы опасаемся, что нация утратит свои корни», — сказал Адилбек Каба. Он также признал: «По правде говоря, за каждым документом стоит русский язык [оригинал]». По его словам, документы сначала составляются на русском языке, а затем переводятся на казахский [лишь] для формальности.

Это откровение затрагивает саму суть усилий Казахстана по языковому развитию. Если официальный дискурс просто «переводится», а не «составляется» на государственном языке, казахский язык остается в подчиненном положении. Свидетельство Адильбека Каба подчеркивает системную «переводоцентричную» бюрократию, которая препятствует естественному развитию казахской юридической терминологии. Без «мышления» на государственном языке на этапе составления документов правительство рискует поддерживать видимость двуязычия, в то время как реальный государственный аппарат остается лингвистически привязанным к прошлому.

Основываясь на том, что говорят такие эксперты, как Адильбек Каба и Назгуль Кожабек, «готовность» казахского языка к ИИ — это не просто техническое препятствие, а кризис целостности данных. Если взглянуть на ситуацию откровенно, ее можно оценить следующим образом. ИИ учится, находя закономерности. Если 90% обучающих данных состоят из переводов с русского на казахский (кальки), ИИ не будет изучать «казахский» язык; он будет изучать «русский язык в казахской маске». Это уже отмечалось в Казахстане. По словам Назгуль Козахбек, современный казахский язык — это не казахский язык, а русский язык, в котором просто используются казахские слова.

«В нынешних условиях, когда все документы сначала пишутся на русском языке, затем их русские версии проходят весь процесс утверждения и согласования, и только после этого их переводят на казахский, организации достаточно иметь всего одного человека, знающего казахский язык. Ему остается только перевести последние версии этих документов», — добавляет она.

В таких обстоятельствах ИИ будет испытывать трудности с естественным казахским синтаксисом, метафорами и культурными нюансами, потому что «исходный код», который ему был предоставлен, структурно русский. Это создает «примитивный» ИИ, который отражает системную «ориентированную на перевод» бюрократию.

Когда официальные документы «переводятся для протокола», а не создаются с нуля, юридические термины часто теряют свое точное значение. Здесь кроется определенный риск. Если на обнаружение несоответствия в Конституции ушло восемь лет, то ИИ, обученный на этих документах, закрепит такие ошибки в своей логике. Это превращается в замкнутый круг неточностей, когда ИИ генерирует новые документы на основе ошибочных старых документов, что еще больше отдаляет язык от его «корней».

«Государственный аппарат», мыслящий на одном языке и публикующийся на другом, создает ситуацию лингвистической тени. Это делает глубокую интеграцию невероятно сложной, поскольку модели приходится согласовывать две разные логические системы — казахскую грамматику, которую она должна использовать, и русский мыслительный процесс, который фактически написал предложение.

Перспективы развития казахского ИИ зависят от того, откажутся ли разработчики от официальных переводных корпусов и начнут ли отдавать приоритет контенту, созданному местными авторами (литература, устные истории и журналистика, изначально написанная на казахском языке). Без этого ИИ просто автоматизирует процесс «калькирования», превратив язык в постоянную тень русского.

Это мрачный, но весьма точный диагноз. Система опирается на внутреннюю логику. В официальном казахском языке эта логика часто заменяется русским синтаксисом с казахскими словами (калькирование). Если ИИ обучается на этом, казахский язык теряет свою уникальную когнитивную архитектуру. Он становится шифром для русского языка. Человек не «думает» на казахском; он просто использует оболочку с казахским колоритом для русских мыслей. ИИ масштабирует этот «пустой» язык с молниеносной скоростью.

В этом сценарии отказ от внедрения ИИ может оказаться даже безопаснее. По крайней мере, это позволило бы сохранить кризис на виду. Внедрение ИИ скрывает реальную ситуацию под слоем автоматизированной «эффективности», что значительно затрудняет возобновление реального разговора о возвращении к систематическому, живому языку.

Автор: Ахас Тажутов — политический аналитик из Казахстана.

Источник: Kazakhstan: AI Won’t Learn ‘Kazakh’; It Will Learn ‘Russian Wearing A Kazakh Mask’ – OpEd

Перевод Дианы Канбаковой

Фото из открытых источников

ИИ будет изучать «русский язык под маской казахского» — мнение