Когда данные подводят раньше, чем алгоритм
В апреле 2026 года Nature опубликовал материал о десятках ИИ-моделей, предназначенных для предсказания риска диабета и инсульта. Проблема оказалась не в качестве алгоритмов и не в вычислительной мощности. Проблема была в данных: модели обучались на сомнительных датасетах с неясным происхождением и сомнительной верификацией. Часть этих моделей, судя по всему, уже применялась в клинических сценариях — то есть влияла на реальные медицинские решения. Два журнала открыли расследование.
Это медицина, где цена ошибки очевидна и измеряется человеческим здоровьем. Но принцип, который обнажила эта история, работает в любой области, где ИИ-система принимает решения или помогает их принимать. Качество выходных данных системы определяется не сложностью модели, а качеством данных, на которых она работает. Эту истину в информатике сформулировали ещё в 1960-х: garbage in — garbage out. Мусор на входе — мусор на выходе. Десятилетия прошли, архитектуры стали несравнимо сложнее, а принцип не изменился.
Для инженерной работы с технической документацией это не абстрактная угроза. Это вполне конкретный риск, который легко недооценить, когда внимание сосредоточено на выборе модели.
Показательно, что проблема воспроизводится независимо от уровня сложности системы. Простые модели на плохих данных дают плохие результаты — это очевидно. Но и сложные модели на плохих данных дают плохие результаты — просто более уверенно и с более правдоподобными обоснованиями. Именно это делает проблему качества данных особенно опасной в эпоху мощных языковых моделей: чем убедительнее звучит ответ, тем меньше вероятность, что его проверят.
СИЗАМ — как пример подхода, где важны фонд документов, метаданные, источники и верификация
Когда мы думаем о качестве ИИ-системы для работы с документами, первый вопрос, который обычно возникает: какая модель используется? GPT-4, Claude, какая-то открытая альтернатива? Это не тот вопрос, с которого нужно начинать.
Правильный первый вопрос: откуда берутся документы и как проверяется их достоверность?
В случае с инженерной нормативной базой это означает несколько конкретных вещей. Первое — источник. Стандарт должен быть получен от организации-разработчика или авторизованного дистрибьютора, а не найден на случайном сайте. Разница между официальной редакцией ISO и её «похожей» копией из интернета может выражаться в изменённых числах, пропущенных пунктах или устаревшей версии. Второе — актуальность. Ежегодно около 15% действующих международных стандартов обновляется. Документ, который был актуален год назад, может содержать требования, которые уже отменены или изменены. Третье — метаданные. Для каждого документа в базе должно быть известно: кто издал, когда, какой статус, к какой редакции относится, в какой отрасли применяется. Без этого система не может корректно выбрать релевантный фрагмент при ответе на вопрос — она просто не знает, какой документ важнее в данном контексте.
В SIZAMAI работа с фондом документов выстроена именно вокруг этих принципов. Каталог из более чем 156 тысяч карточек международных стандартов — ISO, ASTM, IEC, DIN, SAE, GB — формируется из верифицированных источников с регулярным обновлением статусов. Каждая карточка содержит метаданные: статус действия, дата последнего обновления, организация-разработчик, история редакций. Документы, поставленные на контроль, отслеживаются автоматически — если выходит новая редакция, система уведомляет. Научная база из более чем шести миллионов публикаций формируется из рецензируемых журналов крупных международных издательств — Elsevier, Springer, Wiley, IEEE — а не из произвольных открытых источников.
Это не детали реализации. Это архитектурные решения, которые непосредственно влияют на качество ответов системы. Когда ИИ-ассистент отвечает на вопрос инженера, он опирается ровно на то, что находится в базе. Если база содержит устаревшую редакцию стандарта — ответ будет основан на устаревших требованиях. Если в базе нет метаданных о статусе документа — система не может предупредить, что документ отменён.
История с медицинскими ИИ-моделями из публикации Nature — это крайний случай, где некачественные данные привели к системным проблемам в клинической практике. В инженерии аналогичный сценарий выглядит иначе: это не катастрофа, которую заметят сразу. Это тихое накопление решений, принятых на основе неточных данных — устаревших допусков, отменённых методов испытаний, неверно интерпретированных требований. Обнаруживается это, как правило, поздно: на этапе сертификации, при претензии заказчика или при разборе несоответствия готового изделия.
Выбор модели важен. Но если в базе мусор — даже лучшая модель выдаст мусор с уверенным голосом и ссылкой на несуществующий пункт.
Поэтому правильный вопрос при оценке любой ИИ-системы для работы с документами — не «какая у них модель», а «откуда берутся данные, кто их верифицирует и как часто они обновляются». Ответ на этот вопрос говорит о системе больше, чем любые технические характеристики.
Заходите в наш Телеграм-канал https://t.me/sizam_ai. Здесь мы регулярно пишем об актуальных методах управления технической документацией.