Появление и распространение технологий ИИ порождает целый спектр вопросов.
Существует множество направлений, связанных с темой “ИИ и безопасность”. Во-первых, ИИ может быть использован для защиты от традиционных угроз (атак, не основанных на ИИ). И мы видим, как искусственный интеллект становится составной частью приложений для обеспечения безопасности. Во-вторых, ИИ может быть использован для взлома систем безопасности. В-третьих, ИИ сам по себе может быть источником уязвимостей, которые используются для взлома. Но даже если система ИИ выполнена без очевидных уязвимостей, она тем не менее может быть источником различного рода проблем. Например, высокоинтеллектуальный инструментарий может оказаться опасным в руках недобросовестных личностей, организаций и государств.
В рамках данного курса невозможно рассмотреть все аспекты проблемы, мы дадим лишь краткий обзор некоторых тем и чуть подробнее остановимся на рисках, связанных с ограничениями интерпретируемости ИИ-систем и с нарушением этических норм.
Классификация направлений ИИ-безопасности
Аналитики представляют разные системы классификации вопросов и направлений, связанных с обеспечением безопасности, обусловленной использованием ИИ. Например, авторы работы из CAICT (рис. 4.1) предлагают вопросы безопасности, связанные с применением ИИ, рассматривать в трех измерениях – это риски, связанные с угрозами безопасности со стороны ИИ, приложения обеспечения безопасности и средства управления безопасностью.
Рис. 4.1. Основные направления ИИ-безопасности в концепции CAICT.
Другая классификация рисков, связанных с ИИ (в концепции AIRS) представлена на рис. 4.2.
Рис. 4.2. Основные риски, связанные с ИИ в концепции AIRS.
Здесь риски разделены на четыре группы: риски, связанные с данными, с атаками на ИИ, с тестированием и с так называемым комплаенсом.
Риски, связанные с данными
Подобные риски связаны с наличием ограничений в обучении моделей и с качеством данных. В большинстве случаев невозможно обучить ИИ-систему на всех возможных комбинациях входных данных, что формирует несовершенство модели и, соответственно, одно из направлений рисков.
Низкое качество данных (неполные, ошибочные, устаревшие данные и т. п.) может не только ограничить способность системы к обучению, но и негативно повлиять на то, как она будет принимать решения в будущем. Кроме того, часто данные могут быть несбалансированными по каким-то критериям, что ведет к возможной предвзятости обученной на них модели.
Риски, связанные с атаками на ИИ-системы
Говоря об атаках на ИИ, следует отметить, что большинство известных потенциальных атак на системы ИИ можно отнести к одной из следующих категорий.
Атаки на конфиденциальность данных – это вид атак, при которых злоумышленник может узнать набор данных, используемых для обучения модели, тем самым нарушая конфиденциальность данных.
Отравление обучающих данных (training data poisoning) – это атака, направленная на загрязнение данных, используемых для обучения ИИ-модели, что негативно сказывается на процессе обучения или результатах (может быть использовано для увеличения коэффи-циента ошибок ИИ-приложения или для потенциального влияния на процесс переобучения или принятия решения моделью).
Вредоносный ввод (Adversarial Inputs, ввод противника) – атака на ИИ-приложения, которые используют входные данные от внешней системы, интерпретируют эти данные и выполняют на основе этого некоторые действия. Атака направлена на компрометацию входных данных. Используя вредоносный ввод, противник нарушает работу классификатора. Такие вредоносные входы известны как ввод противника.
В качестве примера компрометации системы компьютерного зрения приводят эксперименты, когда атакованная система “видит не то, что есть на самом деле”. Широко описаны случаи, когда добавление специально созданного враждебного шума (Adversarial Noise) к исходному изображению (незаметно для человеческого глаза) приводит к тому, что объект распознается машиной с ошибкой. Известен пример, когда нанесение на поверхность мяча мыльной пены заставляло изменить мнение ИИ и распознавать модифицированный объект как чашку кофе, а не мяч.
При атаке “извлечение модели” противник пытается украсть саму модель, причем украденная модель может быть использована в качестве инструмента для создания дополнительных рисков.
Риски, связанные с ограничениями возможностей по тестированию и валидации ИИ-моделей
Комментируя риски, связанные с ограничениями возможностей по тестированию и валидации моделей, следует отметить, что в зависимости от варианта использования система ИИ может по-разному развиваться с течением времени. Некоторые формы ИИ могут создавать проблемы, которые могут увеличиваться со временем.
Тестирование и валидация систем ИИ может представлять трудности по сравнению с традиционными системами. Тестирование по всем сценариям может оказаться невозможным, что формирует потенциальные риски. Некоторые системы ИИ по своей природе склонны к изменениям с течением времени, могут сопровождаться изменениями в выходных данных и неверными выводами.
Отсутствие прозрачности ИИ – это проблема, которая уже упоминалась ранее и будет более подробно рассмотрена в данном разделе. Некоторые системы ИИ являются “черным ящиком” и не поддаются объяснению. Трудно оценить систему, когда нет возможности понять, как она делает свои выводы.
Предвзятость (bias) – термин, который можно интерпретировать как необъективность или пристрастность ИИ. Эта необъективность может формироваться на разных стадиях жизненного цикла создания модели. Во-первых, сами разработчики не могут быть свободны от присущей им той или иной пристрастности (принадлежности той или иной социальной группе, политическим предпочтениям и т. п.), они переносят часть своей личности в ИИ-продукты, порождая предвзятости решения. Вот почему считается, что страны, в которых разработчики представлены разными социальными и гендерными слоями, в меньшей степени рискуют создавать ИИ-приложения, страдающие предвзятостями.
Предвзятости также могут формироваться на стадии постановки задачи, когда формализация задачи может зависеть от личных представлений разработчика. А также на стадии сбора данных для обучения. Например, в 2019 году полицейское управление Лос-Анджелеса приостановило свою программу прогнозирования преступности LASER, которая использовала данные видеоаналитики, после того как внутренний аудит показал предвзятость системы к чернокожим и латиноамериканцам.
Системы ИИ могут усиливать риски, связанные с предвзятыми результатами, приводя к нарушению конфиденциальности, этических норм, что в свою очередь приводит к судебным и репутационным издержкам.
Риски, связанные с нарушением нормативных требований
По мере внедрения ИИ в организациях необходимо учитывать их влияние на существующие внутренние политики. Регулирующие органы проявляют растущий интерес к внедрению ИИ. Несоблюдение нормативных актов может повлиять на использование и управление системами ИИ.
В рамках данного курса мы подробнее остановимся на рисках, связанных с ограничениями интерпретируемости ИИ-систем, и рисках, обусловленных нарушением этических норм.
Появление и распространение технологий ИИ порождает целый спектр вопросов.
Существует множество направлений, связанных с темой “ИИ и безопасность”. Во-первых, ИИ может быть использован для защиты от традиционных угроз (атак, не основанных на ИИ). И мы видим, как искусственный интеллект становится составной частью приложений для обеспечения безопасности. Во-вторых, ИИ может быть использован для взлома систем безопасности. В-третьих, ИИ сам по себе может быть источником уязвимостей, которые используются для взлома. Но даже если система ИИ выполнена без очевидных уязвимостей, она тем не менее может быть источником различного рода проблем. Например, высокоинтеллектуальный инструментарий может оказаться опасным в руках недобросовестных личностей, организаций и государств.
В рамках данного курса невозможно рассмотреть все аспекты проблемы, мы дадим лишь краткий обзор некоторых тем и чуть подробнее остановимся на рисках, связанных с ограничениями интерпретируемости ИИ-систем и с нарушением этических норм.
Классификация направлений ИИ-безопасности
Аналитики представляют разные системы классификации вопросов и направлений, связанных с обеспечением безопасности, обусловленной использованием ИИ. Например, авторы работы из CAICT (рис. 4.1) предлагают вопросы безопасности, связанные с применением ИИ, рассматривать в трех измерениях – это риски, связанные с угрозами безопасности со стороны ИИ, приложения обеспечения безопасности и средства управления безопасностью.
Рис. 4.1. Основные направления ИИ-безопасности в концепции CAICT.
Другая классификация рисков, связанных с ИИ (в концепции AIRS) представлена на рис. 4.2.
Рис. 4.2. Основные риски, связанные с ИИ в концепции AIRS.
Здесь риски разделены на четыре группы: риски, связанные с данными, с атаками на ИИ, с тестированием и с так называемым комплаенсом.
Риски, связанные с данными
Подобные риски связаны с наличием ограничений в обучении моделей и с качеством данных. В большинстве случаев невозможно обучить ИИ-систему на всех возможных комбинациях входных данных, что формирует несовершенство модели и, соответственно, одно из направлений рисков.
Низкое качество данных (неполные, ошибочные, устаревшие данные и т. п.) может не только ограничить способность системы к обучению, но и негативно повлиять на то, как она будет принимать решения в будущем. Кроме того, часто данные могут быть несбалансированными по каким-то критериям, что ведет к возможной предвзятости обученной на них модели.
Риски, связанные с атаками на ИИ-системы
Говоря об атаках на ИИ, следует отметить, что большинство известных потенциальных атак на системы ИИ можно отнести к одной из следующих категорий.
Атаки на конфиденциальность данных – это вид атак, при которых злоумышленник может узнать набор данных, используемых для обучения модели, тем самым нарушая конфиденциальность данных.
Отравление обучающих данных (training data poisoning) – это атака, направленная на загрязнение данных, используемых для обучения ИИ-модели, что негативно сказывается на процессе обучения или результатах (может быть использовано для увеличения коэффи-циента ошибок ИИ-приложения или для потенциального влияния на процесс переобучения или принятия решения моделью).
Вредоносный ввод (Adversarial Inputs, ввод противника) – атака на ИИ-приложения, которые используют входные данные от внешней системы, интерпретируют эти данные и выполняют на основе этого некоторые действия. Атака направлена на компрометацию входных данных. Используя вредоносный ввод, противник нарушает работу классификатора. Такие вредоносные входы известны как ввод противника.
В качестве примера компрометации системы компьютерного зрения приводят эксперименты, когда атакованная система “видит не то, что есть на самом деле”. Широко описаны случаи, когда добавление специально созданного враждебного шума (Adversarial Noise) к исходному изображению (незаметно для человеческого глаза) приводит к тому, что объект распознается машиной с ошибкой. Известен пример, когда нанесение на поверхность мяча мыльной пены заставляло изменить мнение ИИ и распознавать модифицированный объект как чашку кофе, а не мяч.
При атаке “извлечение модели” противник пытается украсть саму модель, причем украденная модель может быть использована в качестве инструмента для создания дополнительных рисков.
Риски, связанные с ограничениями возможностей по тестированию и валидации ИИ-моделей
Комментируя риски, связанные с ограничениями возможностей по тестированию и валидации моделей, следует отметить, что в зависимости от варианта использования система ИИ может по-разному развиваться с течением времени. Некоторые формы ИИ могут создавать проблемы, которые могут увеличиваться со временем.
Тестирование и валидация систем ИИ может представлять трудности по сравнению с традиционными системами. Тестирование по всем сценариям может оказаться невозможным, что формирует потенциальные риски. Некоторые системы ИИ по своей природе склонны к изменениям с течением времени, могут сопровождаться изменениями в выходных данных и неверными выводами.
Отсутствие прозрачности ИИ – это проблема, которая уже упоминалась ранее и будет более подробно рассмотрена в данном разделе. Некоторые системы ИИ являются “черным ящиком” и не поддаются объяснению. Трудно оценить систему, когда нет возможности понять, как она делает свои выводы.
Предвзятость (bias) – термин, который можно интерпретировать как необъективность или пристрастность ИИ. Эта необъективность может формироваться на разных стадиях жизненного цикла создания модели. Во-первых, сами разработчики не могут быть свободны от присущей им той или иной пристрастности (принадлежности той или иной социальной группе, политическим предпочтениям и т. п.), они переносят часть своей личности в ИИ-продукты, порождая предвзятости решения. Вот почему считается, что страны, в которых разработчики представлены разными социальными и гендерными слоями, в меньшей степени рискуют создавать ИИ-приложения, страдающие предвзятостями.
Предвзятости также могут формироваться на стадии постановки задачи, когда формализация задачи может зависеть от личных представлений разработчика. А также на стадии сбора данных для обучения. Например, в 2019 году полицейское управление Лос-Анджелеса приостановило свою программу прогнозирования преступности LASER, которая использовала данные видеоаналитики, после того как внутренний аудит показал предвзятость системы к чернокожим и латиноамериканцам.
Системы ИИ могут усиливать риски, связанные с предвзятыми результатами, приводя к нарушению конфиденциальности, этических норм, что в свою очередь приводит к судебным и репутационным издержкам.
Риски, связанные с нарушением нормативных требований
По мере внедрения ИИ в организациях необходимо учитывать их влияние на существующие внутренние политики. Регулирующие органы проявляют растущий интерес к внедрению ИИ. Несоблюдение нормативных актов может повлиять на использование и управление системами ИИ.
В рамках данного курса мы подробнее остановимся на рисках, связанных с ограничениями интерпретируемости ИИ-систем, и рисках, обусловленных нарушением этических норм.