Содержание статьи
Туманности нейросетей: «Черные ящики» технологий и наглядные уроки непрозрачности алгоритмов Текст научной статьи по специальности «Прочие социальные науки»
Блиц: : самые крутые книжки и самые эпичные провалы в области ИИ
Дмитрий Ветров: Я вот могу простейший пример привести, чтобы просто трагизм ситуации понимали. Предположим, я на полянке, а вы по мне из пушки стреляете прицельно, но пушка как-то промахивается по Гаусу промахи, мода — наиболее вероятная точка — это собственно мое местонахождение, и дальше , плотность как бы снарядов падает. В двухмерном пространстве всё понятно, если вы по мне стреляете, допустим у пушки дисперсия, ну корня из дисперсии здесь нет, стандарт отклонения. Ну там где-то поближе ко мне снаряды будут чаще, подальше от меня будут реже, колоколообразная плотность. А теперь представим тоже самое только не двухмерное пространство, а скажем тысячимерное пространство. Ну, я понимаю, сложно представить, тут абстрактно. В тысячемерном пространстве нахожусь я, и вы по мне значит из пушки стреляете всё из той же, те же плюс-минус 10 метров отклонение. Так вот все снаряды всегда будут от меня разрываться на расстоянии 10 метров, не 9, и не 11. Это доказано математически в силу там определенных теорем теории вероятности, и это мы наблюдаем экспериментально. Ну хоть ты тресни. Хотя по-прежнему наиболее вероятная точка, куда попадет снаряд — это я, ну вы в меня целитесь, но все снаряды всегда будут на расстоянии ровно 10 метров от меня рваться. Поэтому если у снаряда боевой радиус поражения 9 метров я вообще могу там сидеть в кресле, газеты читать. А просто по мне будут на одинаковом расстоянии от меня будут снаряды рваться. Это просто как пример того, насколько контринтуитивно процессы происходящие в пространстве большой размерностью. В нейросетях пространства размерности миллион, там ещё меньше интуиции. Именно поэтому мы наблюдаем ряд тех эффектов, которые нам кажутся загадочными и непонятными, и именно поэтому я считаю, что крайне важно понять из-за чего они происходит и в принципе успешно это выяснить.
Для решения проблемы вождения машина должна воспринимать и классифицировать окружающую среду, чтобы затем принимать вероятностные решения при наступлении определенных условий. Но количество и сложность ситуаций в практике вождения не позволяет запрограммировать алгоритмы беспилотных автомобилей посредством формальных правил. Поэтому в качестве решения используются глубокие (многослойные) нейросети, обучающиеся на обширных дата-сетах. «Google не учат свои компьютеры водить. Они собирают данные — их машины проехали в сумме 200 000 миль, записывая все, что они видят, — и позволяют своим алгоритмам самостоятельно вычислять правила» [Vanderbilt 2012].
Дмитрий Ветров: Это с обычными нейронными сетями происходит, с байесовскими видимо то же самое будет происходить, но мы пока с обычными играемся. Скорее всего это позволит объяснить эффект двойного спуска, которой вот был обнаружен два года назад в нейросетях. Они очень странно себя ведут, если мы увеличим ширину, а в этом году обнаружили, что даже в рамках одной нейросети, мы просто очень долго ее обучаем, то там происходят очень странные эффекты с тестовой ошибкой, которая сначала падает, потом начинает расти, а потом снова падает — двойной спуск. И вот по видимому это как раз рост и падение связан с тем, чтобы сначала фазе не врезаться, на обучающей выборке всё хорошо при этом, ошибка уменьшается. Что сначала мы уменьшаем объектов обучающей выборки тупым условно в кавычках запоминанием объектов обучающей выборки и при этом у нас подскакивает ошибка на тесте, а потом мы начинаем всё, что мы выучили как-будто упрощать, консолидировать.
Дмитрий Ветров: Нет, нет, коллеги, погодите. Если интуиция не работает, то она полностью формирует другую интуицию, как уже неоднократно в разных науках такое случалось, это нормально, что нам где-то интуиция начинает отказывать. Но это не повод лапки кверху поднимать, и тем более не повод говорить: “Так, это мы просто рассматривать не будем. Сделаем вид, что проблемы нет”. Так вот, возвращаясь к глубинному обучению. Мне кажется, у нас сейчас ситуация такая с нейросетями… то есть, мы в нейросетях наблюдаем кучу удивительных эффектов, загадочных эффектов, непонятных, контринтуитивных. Но основная масс специалистов говорит: “А, не важно”. Главное, что работают, задачи решить можно. Мне кажется, это плохой путь.
Целевая переменная (также называется «предсказанием» и «зависимой переменной») – это результат процесса, который мы хотим научиться предсказывать на основе имеющихся данных. Например, если мы учим модель находить картинки с котиками и без них, целевая переменная может иметь значение 0, если на картинке нет котика, и 1 – если на картинке котик найден.
Но эти призывы в целом проблематичны, хотя и уместны в отдельных случаях. Они упускают из виду, что в случае нейросетей образ «черного ящика» является не только исследовательским, но и акторским. Как мы увидим далее, нейросети непрозрачны или неинтерпретируемы не только для исследователей или аудиторов, но и для самих их создателей. Поэтому призывы к раскрытию «черных ящиков» алгоритмов встречают как минимум два возражения. С одной стороны, ставится под сомнение возможность раскрытия этих «черных ящиков» социологическими и историческими сред-174 ствами [Бй^ое 2017: 29]. С другой — ставится под вопрос сам идеал прозрачности, до сих пор определявший дискуссию о публичной подотчетности алгоритмов. Даже если заглянуть внутрь «черных ящиков» возможно и необходимо, этого может быть недостаточно, чтобы сделать системы на основе глубокого машинного обучения подотчетными. Рассмотрим сначала первое, а затем второе возражение против устойчивого в БТБ тропа раскрытия «черных ящиков».
стабилизации. Это значит, что в будущем в отношении данного конкретного результата эта граница может быть вновь дестабилизирована. Это также значит, что в другом месте для процессов инновации или исследования, т. е. процессов перевода, будет характерно такое же тождество или отсутствие стабильной границы между «социальным» и «техническим» акторами.
Анатолий Старостин: Ну это правда. Но при этом я могу сказать, вот сегодня утром за завтраком читаю я пост на Хабре, где Михаил Бурцев рассказывает нам о будущем искусственного интеллекта, и он там довольно четко артикулирует вот какую мысль: он говорит, что в последнее время очень много развиваются разные методы для анализа вот этих “knowledge graphs” разных и он верит гибридизацию в то, что мы можем взять например тоже самое GPT-3 и как-то так его классно научить, что она будет учиться одновременно вместе вот этим knowledge-графом и его как-то вовлекать, и за счёт этого получить буст качества. Мы в такое верим или нет?
Что такое байесовские методы и зачем они в машинном обучении
Чтобы понять первое возражение, нужно разобраться в различных типах непрозрачности технологий на основе нейросетей. Дженна Баррелл [Вигге11 2016: 3-7] выделяет три типа непрозрачности. Во-первых, сами алгоритмы и дата-сеты, на которых их обучают, как правило, являются интеллектуальной собственностью разработавших их компаний или государств. Поэтому они объявляются секретом, а доступ к ним ограничивается. В случае алго-ритмо-пилотируемых мобилей мы получаем ситуацию, в которой эти умные устройства принимают решения, имеющие масштабные эффекты в публичной сфере, но доступ к принципам и логике этих решений охраняется частной собственностью. Разумеется, критики такой политики алгоритмов видят в ней лишь прикрытие для уклонения от подотчетности перед регуляторными органами и широкой публикой с целью сокрытия паттернов дискриминации и манипуляции потребителями. Бороться с такой формой непрозрачности алгоритмов можно и нужно за счет развития движения за открытый код и за счет подотчетности кода различными формам
Даниил Скоринкин: Очень понятные опасения, мне кажется. С другой стороны, есть такое мнения, я слышал, и на самом деле его высказал один из гостей нашего подкаста, что не то чтобы мы закрываем глаза на все эти сложности и противоречия, а просто мы находимся в таком феноменологическом этапе развития науки. Как братья Райт увидели, что что-то летит, но еще не теоретизировали это.
Дмитрий Ветров: Проблема интерпретируемости, то есть исторически там все последние годы, когда глубинная революция началась в общем никого особо сильно не колыхало, типа работает отлично — “shut up and calculate”. Сейчас по мере того, как технологии начинает проникать во все более широкие сферы народного хозяйства, возникает ряд критических областей, где нам нужны просто компьютер рекомендации выдавал, а ещё и ну как мы понимали на основании чего.
фактически не так [Woolgar, Cooper 1999], и что этому анекдоту можно легко противопоставить контристорию Дж. Скотта о Бразилии, где «благие» и сильные намерения государства не реализовались по намеченному плану [Скотт 2005: 194-209], эта легенда Уиннера проблематична концептуально. Так же, как и первый ответ, она исходит из того, что технологии — послушные проводники человеческих интенций, воль и через это ценностей. Разница лишь в том, что теперь эти ценности полагаются вписанными в содержание самой технологии. Технология полностью определяется ее дизайном, но в отличие от первого ответа сам этот дизайн укоренен в обществе-политике и пронизан ценностями. Поэтому технологии — это политика другими средствами, способ осуществить дискриминацию и доминирование не только материально, но и приватно, т. е. за пределами широкой публичной дискуссии, ограничив делибера-цию относительно узким кругом экспертов.
На развитии этого решения я хотел бы сосредоточиться далее. Первоначально попытка Латура [2013: 225-229] избежать социального конструктивизма состояла в том, чтобы бифокально следить за тем, как в процессе технической инновации параллельно изменяются социальные (социограмма) и материальные элементы 166 (технограмма). Это решение, однако, все еще допускало диалектическое прочтение. Поэтому вскоре эта рамка описания была преобразована в материально-семиотическую модель социотех-нических графов [Latour, Mauguin, Teil 1992; Latour 1990; Latour 1992]. В этой модели социотехническая динамика инноваций определяется взаимодействием программ и антипрограмм, разделенных «линией фронта» разногласий вокруг исследуемой технологии. Программа действия — это желательный с точки зрения инженеров (в широком смысле) сценарий использования их технологии. Чтобы максимизировать соблюдение предложенной ими программы действия, инженеры увязывают свое желание с цепочкой гетерогенных (т. е. человеческих и не-человеческих) акторов. Антипрограммы — это обстоятельства или активности гетерогенных акторов, которые с точки зрения инженеров мешают реализации программы действия. Чтобы нейтрализовать антипрограммы и увеличить количество пользователей на стороне желательной для них программы действия, инженеры стремятся модифицировать технологию с помощью новых гетерогенных акторов. Эти модификации визуализируются с помощью графа, регистрирующего изменение содержания программы действия и количества следующих ей пользователей через смещение «линии фронта».
Weber A. (2012 [1920]) Fundamentals of Cultural Sociology: Social Process, Civilizational Process and Cultural Movement. C. Loader (ed.). Alfred Weber and the Crisis of Culture, 1890-1933, New York: Palgrave Macmillan, US: 165-205. Wynne B. (1988) Unruly Technology: Practical Rules, Impractical Discourses and Public Understanding. Social Studies of Science, 18 (1): 147-167.