Как грибы плодятся учебные заведения, с лицензиями и без, где обещают подготовить специалистов по «искусственному интеллекту». Роботы летают в космос и общаются с клиентами банков, нейронные сети рисуют картины и пишут стихи, электронные юристы составляют исковые заявления, а цифровые шофёры выходят в первые рейсы.

На ИИ собираются выдавать разрешения

Не далее, как в конце августа 2019 года Институт развития интернета (ИРИ) и Ассоциация больших данных (АБД) при участии Медиа-коммуникационного союза подготовили проект кодекса саморегулирования для рынка больших данных. «Идёт внутреннее согласование, текст будет доработан и представлен для экспертного и общественного обсуждения осенью», – поделился с журналистами исполнительный директор АБД Алексей Нейман.

Так работал искусственный интеллект в XVIII веке. Есть версия, что с тех пор ничего не поменялось

Большие данные – большие деньги, принять участие в работе с которыми закономерно хочется немалому числу людей, даже не слишком близких к высоким технологиям.

В ассоциации отмечают, что в течение пяти лет российский рынок вырастет в 10 раз, до 300 миллиардов, что требует его «профессиональной регламентации». «Разработка единого закона на данном этапе может не оправдать ожиданий. У каждого вида данных своя специфика, которую трудно прописать языком юриспруденции», – говорит гендиректор ИРИ Сергей Петров.

Одним из требований кодекса может стать включение требований для компаний, использующих большие данные, получать разрешение. Проще говоря, хочешь использовать искусственный интеллект – вступай в ассоциацию и плати взносы.

Но, прежде чем покупать лицензию и платить взносы, впору трезво разобраться в сути вопроса. А так ли перспективен синтетический разум, как нам пытаются это внушить? Или, если ещё радикальнее, а есть ли он вообще в наличии? Может ли случиться так, что нынешний хайп спадёт, обманутые инвесторы расползаться зализывать финансовые раны, а не оправдавших надежд роботов развинтят на гайки.

Кто захватывает рынок?

Во-первых, закопёрщики инициативы также вызывают здоровую настороженность. Например, Институт развития интернета уже отметился разными забавными инициативами, вроде предложениями ввести компьютерные игрушки в обязательную школьную программу – дескать, развивает реакцию, командный дух, да и вообще прикольнее, чем всякая нудная ботаника с географией. Так что здесь больше речь идёт о бодром пиаре на модной теме.

Ассоциация больших данных выглядит посолиднее, она объединяет такие компании, как Яндекс, МайлГрупп, Газпромбанк, Тинькофф-банк, Сбербанк, Ростелеком и прочих гигантов, которые практикуют сбор и массовую обработку информации о своих клиентах.

У этих ребят, понятно, задача своя. С одной стороны, надо как-то ужиться с Роскомнадзором и 152-ФЗ, а с другой – постараться отсечь от потенциального рынка обработки данных разную мелкую и среднюю братию.

Во-вторых, государство, при всей своей любви к разными цифровизациями и дигитализациям на саморегулирование искусственного интеллекта смотрит без особого одобрения. Например, глава комитета Госдумы по информполитике Леонид Левин, комментируя инициативу АБД и ИРИ отметил, что саморегулирования недостаточно: «Нужно определить, какой объем информации о пользователях бизнес может использовать и обрабатывать и каким образом эти данные должны храниться».

Оно и понятно. Ключевые технологии, которые используются в обработке больших данных, пригодятся для оборонки и контроля отчётности. Тот самый учёт и контроль, без которого, как завещал ещё дедушка Ленин, никакой нормальный социализм (читай – плановую экономику) не построить. Цифрой можно не только наводить на супостатов разные «Калибры» и «Цирконы», но и отлавливать прячущихся по своим щелям самозанятых и прочих уклонистов. Отсюда растут ноги у повального увлечения по созданию всяческих реестров, которое успели почувствовать на своей шкуре уже во всех отраслях – начиная от стройки и кончая репетиторскими услугами. Отдавать это направление на откуп частникам государство явно не собирается. Во всяком случае, пока.

От «Диалы» до «Алисы»

Но самое главное, что, стоит учесть – вся бодрая движуха с искусственным интеллектом пришла к нам с Запада, где наличие заветной аббревиатуры AI считается must have для каждого уважающего себя стартапа. А это значит, что если мы хотим заглянуть в своё недалёкое будущее, то и смотреть надо именно в ту сторону – а как там сейчас у них?

Одинокие программисты создавали себе подружек, пока это ещё не стало мейнстримом

А у них, как ни странно, первоначальное оживление сменилось ожидаемым скепсисом. Строго говоря, под «искусственным интеллектом» сейчас понимают широкий спектр разномастных и никак не связанных друг с другом технологий. Это нейросети, которые используются для распознавания текстовой, визуальной или аудио-информации. Это консалтинговые системы, которые, например, рекомендуют вам ролики на Ютубе на основе уже просмотренных, или товары в интернет-магазине. Это различные чат-боты, вроде Алисы от Яндекса или Олега от Тинькова. Это беспилотные автомобили. И многое другое.

Большинство этих технологий существуют уже несколько десятилетий, с разной степенью эффективности. Например, первые программы-говорилки писали ещё на БЭСМ,  инженеры таким образом развлекали себя в промежутках между расчётом баллистических траекторий и отраслевых балансов.

Автору этих строк довелось застать девицу по имени «Диала», которая запускалась с дискеты под PS-DOS и умела поддерживать разговор на вольные темы. В основном про любовь и компьютеры. Более сложные модификации, кстати, не только анализировали ваш вопрос и выдавали ответ, но могли понимать контекст разговора, учитывать предыдущие вопросы и ответы. Такие программы год за годом развивались где-то на периферии мира разработки ПО, до тех пор, пока их не назвали красивым словом «искусственный интеллект» и не начали встраивать куда только можно.

Распознавание текста и изображения также практиковалось уже очень давно. Например. российская компания ABBYY ещё в 1993 году, до всяких нейросетей и решающих деревьев представила свою программу оптической разработки текста. Кстати, 14 версия поддерживает распознавание текста на 192 языках и имеет встроенную проверку орфографии для 48 из них, а установлена она на 20 миллионах компьютеров в мире.

Не хороните SQL

Наконец, возьмём рекомендательные системы. В июле 2018 года известный западный веб-разработчик Селестин Омин опубликовал статью под провокационным названием «Нет, вам не нужно машинное обучение. Вам нужен SQL». В ней он подробно разбирал одержимость американского рынка применением технологий искусственного интеллекта и доказывал, что в большинстве случаев, никакого смысла в такого рода решениях нет. И тут же показал на практических кейсах, как те же самые задачи можно решить гораздо проще и дешевле за счёт использования классической базы данных и старых-добрых SQL-запросов.

Так что если вам интересно, каким образом можно резко повысить продажи интернет-магазина, используя существующую базу покупателей и не подключая при этом никаких нейросетей — не поленитесь, прочтите.

«Я слышу слова: чтобы вам быстрее и раньше закрыть раунд финансирования, нужно использовать слово «блокчейн», даже если оно не имеет отношения к проекту. Некоторое время назад в тренде были машинное обучение и искусственный интеллект. Каждый новый стартап занимался ML/AI. Не дай бог запустить проект без упоминания AI. Серьёзно, ты правда в бизнесе? Но вообще так быть не должно», – иронизирует автор.

Рабы корпораций

И таких скептических статей появляется всё больше. Вот ещё одна публикация, авторы который приподняли завесу за технологическими чудесами крупнейших IT-корпораций – Амазон, Ютуб, Фейсбук. Правда оказалась неприглядной. За красивым фасадом кроется ручной малооплачиваемый труд большого количества «информационных негров». Нанятые за копейки фрилансеры занимаются обработкой запросов, наполнением баз данных, формированием обучающих выборок, фильтрацией контента и в тому подобными процессами, с которыми плохо справляются компьютерные алгоритмы.

У Амазона, например, по всему миру существуют центры по обработке данных, сотрудники которых стенографируют аудиозаписи, сортируют слова и фразы на категории и оценивают ответы цифрового помощника Алекса. Один бывший сотрудник описывает свою работу там как «неумолимую». Ему приходилось обрабатывать примерно 700 вопросов к Алексе в день, в условиях жёстких показателей того, сколько времени должна занимать обработка одного вопроса.

В Ютубе за 15 долларов в час сотрудники занимаются модерацией видеоконтента, содержащего пытки животных, детскую порнографию и смерть. Правила работы предписывают смотреть эти видео целиком, даже если сотрудник уже видел их многократно. Такая цена за работу указана для американских сотрудников, в других странах ценник будет гораздо ниже.

Робот Фёдор по факту является аватором, зеркалящим движения оператора. И твиттер ведёт далеко не сам.

Так что, когда следующий раз будете общаться с очередным голосовым помощником, не забывайте, что это просто большая база данных, которая вручную собрана и обработана рабами за копейки.

Тут невольно вспоминается и космический робот Фёдор, который мог просто повторять движения оператора и от имени которого штатные сотрудники пресс-службы Роскосмоса писали сообщения в Твиттер. Та же пиар-модель, только пока ещё не завёрнутая в такую красивую обёртку, как это умеют делать на западе.

Подведём итоги

За всеми этими наблюдениями выясняется неприятная правда. В большинстве случаев «искусственный интеллект», «машинное обучения» и «большие данные» не являются самостоятельной технологией. Это маркетинговый ход, пустышка, призванная привлечь деньги инвесторов (или освоить государственные средства). Что же касается использования баз данных, то они существуют и сегодня, практически у каждого ведомства, а их правовой режим успешно регулируется 152-ФЗ и прочими нормативными актами.