НовостиОбзорыИтоги года 2024Все о нейросетяхГаджет года 2024ГаджетыТехнологииНаукаСоцсетиЛайфхакиFunПромокодыЭксперты

Компании начинают продавать данные пользователей для обучения нейросетей: что будет дальше

28 февраля 2024
Tumblr и WordPress решили продать пользовательские данные для обучения ИИ-моделей Midjourney и OpenAI. Предстоящая сделка уже находится на стадии реализации.

ИИ-разработчики получат данные по меньшей мере за последние 10 лет работы сервисов. Предполагается, что личные сообщения и медиа, отправленные пользователями в приватных переписках, в дампы включены не будут.

Издание 404 media отмечает, что инженеры уже на начальном этапе столкнулись со сложностями в компиляции дампов данных — в них по ошибке были включены публикации в закрытых блогах, защищенный авторским правом контент, сообщения в удаленных или приостановленных блогах и др.

очень немногих моих подписчиков это, вероятно, волнует, но я удалил свои фотографии из Tumblr и буду медленно, но верно перемещать их на (свой сайт) cylegage.com, в который я встраиваю в портфолио фотографий, которым могу управлять (самостоятельно). к сожалению, я не могу удалить свои фотографии ни у кого, кто сделал репост моих работ. по-сути, там (на сайте) пока ничего нет, потому что я еще не написал CMS, но со временем я добавлю RSS-канал, если кто-нибудь захочет за ним следить. возможно, я опубликую ссылку на него здесь, когда выложу больше фотографий. Точно так же я думаю, что удалю свою музыку с Tumblr и буду полагаться исключительно на свой Bandcamp и/или, возможно, даже создам собственное музыкальное портфолио на cylegage.com, которое будет сопровождать мои фотографии. было бы здорово сделать и то, и другое в одном творческом пространстве, которым я могу управлять (самостоятельно).

Это показывает, что для монетизации своего контента компаниям недостаточно просто иметь в своем распоряжении массивы данных. Гораздо более сложной задачей оказывается сортировка контента и исключение из дампов защищенной или приватной информации.

Тем не менее, инициатива Tumblr и WordPress (а в прошлом Shutterstock и Reddit), заключающих контракты с ИИ-разработчиками, указывает нас то, что в будущем многие типы пользовательских данных в сети могут (и будут) использоваться для обучения нейронных сетей.

Вполне вероятно, что некоторые компании будут использовать данные без предварительного уведомления пользователей и фильтрации личной информации — можно не сомневаться, что на этой почве произойдет еще не один скандал.

О самых распространенных схемах обмана в соцсетях читайте в нашем материале.

Владимир Тихонов