Компания Microsoft представила собственную мультимодальную ИИ-модель Kosmos-1, которая анализирует изображения, решает графические головоломки, распознает текст, проходит различные тесты на определение IQ и понимает команды на собственном языке.
Ученые полагают, что создание подобного ИИ, способного работать как с текстом, так и изображениями и аудио (в том числе и с видео) – основополагающий шаг для создания AGI, или же полноценного искусственного интеллекта, который будет способен справляться с различными задачами наравне с людьми.
Подобный подход является фундаментальным для создания AGI с точки зрения как получения новых знаний, так и связи с реальным миром. В работе, которую провели ученые, рассказывается, как именно Kosmos-1 анализирует изображения, отвечает на вопросы и справляется с различными иллюстрациями и видеофрагментами. С тем же успехом новый ИИ проходит и популярные IQ-тесты.
Сейчас же ученые предполагают, что подобный подход позволит в будущем заменить людей при выполнении любых интеллектуальных задач, поскольку именно такую цель ставит себе партнер компании Microsoft в лице компании OpenAI. Новую систему тренировали на информации, полученной из глобальной сети, а после обучения с ней провели ряд тестов, которые проверяли ее возможности для подведения итогов оценки, куда входило понимание «прочитанного», ответы на графические вопросы и решения других задач.
По окончании тестов Kosmos-1 можно назвать успешным ИИ, поскольку он превосходит лучших из нынче существующих систем. В будущем ученые планируют добавить в систему синтезированную речь, а в ближайшее время они хотят открыть доступ для разработчиков.
💬 Наша группа VK: https://vk.com/mmainbrand
➡ Telegram-канал: https://t.me/mainbrandru