“Когда AI ‘садится в машину’, у нас уже почти наступила эра перенасыщения. Но тут на сцену выходит DeepSeek, как грозный шторм, способный встряхнуть индустрию интеллектуального вождения.”
20 января DeepSeek официально представила модель DeepSeek-R1 и одновременно открыла доступ к весам модели. Благодаря своей доступной цене и невероятной производительности, DeepSeek всего за 7 дней привлекла более миллиона пользователей, став настоящим мировым феноменом.
В области мультимодальности, в декабре 2024 года DeepSeek выпустит экспертную смешанную визуально-языковую модель — DeepSeek-VL2, которая значительно улучшит свои возможности в области визуального вопросно-ответного взаимодействия, оптического распознавания символов, понимания документов, таблиц и графиков, а также визуальной локализации.
На самом деле, даже когда DeepSeek была еще на стадии становления, индустрия уже начала обращать внимание на ее модели: некоторые компании в сфере автопилотирования начали заранее исследовать потенциал применения этой модели.
“Результаты превзошли все ожидания! В начале этого года мы провели внутренние тесты, и самым очевидным изменением DeepSeek стало увеличение эффективности обучения модели. Она может сократить время отклика на 40%, а то и 50%, при этом степень использования вычислительных ресурсов тоже значительно снизилась,” — поделился один из топ-менеджеров ведущей компании в области интеллектуального вождения.
В глазах специалистов, DeepSeek как открытая базовая модель имеет все шансы ускорить процесс обучения интеллектуального вождения и снизить его стоимость, став важным инструментом для обучения систем автопилотирования.
Что касается разработки систем автопилотирования, директор по технологиям компании Zhixing Automotive, Чжан Вэй, отметил, что сложные городские сцены представляют собой наибольшую трудность в разработке, и традиционные модели восприятия не могут эффективно решать проблемы таких длинных хвостовых сцен. Все компании стремятся разработать и обучить VLM модели (визуально-языковые модели), чтобы оптимизировать возможности системы по обнаружению и обработке таких сцен.
Однако разработка такой системы требует огромных вычислительных мощностей в облаке и высоких затрат на обучение данных, а модели, развернутые на автомобилях, также нуждаются в мощных аппаратных платформах. DeepSeek, благодаря своим уникальным технологическим преимуществам, таким как MoE (смешанная экспертная архитектура), GRPO (групповая относительная стратегия оптимизации) и MLA (механизм многоголовой потенциальной внимательности), может значительно улучшить разработку систем автопилотирования.
“В двух словах, DeepSeek помогает достичь аналогичных показателей городского автопилотирования с меньшими затратами на данные и обучение,” — добавил Чжан Вэй.
Если говорить подробнее, на этапе обучения в облаке данные, используемые для обучения моделей автопилотирования, должны пройти процесс аннотации, прежде чем они смогут быть использованы для обучения модели, что в конечном итоге приводит к созданию глубинной обучающей модели, способной распознавать автомобили и пешеходов. DeepSeek существенно снизила потребность в аннотации данных, что помогает компаниям в сфере автопилотирования проводить добычу и генерацию данных, уменьшая затраты на сбор и аннотацию данных.
На стороне автомобиля DeepSeek может повысить способности модели через дистилляцию, снижая требования к вычислительным ресурсам на борту и уменьшая затраты на развертывание. Таким образом, требования к вычислительным ресурсам и затратам на обучение значительно снижаются.
Что касается понимания сцен, Чжан Вэй считает, что после межмодального переноса логика и способность понимания сцен DeepSeek станут значительно лучше, а в экстремальных дорожных условиях (таких как тупиковые дороги, редкие знаки дорожного движения, внезапные дорожные работы и т.д.) она, вероятно, покажет результаты лучше, чем традиционные модели. Главный маркетолог компании Hezhima Intelligent, Ян Юсин, также утверждает, что в будущем DeepSeek сможет интегрировать визуальные, звуковые и окружающие данные, чтобы создать более человечные решения для вождения, например, динамически корректировать маршруты на сложных перекрестках или быстро генерировать безопасные стратегии в экстренных ситуациях.
Ян Юсин считает, что основная ценность таких больших моделей, как DeepSeek, заключается в том, что они способствуют переходу интеллектуальных систем вождения от “управления на основе восприятия” к “управлению на основе понимания”. Если DeepSeek сможет реализовать масштабируемое применение с помощью недорогих вычислительных чипов, это ускорит проникновение функций автопилотирования на рынок Volkswagen. (Журналисты: Сун Сяочэн, Ли Синьцай)