Способ управления светофором, основанный на множестве
ДомДом > Блог > Способ управления светофором, основанный на множестве

Способ управления светофором, основанный на множестве

Jun 05, 2023

Научные отчеты, том 13, Номер статьи: 9396 (2023) Цитировать эту статью

Подробности о метриках

Алгоритмы интеллектуального управления светофором (ITLC) очень эффективны для уменьшения заторов на дорогах. В последнее время предложено множество децентрализованных многоагентных алгоритмов управления светофорами. Эти исследования в основном сосредоточены на совершенствовании метода обучения с подкреплением и метода координации. Но поскольку всем агентам необходимо общаться, координируя свои действия друг с другом, детали общения также следует улучшить. Чтобы гарантировать эффективность коммуникации, следует учитывать два аспекта. Во-первых, необходимо разработать метод описания условий дорожного движения. Используя этот метод, условия дорожного движения можно описать просто и ясно. Во-вторых, следует учитывать синхронизацию. Поскольку разные перекрестки имеют разную длину цикла и событие отправки сообщения происходит в конце каждого цикла светофора, каждый агент будет получать сообщения от других агентов в разное время. Поэтому агенту сложно решить, какое сообщение является последним и наиболее ценным. Помимо деталей связи, также следует улучшить алгоритм обучения с подкреплением, используемый для синхронизации сигналов светофора. В традиционных алгоритмах ITLC, основанных на обучении с подкреплением, при расчете значения вознаграждения учитывается либо длина очереди перегруженных автомобилей, либо время ожидания этих автомобилей. Но оба они очень важны. Поэтому необходим новый метод расчета вознаграждения. Для решения всех этих проблем в данной статье предлагается новый алгоритм ITLC. Чтобы повысить эффективность связи, этот алгоритм использует новый метод отправки и обработки сообщений. Кроме того, для более разумного измерения пробок на дорогах предлагается и используется новый метод расчета вознаграждения. Этот метод учитывает как время ожидания, так и длину очереди.

Интеллектуальное управление светофором (ITLC) — хороший метод уменьшения заторов на дорогах. Алгоритм ITLC должен определять состояние движения на перекрестке и автоматически регулировать длину цикла светофора. Поскольку алгоритм обучения с подкреплением1 очень хорошо работает в автоматическом управлении2,3, в последнее время предложено множество алгоритмов ITLC, основанных на обучении с подкреплением. Эти алгоритмы можно разделить на две категории, включая табличные методы4,5,6 и методы аппроксимации7,8,9. В методах аппроксимации значение Q каждой пары состояние-действие должно рассчитываться с помощью конкретной модели. Учитывая состояние, если действие получает наивысшее значение Q, оно будет выбрано агентом и выполнено во внешней среде. Обычно контролер светофора рассматривается как агент. Они отвечают за сбор состояний из внешней среды, расчет значения вознаграждения и выбор действия. В настоящее время для выполнения задачи расчета значения Q предлагается множество различных моделей, в том числе модель на основе нейронных сетей прямого распространения7, линейная модель10, вероятностная модель11, модель на основе сверточных нейронных сетей8, модель RAIM12, модель на основе графовых сверточных сетей9, модель FRAP13,14, Модель MetaLight15 и т. д. Алгоритмы обучения с подкреплением, которые используют модели глубокого обучения16 для расчета значения Q, называются алгоритмами глубокого обучения с подкреплением. Поскольку алгоритмы глубокого обучения с подкреплением работают очень хорошо, они применяются во многих областях, включая обнаружение аномального сетевого трафика17,18, коммуникации и сети19 и т. д.

На основании приведенного выше описания алгоритмы управления сигналами трафика можно разделить на два типа: алгоритмы на основе одного агента20,21 и алгоритмы на основе нескольких агентов22,23,24. В многоагентных алгоритмах все диспетчеры светофоров транспортной сети должны координировать свои действия, чтобы справиться с пробками на дорогах. Алгоритмы на основе нескольких агентов также можно разделить на два типа, включая централизованные алгоритмы25,26,27 и децентрализованные алгоритмы28,29,30. В централизованных алгоритмах исполнитель используется для изучения совместных действий всех агентов. Поскольку все агенты контролируются центральным исполнителем, масштабируемость централизованного алгоритма не так хороша, как ожидалось. Децентрализованные алгоритмы — лучший вариант решения этой проблемы. В децентрализованных алгоритмах каждый контроллер светофора рассматривается как независимый агент и самостоятельно выбирает действие. В настоящее время предложено несколько децентрализованных алгоритмов. Алгоритм CGB-MATSC28 представляет собой алгоритм управления сигналами трафика на основе кластеров. В этом алгоритме все агенты будут сгруппированы в разные кластеры, и каждый кластер будет управляться исполнителем. Алгоритм NAQL29 — это децентрализованный алгоритм, который использует нечеткую логику для оптимизации модели. Алгоритм MA2C30 представляет собой многоагентный алгоритм управления сигналами трафика, основанный на методе актер-критик. Алгоритм Co-DQL31 предложен на основе метода двойного Q-обучения. В этом алгоритме используются двойные оценки. Алгоритм MPLight32 предлагается для управления тысячей светофоров. Он основан на алгоритме обучения с подкреплением и теориях транспортировки. Алгоритм EMVLight33 может одновременно выполнять динамическую маршрутизацию и управление светофором. Алгоритм MARDDPG34 предлагается на основе алгоритма глубокого детерминированного политического градиента. Алгоритм ATSC35 представляет собой децентрализованный адаптивный алгоритм управления сигналами на сетевом уровне, и в этом алгоритме используется глубокое обучение с подкреплением. Из приведенного выше описания мы видим, что все эти алгоритмы в основном сосредоточены на улучшении эффекта модели и метода координации. Но детали общения упускаются из виду. Поскольку при попытке агентов координировать действия друг с другом между ними будет происходить общение, следует предложить метод коммуникации, обеспечивающий эффективность координации. Во-первых, необходим эффективный метод описания условий дорожного движения. Используя этот метод, условия движения на перекрестке можно просто и ясно описать с помощью сообщения. Это сообщение будет отправлено другим агентам. Во-вторых, необходимо улучшить синхронизацию децентрализованных алгоритмов. Каждый диспетчер светофора должен отправлять сообщение другому в конце каждого цикла. Но поскольку продолжительность цикла разных светофоров различна, агенту нелегко решить, какое сообщение является последним и наиболее ценным. Для решения этих проблем предлагается новый метод отправки и обработки сообщений. В этом методе состояние дорожного движения можно просто и ясно описать сообщением. И в то же время предлагаемый метод использует структуру данных для записи самых последних и наиболее ценных сообщений для дальнейшей обработки. Помимо деталей связи, следует также улучшить алгоритм обучения с подкреплением, используемый для управления светофором. В традиционных алгоритмах при расчете стоимости вознаграждения учитывается либо длина очереди, либо время ожидания перегруженных транспортных средств. Однако оба этих фактора важны для оценки пробок на дорогах. Поэтому в этой статье предлагается новый метод расчета стоимости вознаграждения, учитывающий эти два фактора. Соответственно, вклад этой статьи заключается в следующем: