Мобильные сети пятого поколения (5G A.) предусматривают использование многошаговой полудуплексной передачи в сети радиодоступа. В такой конфигурации для обеспечения абонентов требуемыми показателями качества необходимо особое внимание уделять задаче планирования передачи по каналам сети. Формулируя эту задачу с помощью Марковского процесса принятия решений со счетным множеством состояний, можно численно найти оптимальную политику управления с помощью методов обучения с подкреплением. Однако, возникает необходимость оценить погрешность решения, полученного с помощью численных алгоритмов. Для этого в данной работе проводится сравнение целевого показателя численно найденной оптимальной политики с результатами других известных политик.