В данной работе проводится сравнение двух методов обучения с подкреплением, а именно Online-Q и Experience replay. Сравнение проведено для агента, обучаемого в мультиагентной среде, которая представляет собой видеоигру “mitos.is”. При использовании нейронной сети в обучении с подкреплением возникают трудности с высокой корреляцией между примерами, которая осложняет обучение агента. Таким образом использование experience replay позволяет работать с независимыми примерами. В ходе проведенного сравнения выявлено преимущество experience replay для данной среды.