Se me ocurre que en obs mantengas una serie de combinaciones de teclas para que puedas cambiar las escenas, el software debe detectar el micrófono y simular dicha tecla para que cambie la escena, podrías hacerlo en cualquier lenguaje que te permita la detección de audio.
El problema sería detectar de qué fuente viene el audio, porque supongo que todos los micrófonos van conectados a la misma tarjeta de sonido.
El problema sería detectar de qué fuente viene el audio, porque supongo que todos los micrófonos van conectados a la misma tarjeta de sonido.