Tecnología / Inteligencia Artificial
Auriculares con cámara: la IA ya puede hablar sobre lo que ves
El sistema incluye visión artificial integrada en el oído, con respuesta rápida, menor consumo y más control sobre la privacidad

Los auriculares integran visión artificial y conversación en tiempo real. / Crédito: Kim et al./CHI ‘26.
Investigadores estadounidenses desarrollaron un sistema que utiliza pequeñas cámaras en auriculares inalámbricos disponibles en el mercado, para permitir a los usuarios hablar con un modelo de IA sobre la escena frente a sus ojos.
Un equipo de especialistas de la Universidad de Washington, en Estados Unidos, ha desarrollado un sistema llamado VueBuds, que integra cámaras diminutas en auriculares inalámbricos comunes para que el usuario pueda preguntarle a una IA qué tiene delante, traducir un texto o identificar objetos en tiempo real. La propuesta fue presentada en la conferencia de informática CHI 2026, definiéndose como el primer sistema de este tipo en auriculares de consumo.
El principio técnico es el siguiente: cada auricular incorpora una microcámara que captura imágenes en blanco y negro, de baja resolución, y las envía por Bluetooth a un teléfono móvil u otro dispositivo cercano. Luego, un modelo de visión continúa con el trabajo, de modo que el procesamiento se realiza en el propio aparato y no en la nube.
Inteligencia visual en tiempo real
Según una nota de prensa, el sistema responde en alrededor de un segundo: la captura es bajo demanda y el consumo cae por debajo de 5 mW. Los autores sostienen que los auriculares ya son un objeto masivo y cotidiano, mientras que las gafas inteligentes o los cascos de realidad virtual todavía enfrentan resistencias por comodidad y por privacidad.
En ese contexto, VueBuds intenta llevar “inteligencia visual” a un formato menos intrusivo. Frente a un dispositivo visible como unas gafas, el auricular promete una adopción más natural, pero también obliga a resolver una dificultad central: mirar sin que la propia oreja de la persona tape la escena.
Esa limitación fue precisamente una de las preguntas que guiaron el diseño. El equipo comprobó que una ligera orientación hacia afuera, de entre 5 y 10 grados, permite un campo de visión de entre 98 y 108 grados. También detectó un punto ciego: cuando un objeto se sostiene a menos de 20 centímetros, la cara puede obstruir parte de la imagen.
Más allá de esto, los investigadores concluyen que ese problema no afecta demasiado el uso habitual, porque en pocas ocasiones una persona examina algo tan cerca del rostro. Además, el sistema “pega” las imágenes de ambos auriculares, para ganar velocidad y pasar de unos dos segundos a aproximadamente un segundo en la respuesta.
Elevados porcentajes de precisión y el problema del color
En las pruebas realizadas, 74 participantes compararon salidas grabadas con este sistema y con unas gafas de realidad virtual disponibles en el mercado: pese a usar imágenes de menor resolución y mayores controles de privacidad, el desempeño fue similar. Incluso, VueBuds rindió mejor en traducciones, mientras que las gafas obtuvieron mejores resultados en conteo de objetos.
Referencia
VueBuds: Visual Intelligence with Wireless Earbuds. Maruchi Kim et al. CHI '26: Proceedings of the 2026 CHI Conference on Human Factors in Computing Systems (2026). DOI:https://doi.org/10.1145/3772318.3791322
En otro conjunto de ensayos, 16 personas usaron VueBuds directamente y el sistema alcanzó entre 83 % y 84 % de precisión en traducción o identificación de objetos, y 93 % al reconocer autor y título de un libro. Al mismo tiempo, en estudios en línea y presenciales con 90 participantes, el sistema igualó la calidad de respuesta de las gafas Ray-Ban Meta en 17 tareas visuales.
La privacidad es otro eje de esta innovación tecnológica: el procesamiento ocurre en el dispositivo, se enciende una luz cuando el sistema está grabando y el usuario puede borrar imágenes de inmediato. Sin embargo, al trabajar solo con escala de grises el sistema no puede responder preguntas sobre colores, y el propio equipo reconoce que el siguiente paso sería incorporar color o entrenar modelos específicos para tareas como lectura o traducción.
- Un bombero ayudó a que naciera y 22 años después recorrió 1.000 kilómetros para verla graduarse: 'Tenemos un vínculo muy especial
- Las Hijas de Felipe: 'Las monjas de los siglos XVI y XVII fueron capaces de pensar estrategias muy colectivas de supervivencia
- Última encuesta de las elecciones en Andalucía 2026: sondeos a pie de urna
- Los expertos en psicología coinciden: tomar apuntes con papel y bolígrafo mejora la memoria
- Ucrania, potencia mundial en drones: Zelenski vende sus aparatos 'probados en combate' a más de 20 países
- Elecciones en Andalucía, en directo: última hora y novedades de la jornada electoral
- Pere Estupinyà, divulgador científico: 'En la tercera edad, tener sueños y objetivos es más importante que cumplirlos
- Muere un hombre por varios disparos en la cabeza en la Zona Franca de Barcelona