Для распознавания речи техника должна следить за взглядом человека

Как получается, что мы можем смотреть на дверь и случайно называть её окном, или глядеть на грабли и назвать их лопатой? Когда люди делают такие ошибки, они часто ссылаются на спешку или потерю концентрации.

Но для техники, занимающейся распознаванием речи, такие ошибки неочевидны, и истинные намерения говорящего ею могут быть неправильно истолкованы. Как же быть?

Учёные считают, что ошибок можно избежать, если машины будут воспринимать не только голос, но и фиксировать направление взгляда человека.

«Обычно люди смотрят на объекты перед тем, как обозначить их словами. Таким способом они планируют то, что хотят сказать, — объясняет психолог Зензи Гриффин (Zenzi Griffin) из технологического института Джорджии (Georgia Institute of Technology).

— Но если человек спешит или рассеян, то можно предположить, будто причина ошибки — недостаток времени, потраченного на рассматривание объекта. Но я не нашла почти никаких различий в количестве потраченного людьми времени и вероятностью ошибки. Фактически люди, путающиеся в названии предметов, тратят немного больше времени на разглядывание объектов».

Гриффин провела эксперимент с участием 33 добровольцев. Им было предложено смотреть на объекты и называть их, в то время как специальная аппаратура отслеживала движения их глаз.

В результате Гриффин убедилась, что одновременное разглядывание объекта и его устное определение не могут гарантировать, что предмет будет назван правильно.

Так что, по словам доктора, разработчикам программного обеспечения для распознавания речи нужно понять важность знания, на что смотрит говорящий: «Пристальный взгляд может помочь снять неоднозначность. Например, вы даёте команду «Открытый дверь». Если ПО определит, куда вы смотрите, оно «узнает», какую дверь вы имеете в виду».

MEMBRANA