Для распознавания речи техника должна следить за взглядом человека
Как получается, что мы можем смотреть на дверь и случайно называть её окном, или глядеть на грабли и назвать их лопатой? Когда люди делают такие ошибки, они часто ссылаются на спешку или потерю концентрации.
Но для техники, занимающейся распознаванием речи, такие ошибки неочевидны, и истинные намерения говорящего ею могут быть неправильно истолкованы. Как же быть?
Учёные считают, что ошибок можно избежать, если машины будут воспринимать не только голос, но и фиксировать направление взгляда человека.
«Обычно люди смотрят на объекты перед тем, как обозначить их словами. Таким способом они планируют то, что хотят сказать, — объясняет психолог Зензи Гриффин (Zenzi Griffin) из технологического института Джорджии (Georgia Institute of Technology).
— Но если человек спешит или рассеян, то можно предположить, будто причина ошибки — недостаток времени, потраченного на рассматривание объекта. Но я не нашла почти никаких различий в количестве потраченного людьми времени и вероятностью ошибки. Фактически люди, путающиеся в названии предметов, тратят немного больше времени на разглядывание объектов».
Гриффин провела эксперимент с участием 33 добровольцев. Им было предложено смотреть на объекты и называть их, в то время как специальная аппаратура отслеживала движения их глаз.
В результате Гриффин убедилась, что одновременное разглядывание объекта и его устное определение не могут гарантировать, что предмет будет назван правильно.
Так что, по словам доктора, разработчикам программного обеспечения для распознавания речи нужно понять важность знания, на что смотрит говорящий: «Пристальный взгляд может помочь снять неоднозначность. Например, вы даёте команду «Открытый дверь». Если ПО определит, куда вы смотрите, оно «узнает», какую дверь вы имеете в виду».
*