До свидания, мышь. Здравствуйте, Mind Control

New! Когда рабочее компьютеров вышло за рамки интерфейса командной строки в сторону мыши и окна на основе графического интерфейса пользователя – это было важным шагом вперед в юзабилити

27 ноября 2012 14:05, Computerworld.kz

Рубрики: Мир

И в свое время командная строка сама по себе была большим улучшением по сравнению с перфокартами и лентами.

Мы сейчас вступаем в новую эру дизайна пользовательского интерфейса, а компании экспериментируют со всеми темами, от прикосновения и жестов, до голоса и даже прямого контроля разумом. Но какие из этих новых интерфейсов подходят для корпоративной среды, а которые просто не готовы к прайм-тайм?

Вы меня слышите сейчас?

Распознавание голоса является одной из технологий, которая добилась значительного прогресса. Десять лет назад точность была низкой и технология требовала серьезной тренировки со стороны пользователя. Сегодня это вполне привычная технология, даже для карманных устройств, таких, как современные смартфоны.

Для общего использования в офисе, однако, распознавание голоса существенно продвинулось в таких специализированных областях, как юриспруденция и медицина. В Университете Питтсбурга в медицинском центре, например, автоматизированная транскрипция почти полностью заменили человека-транскрипциониста в радиологическом отделении.

"Важнейший момент в радиологии, как мы можем быстро думать, как много исследований, как много можем сделать ", - говорит Расу Шрестха, вице-президент больницы по медицинским информационным технологиям. "Повернуть время назад чрезвычайно важно, так же как и аккуратность в отчетах".

Тот факт, что сама работа является чрезвычайно рутинной также важно, добавила она. "Мы сидим, смотрим на фотографии, мы пишем отчеты", - говорит он. "Это довольно рутинные задачи".

Шрестха говорит, что она начал работать с голосом еще десять лет назад, и это был "ужасающим". "У нас была постоянная борьба, особенно если ваш язык с акцентом. Мы прошли долгий путь. Dragon Medical Engine [от Nuance] включает в себя много медицинских онтологий и лексических структур, так что платформа довольно развитая.

В результате, точность прошла путь от 70% до 80% 10 лет назад, до почти 100% сегодня. Между тем, качество человеческой транскрипции фактически упало, так как больницы перешли от использования выделенных секретарей, которые могли бы узнать голос врача, к аутсорсинговым услугам транскрипции.

"Там нет возможности создавать связи с каким-либо конкретным человеком, сидящим на другом конце службы", - говорит она. Другая причина, что машина транскрипции теперь лучше – пользователи могут установить макрос, который автоматически выполняет неблагодарную работу.

"Если у вас нормальный рентген грудной клетки, вы могли сократить документальный оборот ", - говорит она. "Вы можете просто включить микрофон и сказать: "Шаблон нормальный" и система автоматически добавляет в контекст имя пациента и возраст, и все. В секунду вы создали полный отчет, который мог бы занять в традиционном виде несколько минут. Я бы сказала, что дни человека-транскрипциониста сочтены".

Наконец, машинная транскрипции значительно ускоряет рабочий процесс. "Десять лет назад, пять лет назад, когда мы работали с использованием традиционных услуг транскрипции, это могло занять несколько дней, прежде чем отчет заполнялся и возвращался назад ", - говорит она. "Сегодня это от нескольких секунд до нескольких минут. Минуту пациент находится в сканере до завершения сканирования. А уже в течение нескольких секунд или минут исследования будут доступны для нас и для врача. Это существенно увеличивает нашу производительность и упрощает процесс".

Повышение точности распознавания речи, это только начало того, как новые интерфейсы преобразуют взаимодействие с компьютерами.

"Реальная сила не в том, что любой из этих новых подходов является идеальным", говорит Генри Хольцман, который возглавляет группу информационной экологии в MIT Media Lab. "Но вместе они могут позволить нам иметь гораздо больше интеллектуального опыта, где технология приближается к нам и на наших условиях, а нам не нужно знать, как использовать эту технологию".

Распознавание голоса является одной из движущих сил этого изменения, которым оборачивается стандартный подход к взаимодействию с компьютером. "Мы можем сказать: "Напомните мне, что у меня встреча в пять, и, это очень отличается от включения телефона, манипуляций с приложениями, установки напоминаний и так далее", - говорит Хольцман.

Традиционно наиболее интерфейсы предназначены вокруг вторичного восприятия, как сборка полезных функций и пользовательского опыта как научиться их использовать. Даже голосовые интерфейсы, которые предназначены для улучшения жизни для инвалидов, как правило, просто являются дополнительной опцией к стандартному набору меню.

"Но говоря: "Напомните мне, у меня встреча в пять" вы выражает цель, чтобы устройства, сделали шаги для вас", говорит он. Это требует дополнительного интеллекта со стороны компьютера.

Андрей Шраге, руководитель IT в MoneyCrashers, говорит, что он и другие высокопоставленные сотрудники в компании все используют Siri, виртуального помощник на iPhone от Apple. "Это определенно привело к улучшению производительности", - говорит он. "Мы получили возможность делать больше вещей на ходу, что целесообразно».

Siri может понимать и выполнять сложные команды, как "Напомните мне позвонить моим помощником, когда я возвращаюсь домой" и ответить на вопросы, как "Насколько глубоко в Атлантическим океане?".

Интеллектуальные агенты

Siri от Apple – это только один пример, использующий искусственный интеллект, чтобы выяснить, что пользователь хочет сделать, и одним из самых амбициозных, так как пользователь потенциально может спросить Siri ни о чем.

Немного легче понимания устной речи в ограниченных контекстах, таких как, например, центров банковских и телекоммуникационных вызовов.

"Мы начинаем с общего набора правил, которые мы знаем, работа, скажем, для телекоммуникационной отрасли, а затем использовует это в сочетании с их конкретной областью", - говорит Крис Езекиель, генеральный директор Creative Virtual, компании, которая обрабатывает устную и письменную речь для таких компаний, как Verizon, Virgin Media, Renault и National Rail в Великобритании.

Для компаний, которые развертывают виртуальных помощников, как Hannah, цель ответить на вопросы, которые обычно обрабатываются человеческим персоналом. По словам Езекиеля, эти виртуальные агенты обычно в среднем имеют степень успеха от 20% до 30%, и системы постоянно обновляются, так что они могут обрабатывать больше запросов с больше точностью.

Один клиент Creative Virtual, Telefonica из Великобритании, обнаружил, что их интеллектуальный агент Люси снизила звонки клиентов с 10% до 15%. Это не значит, что она понимает только от 10% до 15% вопросов, говорит менеджер базы данных Ричард Хагерти. "Одним из ключевых вопросов клиентов является вопрос: "Как я могу связаться со службой поддержки?". В других случаях, Люси, возможно, еще не знает ответа и компания должна будет создать его.

То, чему компания научилась за последние 12 месяцев, это что лучше иметь один четкий ответа, чем реагировать с несколькими возможными ответами. Кроме того, Люси должна стать немного менее интеллектуальнее, добавляет он. Например, Люси может обрабатывать широкий спектр личных вопросов. Она говорит, что любит итальянскую кухню, например, видела Титаник несколько раз, увлекается теннисом и танцевать сальсу.

"Есть предыстория, которая позволяет клиенту задавать личные вопросы", - объясняет Хагерти. "Она живет в Уимблдоне, и у нее есть бойфренд. Но некоторые клиенты считают, что они беседуют с человеком. Таким образом, мы хотим сократить некоторые элементы персонализации, чтобы соответствовать ожиданиям наших клиентов. Мы хотим, чтобы было понятно нашим клиентам, что это автоматизированный сервис, не человеческое существо".

Жесты – крепкий орешек

Интерфейс-дизайнеры хотят перевести слова или написанное в практическую цель, те, кто проектирует управлением жестами, имеют солидное преимущество над всеми остальными нетрадиционными методами ввода.

Это потому, что дизайнеры уже знакомы с использованием разговорного языка. А если это не так, есть много исследований о том, как люди используют язык, чтобы общаться, говорит Хольцман MIT Media Lab. Язык человеческих жестов гораздо менее понятной и менее изученый.

"Существует целая группа жестов, которые трудно перевести в машинный язык. С другой стороны, есть некоторые жесты, которые являются универсальными и они могут быть менее подходящими для рабочего места", - говорит Хольцман.

"Мы находимся в начале этого проекта", - говорит он. "И не только жесты, но и все, что мы можем сделать с камеры, используя мимику лица, наши брови, губы. Почему не использовать камеру, чтобы выяснить, следует ли перейти в режим скрин-сейва? Если ваши глаза открыты и вы смотрите на дисплей, то он должен быть включен".

Одна из компаний, работающая в области отслеживания движения рук, является Infinite Z, технология этой компании требует, чтобы пользователи носили 3D-очки и использовали стилус.

"Виртуальные среды имеют много смысла для автоматизированного проектирования, визуализации данных, фармацевтика, медицина, нефтегазовой отрасли, моделировании", - говорит Дэвид Чавес, технический директор компании. Продукция работает с Unity 3D и другими виртуальными средами, а также с собственной Z-Space платформой компании.

Еще один сложной для коммерциализации является технологии слежения глаз, которая обычно используется, чтобы увидеть, какие части объявления или сайта зрители смотрят в первую очередь. Технологии также используется для улучшения жизни инвалидов.

Рейнольд Бейли, профессор компьютерных наук в Технологическом институте Рочестера, использует технологию слежения глаз в деле обучения медиков лучше читать маммографию. Идея состоит в том, чтобы выделить области, на которые студент должен смотреть в следующий момент, что базируется на методике, которой следуют опытные радиологи.

"Если это работает с маммографией, есть и другие приложения, где это может работать", - говорит он. Та же самая технология может быть использована для обучения пилотов. Но он говорит, что он не ожидает от этой технологии отслеживания, что она будет использоваться в качестве устройства ввода, чтобы, скажем, заменить мышь.

"Глаз – это не устройства ввода", - говорит он. "С помощью мыши, вы можете навести курсор на ссылку и решить, нажимать кнопку или нет. Глазом вы можете просто читать, так что вы не хотите, чтобы активировать все, на что смотрите. Вы можете мигать, например, чтобы нажать, но ваши глаза устают от этого. И, кроме того, мы часто невольно моргаем глазами".

Пределы контроля над разумом

Это может звучать как научная фантастика, но устройства для чтения мыслей уже на рынке - и они не требуют датчики и разъемы для имплантации в свой череп. Некоторые работы используют сигналы, посылаемые на руки и ноги, и могут быть использованы для восстановления подвижности для инвалидов. Некоторые технологии используют мозговые волны, такие, как Intific, Emotiv и гарнитуры NeuroSky.

Intific и Emotiv гарнитура может быть использована для видео игр использованием вашего разума. Но эти устройства чтения мыслей может сделать больше, чем просто соединиться с компьютерами. NeuroSky, например, является владельцем технологии, лежащей в основе игр Stars Wars Force Trainer и Mattel's MindFlex Duel, обе из которых позволяют игрокам поднимать шары силой своего ума.

Это не значит, что служащие могут сидеть сложа руки, думать о предложениях, которые они хотят писать и они волшебно появляются на экране. "Если вы трудоспособный человек, введите слова на клавиатуре, это просто, так гораздо быстрее и более надежно, чем делать это с интерфейсами контроля мозга ", - говорит Хольцман из MIT Media Lab.

Парализованный человек может извлечь большую пользу от того, чтобы выбрать буквы или переместить курсор просто думая об этом, говорит он. И мчатся по треку на скоростном авто – это весело. Но проще всего использовать реальные кисти...

Есть еще один момент, который ускорит внедрение таких технологий. Смартфоны и планшеты оснащены различными датчиками, в том числе GPS трекерами, часами, микрофонами, акселерометрами, гироскопами и компасами, которые могут сказать, если устройство движется, где находится, в какое время суток и многое другое.

Например, говорит Хамид Наджафи, старший директор компании InvenSense, смартфон должен быть в состоянии сказать, когда пользователь находится в кинотеатре или на самолете, или занимается в тренажерном зале, или спит, или на заседании. Он может автоматически переключаться в беззвучный режим в театрах, во время встреч, говорит он.

"И много, много других задач телефон может сделать, если он разумно интегрирует входы со всех датчиков и становится активным компаньоном для вас, а не просто пассивным устройством", - говорит он.

Бизнес принятие отстает

По словам Дэвида Хога, профессора психологии, который фокусируется на пользовательском опыте в San Francisco State University, бизнес-использование обычно отстает от использования новых интерфейсов. "Можно подумать, что бизнес является лидером, но то, что люди делают на дому, составляют их ожидания", - говорит он.

Например, самые передовые интерфейсы контроля над разумом применяются в играх и технологиях для инвалидов. Между тем, сенсорный интерфейс и распознавание речи стали основными благодаря адаптации к требованиям потребителей.

"Иногда это удивительно видеть, что предприятия используют старое ПО, потому, что изменить инфраструктуру целиком – это дорого", - говорит он. Но темпы изменения ускорятся, как только предприятия перейдут SaaS или на облачные технологии, утверждает он.