음성인식
2011/11/09
요즘 아이폰 시리를 두고 많은 사람들이 관심있게 지켜보는 중이다.
시리처럼 고등한 기능은 아니지만 나는 노키아 9800 익스프레스 뮤직을 썼을 때 제일 감동을 받았다.
- 물리키가 있다.
- 물리키를 롱키로 누르면 음성인식 기능으로 자동으로 들어간다.
- 사람이름을 말하면 전화가 걸린다.
근데 이 인식률이 대단해서,
- 약 150명정도의 전화번호부를 유지시에는 백발 백중으로 제대로 전화가 걸린다.
- 차에서 음악을 들으면서, 라디오를 들으면서 인식시켜도 제대로 인식된다.
단점으로는,
- 전화번호를 많이 갖고 있는 사람들에 따르면, 전화번호가 많아지면 인식이 헷갈리기 시작한다고 한다.
- 블루투스 끄기 등, 기타 기능에 대한 한국향 구현에 문제가 있다. (버그거나 기능이 빠졌거나 그렇다)
물리키 + 음성인식 기능은 참으로 끝내주는 것이다.
- 1 depth UI다. 심지어 화면을 볼 필요도 없다. 인식 성공에 대한 판단은 기계가 다시 읽어주는 내용을 들으면 된다.
- 운전 중 전화 걸기가 좋다. 물론 스피커 폰이나 블루투스 사용.
음성인식을 두고 한 두 업체를 컨택 한 적이 있다. 그 옛날 TMS320에 구현한 발전 형이 아직도 돌아다니는 것 같다.
한 두 업체를 만나본 결과 인식률은 꽤 좋은 편이다. 음성 사전 롬만 키워야 된다는 단점이 있다. 문제는 롬 값이 들어가니까 재료비가 된다.
요즘엔 뭐 첨단 IT 기기들이 네트워크를 기본으로 탑재하므로 네트워크 속도가 잘 받쳐준다는 가정하에 로컬에 무거운 사전을 유지할 필요없이 클라우드에서 인식해 오면 된다.
음성 인식에 대한 연산 부하도 IT 기기들이 워낙 고성능이고 이 마저도 귀찮다면 아예 클라우드로 보내서 분석하면 된다. 추가로 음성인식 엔진을 구현하거나, 라이브러리를 사다가 내장하는 것이 부담된다면 그냥 클라우드에서 ASP 처리하면 된다. 사운드 하운드, 미도리와 같은 서드파티 공급자가 될 것이다. 아이폰은 안 써봤지만, 시리도 아마 그렇게 하지 않을까 싶다.
막상 기능을 도입하려면 몇 가지 문제가 더 있는데,
- UX 상으로 음성 인식 기능은 우아한 맛이 없다. 세련된 여건을 조성하기가 어렵다.
- 그동안 음성 인식에 대한 수없이 많은 상용화 도전이 실패한 경험이 있다. 의사결정권자들이 좋아하지 않는다. 또야? 그 허접한 거? 이런 느낌이 있다.
- 생활 소음 및 생활 대화와의 구분을 하기 위한 유니크 키의 문제가 있다.
- 스마트 가젯의 경우 사생활 문제, 국가 간 문화적인 문제가 발생한다.
[t:/] is not "technology - root". dawnsea, rss