[t:/]$ 블로그_

음성인식

2011/11/09

요즘 아이폰 시리를 두고 많은 사람들이 관심있게 지켜보는 중이다.

시리처럼 고등한 기능은 아니지만 나는 노키아 9800 익스프레스 뮤직을 썼을 때 제일 감동을 받았다.

  1. 물리키가 있다.
  2. 물리키를 롱키로 누르면 음성인식 기능으로 자동으로 들어간다.
  3. 사람이름을 말하면 전화가 걸린다.

근데 이 인식률이 대단해서,

  1. 약 150명정도의 전화번호부를 유지시에는 백발 백중으로 제대로 전화가 걸린다.
  2. 차에서 음악을 들으면서, 라디오를 들으면서 인식시켜도 제대로 인식된다.

단점으로는,

  1. 전화번호를 많이 갖고 있는 사람들에 따르면, 전화번호가 많아지면 인식이 헷갈리기 시작한다고 한다.
  2. 블루투스 끄기 등, 기타 기능에 대한 한국향 구현에 문제가 있다. (버그거나 기능이 빠졌거나 그렇다)

물리키 + 음성인식 기능은 참으로 끝내주는 것이다.

  1. 1 depth UI다. 심지어 화면을 볼 필요도 없다. 인식 성공에 대한 판단은 기계가 다시 읽어주는 내용을 들으면 된다.
  2. 운전 중 전화 걸기가 좋다. 물론 스피커 폰이나 블루투스 사용.

음성인식을 두고 한 두 업체를 컨택 한 적이 있다. 그 옛날 TMS320에 구현한 발전 형이 아직도 돌아다니는 것 같다.

한 두 업체를 만나본 결과 인식률은 꽤 좋은 편이다. 음성 사전 롬만 키워야 된다는 단점이 있다. 문제는 롬 값이 들어가니까 재료비가 된다.

요즘엔 뭐 첨단 IT 기기들이 네트워크를 기본으로 탑재하므로 네트워크 속도가 잘 받쳐준다는 가정하에 로컬에 무거운 사전을 유지할 필요없이 클라우드에서 인식해 오면 된다.

음성 인식에 대한 연산 부하도 IT 기기들이 워낙 고성능이고 이 마저도 귀찮다면 아예 클라우드로 보내서 분석하면 된다. 추가로 음성인식 엔진을 구현하거나, 라이브러리를 사다가 내장하는 것이 부담된다면 그냥 클라우드에서 ASP 처리하면 된다. 사운드 하운드, 미도리와 같은 서드파티 공급자가 될 것이다. 아이폰은 안 써봤지만, 시리도 아마 그렇게 하지 않을까 싶다.

막상 기능을 도입하려면 몇 가지 문제가 더 있는데,

  1. UX 상으로 음성 인식 기능은 우아한 맛이 없다. 세련된 여건을 조성하기가 어렵다.
  2. 그동안 음성 인식에 대한 수없이 많은 상용화 도전이 실패한 경험이 있다. 의사결정권자들이 좋아하지 않는다. 또야? 그 허접한 거? 이런 느낌이 있다.
  3. 생활 소음 및 생활 대화와의 구분을 하기 위한 유니크 키의 문제가 있다.
  4. 스마트 가젯의 경우 사생활 문제, 국가 간 문화적인 문제가 발생한다.








[t:/] is not "technology - root". dawnsea, rss