[t:/]$ 지식_

AI 코드 저작권

2024/09/10

오픈소스 코드에도 저작권이 있다. 대충 BSD나 MIT면 대충 가져다 뚝딱뚝딱해서 쓰면 된다. GPL 이라면 조금 복잡하다.

chatgpt로 테스트 해 본 적은 없지만 모델이 좀 더 고도화 되면 저작권을 고려한 코드도 생성할 것이다.

첫째, MIT 등의 코드를 가져다 만들어주고(프리니까) 저작권 표기를 해준다. (그게 MIT 룰이다)

둘째, 저작권 규칙을 숙지한 후 그를 회피하는 코드로 작성해준다.

이 두 항목을 해소하기 전까지는 나도 모르게 코드 저작권을 위배할 수 있다. 특히 오픈소스를 가져다 쓴 사용자향 제품/서비스에서는 문제의 소지가 있다. 사용자 대면 제품들은 오픈소스 의무 고지 항목들이 있다. 물론 오픈소스 저작권 검토 솔루션들이 있으므로 대응은 가능하다.

코드가 절대로 노출되지 않으며, API 외부 응답에 일체의 실마리도 남기지 않는 서버내 코드들은 무차별적으로 AI 코드를 가져다 쓸 가능성이 높다. 큰 문제는 아니다. 어차피 수많은 서비스들이 오픈소스 wrapping 해서 이쁘죠? 편하죠? 하고 쏟아져 나온다. 난 그런 서비스들을 사내향으로 만드는 것을 극구 반대하는 입장이지만 그건 논외이므로 다음 기회에.

나에게 있어 현 시즌의 AI 생성 코드의 사용 수준은 조각 코드를 만들라고 시키고 가져다 뚝딱뚝딱 고쳐 쓰는 형태다. 스택오버플로에서 이상한 코드들을 가져다 테스트하고 욕하는 시간이 줄었다. 조각 코드들은 흔히들 보는 패턴들의 일종이다. 책이나 인터넷으로 학습할 시간을 비약적으로 단축할 수 있다.

다음 시즌에서는 AI 척척척하고 빌드까지 완수 할 것이다. 도는데? 어..버버... 테스트까지 짜주는데? 다 통과했는데? 보안 점검까지 해줬는데? 끝났네? 하지만 저작권 문제는 숨어있다.

그 다음 시즌에서는 저작권 문제까지 해결해 줄 것이다. 이미 그 시즌까지 도래했을 것 같다. 나는 거기까지 쓰지는 못한다.

아무튼,

어제 어떤 아이디어가 떠올라서 chatgpt 에게 코딩을 시켜봤다. 개별 기술에 대해서는 훌륭하게 설명했고, 모범적인 조각 코드들도 제안했다. 그러나 그 아이디어를 구현하는 일은 그 범주를 넘어섰다. 시켜봤다. 못 한다. 해보라고 이누마!

오래 전에 쥐콩만한 코딩 스킬을 감추는 후배를 본 적이 있다. 나는 그 보다 선배였기 때문에 그 스킬이 쥐콩이라는 것을 안다. 하지만 그 후배는 더 아래의 후배에게 그 기술을 알려주지 않았다. 내 것이라고. 어렵게 습득한 레벨인데 왜 버스 태워주냐는 것이었다.

아무튼,

나는 나도 쥐콩이라는 인류애적 겸손함에 입각하여, 아니 사실은 잘난척하고 인정받는 욕구가 강하기 때문에 뭐든 알려주려고 했다. 이 욕구가 MBTI의 I를 넘어섰다면 세미나를 다니든 책을 쓰든 하겠지만 그 언덕을 넘지 못해서 작은 조직내에서만 조용히 그러고 살았다. 나와 함께 일했던 사람들은 나 같은 사람들이 더 많았다. 그게 뭐라고.

아무튼,

그리하여 AI 코딩의 시절에는 기업 차원에서, 개인 차원에서 이제 다시 코드를 꼭꼭 감추는 시절로 퇴행할지도 모른다. AI가 학습하면 기술 탈취인데? 그런 코드가 흔하지는 않겠지만 로우레벨이나 시스템 프로그래밍, 아이디어 기반의 알고리즘등에는 가끔 나올 것 같다. AI와 토론을 통해서 결국 해결해내는 사례도 등장할 것이다. 프롬프팅 차원에서 보면 토론 처럼 보이지만, 파인 튜닝을 동원하고 그러다보면 일종의 AI 탈옥 기술에 가까울지도 모른다.

아무튼,

그 시즌을 넘어서면 AI가 블랙박스로 존재하는 바이너리를 해석하여 학습할 것이다. 자바 같이 디컴파일이 용이한 언어가 아니라도 상관없다. 아니 바이너리를 디컴파일 할 필요도 없다. 이미 토큰 임베딩은 의미론적인 가치가 없는 압축 바이너리에서 임베딩을 수행한다는 것 같다. 실행 바이너리 학습에서도 그와 비슷한 일이 발생할 가능성이 있다.

보안 기술용 바이너리 난독화 기술까지 동원하겠지만 DRM을 만드는 자와 깨는 자의 역사와 마찬가지로 그저 시간 문제다. 그것은 어쨌든 복호화 된 무엇이 존재한다. 역함수가 없는 해시의 수학적 난이도 문제와 무관한, 그저 방법론의 틈을 공략하여 해결할 문제다.

아무튼,

대 AI 전략을 위해서 쥐콩만한 아이디어를 감추자는 사람들과, 니 아이디어 회사꺼니까 인하우스 폐쇄 AI에서 파인튜닝 시키자는 사람들과, 어차피 시간 문젠데 무슨 쑈를 하냐며 빠르게 공개하는 사람들 등등이 나타날 것 같다. 마지막 사람들이 승자가 아닐까? 최소한 E를 갖췄다면 강연을 다니고 책을 쓰고 링키딘의 네임드가 될 수도 있다.





공유하기













[t:/] is not "technology - root". dawnsea, rss