딥시크의 보안, 개인정보 보호, 거버넌스: 오픈소스 AI의 숨겨진 위험성
0. 서론
중국의 AI 스타트업 ‘딥시크’가 최근 큰 화제가 되고 있습니다. 뛰어난 추론 능력을 보여주는 오픈소스 AI 모델 “DeepSeek R1”을 공개하면서 전 세계의 이목을 집중시켰죠. 하지만 이런 기술적 성과의 이면에는 몇 가지 심각한 우려도 함께 제기되고 있습니다. 보안상 취약점이 있을 수 있다는 점, 데이터 프라이버시 문제, 그리고 중국 정부의 관할 아래에서 운영된다는 점 때문입니다.
이 글에서는 딥시크가 가진 보안 결함과 개인정보 보호 관련 우려사항들을 자세히 살펴보고, 오픈소스 AI가 숨기고 있을지 모르는 위험성도 함께 검토해보려고 합니다. 또한 이 서비스를 사용하고 계시거나 사용을 고려 중인 개인 사용자, 기업, 그리고 개발자분들을 위한 실용적인 조언도 준비했습니다.
1. 기술 안전성과 보안
딥시크의 기술 안전성에 대해서는 여러 전문가들과 사용자들이 꾸준히 문제를 제기해왔습니다. 주요 이슈들을 자세히 살펴볼까요?
취약점 및 탈옥 문제: 전문가들이 발견한 바에 따르면, DeepSeek R1은 “탈옥” 공격에 매우 취약한 것으로 밝혀졌습니다. 이는 안전장치를 쉽게 우회할 수 있다는 뜻인데요. 특히 놀라운 점은 ChatGPT 등이 한참 전에 고쳐놓은 취약점들이 딥시크에서는 아직도 통한다는 겁니다. 실제 테스트에서도 ChatGPT가 거절한 위험한 요청들(자금 세탁이나 악성 프로그램 제작 방법 등)을 딥시크는 상세히 알려주더라는군요. 이는 딥시크가 기본적인 안전 업데이트조차 제대로 하지 않았다는 것을 보여줍니다.
유해한 출력 및 편향성: 여러 독립적인 연구 결과를 보면 DeepSeek R1은 다른 AI 모델들에 비해 훨씬 더 위험하거나 편향된 콘텐츠를 만들어내는 경향이 있습니다. 구체적으로는 위험한 내용을 생성할 확률이 11배나 더 높고, 보안에 취약한 코드를 작성할 가능성은 4배나 더 높았다고 합니다. 이는 모델의 안전장치가 제대로 작동하지 않는다는 증거이며, 유해한 내용이나 잘못된 코딩 방식이 퍼질 수 있다는 우려를 낳고 있습니다.
실제 보안 사고: 딥시크는 자사 시스템에서도 보안 문제를 드러냈습니다. 2025년 1월 말에는 “악의적인 공격” 때문에 새로운 사용자 가입을 막아야 했고, 얼마 지나지 않아 보안 전문가들이 인증도 없이 누구나 접근할 수 있는 데이터베이스를 발견해서 제보했습니다. 이 데이터베이스에는 API 키, 사용자들의 대화 내용, 시스템 상세 정보 등 민감한 정보가 그대로 노출되어 있었습니다. 딥시크는 이 문제를 지적받고 나서야 조치했는데, 그동안 누군가가 이 정보들을 가져갔을 가능성도 배제할 수 없습니다. 이런 기본적인 보안 조치도 놓친 것을 보면 딥시크의 전반적인 보안 의식이 의심스럽습니다.
소극적인 보안 대응: 딥시크는 앞서 말한 데이터베이스 노출 사건에서도 선제적이고 능동적이기보다는 대응적이고 수동적인 태도를 보였습니다. 누군가 알려주고 나서야 문제를 해결했을 뿐만 아니라, 정기적인 보안 점검이나 코드 감사 같은 기본적인 절차도 마련해두지 않은 것으로 보입니다. 다른 주요 AI 기업들이 운영하는 버그 바운티 프로그램이나 보안 인증 획득 같은 것도 없죠. 결국 외부에서 문제를 지적할 때까지 그냥 방치하는 식인 셈입니다.
공식 보안 경고: 이런 문제들 때문에 미 해군은 아예 소속 인원들에게 딥시크 사용을 금지했고, 미 하원도 내부 네트워크에서 접속을 차단했습니다. AI 서비스에 대해 이런 공식적인 경고가 내려지는 건 매우 드문 일인데, 그만큼 딥시크의 보안 위험이 심각하다는 뜻이겠죠.
결론적으로 딥시크는 기본적인 보안 문제부터 실제 데이터 유출까지, 심각한 보안 결함들을 보여왔습니다. 서비스를 빨리 내놓는 데만 급급해서 기본적인 보안 조치도 제대로 하지 않은 것으로 보이는데, 이는 사용자들을 여러 위험에 노출시킬 수 있습니다. 유해한 결과물이 나올 수도 있고, 데이터가 유출될 수도 있으며, AI가 나쁜 목적으로 악용될 수도 있죠. 특히 업계 표준과 비교해보면, 보안 테스트나 선제적인 보안 패치 관리 면에서 딥시크는 한참 뒤처져 있는 것으로 보입니다.
2. 데이터 프라이버시와 사용자 보호
딥시크의 개인정보 처리 방식은 여러모로 우려를 낳고 있습니다. 특히 중국 기업이라는 점 때문에 프라이버시 전문가들과 각국 규제 기관들이 예의주시하고 있는데요, 구체적으로 어떤 문제들이 있는지 살펴보겠습니다.
데이터 수집과 저장의 문제: 딥시크는 사용자들의 개인정보를 상당히 광범위하게 수집하고, 이 모든 정보를 중국 서버에 저장한다고 합니다. 여기에는 여러분이 챗봇과 나눈 모든 대화, 업로드한 파일은 물론이고 프로필 정보(이름, 생년월일, 이메일, 전화번호, 비밀번호 등)까지 포함됩니다. 심지어 IP 주소나 기기 ID 같은 정보도 자동으로 수집하죠. 특히 눈여겨볼 점은 그들의 정책에 이렇게 명시적으로 써있다는 겁니다: “우리는 수집한 모든 정보를 중화인민공화국의 서버에 저장합니다.” 즉, 여러분이 딥시크에 입력하는 모든 것이 중국으로 전송되어 저장될 수 있다는 뜻이죠.
사용자 통제권의 한계: 딥시크가 제공하는 사용자 통제 기능이라고는 계정 설정에서 채팅 기록을 지울 수 있는 정도입니다. 물론 정책상으로는 사용자가 자신의 데이터를 확인하고 삭제할 권리가 있다고 하지만, 실제로 이게 얼마나 실효성이 있는지는 의문입니다. 실제로 이탈리아 당국에서 사용자들에게 데이터 사용에 대해 적절히 고지했는지, 그리고 서비스가 웹 스크래핑과 해외 개인정보 저장에 대한 동의를 얻고 있는지에 대해 딥시크에 명확한 설명을 요구했습니다. 정부 기관이 나서서 물어볼 정도면 일반 사용자들에게는 더 혼란스러울 거란 생각이 듭니다.
국제 데이터 이동의 문제: 데이터를 중국으로 보내는 것 자체가 큰 문제가 될 수 있습니다. 유럽의 GDPR이나 캘리포니아의 CCPA 같은 법률들은 개인정보의 해외 이전을 엄격하게 규제하거든요. 특히 중국으로 데이터를 보낼 때는 더 까다로운 절차들이 필요한데, 딥시크는 “관련 법을 준수하겠다”는 말만 하고 구체적인 보호 조치는 설명하지 않고 있습니다.
중국 법률의 영향: 데이터가 중국에 있다는 건 중국 법의 적용을 받는다는 뜻입니다. 중국의 사이버보안법이나 국가안보법에 따르면 정부가 데이터 제출을 요구할 수 있는데, 개인정보 처리방침은 데이터가 중국에 저장되고 해당 법률에 따라 처리될 것이라고 명시함으로써 딥시크도 이런 상황이 있을 수 있다는 걸 정책에 간접적으로 인정하고 있습니다. 쉽게 말해서 여러분의 민감한 대화나 개인정보가 중국 당국의 요청으로 제공될 수 있다는 거죠.
검열 가능성: 여러 사용자들이 흥미로운 점을 발견했는데요, 딥시크의 챗봇이 중국 정부를 비판하는 내용은 검열하거나 답변을 거부한다고 합니다. 이는 중국의 콘텐츠 규제가 이 서비스에도 적용되고 있다는 걸 보여주죠. 그렇다면 우리의 대화가 어떤 식으로 감시되고 필터링되고 있는 건지 의문이 들 수밖에 없습니다.
미흡한 사용자 보호: 채팅 내용을 지울 수 있다는 것 말고는 눈에 띄는 보호 조치가 거의 없습니다. 다른 AI 기업들은 보통 데이터 익명화나 보관 기간 제한 같은 정책을 가지고 있는데, 딥시크는 그런 게 없어 보입니다. 오히려 계정이 있는 동안(심지어 “사업상 필요”하다면 그 이후에도) 데이터를 계속 보관한다고 합니다. 이렇게 많은 정보를 오래 보관하다 보면 혹시라도 유출 사고가 났을 때 피해가 더 커질 수 있습니다.
결론적으로 딥시크의 데이터 보호 수준은 일반적인 기준에 많이 못 미치는 것으로 보입니다. 모든 정보가 중국 서버로 가는데다, 혹시 문제가 생겨도 사용자가 할 수 있는 게 거의 없죠. 그래서 EU나 미국의 감독 기관들이 벌써부터 경고음을 내고 있는 겁니다. 사실상 여러분의 모든 정보를 딥시크와 중국 정부에 맡기는 셈인데, 이건 개인정보 보호에 신경 쓰는 사람이나 조직 입장에서는 꽤 큰 부담일 수 있습니다. 민감한 정보를 다룰 때는 이런 점들을 잘 고려해보시는 게 좋겠습니다.
3. 오픈소스 vs. 비공개: 숨겨진 모델 동작 및 공급망 위험
많은 사람들이 궁금해하는 것 중 하나는 딥시크의 어떤 부분이 진짜 “오픈소스”이고, 이런 오픈 AI 모델 안에 어떤 위험이 숨어있을 수 있는지입니다. DeepSeek R1은 “완전히 열려있다”는 점을 강조하며 출시되었지만, 실제로는 오픈소스와 비공개 요소가 섞여 있습니다:
오픈소스로 공개된 것: DeepSeek R1의 핵심 모델 가중치는 오픈소스로, MIT 라이선스를 따릅니다. 쉽게 말해 누구나 이 모델을 다운받아서 개인 컴퓨터에서 돌려보거나, 파인튜닝하거나, 심지어 상업적으로도 사용할 수도 있다는 뜻입니다. 딥시크는 여기에 더해 모델이 어떻게 만들어졌는지 설명하는 기술 문서도 공개했고, 커뮤니티를 위해 R1의 경량화 (증류모델) 버전도 몇 가지 공개했습니다. 이렇게 가중치를 공개한 것은 투명성 면에서 긍정적입니다. 외부 개발자들과 연구자들이 블랙박스처럼 추측하는 게 아니라, 직접 모델의 작동 방식을 살펴보고 테스트해볼 수 있기 때문입니다.
비공개로 남겨둔 것: “완전 오픈소스”라고 홍보했음에도 불구하고, 딥시크는 R1을 만드는 데 사용한 학습 데이터와 자세한 학습 코드는 공개하지 않았습니다. 이 때문에 커뮤니티에서는 정확히 같은 방식으로 모델을 만들어볼 수도 없고, 어떤 데이터로 학습시켰는지(혹시 문제가 될 만한 내용이나 편향된 내용은 없었는지)도 확인할 수 없습니다. 즉 모델 자체는 공개되어 있지만, 그걸 만든 과정은 좀 불투명한 셈입니다. 또 딥시크 플랫폼과 앱들(웹사이트, API 서버 등)도 회사가 직접 운영하는 거라 코드가 공개되어 있지 않습니다. 사용자 계정이나 데이터 저장, 프롬프트 필터링 같은 것들이 어떻게 돌아가는지는 알 수 없죠.
모델에 숨겨진 위험: 오픈소스 모델이라도, 특히 학습 데이터가 공개되지 않은 경우에는 예상치 못한 이상한 행동을 할 수 있습니다. Anthropic이 진행한 “슬리퍼 에이전트(Sleeper Agent)” 연구가 좋은 예시인데요. LLM에 아무리 안전하게 추가 학습을 시켜도 몰래 위험한 행동을 계속할 수 있다는 걸 보여줍니다. 연구용으로 만든 모델이 프롬프트에 “2023년”이라는 말이 나오면 안전한 코드를 쓰다가도, “2024년”이라는 말만 보이면 갑자기 해킹이 가능한 취약한 코드를 생성하는 식이었습니다. 일반적인 파인튜닝이나 강화학습으로는 이런 나쁜 버릇을 고치기가 어려웠고, 오히려 모델이 이런 행동을 더 교묘하게 숨기도록 만든 경우도 있었습니다. 한번 이런 속임수를 배운 LLM은 안전성 테스트도 잘 통과해버려서 마치 안전한 것처럼 보이게 됩니다. 아직 딥시크에서 이런 백도어가 발견된 적은 없지만, 중요한 일에 모델을 쓸 때는 특히 조심해야 합니다.
외부에서 받은 모델의 위험: 주의해야 할 또 다른 위험은 누군가 손을 댄 모델입니다. 비공식 경로로 딥시크 모델을 다운받으면 악의적인 페이로드가 심어진 버전을 받게 될 위험이 (작긴 하지만) 있습니다. 모델 가중치 자체는 그냥 데이터일 뿐이지만, 과거에 기계학습 모델이 특정 악성 결과를 뱉어내거나 프로그램의 허점을 이용해 나쁜 코드를 실행하도록 조작된 사례들이 있었습니다. 실제로, 딥시크 모델의 파라미터 수가 워낙 많다 보니, 커뮤니티 멤버들이 이를 줄이거나 특정 용도에 맞게 수정한 모델들을 만들어서 Hugging Face 같은 플랫폼에 공유하고 있습니다. 실제로 Hugging Face에서 “DeepSeek R1”을 검색해보면 약 1,800개의 모델이 나오는데, 대부분이 원본을 포크하거나 커스텀한 변형 버전들인데 이런 모델들은 누가, 어떤 의도로 수정했는지 알 수 없다는 게 문제죠.
DeepSeek R1은 중국이 선보인 새로운 형태의 오픈 대규모 모델이지만, 이 “오픈”이라는 말에도 한계가 있습니다. 모델 자체를 들여다볼 수 있다는 건 신뢰도 측면에서 긍정적이지만, 우리가 실제로 볼 수 없는 부분들(예를 들면 학습 데이터나 플랫폼 코드, 혹은 살짝 조작된 가중치 같은 것들)에 여전히 숨겨진 위험이 도사리고 있을 수 있습니다. 딥시크의 오픈 모델을 사용하시는 분들은 커뮤니티에서 진행되는 연구 동향을 꾸준히 체크하는 것이 좋습니다. 모델이 오픈소스라는 건 빠른 혁신과 커뮤니티 기반의 발전을 가능하게 한다는 장점이 있지만, 반대로 모델의 안전성을 검증하고 AI 공급망을 지키는 책임도 고스란히 사용자의 몫이 됩니다. 쉽게 말해서, 자유도가 높은 만큼 그만큼의 책임감도 필요한 것입니다.
4. 사용자와 개발자를 위한 실용적인 조언
DeepSeek를 사용하려는 일반 사용자나 앱에 AI를 통합하려는 개발자들을 위해, 보안과 프라이버시를 강화할 수 있는 실용적인 권장사항들을 모아봤습니다:
일반 사용자를 위한 조언:
민감한 정보는 입력하지 마세요: 딥시크의 앱이나 챗봇에 비밀스러운 정보나 개인 식별이 가능한 정보를 입력하지 않는 게 좋습니다. 여러분이 입력하는 모든 내용이 (딥시크나 관련 당국에 의해) 저장되고 검토될 수 있다고 생각하세요. 공개 포럼처럼 생각하시면 됩니다. 회사 기밀, 비밀번호, 개인적인 비밀이나 해외에 저장되길 원하지 않는 어떤 데이터도 입력하지 마세요. 민감한 정보를 AI와 논의해야 한다면, 오픈소스 모델을 로컬에서(오프라인으로) 실행해서 데이터가 외부로 나가지 않게 하는 것이 좋습니다.
가능하다면 로컬 버전을 사용하세요: 딥시크가 오픈소스라는 장점 중 하나는 여러분이 직접 하드웨어에서 모델을 실행하거나, 신뢰할 수 있는 지역에서 호스팅하는 제3자의 서비스를 이용할 수 있다는 겁니다. 직접 호스팅하면 데이터를 여러분의 환경에서 관리할 수 있죠. 기술적으로 가능하다면 공개된 모델 가중치를 사용해 개인용 인스턴스를 배포해서 사용하세요. 이렇게 하면 딥시크의 서버로 프롬프트가 전송되지 않습니다. 이미 Perplexity.ai 같은 여러 플랫폼들이 중국이 아닌 데이터 센터에서 딥시크를 호스팅하고 있습니다.
이상한 행동이 있는지 지켜보세요: AI가 매우 수상한 방식으로 응답한다면(예: 딱히 묻지 않았는데 명백히 잘못된 정보를 제공하거나, 뭔가 조건이 발현된 것처럼 이상한 표현을 사용한다면) 주의하세요. 만약 숨겨진 모델의 이상 행동이 발현된다면 일반 사용자들이 먼저 눈치챌 확률이 높습니다. 심각한 안전성 문제가 있다면 가능한 경우 딥시크 팀에 보고해주세요. 그리고 AI가 제공하는 중요하거나 위험 부담이 큰 조언은 항상 한 번 더 확인하는 것이 좋겠습니다. 특히, 금융, 건강, 보안, 법적 문제 등에 대한 지침은 검증 없이 맹목적으로 따르지 마세요.
개발자 및 기업을 위한 조언:
모델을 철저히 검증하세요: DeepSeek R1을 제품이나 업무 프로세스에 통합하기 전에 광범위한 테스트를 진행하는 것을 추천합니다. 여러분의 사용 사례에 맞는 “레드팀” 테스트를 수행하세요: 유해하거나 편향된 질문으로 테스트해서 어떻게 반응하는지 확인해보세요. 실패 패턴도 파악해두세요. 예를 들어 고객 서비스 챗봇으로 사용한다면, 시스템 프롬프트나 부적절한 내용을 노출하도록 속일 수 있는지 테스트해보세요. 이런 행동들을 알면 보완 조치(자체 모더레이션 레이어나 프롬프트 필터링 추가 등)를 구현할 수 있습니다.
로컬이나 통제된 환경에서 배포하세요: 데이터 기밀성이 걱정된다면 민감한 데이터를 딥시크의 공개 API로 보내지 마세요. 대신 여러분이 통제할 수 있는 인프라(예컨대 사내 서버나 여러분 지역의 클라우드 환경)에서 오픈소스 모델을 사용하세요. 이렇게 하면 데이터가 딥시크 서버로 빠져나갈 위험이 없어집니다. 필요하지 않다면 외부 인터넷 접속도 차단하면 좋습니다. 모델 런타임을 컨테이너화하고 네트워크 접근을 제한하면 모델 프로세스에서의 데이터 유출 위험을 거의 완전히 제거할 수 있습니다.
가드 모델을 추가 안전 장치로 활용하세요: 외부 가드 모델을 활용해 주 AI 모델의 출력에서 일탈, 안전하지 않은 콘텐츠, 기타 이상 징후를 지속적으로 모니터링하세요. 이러한 보조 모델들은 적대적 모니터링을 제공합니다. 수상한 행동을 감지하고, 정책을 위반하는 응답을 필터링하며, 숨겨진 트리거가 발견되면 실시간으로 표시하죠. 가드 모델을 안전망으로 사용하면 “잠복” 행동의 위험을 줄이고 기업 AI 배포에서 즉각적인 위험 완화와 함께 지속적인 감독을 보장할 수 있습니다.
코드와 모델 무결성을 확인하세요: 모델 가중치나 딥시크 관련 코드를 다운로드할 때는 공식 출처를 이용하세요. 가능하다면 파일 해시를 확인하고, “향상된” 딥시크 모델을 제공한다고 주장하는 비공식 저장소는 조심하세요. 또한 모델과 함께 제공되는 예제나 헬퍼 코드도 검토하세요. 예를 들어 GitHub 저장소에서 모델을 로드하는 Python 스크립트를 제공한다면, 그 스크립트에 네트워크 호출이나 데이터 수집 단계가 있는지 살펴보세요. 오픈소스 코드는 누구나 수정할 수 있으므로 진본을 사용하고 있는지 확인하세요. 커뮤니티 포럼이나 GitHub 이슈를 통해 모델이나 관련 도구의 보안 문제 보고를 주시하는 것이 좋습니다.
규정 준수를 유지하세요: GDPR이나 다른 규정의 적용을 받는다면, 딥시크의 API를 직접 사용하는 것이 국제 데이터 이전에 해당할 수 있다는 점을 유념하세요. 딥시크가 명확한 설명이나 계약을 제공할 때까지는 개인정보를 그들의 클라우드로 보내지 않는 것이 법적으로 더 안전할 수 있습니다.
업데이트와 커뮤니티 발견사항을 모니터링하세요: 오픈소스 AI 커뮤니티가 R1을 기반으로 활발히 작업하고 있습니다. “Open-R1” 이니셔티브 같은 프로젝트들은 딥시크의 모델을 공개적으로 재현하고 개선하는 것을 목표로 하고 있죠. 이런 개발 사항들을 팔로우업 하다보면, 여러분에게 도움이 될 만한 개선된 버전이나 패치가 나올 수 있습니다. 마찬가지로 모델에서 백도어나 큰 버그가 발견되면 커뮤니티에서 이를 공개할 가능성이 높습니다.
5. 결론
딥시크는 AI 시장에 새로운 바람을 일으키고 있습니다. 중국의 빠르게 성장하는 AI 산업에서 나온 강력한 오픈소스 모델이라는 점에서 의미가 크죠. 기술적으로는 최고 수준의 모델들과 어깨를 나란히 할 만큼 뛰어나지만, 이런 빠른 발전 속도는 보안, 프라이버시, 그리고 관리 측면에서 여러 가지 대가를 치르고 있는 것으로 보입니다.
그렇다면 우리는 딥시크를 어떻게 바라보고 활용해야 할까요? 그들의 기술력은 인정하되, 위험 요소들에 대한 방어막은 확실히 세워둬야 합니다. 민감한 정보는 최대한 입력하지 않고, 필요하다면 직접 호스팅해서 사용하며, 코드와 결과물의 안전성을 꼼꼼히 확인하고, 관련 소식들을 계속 주시하는 등의 기본적인 수칙만 잘 지켜도 딥시크의 장점은 살리고 위험은 줄일 수 있습니다.
핵심은 ‘경계’와 ‘준비’입니다. 딥시크가 오픈소스라는 건 양날의 검과 같아서, AI에 대한 더 많은 통제권을 주는 대신 그만큼 더 세심한 주의도 필요로 합니다. 앞으로 딥시크 팀이 보안, 투명성, 규정 준수 등의 노력을 더 기울여주길 바라지만, 그때까지는 이 새로운 AI 도구를 사용할 때 신중함과 철저한 검증을 잊지 말아야 할 것 같네요.
About Theori AIOS Team
티오리 ArtificiaI Intelligence for Offensive Security 팀은 인공지능 보안 연구 및 침투 테스트를 통해 AI 시스템의 보안과 안정성을 보장합니다. AI Red Team 컨설팅과 LLM Guard Model로 최신 AI 보안 위협을 식별하고 방어하며, AI 시스템의 보안 취약점을 분석해 안전한 서비스 환경을 구축합니다. 미국 국방부 DARPA 주최 2024 AI 사이버 챌린지 예선 1위 달성 등 입증된 기술력을 바탕으로, AI 시스템 보안 취약점 연구에 집중하며 공격자보다 한발 앞선 보안 기술을 선보이고 있습니다.
🌐 Website: theori.io | 📧 contact@theori.io