넷플릭스 AI와 알고리즘

오늘은 AI와 알고리즘에 관련하여 알아보겠습니다.

BBC 기자 엘리 하우스는 양성애자임을 커밍아웃했다. 그런데 커밍아웃 이후, 넷플릭스가 본인보다 먼저 성적 지향을 눈치챘다는 사실을 깨달았다. 어떻게 그런 일이 가능했을까?

내가 양성애자임을 자각한 것은 대학교 2학년 때다. 하지만 어찌 된 일인지 빅테크 기업들이 내 성적 지향을 나보다 몇 달 먼저 알아차린 것 같다.

그전까지는 오래 사귄 남자친구도 있었고, 스스로를 항상 이성애자라고 생각해 왔다. 솔직히 말해서, 연애가 최우선 순위는 아니었다. 커밍아웃 전에는 넷플릭스에 푹 빠져있었다.

그런데 넷플릭스가 레즈비언 이야기나 양성애자 캐릭터가 등장하는 프로그램을 추천하는 경우가 많아졌다. 비슷한 나이, 배경, 스트리밍 이력을 가진 주변 친구들의 경우 추천에도 안 뜨고 들어본 적도 없는 프로그램들이었다.

그중에서도 눈에 띄는 프로그램은 ‘유미허’(You Me Her)였는데, 교외에 사는 부부가 둘 사이의 관계에 제3의 인물을 끌어들이는 이야기다. 퀴어 스토리와 양성애자 캐릭터가 가득하며, TV 방송 “최초의 다자간 연애 코미디”라는 수식어가 붙었다.

'유미허' 프로그램의 넷플릭스 화면 그런데 넷플릭스만이 아니었다. 곧 여러 플랫폼에서 비슷한 추천 목록이 떴다. 스포티파이는 “사픽”(여성을 사랑하는 여성을 묘사하는 단어)이라는 제목의 재생 목록을 추천했다.

두어 달 뒤에는 틱톡 피드에 양성애자 크리에이터의 영상이 보이기 시작했다. 얼마 뒤, 나는 다른 계기로 내가 양성애자라는 사실을 깨달았다. 기술 플랫폼들은 나 스스로도 눈치채지 못한 징후를 대체 어디서 읽어낸 걸까? 사용자와 콘텐츠의 만남 넷플릭스는 전 세계 2억2200만 명의 사용자에게 다양한 장르의 영화와 드라마를 끝없이 제공한다.

하지만 사용자별 시청 장르는 한 달 평균 6개에 그친다. 넷플릭스는 사람들이 시청하고 싶어 할 콘텐츠를 보여주기 위해 강력한 추천 알고리즘을 사용한다. 이를 바탕으로 사용자의 첫 화면을 어떤 영상, 이미지, 예고편으로 채울지 정하는 것이다.

예를 들어, 유미허의 장르 코드는 '100010'인데, “성소수자 이야기”라는 태그(꼬리표)가 달렸다. 추천 시스템의 목표는 사용자에게 딱 맞는 콘텐츠를 소개하는 것이다. 마치 디지털 중매라도 서듯, 양쪽 정보를 취합해 연결고리를 찾아낸다.

알고리즘은 영상 속 음악 장르, 주제와 소재, 출연 배우 등의 태그를 모두 체크하고 누가 어떤 콘텐츠를 좋아할 것 같은지 예측한다. 전 넷플릭스 임원 토드 옐린은 ‘퓨처오브스토리텔링’이라는 웹사이트 영상에서 "빅데이터는 거대한 산과도 같다"고 말한다.

"우리는 정교한 머신러닝 기술을 통해 중요한 태그를 파악하기 위해 노력합니다." 노트북 화면을 보고 있는 여성 그렇다면 이런 플랫폼은 사용자에 대해 무엇을 알고 있으며, 어떻게 알아낼 수 있을까? 영국 개인정보보호법에 따르면, 개인은 어떤 조직이 자신에 대해 어떤 데이터를 가졌는지 알 권리가 있다.

많은 스트리밍·소셜미디어 회사는 사용자가 이 정보를 요청할 수 있도록 자동화된 시스템을 만들었다. 나는 가장 큰 플랫폼 8곳에서 내 정보를 모두 다운로드했다. 페이스북은 내가 방문한 다른 웹사이트를 추적하고 있었다. 언어 학습 사이트나 호텔 예약 사이트 등이 포함됐다.

또한 “위치”라는 폴더에 집 주소 좌표도 저장하고 있었다. 인스타그램은 내가 관심을 가질만한 주제를 300개 이상 추정해 냈고, 이를 개인 맞춤형 광고에 사용했다. 넷플릭스는 내가 시청한 모든 예고편과 프로그램, 시청한 시점과 기기, 자동 재생인지 의도적 재생인지가 상세히 기록된 스프레드시트를 제공했다.

이들 플랫폼이 내 성적 취향과 관련된 태그를 달았다는 증거는 어디에도 없었다. 스포티파이는 BBC에 보낸 성명에서 "당사 개인정보 보호정책에 스포티파이가 수집하는 사용자 데이터 개요가 포함되어 있으며, 성적 지향은 여기에 포함되지 않는다.

또한, 당사 알고리즘은 사용자의 청취 선호도에 따라 성적 지향을 예측하지 않는다"고 설명했다. 다른 플랫폼에도 비슷한 정책이 있다. 넷플릭스는 사용자가 시청한 콘텐츠나 앱을 이용한 방식이 연령·성별과 같은 인구통계학적 정보보다 사용자의 취향을 더 잘 나타낸다고 설명했다.

시청 내용이 아닌, 시청 방식 그렉 세라피오 가르시아는 케임브리지대학에서 컴퓨터 사회 심리학을 전공하는 박사 과정 학생이다. 그는 "넷플릭스에 자신이 게이라고 명시적으로 밝히는 사람은 아무도 없다"고 말한다. 하지만 플랫폼은 “퀴어 콘텐츠”에 '좋아요'를 누른 사용자를 확인할 수 있다.

사용자가 이전에 성소수자(LGBTQ+) 태그가 붙은 콘텐츠를 시청한 적이 없더라도 관련 콘텐츠가 추천될 수 있다. 추천 시스템은 더 깊은 곳까지 들여다보기 때문이다. 그렉이 제시한 한 가지 가능성은, LGBTQ+로 분류되지 않는 특정 영화나 프로그램을 시청하는 것도 알고리즘의 “퀴어 콘텐츠 선호 성향” 예측에 도움이 된다는 것이다.

시청 내용은 예측 방정식의 일부일 뿐이다. 시청 방식이 더 많은 것을 알려주는 경우도 흔하다.

그렉은 이런 습관이 그 자체로는 별 의미가 없더라도, 사용자 수백만 명의 경향성을 파악하면 "매우 구체적인 예측"을 내리는 데 사용될 수 있다고 설명한다.

따라서 넷플릭스 알고리즘은 단순한 시청 이력 이외의 요소를 이용해 LGBT+ 스토리에 대한 내 관심을 예측했을 수도 있다. 알고리즘은 내가 콘텐츠를 클릭한 시점, 시청한 기기와 시간도 알고 있다. 내 경우 단순한 호기심의 문제였지만, 그렉은 동성애가 불법인 국가라면 이 알고리즘이 사람들을 위험에 빠뜨릴 가능성도 있다고 생각한다.

전 세계 성소수자들과 이야기를 나눠 보니, 양가적 입장이 있었다. 한편으로는 스트리밍 사이트에서 추천하는 콘텐츠가 마음에 들고 심지어는 해방감을 느끼기도 한다.

하지만 다른 한편으로는 걱정도 든다. 신변의 안전을 위해 익명을 요구한 어떤 게이 남성은 "사생활 침해인 것 같다"고 말했다. 그는 "성적 지향이 자유로운 세상에서 어떤 삶이 펼쳐질지 더 많이 접할 수 있어서 좋고 행복한 느낌"이라고 말했지만, 알고리즘이 "조금 무섭기도 하다"고 덧붙였다.

알고리즘이란?

알고리즘은 문제를 해결하기 위한 일련의 명확한 단계를 의미합니다. 알고리즘은 수학, 컴퓨터 과학, 경제학 등 여러 분야에서 중요한 개념입니다.

특히 컴퓨터 과학에서는 데이터를 처리하고 문제를 효과적으로 해결하기 위한 절차나 방법론을 찾아내는데 사용됩니다.

알고리즘의 주요 특성

1. 입력 (Input) : 하나 이상의 입력이 주어집니다.

2. 출력 (Output) : 하나 이상의 출력이 생성됩니다.

3. 명확성 (Definiteness) : 각 단계는 명확하게 정의되어야 합니다.

4. 유한성 (Finiteness) : 문제가 주어지면 알고리즘은 유한한 시간 내에 종료되어야 합니다.

5. 효과성 (Effectiveness) : 각 단계는 실행 가능해야 합니다. 즉, 사람이 종이와 연필만으로 단순하게 수행할 수 있어야 합니다.

6. 일반성 (Generality) : 특정한 문제에만 적용되는 것이 아니라, 일련의 문제 전체에 적용될 수 있어야 합니다.

알고리즘의 중요한 측정 지표

1. 시간 복잡도 (Time Complexity) : 알고리즘이 문제를 해결하는 데 필요한 시간을 나타냅니다

2. 공간 복잡도 (Space Complexity) : 알고리즘이 문제를 해결하는 데 필요한 메모리 양을 나타냅니다.

알고리즘을 설계하고 평가할 때, 알고리즘이 예상되는 입력 크기나 형태에 따라 얼마나 효과적으로 동작하는지를 고려합니다. 이러한 측정 지표들은 알고리즘 간의 성능을 비교할 때 사용됩니다.

대표적인 알고리즘 예시

1. 정렬 알고리즘 : 버블 정력, 퀵 정렬, 병합 정렬 등

2. 검색 알고리즘 : 이진 검색, 선형 검색 등

3. 그래프 알고리즘 : 다익스트라 알고리즘, 크루스칼 알고리즘 등

4. 동적 프로그래밍 : 피보나치 수열, 최장 공통 부분수열 등

알고리즘을 설계하고 구현하는 데는 다양한 전략과 기법이 필요합니다. 때로는 문제의 본질을 이해하는 것이 중요하며, 때로는 수학적 통찰력이나 다른 분야의 지식이 필요할 수도 있습니다.

AI 와 알고리즘의 공통점

1. 계산적 기반

AI와 알고리즘 모두 계산의 원리를 기반으로 합니다. 알고리즘은 문제를 해결하는 단계적인 절차를 제공하는 반면, AI는 학습, 추론, 의사결정 등의 더 복잡한 태스크를 수행하기 위한 방법론을 제공합니다.

2. 문제 해결

둘 다 문제를 해결하는데 사용됩니다. 알고리즘은 주로 명시적으로 정의된 문제를 해결하는 데 사용되며, AI는 종종 불확실성이나 애매함이 있는 문제를 해결하는 데 사용됩니다.

3. 최적화

AI와 알고리즘은 모두 최적의 해법을 찾는 것에 중점을 둡니다. 예를 들어, 경로 찾기 알고리즘은 최단 경로를 찾는 데 사용되며, 신경망에서는 가중치를 최적화하여 최적의 성능을 달성하려고 합니다.

4. 데이터 중심 : 현대 AI, 특히 머신 러닝은 대량의 데이터를 기반으로 학습합니다. 이 데이터 처리와 분석에는 다양한 알고리즘이 사용됩니다.

5. 자동화 : AI와 알고리즘은 모두 작업의 자동화를 목표로 합니다. AI는 일반적으로 더 복잡하고 불규칙한 태스크의 자동화에 초점을 맞추는 반면, 알고리즘은 특정한, 명확하게 정의된 태스크를 수행하는 데 사용됩니다.

6. 프로그래밍 및 구현 : 둘 다 컴퓨터 프로그래밍과 밀접하게 연관되어 있습니다. 알고리즘은 코드로 구현되며, AI 시스템 또한 다양한 알고리즘과 방법론을 기반으로 구현됩니다.

그렇지만 AI와 알고리즘은 그 기본 철학과 목적에서 차이점도 있습니다. AI는 사람처럼 학습하고 추론하는 기능을 갖춘 시스템을 만드는 것에 중점을 둡니다. 반면, 알고리즘은 주어진 문제를 해결하기 위한 효과적인 단계를 찾는 것에 초점을 맞춥니다.

오늘은 AI와 알고리즘에 대해 알아보았습니다.