칼럼

<외모지상주의>, <프리드로우>, <연애혁명> 댓글 분석으로 알아보는 요즘 독자들의 마음

한국콘텐츠진흥원 | 2020-02-10 14:09

<외모지상주의>, 

<프리드로우>, <연애혁명> 

댓글 분석으로 알아보는 

요즘 독자들의 마음 


여러 단어의 빈도를 세어보며, 인터넷에 자주 언급되는 일부 커뮤니티의 반응이 독자 대부분의 수용과 가끔 다르다는 사실을 새삼 느꼈다. 


글 김태권  






이 글은 웹툰에 대한 평론이 아니다. 독자들이 남긴 11,507건의 댓글을 ‘텍스트마이닝(Text Mining)’으로 분석한, 평을 평한 평론이다. 어쩌다 나는 이 글을 썼나? <지금, 만화> 위근우 편집장의 제안을 받았다. “요즘 데이터 글쓰기를 시작하셨죠? 이번 호에서 학교를 배경으로 한 웹툰을 다루는데 한번 써보시죠” “나야 불감청 고소원이죠. 네이버웹툰 댓글을 모아 빅데이터 분석을 해 보면 어떨까요?” 요즘 가장 인기 있는 학원물 <외모지상주의>, <연애혁명>, <프리드로우>를 골랐다. 만화가가 만화에 대해 데이터를 분석해 글을 쓰다니 재밌겠다고 생각했다. 그런데 시작하자마자 곤란을 겪을 줄이야. 


사이트마다 ‘로봇 배제 표준’이라는 것이 있다. 웹 문서를 사람이 직접 한 줄 한 줄 복사해다 붙이는 것 말고, 맞춤형 ‘로봇’을 코딩해 자동으로 긁어오는 일을 크롤링 또는 스크레이핑이라고 한다. 사이트 운영자 쪽은 ‘긁긴 긁되 규정을 따라 달라’는 당부 말씀을 ‘로봇 텍스트(robots.txt)’라는 파일에 밝히는 것이 보통. 강변의 ‘수영 금지’, ‘취사 금지’ 같은 푯말이랄까? 어차피 코딩하는 사람이 읽는 페이지이므로 종종 “우리 회사에 이력서 내라”는 장난스러운 글귀를 적어두기도 한다. 하지만 네이버웹툰의 ‘로봇 텍스트’에는 농담이 없다. ‘아무도 긁지 말라, 어느 무엇도 긁지 말라’는 취지의 내용. 만화를 퍼가는 일은 불법 복제니까 막는 것이 당연하다. 그런데 댓글은 왜 가져가지 말라고 했을까? 요즘 추세랑 맞지 않는다. 아니 그보다, 댓글을 모아야 글을 쓸 텐데 나는 어쩌라고. 


1. 1단계, 선행연구 검토와 자료 수집  –‘삽질’의 시작 


큰일 났다. “네이버웹툰 댓글 말고 웹툰 리뷰가 실린 몇몇 커뮤니티를 분석하면 어떠냐?”는 조언을 들었다. 솔깃했다. 그러나 막상 해당 사이트를 읽으니, 편향된 느낌이었다. 자세한 사정은 뒤에 밝히겠다. 혹시 선행연구는 없을까? 웹툰 댓글을 분석한 위대한 선각자가 어딘가에는 있을 텐데. 있었다. <텍스트 마이닝을 이용한 금연 홍보 웹툰의 반응 분석 : ‘씌가렛뎐’ 댓글을 중심으로>라는 글. 저자는 이동균, 이서준, 최인영. 2018년에 보건정보통계학회지에 실린 논문이다. 서론이 딱 내가 쓸 이야기다. “웹툰은 1990년대 후반부터 활성화되었으며, 웹툰이 새로운 홍보 수단으로 대두되었으나 그 효과의 분석을 다룬 연구는 부족하다. 이는 전통적인 설문 방식으로 웹툰의 효과를 검증하기 어렵기 때문이다. (중략) 웹툰의 댓글은 작가와 독자 간의 의사소통을 하는 일종의 매개체 역할을 하고 있다.” 


‘자료 수집’ 부분은 어떨지 볼까? ‘분석을 원하는 대상에 대해서 R프로그램이나 크롤링을 이용한 자동 수집을 하지만 본 연구 대상인 네이버 웹툰은 검색 로봇에 의한 문서 수집이 불가능하여 전체 댓글을 수작업으로 수집하였다’니, 아뿔싸. ‘본 연구에서 최초 수집한 댓글 수는 20,650건이었고 데이터 전처리 작업을 통하여 18,117건의 댓글을 대상으로 조사하였다’는 문장에 나는 눈앞이 컴컴해졌다. 


어떻게 할까? 위근우 편집장에게 문자를 보내 “댓글 정책 때문에 텍스트마이닝은 품이 많이 들 것 같네요”라며 운을 떼었다. “기대하고 있습니다”는 취지의 답신이 왔다. 차마 그만둔다는 말을 할 수 없었다. 


결국 직접 세 만화의 ‘베댓(베스트 댓글)’을 긁기로 했다. <외모지상주 의>(1~220회)의 베댓이 3,300건, <연애혁명>(1~248회)은 3,720 건, <프리드로우>(1~270회)의 베댓은 4,037건. 세 만화 베댓 11,507 건을 손으로 ‘복붙’했다. 마우스를 쥔 손에 쥐가 나는 줄 알았다. 11,507건이면 요즘 같은 빅데이터의 시대에 그다지 많은 양은 아니다. 하지만 이런저런 분석을 해볼 덩어리는 된다. 독자들의 ‘클릭’ 추천을 통해 한번 걸러졌으므로 편향도 심하지 않은 자료라고 할 것이다. 이렇게 하여 나는 분석의 ‘첫 삽’을 떴다. 


2. 2단계, 빈도 분석과 그 응용 –두 가지 궁금함에 대한 재미있는 답

 

텍스트마이닝의 시작은 글을 숫자로 바꾸는 것. 그런데 어떻게? 가장 많이 쓰는 방법은 이 단어가 몇 번 나오는지 그 빈도를 세는 것이다. 학생 때 장난삼아 ‘선생님이 오늘은 몇 차례나 ‘에~ 또’를 하셨나?’하며 바를 정(正)자로 집계하곤 했는데, 원리는 같다. 표, 막대그래프, 워드클라우드 등으로 결과를 확인한다. 단순해 보이지만 의외로 강력한 방법이다. 빈도 분석을 통해 나는 세 작품에 대한 여러 궁금증을 풀 수 있었다. 이 가운데 두 가지를 소개하겠다. 


첫 번째로 ‘독자들이 어떤 캐릭터에 관심이 많은가?’하는 문제다. 만화가라면 누구나 궁금할 주제. 그런데 기존에는 알아낼 적절한 방법이 없었다. 캐릭터 인기투표와 비슷하면서도 다르다. 인기투표는 ‘독자들이 어떤 캐릭터를 좋아하는가?’에 대한 응답. ‘누구 때문에 독자가 이 만화를 보는가?’라는 질문에는 절반의 해답일 뿐이다. 독자는 잘난 인물도 좋아하지만, 얄미운 인물이 망하는 꼴을 보는 것도 좋아하니까. 


웹툰 <외모지상주의>를 보자. 연재 200회 기념 캐릭터 인기투표의 결과는 이랬다. 1위는 비밀에 싸인 멋쟁이 홍재열, 2위는 의리남 바스코, 3위는 주인공 박형석. 그렇다면 빈도 분석 결과는 어떨까? 


빈도표에서 등장인물만 추려보면 1위는 박형석(615번), 2위는 바스코 (309번), 3위는 박지호(270번), 4위 홍재열(264번)이었다. 

홍재열과 박형석의 차이는 인기투표와 빈도 분석의 차이 때문일 수도 있다. 인기투표는 최근 등장한 인물이 표를 많이 받지만, 빈도 분석은 누적이기 때문에 일찍부터 나온 인물이 유리한 법. 하지만 빈도 분석 3위의 박지호는 어떻게 설명할까? 인기투표에서는 20위로 밀려났던 캐릭터다. 독자들은 박지호를 욕하면서도 동시에 그가 무슨 일을 당할지 걱정하며(또는 ‘기대’하며) 만화를 읽는 것 아닐까? 


캡처.PNG
▲ <외모지상주의> 베스트 댓글에 대한 텍스트마이닝 분석 결과


두 번째로 궁금한 문제는 ‘일부 커뮤니티의 주장대로 이 작품에 ‘일진 미화’의 혐의가 있나?’ 하는 것. 몇몇 커뮤니티에는 ‘<외모지상주의> 와 <프리드로우>는 일진 미화 작품’이라느니 ‘<연애혁명>이 아니라 일진 혁명’이라느니 하는 리뷰가 가끔 실려 있다. 개인 의견이 아니라 다수의 여론인 것처럼 적어 놓았다. 


과연 그럴까? 빈도 분석으로 ‘일진 미화’라는 표현이 추천을 많이 받은 댓글에도 정말 많이 등장하는지 알아보았다. 결과는 엉뚱했다. 첫 분석에서 세 작품 모두 ‘일진 미화’라는 표현이 아예 잡히지 않았던 것. 잡히지 않았기 때문에 빈도 집계도 되지 않았다. 왜 이러지? 혹시 코드가 잘못됐나? 한 줄 한 줄 읽어보았다. 


이유는 간단했다. 빈도 분석 과정에는 ‘희소 단어 걸러내기’라는 단계가 있다. 분석할 때 대체로 빈도가 높은 단어에 주목하기 때 문에, 어쩌다 쓰이는 빈도 낮은 단어는 집계에서 빼는 것이다. 나는 처음에 그 값을 0.98로 정했다. 그랬더니 ‘일진 미화’가 잡히지 않았다. ‘일진 미화’라는 단어가 2% 미만의 댓글에만 쓰였기 때문에 배제되었다는 의미다. 값을 0.99로 바꾸면 어떨까? 1%만 넘게 쓰였더라도 잡아달라는 뜻이었으나, 역시 잡히지 않았다. 0.999로 값을 변경하고야 세 작품 모두에서 ‘일진 미화’라는 표현이 포착되기 시작했다. 0.1% 남짓한 베댓에만 이 표현이 등장한다는 의미다. 일부 커뮤니티의 날 선 비판은 찻잔 속의 태풍이었을까? 모르겠다. 아무튼 ‘여론’은 아닌 것 같다. 


<외모지상주의> 베댓에 ‘일진’은 54회, ‘일진 미화’는 17회 나온다 (형태소 분석 프로그램에 따라 다른 결과가 나올 수도 있다. 나는 R의 ‘NLP4Kec’ 패키지를 사용했다). 같은 표현이 하나의 댓글 안에 중복되어 쓰이기도 하고 관련 댓글을 찾아 읽어보면 “일진 미화 작품이 아니다”라는 경우도 있으니 ‘17’이라는 숫자조차 에누리해서 봐야 할 터. <연애혁명>은 ‘일진’ 25회, ‘일진 미화’ 6회. <프리드로우> 는 ‘일진 미화’ 9회. ‘일진’은 85회로 세 만화 가운데 가장 많이(?) 나온 셈인데 한때 일진 생활을 하던 주인공들이 나름의 개과천선(?)을 하는 내용이다 보니 그럴 것이다. 


‘일진’ 뿐 아니라 여러 단어의 빈도를 세어보며, 인터넷에 자주 언급되는 일부 커뮤니티의 반응이 독자 대부분의 수용과 가끔 다르다는 사실을 새삼 느꼈다. ‘일부 커뮤니티가 전체 인터넷 여론으로 과잉 대표되기도 한다’는 지적은 웹툰의 경우에도 사실이었다. 커뮤니티 반응을 분석하지 않고 댓글을 수집하길 잘했다는 생각. 무리해서라도 말이다(그렇다, 나는 생색을 내고 있다). 


image.png
▲ (위) <프리드로우> 베스트 댓글에 대한 텍스트마이닝 분석 결과
▲(아래) <연애혁명> 베스트 댓글에 대한 텍스트 마이닝 분석 결과


다만 생각해볼 지적도 있었다. 하나는 ‘<외모지상주의>에서 좋은 캐릭터는 잘생겼고, 악역은 못생긴 경우가 많은데, 이 역시 ‘외모지 상주의’ 아니냐?’는 것. 또 하나는 ‘학교 폭력에 반대한다면서 싸움 이야기가 자주 나온다’는 지적. <외모지상주의> 베댓을 보면 ‘외모’(91회), ‘잘생기다’(80회), ‘못생기다’(74회), ‘얼굴’(61회) 등의 단어들이 등장한다. 빈도를 다 합하면 주요 등장인물인 ‘바스코’(309회)와 비슷하게 언급된 셈이다. 한편 ‘싸우다’(143회), ‘폭력’(50회), ‘강하다’(33 회), ‘vs’(19회) 등으로 싸움에 관한 단어도 제법 등장한다. 앞서 두 가지 지적에 독자들이 동의한다고 볼 근거는 없다. 그러나 찬성이건 반대건 이 두 가지 문제를 의식하고 있기는 하다(주제 자체가 대중의 관심 밖인 것처럼 보이는 ‘일진 미화’와는 다르다). 


여기서부터는 데이터 분석의 영역이 아니지만, 내 생각을 조심스럽게 밝히련다. 첫째로 악한 인물을 잘생기게 좋은 인물을 못생기게 그려야 한다고 작가에게 강요할 수 없다는 생각. 외모지상주의에 반대하는 애니메이션 <슈렉>에도 못생긴 악역이 나온다. 둘째로 ‘잘생긴 인물과 싸움 장면이 자주 나온다’는 문제는 특정 작품만의 문제가 아니다. 만화니 드라마니 영화니 대중매체가 다 그렇다. 그래야 독자나 관객이 재미있어하기 때문. 머나먼 미래에는 상황이 달라질지도 모르지만, <외모지상주의>와 <연애혁명>과 <프리드로우>에 당장 이 문제를 해결하라 요구하는 것은 지나치다. 


3. 3단계, 연관 분석. 그리고 다음 


글을 숫자로 바꾸는 또 하나의 방법은 연관 분석이다. 단어들끼리 같은 문서에 얼마나 함께 등장하는지를 계산하는 것이다. 빈도 분석이 문서와 단어 사이의 관계를 보여준다면, 연관 분석은 단어와 단어 사이의 관계를 보여준다. ‘문서의 범위’가 문제가 된다. 어디까지를 같은 문서로 볼 것인가? 하나의 댓글 안에 같이 등장하는 단어를 셀 때와 한 회 연재 분량의 댓글 안에 같이 등장하는 단어를 셀 때는 결과가 다르게 나온다. 복잡해 보이지만 어렵지 않다. 나는 연관 분석이 캐릭터를 연구할 때 적절한 방법이라고 생각한다. <외모지상주의> 의 문제적 인물 ‘박지호’를 보자. 댓글 각각을 문서 하나로 보았을 경우, ‘박지호’와 붙어 다니는 단어들은 이렇다. ‘용서’(연관도 0.27), ‘독방’(0.21)과 ‘감방’(0.19), ‘아버지’(0.23). 짧은 댓글 안에 ‘박지호와 용서’, ‘박지호와 감방’, ‘박지호와 아버지’ 등이 함께 쓰인다는 의미다. 인물 개인에 대한 독자들의 관심 포인트를 알 수 있다. 연재 분량 한 회를 문서 하나로 보면 결과가 새롭다. ‘만만하다’(0.45), ‘허세’(0.41), ‘허영심’(0.39), ‘용서’(0.37), ‘죄책감’(0.37), ‘찌질’(0.36) 등이 눈에 띈다. 무슨 뜻일까. 독자들이 ‘허세’나 ‘허영’, ‘죄책감’ 등의 단어를 써서 댓글로 반응하는 에피소드 절반 가까이에 ‘박지호’가 등장한다는 의미. 이야기와 인물을 연결해서 파악할 수 있다. 


캐릭터 이외에도 궁금한 것을 알아볼 수 있다. <연애혁명>은 배경 음악을 아름답게 쓰기로 유명한 작품. ‘브금’ 또는 ‘BGM’은 베댓에 48회 등장. 독자들이 관심을 가진다는 사실은 확인했으니 더 구체적인 반응을 알아볼까? 댓글 각각을 문서 하나로 지정하여 연관 분석했더니 ‘노래’(0.17), ‘쩐다’(0.12), ‘소름’(0.10) 등의 결과가 눈에 띈다. 긍정적인 반응이다. 


긍정과 부정 반응을 알아보는 방법으로 요즘 뜨는 감성 분석이 있다. 나는 ‘딥러닝’도 이용해보고 싶었다. 문제는 댓글의 양이다. 최근 뉴스 댓글을 분석하며 경험한 바로는, 인공지능을 이용할 때는 수십만 건 이상이 모여야 좋은 연구 결과가 나온다. 네이버웹툰의 댓글 정책에 대해 한 번 더 투덜거리고 싶은데, 속이 좁은 사람으로 비칠까 두려우니 조용히 해야겠다. 아, 이미 늦었나? 




김태권 | 만화가. <김태권의 십자군 이야기>, <히틀러의 성공시대> 등을 그렸다.
최근 아이를 보며 컴퓨터를 배워 데이터 글쓰기에 골몰하고 있다.


무가지 <지금, 만화>는 한국콘텐츠진흥원에서 제공하는 계간만화, 웹툰비평지입니다.


클릭시 한국콘텐츠진흥원의 <지금, 만화> 페이지로 이동합니다.


연애혁명
작품정보 바로보기
외모지상주의
작품정보 바로보기
프리드로우
작품정보 바로보기
웹툰가이드 PICK
웹툰가이드 인기글
투믹스 무료 웹툰
전연령
성인
완전판
BL 추천
남성향 추천

지금, 만화

공포 가운데서 자라는 희망을 마주하다 《드래곤 헤드》 vs 〈심해수〉
한국만화영상진흥원 | 2020-12-27
감염과 질병의 시대, 사랑과 공존을 찾아서
한국만화영상진흥원 | 2020-12-23
팬데믹 시대, 재난만화로 보는 학교라는 세상
한국만화영상진흥원 | 2020-12-16
만화 《풀》이 지금 우리에게 남긴 위안부에 대한 의미
한국만화영상진흥원 | 2020-12-09
그 많던 웹툰 플랫폼은 어디로 갔나?
한국만화영상진흥원 | 2020-12-02
코로나19 이후 콘텐츠 소비 스타일은 어떻게 변화되고 있나?
한국만화영상진흥원 | 2020-11-25
계속되는 절망 속에서도 잃지 않는 희망 〈심연의 하늘〉
한국만화영상진흥원 | 2020-11-18
2020년, 거듭되는 재난이 전하는 메시지 〈야후〉
한국만화영상진흥원 | 2020-11-11
인간 존재에 대한 질문과 증명 〈하이브〉
한국만화영상진흥원 | 2020-11-04
재난과 속 기괴한 공포, 그 환상성이 만들어내는 정복의 힘 <조의영역>
한국만화영상진흥원 | 2020-10-28
포스트 코로나 시대의 일본 재난만화 읽기
한국만화영상진흥원 | 2020-10-21
언택트 시대의 콘택트하기
한국만화영상진흥원 | 2020-10-14
재난만화에서 캐릭터는 어떻게 영웅화되는가?
한국만화영상진흥원 | 2020-10-07
이것이 재난만화다
한국만화영상진흥원 | 2020-09-30
둘리가 살던 동네에 한번 살아보고 싶어서…
한국콘텐츠진흥원 | 2020-09-23
신의 콧김 - 비로소 인간이다
한국콘텐츠진흥원 | 2020-09-16
고양이 집사 수의사의 반려동물 웹툰 이야기
한국콘텐츠진흥원 | 2020-09-09
대한민국에서 드디어 아빠의 육아 웹툰이!!
한국콘텐츠진흥원 | 2020-09-02
그땐 웃었고, 지금은 불편하다
한국콘텐츠진흥원 | 2020-08-26
<여의주>, ‘선한 정치’와 ‘타산적 정치’의 결합과 균형감각에 대하여
한국콘텐츠진흥원 | 2020-08-19