이은령 교수의 고차원 통계 & 머신러닝 연구실
(High-dimensional Statistics &
Machine Learning Lab)

  • 588호
  • 기사입력 2026.05.28
  • 취재 김서연 기자
  • 편집 김유림 기자
  • 조회수 985

오늘날 데이터는 의료, 금융, 인공지능 등 다양한 분야의 의사결정을 움직이는 핵심 자원이 되고 있다. 특히 AI 기술이 빠르게 발전하면서, 단순히 데이터를 분석하는 것을 넘어 그 결과를 얼마나 신뢰할 수 있는지 설명하는 일 역시 중요해지고 있다. 통계학은 이러한 데이터 속에서 의미 있는 정보를 찾아내고, 결과의 타당성을 검증하는 역할을 맡으며 그 중요성을 더 넓혀가고 있다.

성균관대학교 통계학과 이은령 교수의 고차원 통계 & 머신러닝 연구실은 이러한 시대 속에서 고차원 통계학과 통계적 기계학습을 연구하고 있다. 유전체 데이터처럼 변수는 수만 개에 이르지만 표본은 제한적인 데이터 환경에서, 정말 중요한 변수를 찾아내고 그 결과를 통계적으로 설명하는 방법론을 개발하는 것이다. 이번 연구실 탐방에서는 데이터와 인공지능 시대에 통계학이 갖는 의미와 함께, 연구실에서 어떤 방식으로 새로운 통계 방법론을 만들어 가고 있는지 들어보았다.



| 연구실 소개 부탁드립니다.

우리 연구실은 고차원 통계학과 통계적 기계학습을 주로 연구합니다. 최근에는 데이터에서 변수의 개수가 표본 수보다 훨씬 많은 경우가 흔해졌습니다. 대표적으로 유전체 데이터의 경우, 환자는 수백 명 수준이지만 측정되는 유전자는 수만 개에 이르기도 합니다. 저희는 이러한 데이터 속에서 실제로 중요한 변수를 찾아내고, 그 결과를 얼마나 신뢰할 수 있는지 수학적으로 보장하는 방법론을 연구하고 있습니다.

현재 연구실에는 박사과정 1명과 석사과정 5명이 함께 연구를 진행하고 있으며, 앞으로는 연구에 열의가 있는 학부 연구생들도 참여할 계획입니다. 분야 특성상 방법론과 이론 연구에 집중하는 학생들과 계산 및 구현 중심의 연구를 하는 학생들이 함께 어우러져, 서로의 부족한 부분을 보완하며 연구를 이어가고 있습니다.

* 유전체 데이터(genomic data): 생명체의 성장, 발달, 기능에 필요한 모든 유전 정보의 총합


| 연구실의 대표적인 연구 활동을 소개해 주세요.

크게 두 가지 방향의 연구를 진행하고 있습니다. 첫 번째는 변수 선택과 추론입니다. 수많은 변수 중 의미 있는 정보를 골라내는 벌점화(penalized) 방법을 설계하고, 그 결과가 어느 정도의 오차를 가지는지, 또 얼마나 신뢰할 수 있는지를 통계적으로 설명하는 연구입니다. 단순히 변수를 선택하는 것 자체는 기존 방법으로도 가능하지만, 그 결과를 얼마나 믿을 수 있는지를 검증하는 문제는 여전히 어려운 과제로 남아 있어 연구실에서 오랫동안 집중해 온 분야이기도 합니다.

두 번째는 최근 비중을 확대하고 있는 전이 학습(transfer learning) 연구입니다. 분석하려는 데이터는 적지만, 비슷한 특성을 가진 외부 데이터는 존재하는 상황에서 그 데이터를 어떻게 활용해야 실제로 도움이 되는지를 연구합니다. 최근에는 이를 환자의 생존 시간을 분석하는 생존분석 분야에 적용하는 연구도 진행하고 있습니다. 이 외에도 분위수 회귀나 함수형 자료 분석처럼 복잡한 구조의 데이터를 다루기 위한 다양한 통계 방법론을 폭넓게 연구하고 있습니다.

* 벌점화(penalization): 모델에 제약을 추가해 불필요한 변수를 줄이고 과적합을 방지하는 통계 기법. 변수의 수가 데이터 수보다 많은 고차원 데이터 분석에서 중요한 변수 선택에 활용됨.

* 전이학습(transfer learning): 데이터가 부족한 분석 대상에 대해 비슷한 특성을 가진 다른 데이터의 정보를 활용해 분석 성능을 높이는 방법. 제한된 데이터 환경에서 효율적인 학습이 가능하도록 도움.


| 연구는 어떤 과정과 방법을 통해 진행되나요?

통계 방법론 연구는 보통 “왜 기존 방법이 이 상황에서는 통하지 않을까?”라는 질문에서 시작합니다. 실제 데이터를 분석하거나 기존 논문을 읽는 과정에서 기존 방법의 한계나 빈틈을 발견하면, 그것이 새로운 연구 주제가 됩니다.

주제가 정해지면 새로운 추정 방법이나 알고리즘을 제안하고, 그 방법이 왜 효과적으로 작동하는지를 수학적으로 증명합니다. 이러한 증명 과정은 연구에서 가장 큰 비중을 차지하고, 가장 오랜 시간이 필요한 단계이기도 합니다. 동시에 그 방법을 코드로 구현해 모의실험을 진행하고, 이론에서 기대한 결과가 실제 데이터에서도 나타나는지 확인합니다. 이후 유전체 데이터나 의료 데이터 같은 실제 자료에 적용하며 연구를 검증하게 됩니다. 이론, 계산, 응용 세 가지가 맞아떨어져야 비로소 한 편의 논문으로 완성됩니다.

이러한 과정은 혼자만의 책상에서 이루어지지 않습니다. 연구실에서는 정기적인 이메일과 대면 미팅을 통해 연구 진행 상황을 공유하고, 서로 피드백을 주고받으며 연구를 이어가고 있습니다. 처음부터 완벽한 답을 가져오기보다, 막힌 문제를 함께 고민하고 해결해 나가는 과정 자체가 연구 역량을 키우는 데 큰 도움을 줍니다.


| 연구실에서 이루어진 연구의 활용 사례와 향후 비전이 궁금합니다.

저희 연구는 방법론 및 이론 쪽이라 그 자체로 어떤 제품이 나오지는 않지만, 다른 분야 연구자들이 데이터를 분석할 때 쓰는 도구가 됩니다. 예를 들어 암 환자의 유전체 데이터에서 예후와 관련된 유전자를 찾거나, 어떤 환자에게 치료 효과가 더 클지를 가려내는 일에 저희가 개발한 변수 선택과 추론 방법이 쓰일 수 있습니다. 데이터가 부족한 희귀질환 연구에서 다른 질환의 데이터를 빌려 쓰는 전이 학습도 같은 맥락입니다.

앞으로의 방향을 말씀드리면, 요즘은 어느 분야든 데이터로 예측하는 모형은 어렵지 않게 만듭니다. 그런데 이 예측을 믿어도 되는지, 이 결론이 우연이 아니라는 근거가 있는지를 묻는 순간 답이 어려워지는 경우가 많습니다. 저희는 바로 그 지점, 복잡한 데이터와 기계학습 모형에 통계적 보장을 더하는 일을 계속해 나가려 합니다. 인공지능이 빠르게 발전할수록 그 결과를 얼마나 믿을 수 있는지 따지는 통계학의 역할은 오히려 더 중요해진다고 생각합니다.


| 연구실만의 자랑거리는 무엇인가요?

자랑이라고 하면 조금 쑥스럽지만, 두 가지가 떠오릅니다.

먼저 연구의 단단함입니다. 저희는 단순히 “A 방법이 B 방법보다 성능이 좋다”에서 멈추지 않고, 왜 그런 결과가 나오는지를 끝까지 통계적으로 설명하는 것을 원칙으로 삼고 있습니다. 그만큼 시간이 오래 걸리지만, 그렇게 축적된 결과들은 통계학 분야의 주요 국제 학술지에 꾸준히 게재됐습니다. 무엇보다 학생들이 졸업할 무렵이면 어려운 문제 앞에서도 쉽게 물러서지 않는 태도를 갖추게 되는데, 그 점이 연구실의 중요한 성과라고 생각합니다.

다음은 사람입니다. 연구실 규모가 아주 큰 것은 아니기 때문에 학생 한 명 한 명의 연구를 세밀하게 함께 들여다볼 수 있습니다. 졸업생들이 박사과정으로 진학하거나 금융권, 기업의 데이터 분석 부서 등 다양한 분야로 진출한 뒤에도 종종 소식을 전해오는데, 그럴 때마다 이 일을 선택하길 잘했다는 생각이 듭니다.



| 연구실에 들어가는 데 필요한 자격이나 능력이 있나요? 어떤 학생이 연구실에 오면 좋을까요?

특별한 자격 요건을 두지는 않습니다만 저희 연구는 수리통계학을 기반으로 하므로 수리통계학, 선형대수학, 회귀분석 정도는 학부 과정에서 충분히 공부해 두면 연구를 시작하는 데 도움이 됩니다. R이나 파이썬(Python) 같은 프로그래밍 역량이 있으면 좋지만, 부족한 부분은 연구실에 들어와서 충분히 보완할 수 있습니다.

능력보다 더 중요하게 보는 것은 태도입니다. 통계 연구는 하나의 문제를 몇 달씩 붙잡고 고민해야 하는 경우가 많고, 쉽게 답이 나오지 않는 시간을 견디는 과정이 필요합니다. 따라서 화려한 결과보다 “왜 그런가?”라는 질문을 끝까지 가져가는 학생, 막힌 상황에서도 포기하지 않고 고민을 이어갈 수 있는 학생이 잘 맞습니다. 수학이 다소 어렵게 느껴지더라도 흥미를 잃지 않고 꾸준히 탐구하려는 자세가 있다면 충분합니다. 통계학을 통해 데이터를 깊이 있게 이해하고 싶은 학생이라면 언제든 연구실 문을 두드려 주길 바랍니다.


연구실을 이끌고 있는 이은령 교수는 우리 대학 통계학과 교수로, 학과장을 역임하며 고차원 통계학과 통계적 기계학습 분야를 중심으로 연구를 이어오고 있다. 특히 초고차원 데이터 분석 분야의 난제를 해결하며 학문적 기여를 인정받아, 2025 SKKU Rising-Fellowship 선정과 함께 제2회 올해의 대한민국 통계연구자상을 수상한 바 있다.

Reseach Stories – 초고차원 데이터 분석의 난제를 푼 이은령 교수, Annals of Statistics 게재 논문으로 2025년 올해의 대한민국 통계연구자상 수상


▲ 이은령 교수


| 교수님께서 통계학, 특히 고차원 통계 모형이라는 분야에 처음 관심을 두게 되신 계기가 궁금합니다. 연구를 거듭하면서 이 분야에 더 깊이 매진하게 된 결정적인 순간이 있으셨나요?

학부 시절 통계학에 끌렸던 이유는 순수한 수학적 구조와 실제 데이터를 다루는 현실적인 문제가 하나의 학문 안에 함께 존재한다는 점이었습니다. 어느 한쪽을 선택하는 것만으로는 아쉬웠을 텐데, 통계학은 그 두 영역을 자연스럽게 오갈 수 있는 학문이라고 느꼈습니다.

고차원 모형에 본격적으로 관심을 두게 된 것은 대학원 시절입니다. 당시 유전체 분석을 비롯해 데이터의 규모가 빠르게 커지던 시기였는데, 한 사람에게서 수만 개의 유전자를 측정하는 반면 표본 수는 그에 한참 못 미치는 상황이 흔했습니다. 하지만 기존 교과서의 이론은 대부분 ‘표본 수가 충분히 크다’는 가정 위에 서 있었고, 그 가정이 깨진 상황에서는 기존 방법들이 제대로 작동하지 않았습니다. 오히려 그 틈이 새로운 연구 문제로 보였고, 자연스럽게 희소성(sparsity) 구조를 중심으로 한 고차원 모형 연구로 이어졌습니다.

이후 더 깊이 들어가게 된 계기는 독일에서 박사후 연구원으로 지내며 비모수 방법을 공부하던 시기였습니다. 변수 선택 문제는 어느 정도 해결의 실마리가 보이기 시작했지만, 선택된 변수가 결과에 어떤 형태로 영향을 미치는지까지 설명하는 고차원 비선형 구조 문제는 여전히 완전히 해결되지 않은 영역으로 남아 있었습니다. 풀고 싶은 문제가 눈앞에 분명히 보이는 순간 그것을 외면하기는 쉽지 않았고, 그때부터 지금까지 이 분야를 계속 붙들고 연구를 이어오고 있습니다.

* 비모수 방법(non-parametric methods): 모집단의 분포에 대한 가정을 하지 않고 데이터를 분석하는 통계 기법


| 교수님께서는 변수의 수가 표본 수보다 훨씬 많은 초고차원 환경에서, 중요한 변수를 선별하는 동시에 각 변수의 비선형 효과를 정밀하게 추정할 수 있는 새로운 통계 방법론을 제시하는 연구를 하셨습니다. 기존의 고차원 분석 방법들과 비교했을 때, 이번 연구 방법의 핵심적인 차별점은 무엇인가요?

고차원 데이터에서 변수를 선택하는 방법은 이미 많이 제안되어 있습니다. 하지만 대부분의 방법은 각 변수가 결과에 선형적으로 영향을 준다고 가정한다는 한계가 있습니다. 계산은 단순해지지만, 실제 관계가 비선형일 경우 그 구조를 충분히 반영하지 못할 수 있습니다.

반대로 변수의 비선형 효과를 추정하는 비모수 방법도 오래전부터 존재해 왔으며, 그중 평활 백피팅(smooth backfitting)은 변수 간 상관이 존재하는 상황에서도 각 변수의 효과를 안정적으로 분리해 추정할 수 있는 기법입니다. 다만 이 방법은 변수가 많지 않은 저차원 환경을 전제로 하므로, 초고차원 상황에는 직접 적용하기 어렵습니다.

이번 연구의 핵심은 이 두 접근을 결합한 것입니다. 변수를 골라내는 벌점화 방법(functional Lasso)을 평활 백피팅 계산 과정 안에 직접 넣어서, 수많은 변수 가운데 중요한 것을 선별하는 일과 골라낸 각 변수의 비선형 효과를 효율적으로 추정하는 일을 한 번에 해냅니다. 여기에 더해 추정값의 편향을 바로잡은 버전을 따로 만들어, 단순히 “이 변수가 중요하다”라고 말하는 데서 나아가 그 추정이 얼마나 정확한지까지 통계적으로 따질 수 있게 했습니다. 변수 선택과 비선형 효과 추정, 그리고 그 결과에 대한 통계적 추론까지 고차원에서 한꺼번에 가능하게 한 점이 기존 방법들과 가장 다른 부분입니다.

* 평활 백피팅(smooth backfitting): 여러 설명변수의 비선형 효과를 각각의 부드러운 함수로 분해해 반복적으로 추정해 나가는 비모수 회귀 방법


| 해당 방법론을 암세포주 유전자 발현 데이터와 항암제 반응 데이터에 적용하는 과정에서, 이론 연구와 실제 바이오 데이터 사이의 차이나 어려움이 있었나요? 또한 그 간극은 어떻게 해결하셨는지도 궁금합니다.

이론 연구는 데이터가 특정한 가정을 만족한다는 전제 위에서 출발합니다. 하지만 실제 바이오 데이터는 그 가정을 깔끔하게 충족하지 않는 경우가 많습니다. 측정 과정에서의 잡음이 섞여 있고, 실험 배치에 따라 값이 달라지기도 하며, 유전자별로 측정 규모도 서로 다릅니다. 이론에서는 단순히 표현되던 조건들이 실제 데이터에서는 여러 단계의 전처리 작업으로 바뀝니다.

가장 많이 신경을 쓴 부분은 “통계적으로 선택한 유전자가 생물학적으로도 의미를 갖는가?”였습니다. 방법론적으로 중요한 유전자를 찾아냈더라도, 그것이 기존에 알려진 암 관련 경로나 약물 작용 기전과 전혀 연결되지 않는다면 결과를 신뢰하기 어렵습니다. 그래서 선별된 유전자들이 기존 연구와 어떻게 연결되는지 문헌을 통해 확인하고, 데이터 조건을 조금씩 변화시키면서도 동일한 유전자들이 안정적으로 선택되는지를 반복적으로 검증했습니다.

간극을 한 번에 좁히는 방법은 없었습니다. 이론적 가정과 실제 데이터 사이를 여러 차례 오가며 방법을 점진적으로 보완하는 방식으로 줄여 나갈 수밖에 없었습니다. 다만 이러한 과정 자체가 이론을 더 견고하게 만드는 역할도 했고, 실제 데이터에서 발견된 문제가 다시 새로운 이론 연구의 출발점이 되는 경우도 많았습니다.


| 인공지능과 머신러닝이 빠르게 발전하는 요즘, 초고차원 데이터 분석 분야는 앞으로 어떤 방향으로 발전해 나갈 것으로 보시나요? 그 흐름 속에서 통계학의 역할은 무엇인가요?

인공지능과 머신러닝이 강점을 가지는 영역은 분명합니다. 데이터가 충분할 때 복잡한 패턴을 학습해 높은 예측 성능을 내는 것입니다. 하지만 초고차원 데이터, 특히 의료나 생물학 분야의 데이터는 상황이 다릅니다. 분석해야 할 변수에 비해 표본 수가 매우 제한적이고, 때에 따라서는 데이터를 얻는 것 자체가 어려운 경우도 많습니다.

이런 환경에서는 단순히 예측 정확도를 높이는 것만으로는 충분하지 않습니다. 어떤 변수가 중요한지, 그 판단이 얼마나 불확실한지, 그리고 관측된 결론이 우연에 의한 것이 아니라는 근거를 함께 제시하는 것이 중요합니다. 앞으로의 연구 방향은 머신러닝의 유연한 예측 능력과 통계학의 엄밀한 추론 체계가 결합하는 방향으로 발전할 것으로 보고 있습니다. 저희 연구 역시 이러한 두 요소를 하나의 틀 안에서 함께 다루려는 시도라고 할 수 있습니다.

통계학은 본래 제한된 데이터 상황에서 얼마나 신뢰할 수 있는 결론을 도출할 수 있는지를 다뤄 온 학문입니다. 예측의 정확도는 인공지능이 빠르게 발전시키고 있지만, 그 결과의 타당성을 검증하고 불확실성을 정량화하는 역할은 여전히 통계학의 중요한 기능입니다. 따라서 두 분야는 경쟁 관계라기보다, 서로를 보완하며 함께 발전해 나가는 관계라고 생각합니다.


| 앞으로 어떤 분야에서 일하든 데이터를 마주하는 일은 피할 수 없는 시대가 되었습니다. 데이터 앞에서 어떻게 생각하고 접근해야 하는지, 학생들에게 조언 한 말씀 부탁드립니다.

데이터를 다루는 일이 통계학 전공자만의 영역이 아닌 것은 분명합니다. 어느 분야로 진출하더라도 데이터를 마주하게 될 텐데, 그때 한 가지는 꼭 기억하면 좋겠습니다. 데이터는 답을 그냥 건네주지 않는다는 점입니다.

요즘은 다양한 도구 덕분에 버튼 몇 번만으로도 그럴듯한 그래프와 결과를 얻을 수 있습니다. 하지만 그 결과가 어떤 방식으로 계산되었는지, 어떤 가정 위에 서 있는지, 그리고 데이터가 어떤 과정을 거쳐 수집되었는지를 충분히 이해하지 않으면 결과를 그대로 받아들이기 쉽습니다. 좋은 분석은 복잡한 모델에서 나오기보다, ‘이 데이터는 정말 믿을 수 있는가?’, ‘빠진 정보는 없는가?’를 끝까지 질문하는 과정에서 나옵니다.

그래서 학생들에게는 도구를 빨리 익히는 것보다 데이터를 의심하고 캐묻는 습관을 먼저 길렀으면 좋겠다고 말합니다. 숫자 하나를 보더라도 그 뒤에 어떤 사람과 어떤 과정이 있었는지를 떠올릴 수 있다면, 어느 분야에서 일하든 데이터에 휘둘리지 않고 제대로 쓰는 사람이 될 수 있습니다.



다음으로, 본 연구실의 박사과정 심대희 원우를 만나 연구원의 관점에서 연구실 생활을 물었다.


| 연구원의 관점에서 연구실을 소개해 주세요.

우리 연구실은 고차원 자료와 복잡한 데이터 구조를 통계적으로 어떻게 이해하고 설명할 수 있을지 고민하는 연구실입니다. 고차원 자료 분석, 비모수 방법론, 차원 축소, 범주형 자료 분석 등 다양한 주제를 바탕으로 데이터 속에 숨어 있는 구조와 관계를 포착하는 방법을 연구하고 있습니다.

연구실에서는 정해진 틀 안에서 연구가 일방적으로 진행되기보다는, 각자 연구 문제를 충분히 정리하고 깊이 있게 고민할 수 있는 시간이 주어집니다. 그 과정에서 교수님께 연구의 방향이나 이론적 전개에 대해 밀도 있는 피드백을 받을 수 있다는 점이 큰 장점이라고 생각합니다.

이러한 점에서 연구실은 ‘연구 문제를 스스로 깊이 고민하고, 교수님의 전문적인 피드백을 바탕으로 이를 점진적으로 완성해 나가는 공간’이라고 소개할 수 있을 것 같습니다.


| 연구원으로 생활하면서 가장 좋았던 기억을 소개해 주세요.

가장 좋았던 기억은 예상과 다른 결과의 원인을 스스로 찾아냈을 때입니다. 연구를 진행하던 중 제가 예상했던 방향과 다른 결과가 반복적으로 나타난 적이 있었습니다. 처음에는 단순히 데이터의 특성 때문일 수도 있다고 생각했지만, 결과를 정리할수록 스스로 이해하기 어려운 부분이 계속 남아 있었습니다.

결과의 원인을 설명할 수 없다는 점이 계속 마음에 걸렸고, 그때부터 코드와 모형 설정 과정을 차근차근 확인하기 시작했습니다. 그 과정에서 모형 설정 단계에서 필요한 제약조건이 빠져 있었다는 점을 발견하게 되었습니다. 결과적으로는 제 설정에서 비롯된 문제였지만, 단순히 결과를 받아들이는 데서 그치지 않고 끝까지 원인을 추적해 이해했다는 점에서 매우 인상 깊은 경험으로 남아 있습니다.


| 연구자로서 성취하고 싶은 목표가 있다면 답변 부탁드립니다.

처음부터 거창한 목표를 가지고 연구를 시작한 것은 아니었습니다. 석사 과정에서 이은령 교수님께서 추천해 주신 전이 학습 분야를 접하게 되었고, 연구를 진행하면서 제가 더 공부하고 싶은 부분과 아직 충분히 이해하지 못한 부분을 발견하게 되었습니다. 그 과정에서 조금 더 깊이 공부해 보고 싶다는 마음으로 박사과정을 시작하게 되었습니다.

그렇기에 현재의 목표는 학문적으로 제가 부족하다고 느끼는 부분을 하나씩 채워나가는 것입니다. 꾸준히 공부하면서 제가 다루는 연구 문제를 스스로 명확히 설명할 수 있고, 그 문제에 적절한 통계적 접근을 제안할 수 있는 연구자가 되고 싶습니다.


| 연구자의 길을 고민하거나 꿈꾸는 학부생, 후배들에게 하고 싶은 조언이 있으신가요?

겁먹지 말라는 말을 해주고 싶습니다. 석사 과정을 보내면서 처음에는 논문을 읽어도 잘 이해되지 않고, 제가 하고 있는 고민이 연구가 될 수 있는지 확신이 들지 않을 때가 많았습니다. 하지만 지나고 보니 그런 막막함 자체가 연구 과정의 일부였다고 생각합니다.

중요한 것은 모르는 것을 피하지 않고, 왜 이해가 되지 않는지, 어떤 부분이 부족한지 계속 질문하고 생각해 보는 태도라고 느꼈습니다. 저 역시 아직 많은 경험을 쌓은 것은 아니지만 이 과정에서 조금씩 재미를 느끼며 연구를 이어가고 있습니다. 그래서 연구를 너무 어렵게만 생각하기보다는, 관심 있는 분야의 논문을 읽어보거나 세미나에 참석해보는 등 작은 경험부터 시작해 보면 좋을 것 같습니다.




* 연구실 관련 정보

이은령 교수

성균관대학교 통계학과

Tel: 02-760-0492

Email: erlee@skku.edu

Office: 다산경제관 4층 32412호실

Lab Website: https://sites.google.com/view/eunryunglee/home