문단 내 위치에 따른 켑스트럼 및 스펙트럼 측정치 비교

A Comparison of Cepstral and Spectral Measures according to Measurement Position in a Reading Passage

Article information

Commun Sci Disord Vol. 22, No. 4, 818-826, December, 2017
Publication date (electronic) : 2017 December 31
doi : https://doi.org/10.12963/csd.17433
aThe Institute of Logopedics and Phoniatrics, Department of Otorhinolaryngology, Gangnam Severance Hospital, Seoul, Korea
bVoice Clinic, Department of Otorhinolaryngology, Gangnam Severance Hospital, Seoul, Korea
cDepartment of Otorhinolaryngology, Yonsei University College of Medicine, Seoul, Korea
이승진a, 임성은b, 최홍식,a,c
a강남세브란스병원 이비인후과 후두음성언어의학연구소
b강남세브란스병원 이비인후과 언어치료실
c연세대학교 의과대학 이비인후과학교실
Correspondence: Hong-Shik Choi, MD, PhD Department of Otorhinolaryngology, Yonsei University College of Medicine, 211 Eonju-ro, Gangnam-gu, Seoul 06273, Korea Tel: +82-2-2019-3461 Fax: +82-2-3463-4750 E-mail: hschoi@yuhs.ac
Received 2017 October 2; Revised 2017 October 31; Accepted 2017 November 7.

Abstract

배경 및 목적

본 연구에서는 음성장애의 중증도를 통제한 상태에서 켑스트럼과 스펙트럼 측정치가 집단 및 문단 내의 측정 위치에 따라 차이가 있는지를 알아보고자 하였다. 또한, 각 위치에서 켑스트럼 및 스펙트럼 측정치를 이용한 중증도 추정치의 진단적 가치를 탐색하였다.

방법

음성장애 환자군 및 정상 대조군 각 35명으로 하여금 표준문단 ‘가을’을 읽도록 하였다. 26–30 음절 길이의 문장 샘플을 각 문단 샘플 내 세 위치(앞, 중간, 뒤)에서 잘랐으며, 각 샘플에서 켑스트럼 피크 현저성(CPP), L/H 비율(SR), 그리고 각 표준편차를 측정하였다. 청지각적으로는 CAPE-V의 전반적 중증도를 측정하였다. 중증도를 통제한 상태에서 집단 및 위치 간에 켑스트럼 및 스펙트럼 측정치를 비교하였고, 각 위치에서 이들 측정치가 청지각적 중증도와 갖는 관련성을 살펴보았으며, ROC 커브 분석을 통해 청지각적 추정치의 진단적 가치를 탐색하였다.

결과

뒷부분의 CPP는 중간 부분보다 낮았던 반면, 뒷부분의 SR 표준편차는 앞과 중간 부분보다 높았다. 한편, 청지각적 중증도와 켑스트럼 및 스펙트럼 측정치의 상관관계뿐 아니라, 청지각적 추정치의 진단적 가치 또한 앞부분에서 가장 높게 나타났다.

논의 및 결론

연구 및 임상 현장에서 문단 내 위치에 따른 CPP 및 SR 측정치의 변이성을 고려할 필요가 있을 것으로 여겨진다.

Trans Abstract

Objectives

The purpose of the present study was to investigate whether cepstral and spectral measures differ according to measurement position in a reading passage, upon controlling for the overall severity of voice disorders. Furthermore, the diagnostic value of perceptual estimates in each position was explored.

Methods

Thirty-five patients with voice disorders and 35 normal controls were asked to read the standard passage ‘Ga-eul’. For each sample, sentence samples of 26–30 syllable length were trimmed in 3 positions (front, middle, rear) of the passage, measuring cepstral peak prominence (CPP), L/H spectral ratio, and standard deviations (SDs). Overall severity from the CAPE-V was measured perceptually. Upon controlling for severity, cepstral measures were compared between groups and positions. The association of acoustic measures with overall severity was explored by conducting a multiple regression analysis in each position. The diagnostic value of perceptual estimates derived from acoustic measures was explored using ROC curve analysis.

Results

Results indicated that CPP of the rear position was lower than that of the middle position, while SD of the L/H ratio of the rear position was higher than those of the front and middle positions. On the other hand, the relationship between perceptual and cepstral and spectral measures, along with the diagnostic value, was the highest for the front position.

Conclusion

It is recommended that the variability of the cepstral and spectral measures among positions be considered in research and clinical practice.

‘켑스트럼(cepstrum)’이란 스펙트럼 측정치를 다시금 푸리에 역변환한 것으로서, 음성 신호의 배음 구조를 스펙트럼에 비해 더욱 분명하게 시각화해주는 특징이 있으며, 스펙트럼의 주파수(frequency)가 ‘큐프렌시(quefrency)’로, 진폭(amplitude)이 ‘램피튜드(lampitude)’로, 위상(phase)은 ‘사프(saphe)’로, 배음(harmonic)이 ‘라모닉(rahmonic)’으로 대치된다(Heman-Ackah, Michael, & Goding, 2002). 켑스트럼 분석을 이용하여 산출되는 대표적인 음향학적 측정치인 ‘켑스트럼 피크 현저성(Cepstral Peak Prominence, CPP)’이란 켑스트럼의 최대치 값과 켑스트럼에 적합화(fitting) 된 회귀선상의 해당 점과의 차이이다(Hillenbrand, Cleveland, & Erickson, 1994).

켑스트럼 관련 분석에 이용되는 여러 프로그램 가운데 Analysis of Dysphonia in Speech and Voice (ADSV Model 5109; KayPentax, Montvale, NJ, USA)가 있다. ADSV에서 측정이 가능한 주요 변수로는 CPP 뿐만 아니라 L/H 비율(low/high spectral ratio, SR), 그리고 각각의 표준편차 등이 있다(Shim, Jang, Shin, & Ko, 2015). SR은 4 kHz를 기준으로 그보다 낮은 저주파수대 스펙트럼 에너지와 그보다 큰 고주파수대 스펙트럼 에너지의 비율로 정의되는데, 장애 음성에서 그 수치가 더욱 낮은 경향이 있으며, CPP와 함께 보조적으로 사용됨으로써 기식성 음성을 평가하는 데 일정 정도 기 여할 수 있는 것으로 알려져 있다(Lowell, Colton, Kelley, & Mizia, 2013). 동일한 품질의 녹음 하드웨어를 사용하였다는 전제하에, ADSV와 Praat 프로그램은 서로 다른 CPP 측정치를 보이나 유사한 경향성을 보이며(Kim, Lee, Park, Bae, & Kwon, 2017), 음성장애의 유무를 예측하는 데 있어, ADSV는 Praat 프로그램에 비해 다소 낮기는 하나 충분한 수준의 정확도를 보이는 것으로 보고된다(Watts, Awan, & Maryn, 2017). 다른 한편으로는 분석과 시각화(visualization)의 측면에서는 스크립트에 대한 숙련도가 부족한 임상가 혹은 연구자의 경우에도 Praat에 비해 활용이 상대적으로 다소 용이한 장점이 있는 것으로 여겨진다(Sauder, Bretl, & Eadie, 2017).

기존에 임상 또는 연구에서 흔히 이용되던 시간 기반(time-based) 음향학적 분석의 경우, 분석의 대상 음성 신호가 ‘주기적 복합음’이라는 전제에서 출발하므로, 소음이 포함되어 주기성이 결여된 장애 음성에 적용하면 음향학적 분석이 불가능한 비율이 20%에 이른다(Awan, Roy, Zhang, & Cohen, 2016). 반면, 켑스트럼 분석은 이러한 장애 음성, 특히 기식성 음성에 대하여 더 민감하고 신뢰할 만한 분석 도구로 이용될 수 있을뿐 아니라, 후속 연구들을 통하여 전반적인 음성의 질에 대한 검사에 이르기까지 그 용도가 점차 확장되는 추세이다(Fraile & Godino-Llorente, 2014). 더욱이, 켑스트럼 및 스펙트럼 측정치들을 토대로 음성장애의 주관적인 청지각적 중증도 평정치를 상당한 정도로 예측할 수 있는 켑스트럼 스펙트럼 음성장애 지수(Cepstral Spectral Index of Dysphonia, CSID), 또는 음향학적 음성 질 지수(Acoustic Voice Quality Index, AVQI)와 같은 보다 객관적 지표의 개발이 수행되어 왔으며(Awan et al., 2016; Maryn & Weenink, 2015), 여러 분석 프로그램 간의 측정치 비교 및 모바일 운영체제에 기반을 둔 애플리케이션의 개발 등을 통하여 진단도구로서의 임상적 유용성과 편의성을 개선시켜 온 것으로 평가받고 있다(van Leer, Pfister, & Zhou, 2017; Watts et al., 2017).

켑스트럼 분석의 가장 큰 장점 가운데 하나는 모음뿐만 아니라 다양한 종류의 연결발화 샘플에 적용이 가능하다는 점이며, 연결발화 샘플을 이용한 음향학적 측정치가 모음에 비해 청지각적 평정치와의 관련성이 더욱 크다는 연구결과들로 인해 그 중요성이 증대되고 있다(Awan, Roy, & Dromey, 2009; Brinca, Batista, Tavares, Goncalves, & Moreno, 2014; Moers et al., 2012). 연결발화 샘플에 대한 적용 가능성은 음성장애 환자의 일상 대화 시의 음성상태와 가까운 샘플에 대한 분석을 통하여, 다면적인 음성검사에 도움을 줄 수 있는 것으로 평가된다(Watts & Awan, 2011).

그러나, 국내의 임상 현장에서 사용되는 비율이 약 70% (Choi, 2013)에 이를 정도로 널리 활용되는 표준문단의 경우, CPP나 SR을 측정하기 위해 어느 말 자료의 어느 부분을 분석하는 것이 바람직한지에 대한 명확하고 검증된 기준은 아직 마련되어 있지 않다. 이에, 국내 선행연구에서는 연구마다 말 자료 없이 모음 샘플만을 분석하거나(Choi & Choi, 2014; Kang & Koo, 2015; Kang, Koo, & Jo, 2015; Kang & Seong, 2012; Shim et al., 2015; Shin & Hong, 2016), 짧은 자발화 문장을 사용하거나(Yu, Choi, Choi, & Lee, 2017), 특정 표준문단(예: ‘가을’, ‘산책’ 문단 등)의 각기 다른 일부 문장 부분을 분석의 대상으로 삼아왔다(Choi & Choi, 2016; Kim, Choi, Lee, & Jin, 2015; Lee, Lim, & Choi, 2017; Park, Mun, Lee, & Jin, 2013; Shim et al., 2016).

문단 수준 글을 읽을 때 문단 앞부분보다 뒷부분에서 음성 피로(vocal fatigue)의 영향을 보이는 임상 사례들이 다수 관찰되나, 분석 위치에 따른 차이를 고려하지 않는 경향은 국내뿐 아니라 해외의 여러 연구들에서도 찾아볼 수 있다(Heman-Ackah et al., 2014; Lowell et al., 2013; Moers et al., 2012; Peterson et al., 2013; Stone et al., 2015). 다만, 한 선행연구에서는 한 호흡 그룹으로 이루어진 문장 내에서 앞의 4음절과 뒤의 4음절 샘플의 CSID를 비교한 결과, 환자군의 경우에만 앞부분보다 뒷부분에서 유의한 증가를 보임을 보고하였다(Watts & Awan, 2015). 또한, 한 국내 연구에서는 대표적인 두 표준문단인 ‘가을’과 ‘산책’의 ‘처음과 끝 부분’을 분석대상으로 하였으나, 아쉽게도 분석 위치 간 비교는 이루어지지 못하였다(Choi & Choi, 2016). 이렇게 연결발화 샘플 내에서의 위치에 따른 차이가 존재할 가능성이 시사됨에도 불구하고, 문단 수준 연결의 발화 샘플 내에서 분석 위치에 따른 켑스트럼 측정치의 차이를 살펴 본 연구는 매우 부족한 실정이다.

대상군 측면에서도 기준이 될 수 있는 정상 음성을 지닌 대상자보다는 이질적인 음성장애 집단(Kim et al., 2015; Lee et al., 2017; Park et al., 2013)이나, 성대마비 환자(Kang & Seong, 2012), 후두적출자(Shim et al., 2015), 연축성 발성장애 환자(Shim et al., 2016), 갑상선절제술 환자(Kang & Koo, 2015; Shin & Hong, 2016), 마비말장애 환자(Seo & Seong, 2013) 등 특정 질환 환자군에 대한 적용에 국한되어 있는 경향이 있다.

이러한 분석 기준 및 정상군에 대한 연구의 부재는 그 학술적, 임상적 유용성에도 불구하고 켑스트럼 기반 측정치들이 ‘주파수변동률(jitter percent)’, ‘진폭변동률(shimmer percent)’, 또는 ‘소음 대 배음비(noise-to-harmonic ratio)’ 등 전통적인 음향학 측정치들에 비해 상대적으로 덜 활용되는 이유들 가운데 하나일 것으로 여겨진다. 그러므로, 이러한 기준을 마련하는 연구들을 통해 나아가 보다 타당하고 신뢰할 만한 음성평가의 지침을 마련함으로써 음성장애에 대한 근거기반 중재의 토대를 마련하는 데에도 일조할 것으로 여겨진다.

특히, 임상 지향적인 입장에서는 별도의 말 자료를 새로이 제작 및 구성하는 것보다는 기존에 임상에서 널리 이용되는 말 자료를 이용하는 것이 바람직할 것으로 보인다. 그 이유는 첫째, 같은 말 자료를 이용한 다른 분석 방법(예: 청지각적 평가, 전기성문파형검사 등)을 통해 얻어진 측정치들과의 비교를 용이하게 수행할 수 있기 때문이다. 둘째, 이미 녹음된 연결발화 샘플에 대한 적용을 통하여 후향적 연구를 수행할 수 있기 때문이다. 이는 CPP뿐만 아니라 기존에 널리 활용되는 음향학적 변수들을 활용한 후속 연구를 용이하게 함으로써, 켑스트럼 분석의 활용도를 더욱 제고하는 데에 도움이 될 것이다. 이러한 맥락에서 많은 해외의 연구들에서도 역시 ‘Rainbow passage’와 같이 기존에 임상 및 연구에서 널리 이용되어 온 문단을 활용하였다(Peterson et al., 2013).

따라서, 본 연구에서는 기존에 음성 평가에 가장 널리 이용되어 오고 있는 표준문단 중 하나인 ‘가을’ 문단을 통해 얻은 연결발화 샘플에서 음성장애의 전반적 중증도를 통제한 상태에서 문단 내 분석 지점(앞, 중간, 뒷부분) 및 음성장애 여부에 따라 CPP, SR, 그리고 각각의 표준편차의 차이가 있는지 알아보고자 하였다. 또한, 각 부분의 측정치가 대상자의 음성의 전반적 중증도에 대한 청지각적 측정치와 상관관계가 있는지를 확인하였다. 마지막으로, 각 부분에서의 측정치들을 활용하여 산정한 전반적 중증도 예측치가 음성장애 여부에 대하여 갖는 진단적 가치를 알아보고자 하였다.

연구방법

연구대상

본 연구의 대상자는 서울의 한 종합병원 이비인후과의 음성클리닉에 내원하여 이비인후과 전문의에 의해 여러 병인의 음성장애(편측 성대폴립 9명, 내전형 연축성 발성장애 6명, 양측 성대결절 5명, 인후두역류질환, 성대구증 및 편측 성대마비 각 3명, 접촉성 육아종, 기능적 실성증, 성대낭종, 후두 유두종, 만성후두염 및 성대반흔 각 1명)로 진단된 음성장애 환자군 35명(남 11명, 여 24명)과 서울 지역에 거주 중이고, 음성의 질이 정상적인 것으로 보고되며, 한국어 모국어 화자인 정상대조군 35명(남 8명, 여 27명)이었다. 집단 간에 성비의 차이는 없었다(p =.592). 환자 가운데 음성장애와 관련된 다른 신경학적 질환이 있거나, 다른 기관에서 이미 수술적, 혹은 행동적 치료를 받았거나, 문맹 혹은 무학이거나, 문단 읽기에 현저한 어려움을 보이는 것으로 간주된 대상자는 제외하였다. 대조군의 경우 검사일을 기준으로 1개월 이내에 음성 문제를 주 호소로 이비인후과에 내원한 적이 있거나, 흡연력이 보고된 자는 연구에서 제외하였다. 연령은 환자군 44.63±13.74세, 대조군 43.94±13.50세로서 집단 간에 유의한 차이가 없었다(t = −.211, p =.834) (Table 1).

Demographic data of the participants

음성 녹음

조용한 음성 검사실에서 대상자가 의자에 편안하게 앉도록 한 후 녹음을 진행하였으며, 녹음 시 소음 측정기(Voltcraft Datalog-ger 322; Conrad Electronic, Hirschau, Germany)를 활용하여 주변부의 소음이 50 dB 이하로 유지될 수 있도록 하였다. 음성 녹음 환경은 미국의 The National Center for Voice and Speech의 권고사항을 참고하여, 넓고 평활(flat)한 주파수 응답성을 갖춘 마이크, 프리 앰프(pre-amplifier), 컴퓨터 및 컴퓨터 인터페이스, 레코딩 소프트웨어로 구성하였다(Spielman, Starr, Popolo, & Hunter, 2007). 구체적으로는 소음 방지를 위한 팬리스 태블릿 PC (Surface Pro 4, Core m3 model; Microsoft, Redmond, WA, USA), USB 기반의 오디오 인터페이스(UR-22; Steinberg Media Technologies GmbH, Hamburg, Germany), 프리 앰프(Tube Ultragain MIC200; Beh-ringer GmbH, Kirchardt, Germany), 단일 지향성 다이나믹 마이크(SM48; SHURE, Niles, IL, USA)와 녹음 소프트웨어(Sony Sound Forge Pro 11.0; Sony Creative Software Inc., Middleton, WI, USA)를 이용하였다(샘플링 비율 44,100 Hz, 16-bit 양자화, wav 확장자). 마이크는 스탠드를 이용하여 대상자의 입술에서부터 정면으로 직선거리 5–10 cm에 위치하여 잘 유지하도록 하였다.

말 과제로는 각 대상자로 하여금 ‘가을’(Kim, 2012) 문단 전체를 읽도록 하여 녹음하였다. 이때, 대상자로 하여금 평상시에 대화할 때와 마찬가지로 자연스러운 음도와 크기로 읽도록 하였다(Lee et al., 2017).

켑스트럼 분석

녹음이 완료된 후 제1저자가 ADSV 소프트웨어를 이용하여 아래의 세 가지 문장을 잘라내어 별도의 파일로 저장하였다. (1) 앞 문장(두 번째 문장, ‘무엇보다도 산에 오를 땐 더욱 더 그 빼어난 아름다움이 느껴진다’, 26음절), (2) 중간 문장(여섯 번째 문장의 뒷부분, ‘과연 예부터 가을을 천고마비의 계절이라 일컫는 이유를 알게 될 것만 같다’, 30음절), (3) 뒷문장(아홉 번째 문장의 뒷부분, ‘독서는 우리에게 마음을 살찌우고 아름답게 하는 힘을 주기 때문이다’, 28음절). 위의 세 문장을 선정한 이유는, 먼저 26–30음절로 길이가 비교적 유사하고, 조음 방법 및 장소의 측면에서 한국어의 다양한 음소들을 포함하고 있으며, 장애음(obstruent)을 포함한 음소 비율이 비교적 유사하기 때문이었다(앞 문장 53.85%, 중간 문장 45.45%, 뒷문장 51.61%). 또한, 앞문장과 중간 문장 사이의 문장들은 총 106음절, 중간 문장과 뒷문장 사이의 문장들은 총 102음절로 세 문장의 문단 내 간격이 비교적 유사하였기 때문이다. 트리밍 시에는 음성 샘플을 재생하고, 해당 부분의 스펙트로그램과 파형을 보며 시작과 끝을 정확하게 확인하였다. 또한, 청지각적 평가를 위해 세 문장 샘플을 순서대로 붙여 넣은 별도의 발화 샘플을 파일로 저장하였다. 각 위치별 문장 샘플에 대하여 ADSV 프로그램을 이용하여 CPP (앞, 중간, 뒷부분이 각각 CPP F, CPP M CPP R), SR (앞, 중간, 뒷부분이 각각 SR F, SR M SR R), 그리고 이 두 변수의 표준편차(각 위치의 σ CPP, σ SR)를 측정하였다.

청지각적 평가

청지각적 평가는 각 문장의 문단 내 위치에 따른 평가자의 선입견을 배제하기 위하여 각 대상자마다 세 문장 샘플을 붙여 넣은 발화샘플을 이용하였다. 구체적으로는, 무작위 순서로 재생한 발화 샘플들을 듣고, CAPE-V (Kempster, Gerratt, Verdolini Abbott, Barkmeier-Kraemer, & Hillman, 2009)의 전반적 중증도(overall severity) 항목에 대하여 평가하였으며, 시각 아날로그 척도(visual analogue scale) 방식으로 엑셀 시트를 활용하여 평정하였다. 평정자 3인은 음성검사 및 음성치료를 주된 업무로 하는 대학병원의 음성 클리닉에서 근무한 경력이 각 1년, 3년, 19년인 언어재활사였으며, 3인의 평정치의 중위수를 각 대상자의 최종 평정치로 하였다.

통계분석

중증도를 통제한 상태에서 집단과 문단 내 위치에 따라 켑스트럼(CPP, σ CPP) 및 스펙트럼(SR, σ SR) 측정치의 차이가 있는지 알아보기 위하여, CAPE-V를 통해 측정된 전반적 중증도를 공변량으로 설정하여 이원 중다공변량 분석(two-way multivariate analysis of covariance, MANCOVA)을 수행하였으며, 사후분석으로는 Bonferroni 검정을 수행하였다. 또한, 각 부분에서 측정한 켑스트럼 및 스펙트럼 측정치가 전반적 중증도 평정치와 갖는 관련성을 확인하기 위해 다중회귀분석을 실시하였다. 통계 프로그램으로는 SPSS 23.0 software (IBM-SPSS Inc., Armonk, NY, USA)를 활용하였고, 유의수준은 .05로 하되, 회귀분석에서는 Bonferroni 교정방법을 적용하여 .017로 설정하였다. 마지막으로, 각 부분의 회귀식을 통해 산정된 중증도 추정치가 음성장애 여부에 대하여 갖는 진단적 가치를 확인하고 비교하기 위해 수신자 조작 특성 곡선(receiver operating characteristic curve, ROC 곡선) 분석을 시행하여 곡선 아래 영역(area under curve, AUC)을 산정하였고, 각 위치의 AUC 간에 쌍별 비교(pairwise comparison)를 시행하였다. ROC 곡선 분석에는 Med-Calc Statistical Software version 17.9.7 (MedCalc Software, Ostend, Belgium; http://www.medcalc.org; 2017)을 이용하였다.

연구결과

집단 및 위치에 따른 켑스트럼 및 스펙트럼 측정치 비교

집단 및 문단 내 위치에 따라 살펴 본 켑스트럼 및 스펙트럼 측정치의 기술통계는 Table 2와 같다.

Descriptive statistics of cepstral and spectral measures according to groups and positions in a standard passage

각 위치의 측정치들에 대하여 two-way MANCOVA를 실시한 결과, 문단 내 위치에 따라 유의한 차이가 나타난 반면(Wilk’ s λ= .539, p < .001), 집단(Wilk’ s λ=.961, p =.091) 및 상호작용 효과(Wilk’ s λ=.978, p =.811)는 없었다. 네 가지 음향학적 측정치 중에서는 CPP (F = 3.341, p =.037), σ SR (F = 74.733, p< .001)에서 차이가 나타났다. 사후검정을 시행한 결과, CPP R이 CPP M에 비해 유의하게 낮았으며(p =.035), σ SR R이 σ SR F (p< .001)와 σ SR M (p< .001)에 비해 유의하게 높았다.

집단에 따른 전반적 중증도 측정치 비교

CAPE-V의 전반적 중증도 항목을 통해 확인한 집단에 따른 청지각적 측정치는 Table 3과 같다.

Descriptive statistics of overall severity measures using CAPE-V

청지각적 평정치의 정규성 검정을 위하여 샤피로-윌크 검정(Shapiro-Wilk's test)을 수행한 결과, 정상 대조군의 측정치가 정규분포를 이루지 않았다(p< .001). 이에, 집단 간 전반적 중증도 측정치를 맨-휘트니 검정(Mann-Whitney U-test)을 통하여 비교한 결과, 환자군의 전반적 중증도 측정치가 유의하게 높게 나타났다(Z = −6.440, p< .001).

켑스트럼 및 스펙트럼 측정치와 전반적 중증도의 관련성

문단 내 각 위치별로 다중회귀분석을 시행한 결과, Table 4와 같이 모든 모형이 유의한 것으로 나타났다(p< .001). 앞, 중간, 뒷부분의 회귀모형의 R2값은 각각 .654, .506, .487로 앞 문장 위치에서 가장 높았다. 각 위치별로 전반적 중증도 평정치와 회귀식을 활용한 예측치의 산포도와 켑스트럼 및 스펙트럼 측정치를 이용한 회귀 모형이 Figure 1에 제시되어 있다.

Regression analysis of association of the cepstral measures among positions with perceptual estimates

Figure 1.

A scatter plot for overall severity measures and predictive value of each regression model.

위치에 따른 중증도 예측치의 ROC 곡선 분석

위치별 중증도 예측치의 음성장애 유무에 대한 ROC 곡선 분석을 시행한 결과, Figure 2와 같이 각 위치별 예측치의 AUC는 각각 0.829 (95% CI, 0.721–0.909), 0.820 (95% CI, 0.709–0.901), 0.795 (95% CI, 0.682–0.882)로 나타났다. 앞과 중간 부분의 AUC는 .8 이상으로 좋음(good) 수준이었고, 뒷부분의 경우 .8에 가까우나 약간 못 미치는 양호(fair) 수준의 정확도를 보였다. 각 위치별 AUC를 쌍별로 비교한 결과, 앞-중간(z = 0.241, p =.810), 중간-뒤(z = 0.940, p =.347), 뒤-앞(z = 0.621, p =.534)의 세 가지 쌍 모두 유의한 차이가 없었다.

Figure 2.

Receiver operating characteristic (ROC) curve of the overall severity estimates.

논의 및 결론

본 연구에서는 임상과 연구에서 널리 활용되어 온 표준 문단인 ‘가을’에 대하여, 중증도를 통제한 상태에서 문단 내 분석 지점 및 음성장애의 여부에 따라 켑스트럼 및 스펙트럼 측정치들의 차이가 있는지 알아보았다. 또한, 각 위치의 측정치가 청지각적으로 평정된 전반적 중증도와 관련성이 있는지를 확인하였다. 마지막으로, 각 부분에서의 측정치를 이용하여 산정된 전반적 중증도 예측치가 음성장애 여부에 대하여 갖는 진단적 가치를 알아보았다.

먼저, 위치에 따른 CPP 측정치의 차이가 있었다. 구체적으로는 CPP R이 CPP M에 비해 낮았는데, 이는 문단 수준의 글을 읽을 때 문단 뒷부분에 이르러서야 비로소 음성 피로의 효과로 인해 음성의 질이 낮아질 수 있다는 것을 의미한다. 이러한 차이는 분석 위치에 따른 차이를 연구한 국내 선행연구의 부재로 인하여 그 해석에 다소 어려움이 있다. 그러나, 음성장애 환자의 경우 한 호흡 그룹 안에서도 CSID가 증가한다는 것을 보고한 선행연구 결과와 일맥상통하는 것으로 보인다(Watts & Awan, 2015). 반면, 모음의 기식성에 대한 구간별 스펙트럼 분석을 시도한 결과, 구간에 따른 기식성의 차이가 없었음을 보고한 또 다른 선행연구와는 상반된 것이다(Lee et al., 2015). 이는 부분적으로는 해당 연구에서 여성 정상군(청년 및 노년층)만을 대상으로 하였고, 분석방법 또한 스펙트럼 기반의 분석만을 수행하였기 때문인 것으로 보인다. 따라서, 동일 샘플에 대하여 스펙트럼 기반의 분석과 켑스트럼 기반의 분석 중에서 어떠한 분석방법이 위치에 따른 차이, 나아가 음성 피로의 영향을 더욱 잘 반영하는지에 대한 연구문제가 제시될 수 있으며, 이는 후속 연구를 통해 해결되어야 할 것으로 생각된다. 켑스트럼 및 스펙트럼 측정치와 전통적인 음향학적 측정치들을 함께 분석한 일부 연구들에서 변수마다 서로 다른 상관성이 보고되었다는 사실이 이러한 필요성을 더욱 뒷받침해준다(Jannetts & Lowit, 2014; Shim et al., 2015).

또한, σ SR R이 σ SR F와 σ SR M에 비해 높은 것은 음성 피로에 따른 영향의 정도가 뒷부분에서 더욱 큰 개인차를 보였을 수 있다는 것을 시사한다. 따라서, 적어도 켑스트럼 분석에 있어서는 환자 스스로 음성 피로를 호소하거나, 혹은 검사의 목적상 이러한 개인차를 확인하고자 분석을 시행한다면, 일정 길이 이상의 연결발화 샘플을 사용하여 뒷부분에 이르기까지 분석을 수행하여야 할 필요성이 일부 시사된다고 할 수 있다. 아울러 이러한 변이성(variability)은 비단 특정 연결발화 샘플 내의 위치뿐만 아니라 다른 요인에 의해서도 유발될 수 있다는 점을 상기해볼 필요가 있다. 예를 들어, 일반적으로 노년층에서는 말 산출에 있어 불안정성(instability) 혹은 변이성을 더욱 크게 나타내며(Lee et al., 2015; Linville, 2001), 과제의 종류 또한 이러한 변이성을 유발하는 요인 중 하나가 될 수 있다. 분석방법에 있어서도 청지각적 평가, 음향학적 분석, 전기성문파형검사, 혹은 공기역학적 검사 등 여러 다른 양식의 평가에 있어서도 이러한 경향을 확인하여 볼 필요성이 있다고 본다.

문단 내 각 위치별로 측정된 켑스트럼 분석치들은 위치와 무관하게 청지각적 측정치와 유의한 관련성을 나타냈다. 이는 켑스트럼 분석치들이 청지각적 평정을 통해 산출된 전반적 중증도를 유의하게 예측한다는 선행연구 결과들과 일치하는 것이다(Awan et al., 2016; Lowell et al., 2013; Maryn & Weenink, 2015). 다만, 각 회귀 모형의 설명력을 살펴보면 앞 문장에서 R2값이 가장 높았다. 이렇게 위치에 따라 양자 간 관련성의 정도가 다소 차이가 나는 점은, 앞서 언급하였듯이 뒷문장 부분에서 음성 피로의 영향을 받은 정도가 더욱 큰 개인차를 보였던 점과도 무관하지 않은 것으로 보인다.

위치별 중증도 예측치에 대하여 ROC 곡선 분석을 시행한 결과, 세 위치의 예측치 모두 .7 이상으로 ‘양호’ 이상 수준의 정확도를 보였음을 확인하였다(Hosmer & Lemeshow, 2013). 이는 연결발화 샘플의 켑스트럼 및 스펙트럼 측정치가 환자와 정상군을 유의하게 구분한다는 선행연구와 일맥상통한다(Sauder et al., 2017; Watts & Awan, 2011). 또한, 분석 위치와 무관하게, 현재 임상현장에서 널리 이용되는 한국어 문단 읽기 샘플을 이용한 켑스트럼 및 스펙트럼 측정치들이 음성장애 유무를 판단하는 데 있어 유용한 선별 수단이 될 수 있다는 점을 시사한다. 비교적 적은 대상자 수로 인하여 해석에 다소 조심스러운 부분이 있으나, 앞 부분 예측치의 AUC가 다른 위치와 비교하여 손색없이 높은 수치를 보이는 것은 ‘가을’ 문단의 두 번째 문장만으로도 음성장애 유무를 선별하는 데에는 부족함이 없다는 것을 시사한다고도 해석할 수 있다. 이는 시간적인 측면에서 효율성이 요구되는 임상 현장에서 참고할 만한 부분인 것으로 생각된다. 아울러, 충분한 문해능력을 갖추지 못하거나, 신경학적 문제, 혹은 시지각상의 문제 등으로 인해 읽기 능력이 제한된 음성장애 환자가 내원한 경우, 긴 문단 읽기 과제를 수행하는 대신 비교적 인지적 부담이 덜한, 문장 한 개를 단순히 따라말하는 과제를 수행하는 등의 방식으로 대체할 수 있는 근거가 되리라 본다.

위의 결과들은 나아가 켑스트럼 분석을 통해 산정된 객관적 수치들을 이용하여 주관적인 청지각적 평정치를 예측하는 ‘지표(index)’의 개발 및 사용을 지지한다고 할 수 있다. 음성 평가에 있어 가장 중요한 지표라 할 수 있는 평가 양식은 숙달된 전문가의 청지각적 평가라 할 수 있으나, 객관적 지표들을 이용하여 청지각적 평가 결과를 예측하고, 나아가 이를 보완하고자 하는 시도들이 이루어져 왔다(Fraile & Godino-Llorente, 2014). 이에, CSID 또는 AVQI 의 경우와 마찬가지로, 한국어의 표준문단 발화 샘플을 이용한 지수에 대한 후속 연구를 통하여 비교적 간단하고 비침습적인 켑스트럼 분석을 이용한 음성장애의 선별검사 도구로서의 지수 개발 가능성이 시사된다.

이미 각 성별, 연령대 및 분석 프로그램에 따른 정상 규준치들이 제시되어 활발히 이용되어 온 주기성 기반의 음향학적 측정치들과는 달리, CPP를 포함한 켑스트럼 분석치들의 경우 국내에서는 아직 포괄적인 정상 규준 자료가 제시되어 있지 않다. 다만, 정상 청년층 51명을 대상으로 한 국내 선행연구에서는 성별 및 모음에 따른 차이의 가능성을 보고하였다(Choi & Choi, 2016). 해외의 선행 규준 연구에서도, 표준 문단의 첫 번째 문장만을 선택하여 결과를 제시하였으며, 본 연구에서 밝혀진 위치에 따른 차이는 고려되어 있지 않다(Heman-Ackah, et al., 2014). 따라서, 향후 연구에서는 연령 및 성별을 비롯하여 음성과 밀접하게 관련된 변수들에 따른 차이(Balasubramanium, Shastry, Singh, & Bhat, 2015; Hasanvand, Salehi, & Ebrahimipour, 2017)뿐 아니라 문단 내 위치에 따른 차이를 고려하여 켑스트럼 분석치에 대한 정상 규준 자료를 마련하여야 할 필요가 있을 것으로 보인다. 다시 말해서, 만약 본 연구와 마찬가지로 ‘가을’ 문단을 이용하거나. 혹은 유사한 길이의 문단을 읽는 과제를 활용한다면, 적어도 앞부분과 뒷부분의 규준치를 별도로 제시하여야 할 필요성이 시사된다고 할 수 있을 것이다.

종합해보면, 임상과 연구에서 켑스트럼 및 스펙트럼 분석을 활용할 때 분석의 목적에 따라 문단 내의 서로 다른 위치에서 연결발화 샘플을 선정할 필요성이 시사된다고 판단된다. 다만, 본 연구에서 환자군의 음성장애 중증도는 비교적 고른 분포를 보였으나, 후속 연구에서는 최심도의 음성장애 환자를 비롯하여, 보다 다양한 분포의 중증도 스펙트럼과 병인을 가진 환자들이 포함되어야 할 것으로 여겨진다. 또한, 전술한 바와 같이. 다양한 관련 요인을 고려한 규준 자료의 제시를 위한 연구를 통해 켑스트럼 및 스펙트럼 분석의 유용성이 추가적으로 보완되리라 생각된다.

References

Awan, S. N., Roy, N., & Dromey, C. (2009). Estimating dysphonia severity in continuous speech: application of a multi-parameter spectral/cepstral model. Clinical Linguistics & Phonetics, 23, 825–841.
Awan, S. N., Roy, N., Zhang, D., & Cohen, S. M. (2016). Validation of the Cepstral Spectral Index of Dysphonia (CSID) as a screening tool for voice disorders: development of clinical cutoff scores. Journal of Voice, 30, 130–144.
Balasubramanium, R. K., Shastry, A., Singh, M., & Bhat, J. S. (2015). Cepstral characteristics of voice in Indian female classical carnatic singers. Journal of Voice, 29, 693–695.
Brinca, L. F., Batista, A. P., Tavares, A. I., Goncalves, I. C., & Moreno, M. L. (2014). Use of cepstral analyses for differentiating normal from dysphonic voices: a comparative study of connected speech versus sustained vowel in European Portuguese female speakers. Journal of Voice, 28, 282–286.
Choi, S. H., & Choi, C. C. (2014). The utility of perturbation, non-linear dynamic, and cepstrum measures of dysphonia according to signal typing. Phonetics and Speech Sciences, 6, 63–72.
Choi, S. H., & Choi, C. H. (2016). The effect of gender and speech task on cepstral- and spectral-measures of Korean normal speakers. Audiology and Speech Research, 12, 157–163.
Choi, S. H. (2013). Speech-language pathologists' voice assessment and voice therapy practices: a survey for standard clinical guideline and evidence-based practice. Communication Sciences & Disorders, 18, 473–485.
Fraile, R., & Godino-Llorente, J. I. (2014). Cepstral peak prominence: a comprehensive analysis. Biomedical Signal Processing and Control, 14, 42–54.
Hasanvand, A., Salehi, A., & Ebrahimipour, M. (2017). A cepstral analysis of normal and pathologic voice qualities in iranian adults: a comparative study. Journal of Voice, 31, 508.e17–508.e23.
Heman-Ackah, Y. D., Michael, D. D., & Goding, G. S. Jr. (2002). The relationship between cepstral peak prominence and selected parameters of dysphonia. Journal of Voice, 16, 20–27.
Heman-Ackah, Y. D., Sataloff, R. T., Laureyns, G., Lurie, D., Michael, D. D., Heuer, R., & Lyons, K. (2014). Quantifying the cepstral peak prominence, a measure of dysphonia. Journal of Voice, 28, 783–788.
Hillenbrand, J., Cleveland, R. A., & Erickson, R. L. (1994). Acoustic correlates of breathy vocal quality. Journal of Speech and Hearing Research, 37, 769–778.
Hosmer, D. W., & Lemeshow, S. (2013). Applied logistic regression. 3rd ed. New York, NY: John Wiley & Sons.
Jannetts, S., & Lowit, A. (2014). Cepstral analysis of hypokinetic and ataxic voices: correlations with perceptual and other acoustic measures. Journal of Voice, 28, 673–680.
Kang, Y., & Koo, B. (2015). Acoustic analysis of voice change according to extent of thyroidectomy. Phonetics and Speech Sciences, 7, 77–83.
Kang, Y., & Seong, C. (2012). A Cepstral analysis of breathy voice with vocal fold paralysis. Phonetics and Speech Sciences, 4, 89–94.
Kang, Y., Koo, B., & Jo, C. (2015). A comparison of CPP analysis among breathiness ranks. Phonetics and Speech Sciences, 7, 21–26.
Kempster, G. B., Gerratt, B. R., Abbott, K. V., Barkmeier-Kraemer, J., & Hill-man, R. E. (2009). Consensus auditory-perceptual evaluation of voice: development of a standardized clinical protocol. American Journal of Speech-Language Pathology, 18, 124–132.
Kim, G. H., Lee, Y. W., Park, H. J., Bae, I. H., & Kwon, S. B. (2017). A study of cepstral peak prominence characteristics in ADSV, SpeechTool and Praat. Journal of Speech-Language & Hearing Disorders, 26, 99–111.
Kim, T. H., Choi, J. I., Lee, S. H., & Jin, S. M. (2015). Comparison of vowel and text-based cepstral analysis in dysphonia evaluation. Journal of the Korean Society of Logopedics and Phoniatrics, 26, 117–121.
Lee, S. J., Cho, Y., Song, J. Y., Lee, D., Kim, Y., & Kim, H. (2015). Aging effect on Korean female voice: acoustic and perceptual examinations of breathiness. Folia Phoniatrica et Logopaedica, 67, 300–307.
Lee, S. J., Lim, S. E., & Choi, H. S. (2017). Responsiveness of the Korean version of the Voice Activity and Participation Profile (K-VAPP) after surgical intervention. Communication Sciences & Disorders, 22, 379–390.
Linville, S. E. (2001). Vocal aging. San Diego, CA: Singular Publishing Group.
Lowell, S. Y., Colton, R. H., Kelley, R. T., & Mizia, S. A. (2013). Predictive value and discriminant capacity of cepstral-and spectral-based measures during continuous speech. Journal of Voice, 27, 393–400.
Maryn, Y., & Weenink, D. (2015). Objective dysphonia measures in the program Praat: smoothed cepstral peak prominence and acoustic voice quality index. Journal of Voice, 29, 35–43.
Moers, C., Möbius, B., Rosanowski, F., Nöth, E., Eysholdt, U., & Haderlein, T. (2012). Vowel-and text-based cepstral analysis of chronic hoarseness. Journal of Voice, 26, 416–424.
Park, M. C., Mun, M. K., Lee, S. H., & Jin, S. M. (2013). Clinical usefulness of cepstral analysis in dysphonia evaluation. Korean Journal of Otorhinolar-yngology-Head and Neck Surgery, 56, 574–578.
Peterson, E. A., Roy, N., Awan, S. N., Merrill, R. M., Banks, R., & Tanner, K. (2013). Toward validation of the cepstral spectral index of dysphonia (CSID) as an objective treatment outcomes measure. Journal of Voice, 27, 401–410.
Sauder, C., Bretl, M., & Eadie, T. (2017). Predicting voice disorder status from smoothed measures of cepstral peak prominence using Praat and Analysis of Dysphonia in Speech and Voice (ADSV). Journal of Voice, 31, 557–566.
Seo, I., & Seong, C. (2013). Voice quality of dysarthric speakers in connected speech. Phonetics and Speech Sciences, 5, 33–41.
Shim, H. J., Jang, H. R., Shin, H. B., & Ko, D. H. (2015). Cepstral, spectral and time-based analysis of voices of esophageal speakers. Folia Phoniatrica et Logopaedica, 67, 90–96.
Shim, H. J., Jung, H., Lee, S. A., Choi, B. H., Heo, J. H., & Ko, D. H. (2016). Cepstral and spectral analysis of voices with adductor spasmodic dysphonia. Phonetics and Speech Sciences, 8, 73–80.
Shin, Y. J., & Hong, K. H. (2016). Cepstral analysis of voice in patients with thyroidectomy. Clinical and Experimental Otorhinolaryngology, 9, 157–162.
Spielman, J., Starr, A. C., Popolo, P. S., & Hunter, E. J. (2007). Recommendations for the creation of a voice acoustics laboratory, http://www.ncvs.org/ncvs/library/tech/NCVSOnlineTechnicalMemo07.pdf.
Stone, D., McCabe, P., Palme, C. E., Heard, R., Eastwood, C., Riffat, F., & Madill, C. (2015). Voice outcomes after transoral laser microsurgery for early glottic cancer: considering signal type and smoothed cepstral peak prominence. Journal of Voice, 29, 370–381.
Van Leer, E., Pfister, R. C., & Zhou, X. (2017). An iOS-based cepstral peak prominence application: feasibility for patient practice of resonant voice. Journal of Voice, 31, 131.e9–131.e16.
Watts, C. R., & Awan, S. N. (2011). Use of spectral/cepstral analyses for differentiating normal from hypofunctional voices in sustained vowel and continuous speech contexts. Journal of Speech, Language, and Hearing Research, 54, 1525–1537.
Watts, C. R., & Awan, S. N. (2015). An examination of variations in the cepstral spectral index of dysphonia across a single breath group in connected speech. Journal of Voice, 29, 26–34.
Watts, C. R., Awan, S. N., & Maryn, Y. (2017). A comparison of cepstral peak prominence measures from two acoustic analysis programs. Journal of Voice, 31, 387.e1–387.e10.
Yu, M., Choi, S. H., Choi, C. H., & Lee, K. (2017). Usefulness of cepstral acoustic index for estimating objective dysphonia severity. Communication Sciences & Disorders, 22, 587–596.

Article information Continued

Table 1.

Demographic data of the participants

  Patient group (N=35) Control group (N=35)
Age (yr) 44.63 ± 13.74 43.94± 13.50
Gender
  Male 11 (31.4) 8 (22.9)
  Female 24 (68.6) 27 (77.1)
Diagnosis of the patients
  Vocal polyp, unilateral 9 (25.7)
  Adductor spasmodic dysphonia 6 (17.1)
  Vocal nodules, bilateral 5 (14.3)
  Laryngopharyngeal reflux disease 3 (8.5)
  Sulcus vocalis, bilateral 3 (8.5)
  Vocal cord palsy, unilateral 3 (8.5)
  Contact granuloma 1 (2.9)
  Functional dysphonia 1 (2.9)
  Intracordal cyst, unilateral 1 (2.9)
  Laryngeal papilloma 1 (2.9)
  Chronic laryngitis 1 (2.9)
  Vocal cord scarring 1 (2.9)

Values are presented as mean±SD and number (%).

Table 2.

Descriptive statistics of cepstral and spectral measures according to groups and positions in a standard passage

  Position Patient group Control group
CPP Front 5.411 ± 1.175 6.717±1.014
Middle 5.547 ±1.200 6.860±1.145
Rear 5.269±1.181 6.333±1.119
σCPP Front 3.323 ± 0.561 3.776±0.340
Middle 3.423 ± 0.576 3.710±0.332
Rear 3.227 ± 0.510 3.634±0.358
SR Front 30.094 ± 2.963 31.270±2.736
Middle 29.999 ± 2.606 31.840 ± 2.536
Rear 30.115 ± 2.949 31.673±2.866
σSR Front 9.980±1.169 10.094±1.353
Middle 9.703±1.107 9.819±1.319
Rear 12.150±1.178 1.119 ± 1.408

Values are presented as mean ± SD.

CPP=cepstral peak prominence; SR = low/high spectral ratio; σ=standard deviation.

Table 3.

Descriptive statistics of overall severity measures using CAPE-V

Group Mean ± SD Median (IQR) Minimum Maximum
Patient group 40.171 ±24.173 33.0 (44.0) 7.0 90.0
Control group 6.714± 4.854 5.0 (5.0) 0.0 22.0

CAPE-V=Consensus Auditory-Perceptual Evaluation of Voice; IQR = interquartile range.

Table 4.

Regression analysis of association of the cepstral measures among positions with perceptual estimates

Position R R2 R2 change F change df p-value
Front .809 .654 .654 30.671 4, 65 <.001***
Middle .711 .506 .506 16.655 4, 65 <.001***
Rear .698 .487 .475 15.452 4, 65 <.001***
***

p<.001

Figure 1.

A scatter plot for overall severity measures and predictive value of each regression model.

Figure 2.

Receiver operating characteristic (ROC) curve of the overall severity estimates.