Exploring Text Mining as a Vocabulary Evaluation Method: Focusing on Utterance Data from Children and Adolescents

So Jung Oh; Ji Hye Yoon; YoonKyoung Lee

doi:10.12963/csd.22888

Commun Sci Disord > Volume 27(1); 2022 > Article

어휘 평가 방법으로서의 텍스트 마이닝 탐색: 아동 및 청소년 발화 자료를 중심으로

Original Article

Commun Sci Disord 2022; 27(1): 50-69.

Published online: March 31, 2022

DOI: https://doi.org/10.12963/csd.22888

어휘 평가 방법으로서의 텍스트 마이닝 탐색: 아동 및 청소년 발화 자료를 중심으로

오소정^a, 윤지혜^b, 이윤경^b

^a동명대학교 언어치료청각학과

^b한림대학교 언어청각학부

Exploring Text Mining as a Vocabulary Evaluation Method: Focusing on Utterance Data from Children and Adolescents

So Jung Oh^a, Ji Hye Yoon^b, YoonKyoung Lee^b

^aDepartment of Speech-language Pathology & Audiology, Tongmyong University, Busan, Korea

^bDivision of Speech Pathology and Audiology, Hallym University, Chuncheon, Korea

Correspondence: YoonKyoung Lee, PhD Division of Speech Pathology and Audiology, Hallym University, 1 Hallymdaehak-gil, Chuncheon 24252, Korea Tel: +82-33-248-2219 Fax: +82-33-256-3420 E-mail: ylee@hallym.ac.kr

This work was supported by the National Research Foundation of Korea Grant funded by the Korean government (NRF-2019S1A5A2A03052093).

Received January 20, 2022 Revised February 24, 2022 Accepted March 9, 2022

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted noncommercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

배경 및 목적

최근 자연어처리기술을 이용한 컴퓨터화된 언어분석의 필요성에 대한 인식이 높아지고 있으나 관심이 형태소 분석, 자동 측정에 초점이 맞춰져 왔다. 본 연구의 목적은 빅데이터 분석 방법 중 하나인 텍스트 마이닝(text mining) 방법을 이용하여 언어 샘플, 특히 어휘 평가의 가능성을 모색하는 것이다.

방법

총 14명의 전형적인 발달을 보이는 초 · 중학생들이 가족, 학교, 취미 등의 주제로 대화에 참여하였고, 이 대화 상황에서 수집된 발화를 빅데이터 분석 프로그램을 사용하여 집단별로 1) 빈도 분석 및 어휘 클라우드, 2) 연결 중심성 기반의 의미연결망 분석, 3) 의미에 기초해 주제를 군집화 하는 CONCOR 분석을 실시하였고, 집단별 2명의 아동 발화를 개별적으로 동일한 절차로 개별 분석하였다.

결과

그 결과, 초등학생과 중학생 집단 데이터의 어휘 클라우드에서 가족 명칭, 학교 관련 어휘 등이 상위 출현 어휘로 나타났으며, 일과, 가족과 보내는 시간, 친척과 명절 등의 주제가 군집되었다.

논의 및 결론

텍스트 마이닝 방법을 이용한 어휘 분석으로 시각화된 결과를 제시하여 직관적인 내용 파악이 가능하였고, 단순한 계량적 평가에서 나아가 어휘 간의 연관성을 이해하여 전체적인 내용 구조를 파악할 수 있어 개별화되고 질적인 어휘 평가가 가능하였다. 이를 통해 전통적인 어휘 평가 방법을 보완하는 방법으로서 가능성이 확인되었다.

Keywords: 텍스트 마이닝, 어휘 클라우드, 의미연결망 분석(semantic network analysis), CONCOR 분석, 언어표본분석, 어휘 평가

Abstract

Objectives

Recently, awareness of the need for computerized language analysis using natural language processing technology is increasing, but interest has been focused on morpheme analysis and automatic measurement. The purpose of this study is to explore the possibility of evaluating language samples, especially vocabulary, using the text mining method, which is one of the big data analysis methods.

Methods

A total of 14 elementary and middle school students with typical development participated in conversations on topics such as family, school, and hobbies; and the utterances collected in the conversation were analyzed by group, using web-based text-mining program for 1) frequency analysis and word cloud, 2) semantic network analysis based on connection centrality, 3) CONCOR analysis that clusters topics based on meaning. Then, the utterances of two children in each group were individually analyzed with the same procedure.

Results

In the vocabulary cloud of elementary school and middle school students’ group data, family names and school-related vocabulary appeared as top words, and topics such as daily routine, family time, relatives and holidays were clustered. By presenting the visualized result using the text mining method, it was possible to intuitively grasp the content. It was possible to understand the relationship between the vocabularies in order to understand the overall content structure.

Conclusion

Text mining methods were confirmed to be viable tools for individualized and qualitative vocabulary evaluation and a supplement the traditional vocabulary evaluation method.

Keywords: Text mining, Word cloud, Semantic network analysis, CONCOR analysis, Language sample analysis, Vocabulary assessment

언어표본분석(Language Sample Analysis, LSA)이 높은 필요성 인식에도 불구하고 현장에서 그만큼 활발히 사용되지 못한다는 보고가 지속되면서 컴퓨터화된 언어표본분석에 대한 수요와 관심이 증가하고 있다. Lee, Oh, Yoon과 Choi (2020)에서는 천여명의 현직 언어재활사를 대상으로 언어표본분석의 실시 현황과 그에 대한 견해를 설문조사 방법으로 연구하였는데 그 결과, 절반에 가까운 46%의 언어재활사가 언어표본분석을 실시하지 않는다고 응답했으며 그 이유로는 시간의 제약과 해석 어려움을 언급하였고, 언어 표본분석 중 어려운 부분으로는 분석과 전사, 요약 및 해석을 장애 요인으로 선택하는 경우가 가장 많았다. 특히 많은 시간을 들여 힘들게 발화를 수집하고 전사하고 분석하더라도 적절한 절차로 수집했는지, 분석은 잘 한 건지를 스스로 확신할 수 없는 경우가 많고, 빈도나 다양도 등 수치로 나타나는 분석한 결과가 무엇을 의미하는지 알기 어렵다는 것도 언어표본분석의 실시를 어렵게 하는 요인으로 지적되었다(Oh, Yoon, & Lee, 2020). 이러한 언어표본분석 관련 어려움은 아동 및 성인 언어장애를 담당하는 언어재활사들이 공통적으로 보고하고 있는데, 그러면서도 언어표본분석의 필요성은 대부분 인식하고 있으며, 특히 분석 절차나 해석이 자동화, 표준화될 수 있는 컴퓨터화된 언어표본분석을 그 대안이자 해결책으로 인식하고 있는 경우가 많았다(Lee et al., 2020). 특히 컴퓨터화된 분석을 통해 수집 절차가 표준화되고 해석 기준과 규준 자료가 축적된다면 아동뿐 아니라 성인 및 노인기에 이르기까지 전 연령에서 언어표본분석이 보다 폭넓게 사용될 수 있을 것으로 전망하였다(Oh et al., 2020; Yoon, Oh, & Lee, 2020)

앞서 대규모 국내 설문 연구에 참여한 언어재활사 중 일부는 컴퓨터화된 언어분석을 경험한 적인 있다고 보고하였는데(Lee et al., 2020), 그들이 경험한 국내 컴퓨터화된 언어분석 소프트웨어는 80년대 언어분석 소프트웨어 프로그램의 초기 버전들처럼 전통적인 언어표본분석의 내용과 틀은 유지하면서, 전사와 낱말, 형태소를 분석자가 직접 나누고 태깅을 해두면 빈도 수를 세거나 발화 길이나 어휘다양도 등의 수치를 측정하는데 컴퓨터를 이용해 속도나 정확도를 높이는 정도인 경우가 대부분이었다(Pae, 2000). 자연언어처리기술을 이용하여 자동 분석이 가능하거나 축적된 규준 자료 비교를 통해 결과를 해석해줄 수 있는 프로그램으로 출시된 것은 아직 없고, 형태소분석기를 연동해 형태소 분석은 가능하지만 언어측정치를 자동 측정하지는 못하거나(KSTARS; Kim, Chang, Yoon, & Kim, 2013) 한림 한국어 발화 자동 분석 시스템(H-SAK) 처럼 아직 초기 버전으로 정확도나 활용도를 검증하는 단계로 상용화되어 널리 사용되지는 못하고 있다(Song et al., 2019; Hwang, Oh, Lee, & Kim, 2019). 해외에서는 가장 널리 사용되고 있는 SALT2가 개정되면서 영어의 경우 발화 분석 자료에 대한 자체 데이터베이스를 축적하여 이를 바탕으로 발화자의 수행 결과를 규준과 비교한 결과를 제시해주기도 한다(Miller, Andriacchi, & Nockerts, 2011).

인간의 언어를 컴퓨터에 인식시켜서 처리하는 것을 이르는 자연언어처리기술은 인간과 기계 사이의 상호작용을 다루는 인공지능(AI)의 한 분야로 최근에는 음성인식기술을 이용하여 자동 번역, 인공지능 스피커나 음성인식 비서 서비스 등에 활용되고 있다. 해외에서는 이러한 음성인식기술을 이용해 인공지능 스피커를 통해 발음 등 말언어문제가 있는 아동들을 돕는 방법이 활발히 연구되고 있다(Park, 2021). 자연언어처리기술이 언어분석에 활용되는 또하나의 종류는 빅데이터 분석에 기반한텍스트 마이닝이다. 빅데이터 분석이란 대규모의 데이터를 이용하여 이 데이터로부터 가치를 추출하고 결과를 분석하는 기술로 정형 혹은 비정형 데이터의 집합으로부터 새로운 통찰이나 형태의 가치를 추출하는 것을 말한다(Mayer-Schonberger & Cukier, 2013). 데이터의 규모나 다양성, 구성 속도나 확장성이 매우 큰 특징을 가지며, 기존의 표본 데이터가 모델링이나 통계적 분석 방법을 이용한다면 빅데이터 분석은 데이터들 간에 상호 연결성을 바탕으로 시각화나 탐색적인 분석 방법으로 의미를 추출해 내는데 중점을 둔다고 할 수 있다. 빅데이터의 텍스트 분석은 기계학습(machine learning), 자연언어처리(Natural language processing)기술을 기반으로 하여 텍스트 데이터로부터 의미 있는 정보와 지식을 추출하는 텍스트 마이닝이라는 기법이 가장 많이 사용된다(Feng, Wu, Zhou, Zhou, & Fan, 2006). 이중에서 의미연결망 분석(semantic network analysis)은 기존 SNS상 사람 간 관계나 장소, 물품 간의 연결 관계를 분석하는 사회연결망 분석(social network analysis)에서 파생된 것으로(Kwak, 2017) 텍스트 데이터 내의 단어 간 관계를 분석하여 일정 범위 안에서 어휘가 동시에 등장하면 서로 연결된 것으로 간주하면서 이 연결 관계를 토대로 의미구조를 분석하여 새로운 사실을 발견해 내는 방법이다(Hearst, 1999). 즉, 숫자 등의 정형 데이터를 다루는 통계적 분석에 비해 비정형 데이터인 언어 텍스트를 다룬다는 것이 특징으로 텍스트 마이닝은 대용량의 데이터에서 사용자가 관심을 가지는 정보를 키워드 수준이 아니라 맥락적인(context) 수준의 의미를 찾아내는 과정이라고 볼 수 있다. 아동의 발화는 현재로서는 클라우드 기반의 다른 SNS 데이터나 온라인 기사나 웹 상의 문서 데이터에 비하면 양적으로는 적다고 할 수 있겠으나 향후 컴퓨터화된 언어분석시스템 구축 시 빠른 속도로 무한히 확장될 수 있고 그 내용이 매우 다양할 수 있다는 점에서 빅데이터의 성격을 가진다고 볼 수 있다. 특히 최근에는 영유아기 아동의 경우 아동의 발화뿐 아니라 아동 발화에 영향을 줄 수 있는 양육자의 발화나 TV 매체 등의 음성 환경까지 분석하는 경우가 많은데 이 경우 자동 녹화, 저장할 수 있는 장치를 아동에게 착용시켜 아동 및 부모 발화, 아동에게 주어지는 매체를 통한 구어 자극까지 수집하고 있다. 이 경우 12시간, 심지어 70시간까지의 장시간의 구어를 수집, 분석하는 연구가 활발히 진행되고 있는데(Xu, Richards, & Gilkerson, 2014; Xu, Yapanel, & Gray, 2009), 이러한 경우 수집되는 구어의 양의 전통적인 발화 분석에 비해 규모가 커질 수밖에 없다. 또한 현재 음성인식 기술의 발전으로 음성을 텍스트로(voice to text) 변환해주는 어플리케이션 등 구어의 자동전사가 점차 실현되어가고 있으므로 향후 발화 분석 절차나 전사가 용이해질수록 점점 더 많은 양의 발화 수집과 분석해야하는 필요성은 커질 수밖에 없다.

최근 인문사회 분야에서 논문에서 연구동향을 파악하거나 정치나 현안 관련 언론 기사 데이터에서 주요 이슈와 경향성을 파악하기 위하여 의미연결망 분석이나 어휘 클라우드 분석이 활발히 사용되고 있다. 예를 들어 재작년과 작년에는 코로나 바이러스가 급속히 확산되면서 사회 전반에 주요 이슈로 떠올랐는데, 이에 따라 유아교육(Lee, 2021)이나 컨텐츠 산업 관련(Lee & Song, 2021) 등의 분야에서 코로나 19의 영향을 의미연결망 분석을 이용한 연구가 진행되기도 하였으며, 정치 현안(Eddington, 2018), 법 개정(Lee & Song, 2020)이나주요정책(Park, 2017), 사회적이슈관련(Kim, 2013; Yoon & Chung, 2018), 새로운 AI나 IT 관련 기술연구동향(Hwang & Kim, 2019) 파악뿐 아니라 어떤 대상이나 이슈에 대한 사람들의 반응이나 인식을 조사하는 경우(Choi, Lim, & Son, 2017)에도 기존의 설문조사나 질적 분석 방법 외에 의미연결망 분석을 사용하는 경우가 많아지고 있다. 이에 반해 언어치료 분야에서는 논문 데이터를 이용한 연구동향이나 현안 관련 기사나 미디어에서 핵심 이슈를 파악하거나 사람들의 인식 등을 분석하는 데 있어 아직 빅데이터 분석이나 텍스트 마이닝 방법을 사용한 연구가 거의 전무한 실정이다. 전통적인 언어표본분석에 활용되는 발화 자료도 빅데이터 분석을 적용해 보면서 텍스트 마이닝 방법과 전통적인 언어표본분석의 분석 내용과 결과를 비교해 보는 것이 필요한 시점으로 보인다. 특히 어휘 평가의 경우 전통적인 발화 분석에서 어휘다양도나 품사별 빈도와 같은 양적 분석이나 한자어나 추상어 등 특정 어휘 사용, 어휘 실수 등에 초점을 두고 있는데 텍스트 마이닝의 경우 핵심 키워드 도출, 각 키워드들 간의 동시 사용 여부나 연결 관계, 개별 어휘의 빈도수나 중요도 등을 파악할 수 있다고 보고되고 있어 양적 분석과 더불어 질적 분석이 가능할 것으로 예측된다(Lee, 2018). 추가로 언어재활사들이 컴퓨터화된 언어분석에서 가장 기 대되는 것 중 하나로 결과 분석과 해석에 대한 편리성을 꼽았다는 점을 상기해보면 발화표본에서 도출될 어휘 클라우드나 연결망은 크기나 연결선 등의 요소로 시각적, 직관적인 해석에 도움을 줄 것으로 기대된다.

발화 분석 관련 국내 연구가 주로 언어발달이 급격히 이루어지는 2-3세 이후 학령 전기 아동에 집중되어 왔으나, 이는 학령기 이후 평균발화길이 등 발화 분석 지표에 대한 연구결과나 규준이 미비한 데에 원인이 있으며 앞서 언급한 해외에서 가장 많이 쓰이는 컴퓨터화된 구어분석 프로그램인 SALT2의 경우 3-18세에 대한 규준을 제공하고 있고, 그 외에도 청소년기나 성인기 대상자에 언어 표본분석을 적용하는 시도나 필요성을 언급하는 연구들이 많다(Mller, Andriacchi, & Nockerts, 2015; Nippold, Frantz-Kaspar, & Vigeland, 2017). 또한 최근에는 학습부진이나 학습장애, 난독증, 화용언어장애 등으로 학령기 이후에도 언어치료실에 오는 경우가 증가하고 있으며, 평가나 중재가 대상자에 대한 이해에 기초함을 고려할 때 발화 분석은 연령에 관계없이 평가나 중재의 기본이 된다고 볼 수 있다. 즉, 발화를 수집해서 사용하는 어휘의 빈도나 상대적 순위, 관심 어휘와 다른 어휘 간 관계나 동시 사용 양상 등을 파악할 수 있다면 이런 기초적인 대상자의 어휘 사용에 대한 이해에서 평가와 중재가 시작될 수 있다. 본 연구는 텍스트 마이닝을 어휘 평가와 분석에 적용하는 시범적 연구이므로 발화량이 분석에 충분할 정도로 많을 것으로 기대되는 초등학생과 중학생을 대상으로 하였다. 특히 이들 연령대는 어휘분석에서 주로 사용하는 서로 다른 낱말수(Number of Different Words, NDW)나 총 낱말수(Total Number of Words, TNW) 등의 양적 측정치만으로는 어휘발달이나 사용 능력을 확인하는데 미흡하고 그보다는 사용하는 어휘들의 관계나 실제 대화나 발화 맥락 내에서의 화제의 내용을 중심으로 한 어휘 사용 능력을 확인하는 것이 중요하므로 본 연구의 목적과 부합하는 대상이라고 판단하였다. 초등학생, 중학생들을 대상으로 시작하지만 추후 양육자의 언어 사용 영향이 큰 영유아 시기에 부모 발화까지 포함하여 연구를 확대하여 영유아의 언어 사용에 양육자의 언어 영향 탐색에도 활용이 가능할 것으로 예상된다.

따라서 본 연구에서는 초등학교, 중학교 학생들의 일상적인 대화에서 발화 자료에 텍스트 마이닝 - 어휘 빈도 분석, 워드 클라우드와 의미연결망 분석을 적용해 봄으로써, 1) 초등학생과 중학생 대화에서 고빈도로 사용되는 어휘는 무엇이고 대화 자료의 전체적인 핵심 내용 구조는 어떠한지 살펴보고, 2) 개별 아동 분석에 대한 텍스트 마이닝 결과와 전체 집단의 텍스트 마이닝 분석 결과 비교를 통해 텍스트 마이닝의 개별 아동 어휘 분석 적용 가능성을 탐색해봄과 동시에, 3) 개별 아동의 발화를 텍스트 마이닝 방법으로 분석한 결과와 전통적 발화 분석을 실시하여 어휘 능력을 평가한 결과를 비교함으로써 어휘 평가 도구로서 텍스트 마이닝의 가능성을 모색해보고자 한다.

연구방법

연구대상

본 연구는 한국연구재단의 일반공동연구지원사업으로 수행된 ‘언어발달, 언어치료교육, 언어공학 분야의 융합적 접근을 통한 한국형 컴퓨터 구어분석 시스템 및 전생애 언어발달 모형 구축’ 과제를 통해 구축된 발화 자료 중 일부를 사용하여 진행하였다. 총 14명의 아동 및 청소년(초등학생 7명, 중학생 7명)의 발화 자료를 본 연구에 사용하였다. 이들은 부모나 교사에 의해 발달에 특별한 문제가 없다고 보고되었으며, 초등학생의 경우 학령기아동언어검사(LSSC; Lee, Heo, & Jhang, 2015)의 하위 검사 중 문법과 의사소통 영역 하위 검사에 해당하는 단락듣기와 문법 오류 판단과 수정의 환산점수가 또래 평균인 10점 이상이었고, 중학생의 경우 표현·수용어휘력검사(REVT; Kim, Hong, Kim, Jang, & Lee, 2009)에서의 수용, 표현어휘 점수 백분위수가 40-50%ile 이상으로 언어발달이 정상 범위에 있는 아동 및 청소년이었다. 기타 연구에 참여한 아동 및 청소년의 정보는 Table 1과 같다.

연구절차

본 연구절차는 의미연결망 분석 과정에 따라 텍스트 수집, 단어 추출과 키워드 선정, 키워드 간 관계 파악 및 네트워크 구성, 텍스트의 의미 구조 분석과 해석의 단계로 진행되었다(Kwak, 2017).

발화 수집 절차

본 연구에서는 반구조화된 대화 절차를 통해 발화표본을 수집하였으며, 수집 절차는 연구자가 소속된 기관의 생명윤리심의위원회 승인을 받았다(HIRB-2019-036; HIRB-2021-093). 대화는 연구 참가자들에게 익숙한 ‘가족’, ‘학교’ ‘기타/친구’의 세 가지 주제로 진행하였으며, 각 주제마다 세 개의 소주제를 포함하였다. 대화를 돕기 위해 ‘가족’과 ‘학교’는 세 가지 소주제와 관련된 3장의 그림카드(총 6장의 그림카드)를 제작하여 활용하였다. ‘기타/친구’와 관련된 주제는 그림카드 없이 검사자의 질문만을 통해 대화를 진행하였다.

발화 수집은 언어병리학과에 재학 중인 석 · 박사과정생들에 의해 진행되었으며, 최대한 동일한 절차로 진행하기 위해 본 연구에 참여하기 전, 수집 절차에 대한 교육과 훈련을 받았다. 그리고 2-3명을 대상으로 예비 연구를 실시하여 대화를 통한 발화 수집 절차에 대한 충실도가 90% 이상이 되었을 때, 발화 수집을 진행하였다.

자발화 수집은 각 참가자별로 개별적으로 진행하였으며, 참가자가 희망하는 장소를 방문하여 실시하였다. 자발화 수집 전에 먼저 연구참가자 및 보호자에게 연구의 목적 및 절차 등에 대한 안내를 하였으며, 연구동의서에 서명을 받았다. 대화 자료는 다음과 같은 절차를 통해 수집하였다. 먼저 ‘가족’과 ‘학교’ 그림이 각각 3장씩 담겨 있는 2개의 봉투를 참가자들에게 제시하였으며, 선택한 봉투에 들어있는 3장의 그림카드를 보고 자연스럽게 그와 관련된 대화를 시작할 기회를 제공하였다. (2) 참가자들이 발화를 개시한 경우, 검사자는 참가자의 발화를 자연스럽게 반복하여 반응하였다. 발화를 개시하지 않는 경우에는 약 3초 정도 기다려 주었다가 ‘OO은 어때?’. ‘OO의 가족은 어때?’와 같이 그림카드와 관련된 내용의 질문을 제시하였다. (3) 대화가 진행되는 동안에는 참가자의 발화를 자연스럽게 반복해 주며 반응해 주고, 대화를 이어가지 않으면 3초 정도 기다린 후 “또?”, “그리고?”와 같이 대화를 이어가도록 촉진하였다. 모든 참가자들에게 촉진은 최대 3회까지만 제공하였으며, 그 다음에도 대화를 이어가지 못하는 경우에는 자연스럽게 다른 그림카드와 관련된 내용으로 대화 주제를 전환하여 대화를 진행하였다.

모든 대화 표본은 녹음 전용 MP3 (ICD-UX533F)와 핀마이크(ECM-CS10)를 활용하여 녹음하였으며, 발화가 수집된 후 1-2주일 내에 전사하였다. 전사는 언어병리학 전공 학부생이 1차 전사하였으며, 발화를 수집한 대학원생이 전사 내용에 오류가 없는지 확하는 절차를 거쳤다.

데이터 업로드와 정제

전사된 발화는 웹 기반의 빅데이터 수집 및 분석 툴인 텍스톰 5.0에 입력하여 데이터 전처리과정을 거쳤다. 텍스톰은 한국어 전문 빅데이터 분석 솔루션으로, 한국정보통신기술협회(TTA) 인증을 획득하였고(Kim & Lee, 2021), 다양한 분야에서 연구에 활발히 사용되어 전문성이 입증되었다(Lee, Lee, Kim, & Kim, 2017). 먼저 발화 단위로 구분하여 전사된 아동별 발화 데이터를 텍스톰에 업로드하고 초등학생, 중학생 집단별로 통합하여 분석을 위한 데이터를 구성하였다. 그런 다음 전처리과정을 거쳤는데, 전처리과정에서는 단어, 형태소 단위 분해(parsing)와 분석을 위하여 1) 발화 전사 시 기록된 구어체 줄임말은 원래 형태로 복원하였고(예: 난→나(는), 걔 → 그애, 누날 → 누나(를) 순 → 수(는)), 2) 발화 중 발음 오류나 발화 중복, 발화 중쉼 (pause)을 기록하기 위한 발화 기호 등을 삭제하였으며 (발화 구분을 위해 간격을 초단위로 표시한 부분 삭제), 3) 고유명사의 경우는 복수의 어절이라도 하나의 단위로 분석되도록 지정하였고(예: 흔한 남매 → 흔한남매), 4) 복합명사의 경우 각 낱말 별로 구분하여 분석할지 복합명사를 하나로 보고 구분할지를 지정하였으며 (예: 담임 선생님, 계란덮밥, 비트박스 등), 5) 동일한 의미를 나타내는 말은 대표성을 지니는 단어로 일관되게 지정하였고(예: ‘선생님’, ‘쌤’, ‘선생’→‘선생님’, ‘고등학교’, ‘고교’→‘고등학교’), 6) 복수형의 경우 접미사를 생략하여 기본적인 단수형으로 수정하였으며(예: 아이들 → 아이), 7) 학생들 사이에 흔히 사용되는 신조어는 신조어 형태 그대로 사용하여(예: 심쿵, 백허그, 본방 등) 전처리과정을 진행하였다. 어휘 빈도에 따른 저빈도 어휘의 처리는 진행하지 않았다.

데이터 정제가 끝나면 데이터를 형태소 단위로 분해(parsing)하고 품사 태깅(tagging)을 하기 위해 형태소 분석 과정을 거쳤다. 텍스트 마이닝의 품사 태깅은 단어 수준에서 이루어지는 것이 원칙이지만, 한국어의 경우 한 단어에 다수의 형태소가 포함된 경우가 많고 결합된 형태소 간 의존성을 지니고 있어서 형태소 단위로 머신러닝을 적용함으로써 품사 태깅의 정밀도를 향상시킬 수 있다(Shin, Han, Park, & Choi, 1994).

키워드 도출

집단 별로 분석할 발화 데이터를 구성하고 정제 작업을 마친 후에는 초등학생과 중학생 집단별로 발화 자료에서 자주 사용되는 키워드를 추출하였다. 초등학생 데이터의 경우 491개, 중학생 데이터의 경우 총 772개의 키워드가 도출되었다. 그러나 이 키워드 전체를 사용하여 의미연결망으로 구조화하는 것은 어려움이 있으므로 의미연결망 구성을 위한 핵심 키워드 수를 Donohue (1973)의 다음 공식을 고려하여 도출하였다.

핵심 키워드 수== (-1+1+4(전체 키워드 수)/2

핵심 키워드 수 =

이렇게 계산했을 때 초등학생 데이터에서는 21.66개, 중학생 데이터에서는 27.29개의 핵심 키워드가 도출되어야 하는 것으로 나타났으나 일반적으로 텍스트 마이닝 분석 시 50개 이상의 키워드를 사용하고 있으므로, 집단별로 핵심 키워드의 출현 빈도를 함께 고려하여 초등학생의 경우 핵심 키워드 수의 두 배에 해당하는 상위 50개, 중학생 집단의 경우 2.7배에 해당하는 상위 80개의 키워드를 의미연결망 분석에 사용하였다.

어휘 빈도 분석

형태소 분석과 품사 태깅이 후 전처리과정이 완료되면 텍스톰의 텍스트 마이닝 분석을 실시하여 어휘 빈도와 Term Frequency-Inverse Document Frequency (TF-IDF) 빈도를 산출하였다. 어휘 빈도가 단순히 출현 횟수를 나타낸 것임에 비해 TD-IDF 빈도는 전체 텍스트에서 기대되는 정도보다 특정 텍스트에서 보다 자주 나오는 경우 가중치를 부여함으로써 고빈도 어휘의 빈도를 표준화한 결과를 제시한다(Salton & McGill, 1983).

어휘 빈도 분석의 시각화 방법으로는 빈도에 비례해서 단어의 크기를 나타내어 직관적으로 발화 자료의 성격을 시각화할 수 있는 방법으로 최근 흔히 사용되고 있는 어휘 클라우드(word clouds) 방법을 사용하였고, 자주 사용된 상위 순위 어휘들과 빈도수를 표로 제시하였다.

의미연결망 분석과 CONCOR 분석

앞서 언급한 대로 도출된 키워드 중에 핵심 키워드로 선정된 초등학생 집단 자료의 50개 어휘, 중학생 집단의 자료 중 80개 어휘에 대하여 텍스톰의 데이터 분석 메뉴 중 매트릭스 분석 방법을 이용하여 일원모드(1-mode)의 상관계수 행렬로 변환시키는 일방향(1-mode) 매트릭스 데이터를 생성하였다. 이는 비슷한 맥락에서 함께 사용되는 키워드는 비슷한 의미를 가지는 것으로 전제하여 이를 나타내는 행렬 데이터로 표시한 것이다. 그 다음 텍스톰의 연결망 분석보다 전문적인 후속 분석이 가능한 장점으로 널리 사용되는 사회 연결망 분석을 위한 오픈소스 소프트웨어인 UCINET 6 (Borgatti, Everett, & Freeman, 2002)에 매트릭스 데이터를 업로드한 다음 UCINET 6에 포함된 Netdraw 프로그램을 이용하여 매트릭스 데이터를 기반으로 의미연결망 분석을 실시하였다. 어휘 간 연결 강도와 특정 어휘가 전체 연결망에서 차지하는 역할을 가시적으로 보여주는(Lee & Song, 2020) 의미연결망 분석 다이어그램을 UCINET과 Netdraw으로 도출하였다.

의미연결망 분석에 따른 후속 분석으로 의미연결망의 키워드들이 어떻게 주제적으로 분류될 수 있는지 구체적인 의미 구조 파악을 위하여 수렴 상관관계 분석(CONvergence of literated CORrelation, CONCOR)을 실시하였다. CONCOR 분석은 특정 어휘들이 제3의 단어를 공유하는 확률을 측정하는 구조적 등위성 분석의 일종으로, 각 키워드 간 상관관계 결과를 바탕으로 대규모 네트워크를 여러 개의 소규모 네트워크로 군집화 하여 각 군집과 키워드가 구성하는 맥락적 의미를 파악하는데 도움을 줄 수 있는 방법으로 자주 사용된다(Lee & Song, 2021).

CONCOR 분석 후에는 의미연결망 분석에 사용된 키워드들이 네트워크 내에서 어떠한 영향력을 가지는지 나타내는 지표인 연결 정도 중심성(degree centrality)과 매개 중심성(betweenness centrality) 수치를 파악하여 군집된 의미분류 별로 각 키워드의 연결중심성 수치를 제시하였다. 연결정도 중심성(degree centrality)은 특정 키워드와 연결된 노드의 수를 반영한 수치로 연결 관계가 많을수록 높은 수치로 나타난다(Borgatti, Everet, & Johnson, 2013). 반면 매개 중심성은 직접 연결되어 있진 않더라도 키워드들 간의 관계를 통제하거나 중개하는 정도를 나타나는데, 네트워크 내 어디에 위치하고 있는지가 중심성을 결정하는 요소가 된다(Kwak, 2017). 매개 중심성이 높다면 각 키워드들 간의 최단 경로에 위치하고 있을 확률이 높다는 것으로 그만큼 네트워크 내 다른 키워드들 간의 상호작용에 큰 영향을 주는 키워드로 볼 수 있다.

개별 아동 자료 분석

초등학생, 중학생 집단 별로 발화 자료를 텍스트 마이닝하여 의미연결망 분석을 실시한 후, 집단 별로 2명의 개별 아동 발화 자료를 집단 데이터와 동일한 절차로 분석하여 각 집단의 분석 결과와 비교하였다. 개별 분석 대상 아동들의 경우, 이 아동들의 발화에 대한 전통적인 발화 분석(품사별, 혹은 전체 발화에서의 어휘 다양도)을 별도로 실시하여 텍스트 마이닝 결과와 비교를 진행하였다.

연구결과

초등학생 분석 결과

어휘 빈도 분석

초등학생 7명의 전체 발화 자료에서 텍스톰을 활용해 추출한 491개 키워드 중 출현 빈도가 높은 상위 50개 어휘에 대한 어휘 빈도와 상대적 가중치를 반영한 중요도인 TF-IDF 수치 결과는 Table 2와 같다. 총 2회 이상 빈도를 보인 키워드 중에 이 50개 키워드가 차지하는 비율은 26.74%였다. 빈도수 높은 주요 키워드를 텍스톰을 이용하여 어휘 클라우드로 시각화한 결과는 Figure 1에 제시하였다.

분석 결과 친구(64회), 것(52회), 때(45회), 동생(35회), 집(35회), 엄마(33회), 시간(33회), 학교(29회), 생일(27회) 순으로 빈도가 높은 것으로 나타났다. 발화 수집 상황에서 대화 주제가 학교, 가족, 취미였으므로 가족이나 학교 관련 사람들, 학교나 시간 관련 어휘 등이 많았고, ‘때’와 ‘것’과 같은 의존 명사도 상위 순위인 것으로 나타났다.

의미연결망 분석과 CONCOR 분석

매트릭스 데이터를 이용한 의미연결망 분석 결과에서는 각 단어 간 연결관계를 살펴볼 수 있지만 아직 키워드들이 산발적으로 위치해 있는 양상이어서 맥락적 의미 구조를 도출하기가 어려워 후속으로 의미 구조 분석을 위한 CONCOR 분석을 실시였다. 먼저 CONCOR 분석에서 군집화하여 도출할 주제의 수를 정하기 위하여 각 키워드가 군집을 형성하는 과정을 나무 형식의 그래프로 나타낸(Lee & Song, 2020) 댄드로그램(Dendrogram)을 보면서, 누락되는 키워드 없이 모든 키워드가 군집에 속하면서 최대한의 의미 있는 주제를 도출하게 되는 기준 3을 선택하여 총 8개의 군집으로 시각화하였다. 초등학생 데이터에서 추출된 50개 키워드에 대한 댄드로그램 결과와 CONCOR 분석한 결과는 각각 Figure 2과 Figure 3에 제시하였다.

각 군집의 주제 분류와 해석은 군집 내 키워드와 그 연결정도 중심성을 고려하여 해석하였다(Table 3). 분류된 군집 별로 ‘가족과의 한 때’, ‘방과후’, ‘학교에서의 쉬는 시간, 운동’, ‘친척과의 명절’, ‘집, 학교 이야기’, ‘책과 놀이’, ‘시간 관련 계획’, 해석이 어려운 한 개 군집으로 명명하였다. 이는 대화 수집 과정이 가족, 취미, 학교 관련하여 대화를 했기 때문에 이와 직간접적으로 관련된 주제가 대부분을 차지하는 것으로 나타났으며 그러한 큰 주제 관련하여 초등학생 집단 아동들의 핵심 키워드와 이슈를 반영한다고 볼 수 있다.

개별 아동 분석 결과

이러한 초등학생 집단의 텍스트 마이닝 결과를 언어평가에서 적용하는 것이 가능할지 모색해 보기 위하여 초등학생 집단 중 두 명의 아동 발화 자료를 따로 어휘 빈도 분석과 의미연결망 분석을 실시하여 비교하였다. 1학년 남자 아동 1명(‘S1’)과 여자 아동 1명(‘S2’)의 발화 자료를 집단 분석과 같은 절차로 분석하여 어휘 클라우드 분석 결과와 의미연결망 분석 후 CONCOR 분석한 결과는 각각 Figure 4과 Figure 5에 제시하였다.

어휘 클라우드를 통해 두 아동을 비교해 보았을 때 두 아동이 자주 사용한 어휘가 매우 다름을 한 눈에 파악할 수 있다. 가장 많이 사용한 어휘가 S1 아동은 ‘친구’, ‘동생’, ‘학교’, ‘엄마’, ‘아빠’ 인데 비해, S2 아동은 ‘것’, ‘시간’, ‘밥’, ‘태권도’, ‘말’, ‘소풍’등이었다. 어휘 클라우드를 통해 S1 아동의 경우 초등학생 전체 데이터에서 도출된 어휘 빈도나 어휘 클라우드와 비슷한 반면, S2 아동의 경우 태권도나 술래잡기, 공놀이 등의 운동 관련 어휘의 빈도수가 높음을 직관적으로 파악할 수 있다.

또한 두 아동의 발화를 상위 키워드 50개를 사용하여 의미연결망 분석과 후속 CONCOR 분석을 실시하여 아동 발화에서의 명사 어휘 간 연결관계와 의미구조를 파악해 본 결과, S1 아동의 경우 전반적으로 뚜렷하게 주제가 군집화됨에 비해 S2 아동은 군집화되지 않은 키워드가 많이 발생하였고 키워드들 간의 연결관계가 촘촘하지 않음을 알 수 있다. 이는 분석에 사용된 발화수가 S1 아동의 경우 151개 발화로 충분했음에 반해 S2 아동의 경우 사용한 발화수가 59개로 적었고, 이로 인해 발화 내 키워드들 간의 연결관계 자료 입력이 충분하지 않았던 점이 원인으로 작용했을 것으로 판단된다. 특히 발화수와 더불어 사용된 발화 자료 내 체언의 총수가 500여개로 많았던 S1 아동에 비해 S2 아동의 경우 130여개로 분석에 사용된 어휘수 간 차이가 매우 컸다. 또한 S1 아동의 경우 전통적인 발화 분석을 실시했을 때, 이번 텍스트 마이닝에 사용된 체언의 경우 어휘다양도가 명사 .37, 대명사 .16, 수사 1.00으로 대체로 낮은 편이어서, 반복된 어휘 사용이 오히려 빈도수가 높은 어휘와 다른 어휘 간 다양한 연결관계를 기반으로 의미연결망 분석을 실시하는 데 용이하게 작용했을 가능성이 있다. 발화수가 적으면서 명사 .65, 대명사 .47, 수사 1.00으로 어휘다양도가 높았던 S2 아동의 경우 의미연결망 분석에서 다른 어휘와 관련을 맺지 않은 어휘가 많았고, 이에 따라 연결관계가 느슨한 양상으로 나타났을 가능성이 있다.

중학생 분석 결과

어휘 빈도 분석

중학생 7명의 전체 발화 자료를 텍스톰에 업로드하여 정제과정을 거쳐 추출한 772개 키워드 중 출현 빈도가 높은 상위 80개의 어휘 빈도와 상대적 가중치를 반영한 중요도인 TF-IDF 수치를 빈도 수 순으로 제시한 결과는 Table 4와 같다. 총 2회 이상 빈도를 보인 키워드 중에 이 80개 키워드가 차지하는 비율은 39.90%였다. 빈도 수 높은 주요 키워드를 텍스톰을 이용하여 어휘 클라우드로 시각화한 결과를 Figure 6에 제시하였다.

분석 결과 ‘것’(134회), ‘애’(90회), ‘친구’(73회), ‘때’(73회), ‘가족’(39회), ‘시간’(38회), ‘학교’(33회), ‘이야기’(31회), ‘집’(30회) 순으로 빈도가 높은 것으로 나타났다. 초등학생 결과와 마찬가지로 대화 주제의 영향으로 가족이나 학교 관련 어휘나 사람 호칭, 시간 관련 어휘 등이 많았고, 의존명사도 상위 순위에 포함되었다. 초등학생 집단의 어휘 클라우드와 비교했을 때 ‘친구’, ‘것’, ‘엄마’, ‘아빠’, ‘할머니’, ‘동생’, ‘할아버지’ 등의 가족명, ‘학교’, ‘학원’, ‘생일’, ‘급식’ 등이 공통적으로 상위 순위에 위치해 있었으며, ‘유튜브’, ‘드라마’, ‘애니메이션’, ‘티브이’, ‘게임’, ‘동영상’, ‘워너원’, ‘핸드폰’, ‘비트박스’, ‘캐릭터’ 등의 미디어나 SNS, 연예인 관련 어휘가 새로 나타나거나 빈도수가 상승하는 양상을 보였다. 또한 ‘것’, ‘때’, ‘적’, ‘데’, ‘쪽’, ‘번’, ‘반’ 등의 의존 명사의 사용 빈도와 다양도가 증가하는 경향을 보였다.

의미연결망 분석과 CONCOR 분석

어휘 빈도 분석 결과 도출된 80개 키워드들의 연결관계를 살펴보기 위하여 텍스톰의 매트릭스 분석을 이용하여 일방향(1-mode) 매트릭스 데이터를 생성한 UCINET에 업로드하여 각 키워드들 간의 연결관계를 수치화한 연결 중심성과 매개 중심성을 산출하였다. 그런 다음 Netdraw를 사용하여 매트릭스 데이터를 기반으로 의미연결망 분석을 실시하였다.

중학생 발화 텍스트에서 도출한 80개 키워드에 의미연결망 분석의 후속으로 키워드가 어떤 주제로 군집되는지 알아보기 위하여 CONCOR 분석을 실시였다. 초등학생 자료 분석 시와 마찬가지로 CONCOR 분석에서 군집화하여 도출할 주제의 수를 정하기 위하여 댄드로그램 (Dendrogram)을 확인하면서 누락되는 키워드 없이 주제를 도출하게 되는 기준 3을 선택하여 총 8개의 군집으로 시각화하였다. 댄드로그램 결과와 CONCOR 분석한 결과는 각각 Figure 7과 Figure 8에 제시하였다.

각 군집의 주제 분류와 해석은 군집 내 키워드와 그 연결정도 중심성을 고려하여 해석하였다(Table 5). 분류된 군집 별로 ‘하루 일과’, ‘이야기 주제’, ‘여가 관련 경험’, ‘가족 행사’, ‘관심사’, ‘친척과 명절’, 해석이 어려운 두 개 군집으로 해석되었다. 이는 대화수집 과정이 가족, 취미, 학교 관련하여 대화를 했기 때문으로 생각되며 그러한 주제 관련하여 중학생 집단 아동들의 핵심 키워드와 이슈를 반영한다고 볼 수 있다.

개별 아동 분석 결과

중학생 집단 중 두 명의 아동 발화 자료를 개별적으로 다시 업로드하여 어휘 빈도 분석과 의미연결망 분석을 실시하여 비교하였다. 2학년 여자 아동 1명(S11)과 3학년 여자 아동 1명(S14)의 발화 자료를 집단 전체 발화 분석과 같은 절차로 분석하여 어휘 클라우드와 CONCOR 분석을 실시한 결과는 각각 Figure 9와 Figure 10에 제시하였다.

중학생 집단 두 아동의 어휘 클라우드를 비교해본 결과 S11 아동의 경우 전반적으로 중학생 집단 전체의 어휘 클라우드와 비슷하나 개인적인 관심사일 것으로 판단되는 ‘그림’ 등의 어휘의 빈도가 상대적으로 높다는 것을 확인할 수 있었고, S14 아동의 경우 전체 발화 자료에서 상위 빈도로 나타나지 않았던 ‘이제’, ‘서로’가 빈번하게 사용된데 반해 ‘엄마’나 ‘아빠’ 등의 가족 명칭은 자주 사용되지 않았다는 특성을 한눈에 파악할 수 있었다.

또한 두 아동의 발화를 상위 키워드 50개를 사용하여 의미연결망 분석과 후속 CONCOR 분석을 실시한 결과, 두 아동 모두 초등학생 집단의 개별 분석 대상이었던 아동들에 비해 더 촘촘한 키워드들 간 연결관계가 나타났고, 군집의 분류도 보다 명확한 양상을 보였으며 각각 4개 주제가 도출되었다. 초등학생 집단의 개별 분석 대상 아동들처럼 중학생 개별 분석 대상자들의 발화수도 173개와 75개로 차이가 컸음에도 CONCOR 분석상 키워드 간 연결이 촘촘하게 나타나고 주제가 분명히 군집된 것은 발화 자료 전체에 포함된 체언의 총 수는 각각 600개 이상과 300개 이상으로 모두 충분하였던 데 기인하는 것으로 보인다. 두 아동에게서 도출된 네 개의 주제들은 대화 및 이야기 주제, 일과 관련 어휘는 공통적이었으나 나머지 군집된 주제들은 아동의 개별 특성에 따라 달라지거나 해석이 어려운 경우도 있었다. S11 아동은 전통적 발화 분석에서 실시하는 어휘 분석 방법으로 분석했을 때 명사 어휘다양도 0.37, 대명사 어휘다양도 .17, 수사 1.00이었고, S14 아동의 경우 명사 어휘다양도 .48, 대명사 어휘다양도 .38, 수사 어휘다양도 1.00이었다. 앞서 초등학생 아동의 개별 분석에서와는 달리 어휘다양도 차이가 나긴 했지만 두 아동 모두 단어 수가 충분했으므로 어휘다양도가 CONCOR 분석 다이어그램 상의 연결 정도나 군집화 정도에 큰 영향을 주지는 않은 것으로 보인다.

논의 및 결론

본 연구에서는 초등학교와 중학교 재학중인 아동 및 청소년들의 일상적인 대화 상황에서의 발화 자료를 빅데이터 분석의 일종인 텍스트 마이닝 방법으로 분석하여 어휘 빈도와 어휘 클라우드, 의미연결망 분석을 통해 의미구조를 파악해 보고, 이를 다시 일부 아동의 개별 분석 결과나 전통적인 어휘 평가 결과와 비교하는 방법으로 텍스트 마이닝이 언어평가의 의미 영역 평가 방법으로 사용 가능할지 가능성을 탐색해 보았다. 그 결과 논의 및 결론은 다음과 같다.

텍스트 마이닝을 이용한 어휘 클라우드와 의미연결망 분석은 해당 아동의 대화 내용을 어휘 빈도를 기반으로 시각화하여 보여줌으로써 주제 관련 아동의 관심사를 반영하는 키워드를 직관적으로 한 눈에 파악할 수 있었다. 초등학생과 중학생 발화에서 학교 관련 어휘나 가족이나 친척 호칭, 생일이나 명절, 장소나 때를 나타내는 어휘, 여가 활동 관련 어휘 등이 높은 빈도로 사용되었고, 중학생의 경우에는 미디어 컨텐츠나 SNS, 연예인 관련 어휘 빈도가 초등학생 집단의 발화에서 보다 자주 사용됨을 알 수 있었다. 품사별로는 두 집단 모두에서 의존 명사 ‘것’이 가장 높은 빈도수를 차지하는 어휘 중 하나로 나타났고, 중학생의 경우 더 다양한 의존명사가 고빈도 출현 어휘에 포함되었다.

의미연결망 분석을 기초로 한 CONCOR 분석 결과를 살펴보면, 초등학생과 중학생의 발화 자료에서 모두 하루 일과나 가족과 시간을 보내기, 친구들과의 이야기 주제(관심사), 친척과의 명절이나 여행 관련 경험 등의 주제가 도출되었다. 초등학생의 경우 학교에서 쉬는 시간이나 점심시간에 하는 일이나 학원 등 방과후 활동에 대한 비중이 높았다면 중학생의 경우에는 학원이나 방과후 활동 관련 어휘보다는 아이돌이나 SNS 매체 활용 키워드가 ‘하루 일과’ 군집에 포함되었으며 ‘이야기 주제’ 군집에도 큰 비중을 차지하였다.

기존 언어표본분석(LSA)의 어휘 평가에서 품사별 출현 빈도수나 어휘 다양도 등 양적인 수치를 산출, 제시하고 이를 통해 아동이 전형적인 발달 양상을 보이는지 판단하는데 관심이 있는 반면(Kim, 2014), 텍스트 마이닝을 통한 어휘 클라우드나 의미연결망 분석은 아동이 자주 언급한, 즉 관심있어 하는 개념이나 의미 등 내용적인 분석에 초점을 두게 된다는 점에서 대비된다. 이는 선행연구에서 의미연결망 분석의 장점으로 ‘언급된 텍스트가 전하고자 하는 행간의 의미나 주요 의미를 파악할 수 있고 질적, 양적 연구 모두에 사용될 수 있다’는 장점(Lee, 2018)이 본 연구에서도 드러난 것이라고 할 수 있다. 단순하게 어휘를 양적인 측면에서만 어휘다양도나 빈도 등을 측정하는 것이 아니라 대화 주제나 발화 맥락에 따라 얼마나 어휘를 응집력 있게 사용하는가를 파악할 수 있었으며 이는 평가 이후에 어휘 목표를 설정할 때에도 유용하게 활용될 수 있을 것으로 보인다. 특히, 개별 아동의 분석 결과를 집단 전체의 발화 자료 분석 결과와 비교했을 때 이러한 장점이 잘 활용될 수 있었다. 개별 아동의 어휘 클라우드와 집단의 어휘 클라우드를 비교해보면서 전체 집단 데이터에서의 상위 출현 어휘와 개별 아동 데이터에서 특별히 자주 사용된 어휘가 손쉽게 비교되어 아동이 관심있어 하는 주제나 분야 등을 파악할 수 있고 대명사나 의존명사 사용 양상도 파악할 수 있었다.

본 연구에서는 언어표본 수집 시 사진을 이용하여 가족, 친구, 학교 관련 주제로 대화상황에서 수집하였는데 어휘 클라우드에서 높은 빈도로 제시된 어휘나 의미연결망과 CONCOR 분석 결과 군집된 주제명이 수집 당시 대화 주제를 충실히 반영하고 있다고 볼 수 있다. 만약 본 연구에서처럼 주제가 몇 가지로 통제되지 않고 자유로운 주제로 대화하여 수집된 발화였다면 발화 분석 후 아동이 말하고자 하는 바나 주요 의미 파악이 어려울 수 있는데, 이런 경우 어휘 클라우드나 의미연결망 분석이 유용하게 활용될 수 있었을 것으로 판단된다.

또한 이러한 비교는 발화 자료를 전사한 텍스트를 입력하기만 하면 분석은 몇 분만에 가능하였고 특히 시각화된 분석 결과 제시로 한 눈에 직관적인 비교가 가능하다는 점에서 전통적인 언어표본분석에 비해 시간과 노력이 절감되고 편리한 장점이 있었다. 이러한 시간과 노력의 절감은 텍스트 마이닝뿐만 아니라 컴퓨터화된 언어분석의 장점으로 자주 언급되어 왔고, 언어재활사들이 컴퓨터 언어분석에 대해 가장 기대하는 특성 중의 하나라고 할 수 있다(Lee et al., 2020; Yoon et al., 2020; Oh et al., 2020).

개별 아동 분석 시 의미연결망 분석을 위해서는 충분한 데이터 량이 요구됨을 알 수 있었는데 발화수나 입력된 어휘수가 적었던 아동의 경우 발화 텍스트에서 의미연결망을 통해 주제별 군집을 분류해 내기가 어려웠고 입력된 어휘 수가 많았던 아동일수록 CONCOR 분석 결과 다이어그램에서 어휘 간 연결 관계가 촘촘해지는 양상을 보인데 반해 어휘수가 부족했던 아동(S2)의 경우 군집으로 분류되지 않는 어휘가 생기거나 연결관계가 성긴 양상을 보였다. 총 어휘수가 연결관계에 영향을 주긴 했으나 어휘다양도 등 다른 전통적인 어휘 평가 측정치가 의미연결망 분석 결과에 영향을 주는지는 확실치 않았다. 하지만 발화수가 충분한 경우 개별 아동의 데이터 만으로도 텍스트 마이닝 분석이 가능하여 텍스트 마이닝 분석을 개별 아동 데이터 차원에서도 사용할 수 있음을 암시하였다. 본 연구에서는 연구 목적을 고려하여 사용하지 않았지만 특정 키워드를 지정하여 이와 관련된 발화나 어휘 관계만을 분석해 보는 것도 가능하여서 평가나 중재 시 필요에 따라 특정 어휘나 키워드가 사용된 양상을 관찰할 수도 있을 것으로 보인다.

개별 분석 대상 중 가장 발화수와 입력 어휘수가 적었던 초등학생(S2아동)은 어휘다양도는 높았음에도 어휘다양도가 낮으면서 많은 양의 발화가 입력된 S1 아동에 비해 연결망 분석에 어려움이 있었던데 반해, 중학생 집단에서는 개별 분석 대상이었던 S11과 S14의 경우 어휘다양도의 높고 낮음에 상관없이 다이어그램에서의 연결 정도나 군집 분류 정도가 비슷한 것으로 나타났다. 발화수와 입력 어휘수가 충분하면 어휘다양도의 영향은 경감되는 것으로 보아 어휘다양도보다는 입력되는 발화나 어휘의 수 때문에 S2 아동의 다이어그램의 연결 정도가 낮았을 것으로 추측된다. 충분한 발화수, 즉 입력 데이터만 확보된다면 어휘다양도 정도와 관계없이 의미연결망 분석 결과가 제대로 도출될 수 있을 것으로 판단되는데 이는 후속 연구를 통해서 보다 확실한 확인이 필요하다.

이러한 점들을 고려할 때 빅데이터 분석, 텍스트 마이닝을 이용한 어휘 분석은 전통적인 어휘 분석을 보완하는 성격을 가지는 것으로 보인다. 텍스트 마이닝을 이용했을 때 어휘다양도 등 양적인 어휘 분석에서 보여주지 못하는 아동이 말하고자 하는 바, 의미에 초점을 두어 개별 어휘들이 얼마나 전체적인 주제과 관련되면서 응집성있게 사용되었는가 하는 질적인 분석이 가능하였다. 즉, 품사 등 어휘 종류별 빈도수나 어휘다양도 등의 객관적, 정량적 분석에 초점을 둔 전통적 언어표본분석과, 개별 아동이나 집단이 자주 사용한 어휘 자체를 시각화하거나 주요 키워드들 간의 연결관계나 관련 있는 것끼리 분류해 보여줌으로써 전체 내용 구조와 맥락적 의미 해석이 가능하게 하는 텍스트 마이닝이 평가에 함께 사용된다며 어휘 평가의 타당성을 높이는데 기여할 수 있을 것이다. 특히 언어표본분석이 최근 전반적인 언어평가에서 강조되고 있는 ‘참평가’ (authentic assessment) (ASHA, 2000)라고 할 때 텍스트 마이닝 분석은 아동의 실제 상황과 활동을 직접 반영한 관찰과 분석이 가능하고 이를 잘 반영한 결과가 도출된다는 점에서 참평가로서의 언어표본분석의 의의를 충실히 실현시킨다고 볼 수 있다.

텍스트 마이닝을 이용한 어휘 클라우드나 의미연결망 분석 결과는 평가뿐 아니라 어휘 중재 시에도 유용하게 사용될 수 있을 것으로 판단된다. 연령대별로 다양한 주제에 대한 충분한 언어표본 데이터가 수집되어 분석되어 연령별 주제별 데이터가 축적된다면 또래 아동의 어휘 사용이나 대화 주제 구성과 중재 대상자의 어휘 사용 양상을 손쉽게 비교해 볼 수 있을 것이고 아동의 발화 데이터에 나타나지 않은 어휘나 내용을 우선 중재할 수 있을 것이다. 또한 특정 주제에 대한 어휘를 중재하려는 계획 시에도 특정 주제 관련 기사나 텍스트 자료를 이용해 텍스트 마이닝 하여 실생활에서 자주 사용되는 중재 목표 어휘를 선택할 수 있을 것이다. 특히 읽기 쓰기 중재에서는 온라인이나 전자 문서의 텍스트 데이터를 이용해 더 쉽게 주제 관련 어휘 목표나 핵심 이슈를 파악할 수 있을 것으로 추측된다. 음성언어의 경우에도 최근 자연언어처리를 이용하여 음성언어를 텍스트로 전환하는 기술이 발전되고 있음을 고려할 때, 아동의 발화표본을 수집하여 분석하는 데 전문화된 텍스트 마이닝 도구들이 개발되는 것도 필요할 것으로 판단되며, 이를 통해 다양한 발화 텍스트의 텍스트 마이닝 결과가 수집된다면 전생애 언어발달 규준 자료 구축에 기여할 수 있을 것으로 예상된다.

이러한 다양한 장점에도 불구하고 본 연구 과정에서 텍스트 마이닝 분석의 제한점도 드러났다. 첫째, 전통적인 언어표본 분석이 보통 100발화 이상의 발화를 수집하여 분석하고(Scarborough, 1990), 경우에 따라 50개나 그보다 적은 발화로 분석하기도 하는데 비해(Heilmann et al., 2008; Owens, 2014; Yoon, Kim, Kim, Chang, & Cha, 2013). 텍스트 마이닝 방법의 경우 개별 아동 분석을 위해서는 50-100개 발화보다 상당히 많은 양의 발화가 필요하며 발화 내 어휘수가 많아야 하고 그렇지 못한 경우에 아예 결과가 제대로 나오지 못하는 경우도 있을 수 있다.

둘째, 텍스트 마이닝 분석법도 자연언어처리기술에 기반한 컴퓨터화된 언어분석 방법으로 분석 시간이 단축되고 노력이 절감되기는 하나 아직까지 분석 전 처리과정에서는 전통적인 발화 분석만큼은 아니지만 상당한 시간과 노력, 어휘 지식이 요구된다. 특히 아직 텍스트 마이닝 분석에 기본이 되는 형태소 분석기들이 한국어에 전문화되어 있지 않거나 신뢰도가 떨어지는 분석으로 동형이의어를 구별하지 못하거나 품사를 오인하여 동사 활용형을 명사로 오인하는 등의 문제를 나타냈다(예: ‘학교에 가면’에서 ‘가면’을 명사로 분류). 물론 본 연구에 활용한 텍스톰의 경우 데이터 정제과정에서 문제가 되는 부분을 표시하여 사용자에게 제시하고 수정할지 그대로 분석할지 물어보는 등의 편리한 기능을 갖추고 있었으나 데이터를 실제로 보면서 수정 기준을 입력해 주어야 하는 데이터 전 처리과정이 예상보다 분석 시간에 비해 오래 소요되었다(Lee, 2021). 이는 텍스트 마이닝을 이용한 논문에서 자주 언급되어 온 바 있으므로 형태소 분석기의 고도화와 더불어 아동 언어처리에 특화된 데이터 정제 기준 마련도 필요할 것으로 보인다.

셋째, 텍스트 마이닝 실시 전 데이터 전 처리 과정과 CONCOR 분석의 해석에서 연구자의 주관이 개입될 여지가 있었다. 데이터 전 처리과정에서는 복합 명사의 처리나 동의어 처리, 아동 발화 자료의 특성을 고려한 판단 등에서 주관적 판단이 이루어질 수 있는데 이를 위해서 후속연구에서는 데이터 전 처리와 군집명을 정하는 과정에서 2명 이상의 연구자가 독립적으로 실시하고 논의하는 과정을 거치도록 하여 분석의 신뢰도를 높일 필요가 있다.

본 연구는 텍스트 마이닝이라는 새로운 방법으로 언어표본분석의 가능성을 탐색해 보고 그 가능성을 확인하였다는데 의의가 있다. 예비 연구의 성격으로 연구대상자의 수가 충분치 않았으므로 향후 보다 많은 대상자와 다양한 출처에서 충분한 양의 언어표본 데이터를 활용한 후속연구가 필요하며, 특히 연령별로 본 논문과 같은 일상적 주제로 대규모 대화 자료에서 어휘 빈도나 주요 키워드, 어휘 연결망(어휘 관계) 등이 파악된다면 이후 개별 아동의 분석 결과와 제대로 비교할 수 있을 것이고, 연령별로 어휘 사용이나 어휘 간 관계의 발달상 변화도 파악 가능할 것으로 보인다. 또, 텍스트 마이닝 분석 방법이 기대보다는 시간과 노력이 소요되었으므로 전통적인 자발화 분석과 비교 시 분석 결과만이 아니라 이러한 시간과 노력에 대한 효용성, 효율성에 대한 비교 연구도 필요할 것으로 보인다. 본 연구에서 아동 별로 발화량에 따라 분석 결과에 영향을 주는 것을 알 수 있었으므로 발화량에 따른 분석 결과의 영향을 보다 체계적으로 검정하는 것도 필요하겠다. 마지막으로 본 연구는 텍스톰이나 UCINET을 활용하였는데 본격적으로 발화 분석에 적용하기 위해서는 이외 다른 도구를 활용해서 도구 간 차이가 검증되고 다시 연구결과가 반영되어 발화 분석에 맞는 텍스트 마이닝 도구 개발도 필요할 것으로 판단된다.

Figure 1.

Word Cloud visualized with key words from elementary students.

Figure 2.

Dendrogram for 50 keywords.

Figure 3.

Visualization of CONCOR analysis.

Figure 4.

Word cloud visualized with key words from 2 elementary students.

Figure 5.

CONCOR analysis diagram from 2 elementary students.

Figure 6.

Word Cloud visualized with key words from middle schoolers.

Figure 7.

Dendrogram for 80 keywords.

Figure 8.

Visualization of CONCOR analysis.

Figure 9.

Word Clouds visualized with key words from 2 middle schoolers.

Figure 10.

CONCOR analysis diagram from 2 middle schoolers.

Table 1.

Participants’ information and results of standardized language tests

Group	No.	Grade	Age in month	Gender	No. of utterance	1	2	3	4	5
Elementary students	S1	1	86	F	151	16	13	16
	S2	1	81	M	59	17	13	17
	S3	1	87	M	66	15	15	16
	S4	2	112	F	52	15	14	14
	S5	2	104	F	57	15	13	13
	S6	3	130	F	60	13	12	12
	S7	3	135	M	59	14	13	12
Middle schooler	S8	1	143	F	77				> 99	> 99
	S9	1	148	F	56				> 99	> 99
	S10	1	150	F	105				90	80-90
	S11	2	161	F	173				80-90	70-80
	S12	2	159	M	98				60-70	60
	S13	3	179	M	131				40	70-80
	S14	3	163	F	75				60-70	50-60

1=converted score of Understanding spoken paragraph in LSSC (Lee et al., 2015); 2=converted score of grammatical error judgement in LSSC (Lee et al., 2015); 3=converted score of grammatical error revision in LSSC; 4=percentile in receptive vocabulary test in REVT (Kim et al., 2009); 5=percentile in expressive vocabulary test in REVT (Kim et al., 2009).

Table 2.

Top keywords form elementary students and frequency results

Rank.	Word	Frequency	TF-IDF	Rank.	Word	Frequency	TF-IDF
1	Friend (친구)	64	129.458	26	Present (선물)	8	33.24
2	Thing (것)	52	118.1272	27	Playground (놀이터)	7	29.08
3	Time/when (때)	45	109.6541	28	End (끝)	7	29.08
4	Younger brother/sister (동생)	35	98.15687	29	Thinking (생각)	7	29.08
5	Home (집)	35	94.46925	30	Study (공부)	7	29.08
6	Mom (엄마)	33	89.07101	31	Talk (말)	7	29.08
7	Time (시간)	33	93.79334	32	Time (적)	7	29.08
8	School (학교)	29	82.42	33	Morning (아침)	7	29.08
9	Birthday (생일)	27	82.51	34	Book (책)	7	29.08
10	Child/kid (애)	23	75.14	35	Meal (밥)	6	26.95
11	Daddy (아빠)	21	67.41	36	Outside (밖)	6	26.95
12	After school (방과후)	17	61.46	37	Picnic (소풍)	6	26.95
13	Academy (학원)	15	51.92	38	Movie (영화)	6	25.85
14	Play (놀이)	15	55.54	39	Dodgeball (피구)	6	26.95
15	Story (이야기)	12	43.38	40	Playground (운동장)	6	26.95
16	Teacher (선생님)	12	44.43	41	Soccer (축구)	6	25.85
17	Next (다음)	12	44.43	42	Women (여자)	6	25.85
18	Grandma (할머니)	12	43.38	43	Everyday (매일)	5	23.57
19	Lunch (점심)	11	40.73	44	Songpyeon (송편)	5	23.57
20	Basketball (농구)	10	40.21	45	Class (수업)	5	22.45
21	Taste (맛)	9	36.19	46	Fish (물고기)	5	22.45
22	Men (남자)	9	36.19	47	Evening (저녁)	5	23.57
23	Exercise (운동)	8	33.24	48	Jump rope (줄넘기)	5	22.45
24	Weekend (주말)	8	33.24	49	Cake (케이크)	5	22.45
25	Lunch time (점심시간)	8	32.17	50	Car (차)	4	18.86

TF-IDF=Term Frequency-Inverse Document Frequency.

Table 3.

Keywords by clusters & centrality results

Name of cluster	Keyword (degree centrality/betweenness centrality)
Time with family	Time (when) (2.021/0.114), brother (1.979/0.023), mom (1.979/0/059), dad (1.688/0.031), birthday (1.896/0.006), weekend (0.292/0.003), movie (0.104/0.002), gift (0.5/0), taste (0.646/0.016), cake (0.333/0.001)
After school	Academy (0.542/0.008), teacher (0.25/0.01), talk (0.146/0.004), lunch break (0.396/0.011), study (0.271/0.003), outside (0.167/0.002), picnic (0.146/0.002), every day (0.229/0.005)
School break, exercise	Time (1.125/0.053), basketball (0.333/0.003), lunch, meal (0.313/0.003), class (0.313/0.004), jumping rope (0.104/0.001), playground (0.271/0.005), soccer (0.188/0.002), dodgeball (0.146/0)
Relatives and holidays	grandmother, friend (1.833/0.128), songpyeon (0.104/0)
Home, school story	Home (1.271/0.061), school (1.146/0.059), story (0.375/0.002)
Book & play	Thing (0.979/0.093), play (0.521/0.022), end (0/0), book (0.25/0.001)
Time-related planning	Next (0.542/0.023), thinking (0.188/0.004), morning (0.521/0.018), evening (0.354/0.001)
Interpretation excludes	Kids (1.042/0.019), men (0.583/0.002), women (0.375/0), exercise (0.25/0.006), fish (0.208/0.003)

Table 4.

Top keywords form middle schoolers and frequency results

Rank.	Word	Frequency	TF-IDF	Rank.	Word	Frequency	TF-IDF
1	Thing (것)	134	230.81	41	Board (보드)	10	43.29
2	Baby/One (애)	90	194.13	42	Relative (친척)	10	42.24
3	Friend (친구)	73	170.59	43	Lunch time (점심시간)	9	38.96
4	Time/When (때)	73	169.49	44	Youtube (유튜브)	9	38.96
5	Family (가족)	39	114.77	45	Grandpa (할아버지)	9	38.96
6	Time (시간)	38	118.76	46	Animation (애니메이션)	9	41.23
7	School (학교)	33	103.13	47	Each other (서로)	9	38.96
8	Story (이야기)	31	99.02	48	Karaoke (노래방)	9	38.96
9	Home (집)	30	96.92	49	Thinking (생각)	9	40.02
10	Birthday (생일)	28	103.41	50	Original (원래)	8	35.58
11	These days (요즘)	26	85.99	51	Class (수업)	8	35.58
12	Study (공부)	23	80.08	52	Cat (고양이)	8	36.64
13	Photo (사진)	22	79.99	53	Idol (아이돌)	8	36.64
14	Picture (그림)	20	73.86	54	Usual (보통)	8	35.58
15	People (사람)	19	69.08	55	Grade (학년)	8	37.88
16	Next (다음)	18	67.57	56	Birthday party (생일파티)	8	35.58
17	Turn (번)	18	65.45	57	This thing (이것)	7	33.14
18	Mommy (엄마)	16	62.19	58	Past (예전)	7	32.06
19	Academy (학원)	16	62.19	59	Day (날)	7	32.06
20	Occasion (경우)	16	61.09	60	Real (진짜)	7	33.14
21	Teacher (선생님)	16	62.19	61	Fun (재미)	7	32.06
22	Cell-phone (핸드폰)	16	63.38	62	Side (쪽)	7	32.06
23	Game (게임)	16	63.38	63	Cousin (사촌)	7	32.06
24	First (처음)	14	55.46	64	Lunch (점심)	7	33.14
25	Song (노래)	14	55.46	65	Character (캐릭터)	6	30.84
26	Grandma (할머니)	13	53.67	66	Weekend (주말)	6	28.41
27	Daddy (아빠)	13	53.67	67	Complete (완전)	6	29.50
28	Place (데)	13	52.54	68	Degree (정도)	6	28.41
29	Han-bok (한복)	12	51.95	69	Program (프로그램)	6	28.41
30	Talk (말)	12	48.49	70	Younger brother/sister (동생)	6	28.41
31	TV (티브이)	12	50.68	71	Branch (가지)	6	28.41
32	Interest (관심)	12	48.49	72	Video (동영상)	6	28.41
33	Experience (경험)	11	47.62	73	Wannaone (워너원)	6	29.50
34	Travel (여행)	11	46.46	74	Older sister (언니)	6	28.41
35	Memory (기억)	11	45.41	75	High school (고등학교)	6	30.84
36	Homework (숙제)	11	47.62	76	Video (영상)	6	29.50
37	Time (적)	11	45.41	77	Lodging (숙소)	6	29.50
38	Elementary school (초등학교)	10	43.29	78	In the middle of (중)	6	28.41
39	Taste (맛)	10	43.29	79	Food (음식)	6	28.41
40	School trip (수학여행)	10	42.24	80	Practice (연습)	6	28.41

TF-IDF=Term Frequency-Inverse Document Frequency.

Table 5.

Keywords by clusters & centrality results

Theme of cluster	Keywords by clusters (degree centrality/betweenness centrality)
Daily routine (everyday)	Things (3.671/0.169), kid (2.962/0.084), friend (2.063/0.078), time (2.481/0.094), time (2.481/0.094), family (1.038/0.020), photo (0.975/0.020), study (1.101/0.011), cellphone (0.468/0.003), academy (0.620/0.007), case (0.608/0.009), school trip (0.165/0.001), karaoke (0.266/0.001), lunch break (0.278/0.001), elementary school (0.354/0.001), time (0.291/0.004), day (0.215/0.001), Wanna One (0.127/0.000), idol (0.304/0.001), lunch (0.367/0.001), usual (0.329/0.002), each other (0.316/0.009), karaoke (0.266/0.001), turn (0.430/0.006)
Story topic	"Story (0.722/0.021), home (1.241/0.027), school (1.025/0.028), game (0.304/0.002), teacher (0.557/0.005), homework (0.570/0.003), TV (0.430/0.004), youtube (0.152/0.001), class (0.380/0.002), cat (0.089/0.000), branch (0.177/0.001), board (0.367/0.001),
past (0.101/0.000), side (0.089/0.000)"
Leisure-related experience picture	Picture (0.582/0.009), experience (0.177/0.000), lodging (0.114/0.000), travel (0.392/0.001), relative (0.241/0.004), song (0.456/0.006), fun (0.114/0.002), video (0.228/0.001), complete (0.165/0.001), video (0.114/0.001)
Family event	Birthday (1.266/0.011), mom (0.785/0.010), birthday party (0.266/0.001), time (0.291/0.004), this (0.291/0.002), practice (0.101/0.000), dad (0.709/0.009), brother (0.215/0.001)
Interests	Interests (0.316/0.007), people (0.456/0.009), talk (0.253/0.001), High school (0.139/0.001), program (0.165/0.000), middle (0.139/0.002), animation (0.392/0.004), characters (0.203/0.000)
Relatives and holidays	Hanbok (0.443/0.005), grandmother (0.848/0.011), grandfather (0.443/0.004), cousin (0.329/0.002), food (0.228/0.003), taste (0.354/0.003)
Excluding interpretation	Memory (0.342/0.006), thoughts (0.266 0.003), grade (0.418/0.000), older sister (0.228/0.005), original (0.215/0.001)
Excluding interpretation	First (0.633/0.019), real (0.177/0.000), weekend (0.203/0.002)

REFERENCES

American Speech-Language-Hearing Association. (2000). Guidelines for the roles and responsibilities of the school-based speech-language pathologist [Guidelines]. Retrieved from https://leader.pubs.asha.org/doi/10.1044/leader.an1.15082010.3.

Borgatti, S. P.., Everett, M. G., & Freeman, L. C. (2002). UCINET for Windows: software for social network analysis Harvard, MA: Analytic Technologies.

Borgatti, S. P.., Everett, M. G., & Johnson, J. C. (2013). Centrality. In J. Seaman (Ed.), Analyzing social networks (pp. 189–208). London: SAGE publications Ltd.

Choi, Y.., Lim, Y., & Son, D. (2017). A semantic network analysis on the recognition of STEAM by Middle School Students in South Korea. Eurasia Journal of Mathematics Science and Technology Education, 13(1), 6457–6469.

Donohue, J. C. (1973). Understanding scientific literature: a bibliographic approach Cambridge, MA: The MIT Press.

Eddington, S. M. (2018). The communicative constitution of hate organizations online: a semantic network analysis of “Make America Great Again”. Social Media+ Society, 4(3), 1–12.

Feng, Y.., Wu, Z.., Zhou, X.., Zhou, Z., & Fan, W. (2006). Knowledge discovery in traditional Chinese medicine: state of the art and perspectives. Artificial Intelligence in Medicine, 38(3), 219–236.

Hwang, S., & Kim, M. (2019). An analysis of artificial intelligence (A.I.)_related studies’ trends in Korean focused on topic modeling and semantic network analysis. Journal of Digital Contents Society, 20(9), 1847–1855.

Hearst, M. A. (1999). Untangling text data mining. In : Proceedings of the 37th Annual meeting of the Association for Computational Linguistics; p. 3–10.

Heilmann, J.., Miller, J. F.., Iglesias, A.., Fabiano-Smith, L.., Nockerts, A., & Digney-Andriacchi, K. (2008). Narrative transcription accuracy and reliability in two languages. Topics in Language Disorders, 28(2), 178–188.

Hwang, S. J., Oh, B. D., Lee, Y., & Kim, Y. S. (2019). Hallym systematic analyzer of Korean (H-SAK) ver.1.0. Proceedings of 2019 convention of The Korean Institute of Information Scientists and Engineers. 1391-1393.

Kwak, K. (2017). Social network analysis Cheongram: Seoul.

Kim, J. M.., Chang, M. S.., Yoon, M. S., & Kim, S. J. (2013). Development of KSTARS: language analysis system combined with transcription for Korean. In : Proceeding of the 2013 ASHA convention, Chicago, IL.

Kim, L. (2013). Denotation and connotation in public representation: semantic network analysis of Hwang supporters’ internet dialogues. Public Understanding of Science, 22(3), 335–350.

Kim, Y., & Lee, Y. (2021). A study on the perception of online classes using big data. In : Proceedings of the Korean Society for Computer Education Conference; p. 269–272.

Kim, Y. T. (2014). Assessment and intervention of child language disorders Seoul: Hakjisa.

Kim, Y. T.., Hong, G. H.., Kim, K. H.., Jang, H. S., & Lee, J. Y. (2009). Receptive & expressive vocabulary test (REVT) Seoul: Seoul Community Rehabilitation Center.

Lee, K. (2021). Semantic network analysis on preschooler safety in the COVID-19 using big data. The Journal of Child Education, 30(4), 197–213.

Lee, J.., Lee, J.., Kim, W., & Kim, H. (2017). A study on swimsuit recognition through big data text mining analysis. Korea Sports Development Institute, 28(1), 104–116.

Lee, S. (2018). Network analysis methods applications and limitations Seoul: Chungram.

Lee, S., & Song, M. (2020). An analysis of the age-downing issues in the election of public of public election act: based on the semantic network analysis of newspaper articles. Election Study, 13, 5–35.

Lee, S., & Song, M. (2021). Exploring post Covid-19 issues in the content industry. Studies on Media Culture, 13, 35–70.

Lee, Y.., Heo, H., & Jhang, S. (2015). Language scale for school-aged children (LSSC) Seoul: Hakjisa.

Lee, Y.., Choi, J.., Oh, S.., Yoon, J., & Kim, Y. S. (2020). Attitude to Korean speech-language pathologists toward usage of language sample analysis and computer-aided LSA. Communication Sciences & Disorders, 25(3), 651–668.

Mayer-Schönberger, V., & Cukier, K. (2013). Big Data: A revolution that will transform how we live, work, and think Houghton Mifflin Harcourt: Boston, MA.

Miller, J. F.., Andriacchi, K., & Nockerts, A. (2011). SALT user guide: standard SALT transcription conventions SALT Software;LL.

Miller, J. F.., Andriacchi, K., & Nockerts, A. (2015). Using language sample analysis to assess spoken language production in adolescents. Language, Speech, and Hearing Services in Schools, 47(2), 99–112.

Nippold, M. A.., Frantz-Kaspar, M. W., & Vigeland, L. M. (2017). Spoken language production in young adults: examining syntactic complexity. Journal of Speech, Language, & Hearing Research, 60(5), 1339–1347.

Oh, S. J.., Yoon, J. H., & Lee, Y. (2020). A qualitative study on experiences and needs of language analysis by speech-language pathologists: focused on children with language disorders. Communication Sciences & Disorders, 25(2), 169–189.

Owens, R. E. (2014). Language disorders: a functional approach to assessment and intervention (6th ed .). Upper Saddle River, NJ: Pearson.

Pae, S. (2000). Korean utterance analysis 2.0 (Korean Computerized Language Analysis: KCLA 2.0): manual for use Seoul: Paradise Welfare Foundation.

Park, B. (2021). Utilization of big data-based artificial intelligence speakers. In : Proceedings of the 7th Joint Conference of Korean Speech Therapy Association and the Korean Speech-Hearing Clinical Society; p. 21–29.

Park, C. (2017). Big data analysis on the demand for the Nuri curriculum policies based on word clouds and social network analysis. Journal of Children Education Studies, 37(3), 73–91.

Salton, G., & McGill, M. J. (1983). Introduction to modern information retrieval McGraw-Hill, NY: New York.

Scarborough, H. (1990). Index of productive syntax (IPSyn). Applied Psycholinguistics, 11(1), 1–22.

Song, H. J.., Choi, J. E.., Lee, Y.., Yoon, J. H.., Kim, J. D.., Park, C. Y., & Kim, Y. S. (2019). A web service for evaluating the level of speech in Korean. Applied Sciences, 9(3), 594–602.

Shin, C.., Han, Y.., Park, Y., & Choi, K. (1994). Korean part-of-speech tagging using hidden Markov model that reflects word structure. In : Proceedings of the Korean Society of Information Science and Technology Linguistics Engineering Research Conference; p. 389–394.

Yoon, S. W., & Chung, S. W. (2018). Semantic network analaysis of legacy news media perception in South Korea: the case of PyeongChang 2018. Sustainability, 10(11), 1–24.

Yoon, J.., Oh, S. J., & Lee, Y. (2020). A qualitative study on experiences and needs of language sample analysis by speech-language pathologists: focused on patients with acquired neurogenic language disorders. Communication Sciences & Disorders, 25(2), 411–430.

Yoon, M.., Kim, S.., Kim, J.., Chang, M., & Cha, J. (2013). Reliable sample size for mean length of utterance analysis in preschooler. Communication Sciences & Disorders, 18(4), 368–378.

Xu, D.., Richards, J. A., & Gilkerson, J. (2014). Automated analysis of child phonetic production using naturalistic recordings. Journal of Speech, Language, and Hearing Research, 57(5), 1638–1650.

Xu, D.., Yapanel, U., & Gray, S. (2009). Reliability of the LENA^TM language environment analysis system in young children’s natural language home environment (LENA Foundation Technical Report LTR-05-2). Retrieved from: http://www.lenafoundation.org/TechReport.aspx/Reliability/LTR-05-2.