음운 < 음절 < 형태소 < 단어 < 어절 < 구절 < 문장 < 문단
음운 (phoneme) : 음소 + 운소,뜻을 구별해주는소리의 가장 작은 단위
음소 (segmental phoneme) : 분절 음운 (자음(consonant)과 모음(vowel)의 발음)
운소 (prosodeme) : 비분절 음운 (음의 장단, 고저, 세기, 억양)
운소의 예시로 '밤' 을 들 수 있음
길게 [바~암] → 먹는 밤
짧게 [밤] → 어두운 밤
음절 (syllable) : 발음할 때 한번에 소리낼 수 있는소리의 단위 (한 글자)
형태소 (morpheme) :뜻을 가진말의 가장 작은 단위 (풋-, 사과)
단어, 낱말 (word) : 문장에서혼자 쓸 수 있는가장 작은 단위
어절 (word segment) : 문장을 구성하고 있는 각각의 마디 (띄어쓰기의 단위)
문장 (sentence) : 완결된 내용을 나타내는 최소의 단위
예를 들어 다음과 같은 문장이 있다고 해보자
집 앞으로 맑은 물이 흐른다
음운은 [지바프로말근무리흐른다] 에서 보이는 자음과 모음 → 25개
음절은 [지/바/프/로/말/근/무/리/흐/른/다] → 11개
형태소는 '집/앞/으로/맑/은/물/이/흐르/ㄴ다' → 9개
단어는 '집/앞으로/맑은/물/이/흐른다' → 7개
어절은 '집/앞으로/맑은/물이/흐른다' → 5개
문장은 '집 앞으로 맑은 물이 흐른다' → 1개
'Programming > NLP' 카테고리의 다른 글
Tokenizer 종류 (0) | 2023.01.25 |
---|---|
[DST] AG-DST (0) | 2022.04.04 |
[Seq2Seq] Sequence to Sequence Learning with Neural Networks (0) | 2022.03.11 |
Ontology, 온톨로지 (0) | 2022.03.10 |
[Transformer #1] Positional Encoding (Position Embedding) (0) | 2021.11.16 |