Programming/NLP

    Tokenizer 종류

    https://huffon.github.io/2020/07/05/tokenizers/ HuggingFace 내 토크나이저 종류 살펴보기 - Programador | Huffon Blog Huggingface Transformers가 버전 3에 접어들며, 문서화에도 더 많은 신경을 쓰고 있습니다. 그리고 이러한 문서화의 일환으로 라이브러리 내에 사용된 토크나이저들의 종류에 대해 간단히 설명을 해주 huffon.github.io 토크나이저, Tokenizer 종류

    [DST] AG-DST

    보호되어 있는 글입니다.

    [Seq2Seq] Sequence to Sequence Learning with Neural Networks

    Sequence to Sequence Learning with Neural Networks Ilya Sutskever, Oriol Vinyals, Quoc V. Le arXiv:1409.3215 [cs.CL] Sequence-to-sequence(Seq2Seq) 모델은 기계번역에서 많이 연구 되어온 모델로, RNN(Recurrent Neural Network)을 이용하여 입력 문장의 의미를 함축하는 context vector를 만들고(encoding), 이를 다시 다른 RNN을 통하여 출력 문장을 생성(decoding)하는 방법이다. 따라서 Sequence-to-sequence 모델은 별도의 휴리스틱 등을 이용한 규칙과 자질들을 시스템에 추가할 필요가 없으며, 구문분석 전처리과정이 없는 end-to-en..

    Ontology, 온톨로지

    Ontology, 온톨로지 : 존재하는 사물과 사물 간의 관계 및 여러 개념을 컴퓨터가 처리할 수 있는 형태로 표현하는 것; 일종의 지식 표현(knowledge representation) 데이터베이스; 사람들이 세상에 대하여 보고 듣고 느끼고 생각하는 것에 대해 서로 간의 토론을 통해 합의를 이룬 바를 컴퓨터에서 다룰 수 있는 형태로 표현한 모델, 개념의 타입이나 사용상의 제약조건들을 명시적으로 정의한 기술, 합의된 지식을 나타내므로 어느 특정 개인에게 국한되는 것이 아니라 그룹 구성원이 모두 동의하는 개념, 컴퓨터는 온톨로지로 표현된 개념을 이해하고 지식처리를 할 수 있게 됨; "온톨로지는 관심 도메인 내 공유된 개념화에 대한 형식적이고, 명시적인 Specification이다." "An ontolog..

    [Transformer #1] Positional Encoding (Position Embedding)

    Attention Is All You Need Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin arXiv:1706.03762 [cs.CL] #1 기본적인 Input processing, Word Embedding, Position Embedding에 대한 이해 아래의 Youtube 영상을 바탕으로 내용을 정리한 글 Hedu - Math of Intelligence Visual Guide to Transformer Neural Networks - (Episode 1) Position Embeddings https://youtu.be/dich..

    음운(음소, 운소), 음절, 형태소, 단어, 어절, 문장

    음운 < 음절 < 형태소 < 단어 < 어절 < 구절 < 문장 < 문단 음운 (phoneme) : 음소 + 운소, 뜻을 구별해주는 소리의 가장 작은 단위 음소 (segmental phoneme) : 분절 음운 (자음(consonant)과 모음(vowel)의 발음) 운소 (prosodeme) : 비분절 음운 (음의 장단, 고저, 세기, 억양) 운소의 예시로 '밤' 을 들 수 있음 길게 [바~암] → 먹는 밤 짧게 [밤] → 어두운 밤 음절 (syllable) : 발음할 때 한번에 소리낼 수 있는 소리의 단위 (한 글자) 형태소 (morpheme) : 뜻을 가진 말의 가장 작은 단위 (풋-, 사과) 단어, 낱말 (word) : 문장에서 혼자 쓸 수 있는 가장 작은 단위 어절 (word segment) : 문장..