[인공지능] BiLSTM이란? BiLSTM의 구조 📌 기존의 RNN/LSTM[ 🚨 ]RNN이나 LSTM은 입력 순서를 시간 순대로 입력하기 때문에결과물이 직전 패턴을 기반으로 수렴하는 경향을 보인다는 한계 존재 📌 BiLSTM이란?일반적인 LSTM은 순방향(왼쪽에서 오른쪽)으로 정보를 추출하지만역방향으로도 정보를 추출하여 이용할 수 있는데, 이를 양방향 LSTM이라고 함 LSTM의 시각별 은닉 상태 벡터를 모은 각 행에는 그 행에 대응하는 단어의 성분을 많이 포함하고 있음예를들어, "나는 고양이 로소이다"의 문장을 왼쪽에서 오른쪽으로 읽을 경우“고양이”에 해당하는 벡터에는 “나”, “는”, “고양이”까지의 총 세 단어의 정보가 인코딩되어있음 문장이 길어질 수록 한 벡터에 포함하고 있는 단어의 정보가 점점 많아질 것➡️ 대응하는 단어(고양이)의 주.. 2024. 3. 5. [인공지능] LSTM이란? LSTM의 구조 및 작동 방식 📌 기존 RNN의 문제점[ 🚨 ]장기 의존성 문제 (Long-Term Dependency)to가 입력으로 주어지는 시각(계층)까지 그 이전의 맥락들을 기억하고 있어야 함그러나 Tom까지 역전파로 뻗어갈 때 의미있는 기울기가 전달되지 못하고 기울기 소실/폭주 문제가 발생할 경우,모델은 장기 의존 관계를 학습할 수 없음 RNN의 경우 tanh기반 활성화함수를 사용함따라서 작거나 큰 기울기가 곱해질 경우 기울기 소실/폭주 문제가 발생할 수 있으며 이의 경우 장기 의존 관계를 학습할 수 없음 즉, 시퀀스가 있는 문장에서 문장 간의 간격이 커질수록 RNN은 두 정보의 맥락을 파악하기 어려워짐 ➡️ 한참 전의 데이터도 함께 고려하여 출력을 만들어보자 (LSTM) 📌 LSTM 구조RNNRNN의 반복 모듈이 하.. 2024. 3. 4. 이전 1 다음