(c) Co., Ltd.

Recruit 's AI Research Institute는 변압기 사전 학습 메이저 놀이터 순위 구성하여 분석 정확도를 향상시키는 일본 자연 언어 처리 라이브러리 인 "Ginza 버전 5.0"을 출시합니다.

Recruit Co., Ltd.

logo_recruit

Recruit Co., Ltd. 국립 일본어 연구소 (National Institute of Japanese Language Research)와의 협력 연구의 결과로 변압기 프리 러닝 메이저 놀이터 순위 사용하는 연구소 (Institute)는 분석 정확도를 크게 향상시켰다.

1. 일본 자연 언어 처리에 대해 OSS 도서관 "Ginza"

자연어 처리 기술은 컴퓨터가 매일 사용하는 언어 (자연어)를 처리 할 수있는 일련의 기술을 말하며 검색 엔진, 기계 번역, 대화 시스템 및 고객 피드백 분석을 포함하여 일상 생활 및 비즈니스의 다양한 상황에서 사용됩니다.

Megagon Labs가 개발하고 제공 한 AI Research Institute of Recruit의 Ginza는 기계 학습을 사용하여 일본어로 자연 언어 처리에 관심이있는 연구원, 엔지니어 및 데이터 과학자를 위해 개발 된 무료 라이센스로 제공되는 무료 라이센스로 제공되는 OSS 라이브러리입니다. 비즈니스 환경에서 널리 사용되며 단어 의존 구조 수준에서 1 단계 소개, 고속, 고정밀 분석 처리 및 국제화를 특징으로합니다. Ginza를 사용하면 구문 구조를 분석하고 사람 이름, 조직 이름, 장소 이름, 제품 이름 및 숫자와 같은 고유 한 표현을 추출 할 수 있으며 일본 문법에 뿌리를 둔 일본 조항을 기반으로 분석 결과를 쉽게 얻을 수 있습니다.

버전 3.0이 2020 년 1 월에 출시되었으므로 19 개월 만에 100,000 번 이상 다운로드되었으며, 아카데믹 기관뿐만 아니라 보편적 인 의존성을위한 일본 분석 시스템으로서 응용 프로그램에서 강력하고 유연 할 수있는 실용적인 라이브러리를 원하는 업계의 많은 사람들이 사용했습니다 (UD, *1). Megagon Labs는 Ginza를 계속 업데이트함으로써 일본어의보다 빠르고 정확한 자연 언어 처리를 달성하고 모든 산업에서 자연 언어 처리 사용을 촉진 할 수 있도록 연구 활동을 계속 수행 할 것입니다.

"Ginza"게시 된 페이지

2. "Ginza 버전 5.0"업데이트의 주요 기능

(1) 웹 텍스트의 20 억 문장으로 미리 훈련 된 트랜스포머 메이저 놀이터 순위 사용하여 분석 정확도의 극적인 개선
  • 대형 텍스트로 미리 훈련 된 자체 제작 변압기 메이저 놀이터 순위
    최근 몇 년 동안 많은 자연 언어 처리 작업에 대해 최고 정밀 기록을 중단 한 많은 변압기 모델은 많은 양의 텍스트 데이터를 갖춘 미리 학습 작업에 마스킹 된 언어 메이저 놀이터 순위 사용했습니다. Megagon Labs는 인터넷에서 많은 양의 텍스트를 수집하는 MC4 데이터 세트 (*2)에서 추출한 20 억 명이 넘는 일본어 텍스트를 사용하여 광범위한 분야를 다루는 변압기 사전 학습 메이저 놀이터 순위 독립적으로 구축했습니다. Transformers Model은 높은 학습 효율성을 갖는 Electra (※ 3)와 National Institute of Japanese Language Research, 동일한 보편적 의존성을 기반으로하는 Sudachitra (4)가 토큰 화에 사용됩니다. 구성된 변압기 프리 러닝 모델은 "Transformers-ud-Japanese"(5)로 별도로 게시 될 것입니다.

  • 변압기 메이저 놀이터 순위 처리 파이프 라인에 통합
    Ginza가 사용하는 Python (※ 6)을위한 자연어 처리 프레임 워크 인 Spacy (7)는 이제 2021 년 1 월에 출시 된 버전 3에서 향상되어 트랜스포머 메이저 놀이터 순위 처리 파이프 라인에 쉽게 통합 할 수 있습니다. Ginza 버전 5.0은 스파크 처리 파이프 라인의 최전선에 통합 된 "Transformers-ud-Japanese"에서 얻은 단어의 시맨틱 벡터 표현 (서브 워드)을 사용하여 종속 구조 분석, 고유 표현 추출 및 후속 단계에서의 말하기 추정의 정확도를 크게 향상시킬 수있었습니다.

  • 국립 일본어 연구소와 공동 연구 결과의 종속 구조 분석을위한 메이저 놀이터 순위 제공
    2014 년 전세계에서 시작된 보편적 의존성은 일관된 구문 구조와 음성 시스템의 일부를 통해 인류가 사용하는 다양한 언어를 분석 할 수 있도록하는 이니셔티브입니다. 일본에서는 일본에 대한 보편적 의존성을 적용하는 것에 대한 연구가 처음부터 동시에 수행되었으며 일본 버전의 UD 코퍼스 (데이터)의 건설이 수행되었습니다. Megagon Labs는 National Institute of Japanese Language and Language Institute와 협력하여 일본 버전의 UD를 기반으로 고정식 의존성 구조 분석 기술을 연구하고 개발하고 UD 코퍼스의 일본어 버전에서 고유 한 표현에 대한 정답 레이블을 제공하며 이러한 결과를 통합 한 "Ginza Japanese UD 메이저 놀이터 순위"을 발표했습니다.
    "Ginza 버전 5.0"에 사용되는 Ginza Japanese UD 모델은 UD_JAPANESE-BCCWJ R2.8, 대규모 고품질의 고품질 "현대 일본어로 만든 평형 코퍼스"를 결합하여 국립적으로 범위를 가진 국제적으로 의존하는 시스템을 사용하여 범위를 가진 범위의 범위를 사용합니다. 텍스트, 광범위한 필드에 적응할 수있는 분석 메이저 놀이터 순위 만듭니다.

(2) 응용 프로그램에 따라 여러 분석 메이저 놀이터 순위 제공

Transformers 모델은 분석 정확도를 크게 향상시킬 수 있지만 계산량의 증가로 인해 처리 속도가 감소한다는 단점도 있습니다. Ginza 버전 5.0을 사용하면 분석 정확도 또는 처리 속도에 중점을 둔 응용 프로그램에 따라 메이저 놀이터 순위 전환 할 수 있습니다. 제공되는 두 가지 유형의 모델이 있습니다.

Analytical Accuracy-Embodied Model (JA-Ginza-Electra)
설치 명령 : PIP 설치 -U ginza ja-ginza-electra
감소 속도 중심 메이저 놀이터 순위 (JA-Ginza)
설치 명령 : PIP 설치 -U ginza ja -ginza

*1 일관된 문법과 연설 시스템의 일부를 통해 전 세계의 다양한 언어를 분석하는 것을 목표로하는 국제 학술 프로젝트
*2 인터넷에서 텍스트를 수집하는 일반적인 크롤링 텍스트 데이터 세트에 Google이 개발 한 필터를 적용하여 구축 된 다국어 텍스트 데이터 세트 (사전 학습은 약 20 억 문장을 사용하여 문장과 같은 특성을 기반으로 전체 MC4 일본어 텍스트를 더욱 좁 힙니다.
*3 ICLR2020의 Stanford University와 Google Research가 발표 한 적대적 학습을 모방하는 메커니즘으로 학습 전 효율성을 크게 향상시키는 변압기 메이저 놀이터 순위 (학습 라이브러리를위한 Nvidia의 Deeplearningexample 구현 및 분석을위한 Face 's Transformers)
332915_333058
*5 이제 Hugging Face Inc.가 게시 한 머신 러닝 메이저 놀이터 순위 공유 저장소 인 Hugging Face Hub에서 사용할 수 있습니다.https : //huggingface.co/megagonlabs/)
*6 그것은 프로그래밍 언어 중 하나이며 간단하고 고도로 서면 언어로 인기가 있습니다. 데이터 과학 분야뿐만 아니라 웹 응용 프로그램 개발에서도 널리 사용됩니다.
7 7 Explosionai Gmbh가 개발 한 최첨단 기계 학습 기술을 통합 한 고도로 기능적인 자연어 처리 프레임 워크



관련 보도 자료