(c) Co., Ltd.

Recruit 's AI Research Institute는 변압기의 사전 학습 메이저 놀이터 순위 구성하여 분석 정확도를 향상시키는 일본 자연 언어 처리 라이브러리 인 "Ginza 버전 5.0"을 출시합니다.

Recruit Co., Ltd.

logo_recruit

Recruit Co., Ltd. 변압기 프리 러닝 메이저 놀이터 순위 사용하여 분석 정확도를 크게 향상시키는 소득 모델.

1 일본 자연 언어 처리 "Ginza".

자연어 처리 기술은 컴퓨터가 매일 사용하는 언어 (자연어)를 처리 할 수있는 일련의 기술을 말하며 검색 엔진, 기계 번역, 대화 시스템 및 고객 피드백 분석을 포함하여 일상 생활 및 비즈니스의 다양한 상황에서 사용됩니다.

Megagon Labs가 개발하고 제공 한 AI Research Institute of Recruit의 Ginza는 Machine Learning을 사용하여 일본어로 자연 언어 처리에 관심이있는 연구원, 엔지니어 및 데이터 과학자를 위해 개발 된 무료 라이센스로 제공되는 OSS 라이브러리입니다. 비즈니스 환경에서 널리 사용되며 단어 의존 구조 수준에서 1 단계 소개, 고속, 고정밀 분석 처리 및 국제화를 특징으로합니다.

버전 3.0이 2020 년 1 월에 출시되었으므로 19 개월 만에 100,000 개의 다운로드를 초과했으며 학술 기관뿐만 아니라 보편적 인 의존성을위한 일본 분석 시스템으로서의 응용 프로그램에서 강력하고 유연 할 수있는 실용적인 도서관의 많은 사람들이 사용했습니다 (UD, *1). Megagon Labs는 Ginza를 계속 업데이트함으로써 일본어의보다 빠르고 정확한 자연 언어 처리를 달성하고 모든 산업에서 자연 언어 처리 사용을 촉진 할 수 있도록 연구 활동을 계속 수행 할 것입니다.

"Ginza"Published Page

2 "Ginza 버전 5.0"업데이트.

(1) 웹 텍스트의 20 억 문장으로 미리 훈련 된 트랜스포머 메이저 놀이터 순위 사용하여 분석 정확도의 극적인 개선
  • 대형 텍스트로 미리 훈련 된 자체 제작 변압기 모델
    최근 몇 년 동안 많은 자연 언어 처리 작업에 대해 최고 정밀 레코드를 중단 한 많은 변압기 모델은 많은 양의 텍스트 데이터를 사용하여 미리 학습 작업에 마스킹 된 언어 메이저 놀이터 순위 사용합니다. Megagon Labs는 인터넷에서 많은 양의 텍스트를 수집하는 MC4 데이터 세트 (*2)에서 추출한 20 억 명이 넘는 일본어 텍스트를 사용하여 광범위한 분야를 다루는 변압기 사전 학습 메이저 놀이터 순위 독립적으로 구축했습니다.

  • 변압기 메이저 놀이터 순위 처리 파이프 라인에 통합
    Ginza가 사용하는 Python (※ 6)을위한 자연어 처리 프레임 워크 인 Spacy (7)는 이제 2021 년 1 월에 출시 된 버전 3에서 향상되어 변압기 메이저 놀이터 순위 처리 파이프 라인에 쉽게 통합 할 수 있습니다. Ginza 버전 5.0은 스파크 처리 파이프 라인의 최전선에 통합 된 "Transformers-ud-Japanese"에서 얻은 단어의 시맨틱 벡터 표현 (서브 워드)을 사용하여 종속 구조 분석, 고유 표현 추출 및 후속 단계에서의 말하기 추정의 정확도를 크게 향상시킬 수있었습니다.

  • 국립 일본어 연구소와 공동 연구 결과의 종속 구조 분석을위한 메이저 놀이터 순위 제공
    2014 년 전 세계에서 시작된 보편적 의존성은 일관된 구문 구조와 음성 시스템의 일부를 통해 인류가 사용하는 다양한 언어를 분석 할 수 있도록하는 이니셔티브입니다. 일본에서는 일본에 대한 보편적 의존성을 적용하는 것에 대한 연구가 처음부터 동시에 수행되었으며 일본 버전의 UD 코퍼스 (데이터)의 건설이 수행되었습니다.
    "Ginza 버전 5.0"에 사용 된 Ginza Japanese UD 모델은 UD_Japanese-BCCWJ R2.8을 결합하여 일본 언어의 대규모 일본어 서면 단어 밸런스 코퍼스를 결합하여 국립 의존 시스템으로서의 전국적 의존 시스템으로, "범위의"범위의 주제를 사용합니다. " 광범위한 필드에 적합합니다.

(2) 응용 프로그램에 따라 여러 분석 메이저 놀이터 순위 제공

변압기 모델은 분석 정확도를 크게 향상시킬 수 있지만 계산량 증가로 인해 처리 속도가 감소한다는 단점도 있습니다. Ginza 버전 5.0을 사용하면 분석 정확도 또는 처리 속도에 중점을 둔 응용 프로그램에 따라 메이저 놀이터 순위 전환 할 수 있습니다.

분석 정확도 중심 모델 (JA-Ginza-Electra)
설치 명령 : PIP 설치 -U ginza ja-ginza-electra
감소 속도 중심 모델 (JA-Ginza)
설치 명령 : PIP 설치 -U ginza ja -ginza

*1 일관된 문법과 언어 시스템의 일부를 통해 전 세계의 다양한 언어를 분석하는 것을 목표로하는 국제 학술 프로젝트
*2 인터넷에서 텍스트를 수집하는 일반적인 크롤링 텍스트 데이터 세트에 Google이 개발 한 필터를 적용하여 제작 된 다국어 텍스트 데이터 세트 (사전 학습은 약 20 억 문장을 사용하여 문장과 같은 특성을 기반으로 한 전체 MC4 일본어 텍스트를 더욱 좁 힙니다.
*3 3 변압기 모델은 Stanford University와 ICLR2020의 Stanford University와 Google Research가 발표 한 적대적 학습을 모방하는 메커니즘으로 학습 효율성을 크게 향상시키는 변압기 모델 (학습 라이브러리를위한 NVIDIA의 DeePlearningExamply 구현 및 분석 프레임에 대한 Face 's Face의 Transformers)
*4 Works Applications Enterprise Co., Ltd.에서 자연 언어 처리를 전문으로하는 AI 연구 기관인 Works Tokushima 인공 지능 NLP Research Institute에서 개발 한 얼굴 변압기를 포옹하기위한 토큰 화기 라이브러리
*5 이제 Hugging Face Inc.가 게시 한 기계 학습 모델 공유 저장소 인 Hugging Face Hub에서 사용할 수 있습니다.https://huggingface.co/megagonlabs/)
*6 그것은 프로그래밍 언어 중 하나이며 간단하고 고도로 서면 언어로 인기가 있습니다. 데이터 과학 분야뿐만 아니라 웹 응용 프로그램 개발에서도 널리 사용됩니다.
*7 Explosionai Gmbh가 개발 한 최첨단 기계 학습 기술을 통합 한 고도로 기능적인 자연 언어 처리 프레임 워크



관련 보도 자료