
2024.12.18새로운 비즈니스/R & D 기타
"Erikura"서비스 종료 통지
(c) Co., Ltd.
새로운 비즈니스/R & D 기타
Recruit Co., Ltd.
Recruit Co., Ltd. 변압기 프리 러닝 메이저 놀이터 순위 사용하여 분석 정확도를 크게 향상시키는 소득 모델.
자연어 처리 기술은 컴퓨터가 매일 사용하는 언어 (자연어)를 처리 할 수있는 일련의 기술을 말하며 검색 엔진, 기계 번역, 대화 시스템 및 고객 피드백 분석을 포함하여 일상 생활 및 비즈니스의 다양한 상황에서 사용됩니다.
Megagon Labs가 개발하고 제공 한 AI Research Institute of Recruit의 Ginza는 Machine Learning을 사용하여 일본어로 자연 언어 처리에 관심이있는 연구원, 엔지니어 및 데이터 과학자를 위해 개발 된 무료 라이센스로 제공되는 OSS 라이브러리입니다. 비즈니스 환경에서 널리 사용되며 단어 의존 구조 수준에서 1 단계 소개, 고속, 고정밀 분석 처리 및 국제화를 특징으로합니다.
버전 3.0이 2020 년 1 월에 출시되었으므로 19 개월 만에 100,000 개의 다운로드를 초과했으며 학술 기관뿐만 아니라 보편적 인 의존성을위한 일본 분석 시스템으로서의 응용 프로그램에서 강력하고 유연 할 수있는 실용적인 도서관의 많은 사람들이 사용했습니다 (UD, *1). Megagon Labs는 Ginza를 계속 업데이트함으로써 일본어의보다 빠르고 정확한 자연 언어 처리를 달성하고 모든 산업에서 자연 언어 처리 사용을 촉진 할 수 있도록 연구 활동을 계속 수행 할 것입니다.
변압기 모델은 분석 정확도를 크게 향상시킬 수 있지만 계산량 증가로 인해 처리 속도가 감소한다는 단점도 있습니다. Ginza 버전 5.0을 사용하면 분석 정확도 또는 처리 속도에 중점을 둔 응용 프로그램에 따라 메이저 놀이터 순위 전환 할 수 있습니다.
분석 정확도 중심 모델 (JA-Ginza-Electra)
설치 명령 : PIP 설치 -U ginza ja-ginza-electra
감소 속도 중심 모델 (JA-Ginza)
설치 명령 : PIP 설치 -U ginza ja -ginza
*1 일관된 문법과 언어 시스템의 일부를 통해 전 세계의 다양한 언어를 분석하는 것을 목표로하는 국제 학술 프로젝트
*2 인터넷에서 텍스트를 수집하는 일반적인 크롤링 텍스트 데이터 세트에 Google이 개발 한 필터를 적용하여 제작 된 다국어 텍스트 데이터 세트 (사전 학습은 약 20 억 문장을 사용하여 문장과 같은 특성을 기반으로 한 전체 MC4 일본어 텍스트를 더욱 좁 힙니다.
*3 3 변압기 모델은 Stanford University와 ICLR2020의 Stanford University와 Google Research가 발표 한 적대적 학습을 모방하는 메커니즘으로 학습 효율성을 크게 향상시키는 변압기 모델 (학습 라이브러리를위한 NVIDIA의 DeePlearningExamply 구현 및 분석 프레임에 대한 Face 's Face의 Transformers)
*4 Works Applications Enterprise Co., Ltd.에서 자연 언어 처리를 전문으로하는 AI 연구 기관인 Works Tokushima 인공 지능 NLP Research Institute에서 개발 한 얼굴 변압기를 포옹하기위한 토큰 화기 라이브러리
*5 이제 Hugging Face Inc.가 게시 한 기계 학습 모델 공유 저장소 인 Hugging Face Hub에서 사용할 수 있습니다.https://huggingface.co/megagonlabs/)
*6 그것은 프로그래밍 언어 중 하나이며 간단하고 고도로 서면 언어로 인기가 있습니다. 데이터 과학 분야뿐만 아니라 웹 응용 프로그램 개발에서도 널리 사용됩니다.
*7 Explosionai Gmbh가 개발 한 최첨단 기계 학습 기술을 통합 한 고도로 기능적인 자연 언어 처리 프레임 워크
관련 보도 자료