校园招聘信息
请以中国出版集团的校招通知为准

全站> > 人工智能技术解决方案> 自然语言处理算法

自然语言处理算法

全部多语言机器翻译解决方案自然语言处理算法知识图谱语音识别大数据技术平台

方案概述

中译语通长期致力于自然语言处理技术的研发和应用，采用循环神经网络、卷积神经网络、条件随机场、支持向量机、随机森林等先进机器学习技术，结合千亿级全球多语言文本语料数据资源，构建了精准高效的多语自然语言处理算法，包括分词、词性标注和命名实体识别、敏感性分析、情感分析、自动摘要、关键词抽取、文本分类、文本质量评估、热点聚类、事件要素抽取、知识图谱构建等各个层面，能够为深度分析全球跨语言文本提供一站式信息处理解决方案。目前平台可以支持30多种语言的处理，提供10多类算法及65种算法服务。

方案咨询：[email protected]

应用服务

分词及词性标注
分词是指按照语法规范，将字序列组合成词序列。词性标注是指给定词序列，找出最可能的词性序列。分词是自然语言处理的基本单位，分词及词性标注是各种NLP算法的基础。我们提供面向各种应用场景的定制化统计分词算法，可满足多语言需求。分词及词性标注算法主要针对中、日、韩等没有明显词边界或词边界可进一步细化的语种，将以字串出现的句子或短语转化为词串。

命名实体识别
命名实体识别是信息提取、问答系统、语义理解、机器翻译等应用的重要工具，在自然语言处理中具有基础性作用。我们采用统计机器学习方法，利用大规模语料库进行训练，在中、英文多种应用场景中，取得了较好的效果。

情感分析
文本情感分析算法能够自动分析识别出篇章中表达的观点或态度情感倾向，并给出能够表达情感的极性和强度的情感倾向度指标。情感分析算法用于情感极性的分析，在监控、话题监督、口碑分析等领域具有不可替代的作用。本情感分析算法采用深度学习模型，在十万级人工标注语料基础上训练而成。

关键词提取
关键词提取算法用于文本主旨的提取，帮助用户快速获取核心内容。本关键词提取算法综合了多种机器学习方法和大量的语料资源，目前支持中、英、日、韩、俄、葡、西、法、德、阿等10个语种，并可以利用开放数据快速生成其它语种的关键词提取工具。

文本摘要
自动文摘算法指自动生成一篇简单连贯的短文，表达出原始文献中的核心内容。实现将原文信息的高效压缩，辅助用户高效阅读。我们采用一种基于数据驱动的机器学习方法，该方法适应互联网大数据的特点，具有不受领域限制、计算效率高、生成速度快、摘要长度可控制等优点，能够满足搜索引擎、智能问答等应用需求。

语种识别
语种识别算法是指自动判定输入文本的语言种类。我们基于N-Gram和贝叶斯理论研发了一套支持几十种语言的语种识别技术，其中重点对中文简体、中文繁体、英、日、韩、俄、葡、西、法、德、阿等语种的识别进行了优化，提升了识别准确度。

文本分类
文本分类算法是指按照一定的分类体系或标准，自动为文本标记所属类别。文本分类算法能将非结构化信息按照给定分类体系，是海量数据应用和管理的基础，应用场景十分广泛。我们参照《GB/T 20093-2013 中文新闻信息分类与代码》二级分类体系，在此基础上结合数据和产品特点进行归并、映射，形成既符合行业标准又满足用户行为习惯的分类标准。文本分类算法目前支持中、英两个语种

敏感性判定
敏感性判定算法主要用于敏感信息的过滤，包括反动、色情、暴力等多种类别。我们以统计机器学习模型为基础，利用人工标注的大规模语料资源，结合基于语言学知识和词向量构造的多语敏感词词典，实现了统计与规则相结合的敏感性分析系统。敏感性判定算法目前支持中、英两个语种。

文本质量评估
文本质量评估算法主要用户互联网挖掘数据的过滤和清洗，提高信息质量，提升用户体验。文本质量评估算法采用机器学习、智能识别等技术，能够有效识别包含乱码、代码、脚本等噪声数据和行文随意、语法混乱的灌水数据。

事件要素提取
事件要素提取算法能够将非结构化的自然语言文本进行结构化，可用于新闻事件的深度分析与挖掘。我们采用一种无监督学习方法，无需大规模人工标注语料即可提取出文本篇章中最核心的时间、地点、人物、事件特征等信息，更符合大数据时代开放数据处理需求。

多语言词向量
词向量是深度学习中常用的一种词语表示方法，既能表达词本身又能表达与其他词语的语义关联。词向量技术是将自然语言词汇进行高效量化表达的一种重要方式。我们采用神经网络模型，在大规模平行语料库的基础上，以中文或英文为核心桥接语言，利用单语语料以及句子对齐语料为训练数据，构建了多语词向量库。能有效解决多种跨语言任务，包括多语言文本分类、多语言文本聚类、多语言情感分析，以及跨语言检索引擎。

联系我们