365体育网投于Kana的官网上得看来用法(即便看无掌握介绍。在Kana的官网上可见见用法(即便看无知晓介绍。

环境:对天开发语言处理

条件:对日开发语言处理

渴求:分析词语,将词语被的日文单词分割,转换形式。

要求:分析词语,将词语被之日文单词分割,转换形式。

分析:

分析:

  任务1:词语拆分

  任务1:词语拆分

  任务2:转换形式

  任务2:转换形式

 

 

日文的款式转换可以就此kanavetor去落实 非常简单
直接调用Kana类的convert方法就是可以,在Kana的官网及可以看到用法(即便看不理解介绍,看到管网的报表应该吗就一目了然了~)。

日文的样式转换可以就此kanavetor去实现 非常简单
直接调用Kana类的convert方法就是得,在Kana的官网及可观看用法(即便看不亮介绍,看到管网的表格应该为就一目了然了~)。

要在于词语的拆分上:

根本在词语的拆分上:

辞拆分使用了Kuromoji,Kuromoji是同样款特别好用的日语分词工具,并且,分解后底歌词是好自行将汉字,平假名等转移成カタカナ的,有近似需要的可以直接用者只要非用重新失探寻其他工具了。Kuromoji我找到了少数只本子,一个凡kuromoji,0.7.7本,官网上说捐献给了apache,内置在Lucene的4.0,5.0版里,由于忘记Lucene的用法,暂且不考虑。另外一个本子是kuromoji-ipadic,这个东东和kuromoji都是一个商厦产生之,但是略有不同,稍微研究了一晃,kuromoji在使的时节是不得不找到jar包,找不顶源代码文件的,通过maven下载好,但是gradle是引入无了的。而kuromoji-ipadic则是gradlle也得以引用,并且引入之后好看出源码。此外kuromoji毕竟是先的api,还有一部分微小的弱点。

辞拆分使用了Kuromoji,Kuromoji是一样舒缓特别好用的日语分词工具,并且,分解后底乐章是得自行将汉字,平假名等易成为カタカナ的,有像样需要之足直接用之要不用重新失追寻另外工具了。Kuromoji我找到了有限独版本,一个凡kuromoji,0.7.7版,官网及说捐献给了apache,内置在Lucene的4.0,5.0本子里,由于忘记Lucene的用法,暂且不考虑。另外一个版是kuromoji-ipadic,这个东东同kuromoji都是一个号发出的,但是略有不同,稍微研究了一下,kuromoji在应用的时候是只能找到jar包,找不至源代码文件之,通过maven下载好,但是gradle是引入无了底。而kuromoji-ipadic则是gradlle也可以引用,并且引入之后好看出源码。此外kuromoji毕竟是以前的api,还有局部细微的先天不足。

kuromoji官网:http://www.atilika.org/

kuromoji官网:http://www.atilika.org/

Kuromoji-ipadic官网:http://www.atilika.com/en/kuromoji/

Kuromoji-ipadic官网:http://www.atilika.com/en/kuromoji/

Kuromoji用法:

Kuromoji用法:

1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }
1         Tokenizer tokenizer = Tokenizer.builder().build();
2         for (Token token : tokenizer.tokenize("寿司が食べたい。")) {
        // token 中存放的是分割后的词 不同的属性可以取到该词的不同内容

              // surfaceForm:原内容

3             System.out.println(token.getSurfaceForm() + "\t" + );

              // baseForm:内容词语的基础 例如 食べたい⇒食べ

        System.out.println(token.getBaseForm() + "\t" + );

4 }

↑↑↑这个api对日文汉字的识别率不如下面的api(有些简体日文汉字和专门生疏的分辨不出去,毕竟是直版本),并且遇到不识的汉字365体育网投时token调用get方法会得到null。。。不建议下。

↑↑↑这个api对日文汉字之识别率不如下面的api(有些简体日文汉字和专门生疏的识别不出去,毕竟是老版本),并且遇到不识的字时token调用get方法会得到null。。。不建议下。

Kuromoji-ipadic用法:

Kuromoji-ipadic用法:

1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        
1         Tokenizer tokenizer = new Tokenizer() ;
2         List<Token> tokens = tokenizer.tokenize("お寿司が食べたい。");
3         for (Token token : tokens) {
4             System.out.println(token.getSurface()); // 读取到的原内容
5             System.out.println(token.getReading()); // カタカナ
6         }        

顺带一提,kuromoji-ipadic由于是为此new产生有实例的,所以一旦你的家伙要体系要转移大量词汇,要注意不要开尽多之new操作,不然会格外缓慢好缓慢好缓慢,此时得定义成静态常量或者单例模式。

顺带一提,kuromoji-ipadic由于是因此new产生有实例的,所以要是您的家伙要系要转移大量词汇,要小心不要做最好多之new操作,不然会大缓慢好缓慢好缓慢,此时足定义成静态常量或者单例模式。

迎大家评论与求教。

接大家评论以及指教。

 

 

相关文章