BreakIterator与中文文本无法正常工作

作者：jimscloudy | 来源：互联网 | 2023-02-01 14:10

如何解决《BreakIterator与中文文本无法正常工作》经验，为你挑选了1个好方法。

我使用BreakIterator.getWordInstance将中文文本拆分为单词.这是我的例子

import java.text.BreakIterator;
import java.util.Locale;

public class Sample {
    public static void main(String[] args) {
        String stringToExamine = "I like to eat apples. ???????";

        //print each word in order
        BreakIterator boundary = BreakIterator.getWordInstance(new Locale("zh", "CN"));
        boundary.setText(stringToExamine);

        printEachForward(boundary, stringToExamine);
    }

    public static void printEachForward(BreakIterator boundary, String source) {
        int start = boundary.first();
        for (int end = boundary.next(); end != BreakIterator.DONE; start = end, end = boundary.next()) {
            System.out.println(start + ": " + source.substring(start, end));
        }
    }
}



我的示例文本来自/sf/ask/17360801/

我得到的输出是

0: I
1:  
2: like
6:  
7: to
9:  
10: eat
13:  
14: apples
20: .
21:  
22: ??????
28: ?


然而,预期的产出是

0 I
1  
2 like
6  
7 to
9  
10 eat
13  
14 apples
20 .
21  
22 ?
23 ??
25 ?
26 ??
28 ?


我甚至尝试过纯粹的中文文本,但这些文字在空格和标点符号上都被打破了.

我正在为服务器编程,因此jar文件大小不是一个大问题.我试图找到给定内容中与使用最小公共子序列(但在单词上)的示例内容相比不同的单词数.

我究竟做错了什么？ 


1> Sean Van Gor..：
该标准BreakIterator不支持在不间断的CJK表意文字字符串中检测"单词"边界.有一个关于这个主题的错误报告,但它在2006年被关闭为"不会修复".

相反,您需要使用ICU实现.如果您是在Android上进行开发,那么您已经拥有了这个android.icu.text.BreakIterator.否则,您需要从http://site.icu-project.org/download下载ICU4J库,其中包含它com.ibm.icu.text.BreakIterator.




    
        
                        java
                        get
                        instance
                        import
                        text
                        static
                        main
                        string
                        int
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        php
                        Golang如何使用Cookie跟踪位置
                    

                    
                                                
                        关键词：Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 15:47:22
                    

                

                
                                
                    
                        int
                        Java太阳系小游戏分析和源码详解
                    

                    
                                                
                            
                        
                                                
                        本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 19:53:34
                    

                

                                
                    
                    
                
                
                                
                    
                        post
                        在类中定义数组时出错 - Error on defining arrays in class
                    

                    
                                                
                        Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 17:38:12
                    

                

                
                                
                    
                        php
                        Java实现大数乘法（分治算法）
                    

                    
                                                
                        本文介绍了使用Java实现大数乘法的分治算法，包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:43:50
                    

                

                
                                
                    
                        int
                        Java容器中的compareto方法排序原理解析
                    

                    
                                                
                            
                        
                                                
                        本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 13:53:31
                    

                

                
                                
                    
                        php
                        求解hdu 1003 java题目的动态规划优化方法
                    

                    
                                                
                        本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 13:11:00
                    

                

                
                                
                    
                        php
                        OC学习笔记之@property和@synthesize
                    

                    
                                                
                        本文介绍了OC学习笔记中的@property和@synthesize，包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 12:05:06
                    

                

                
                                
                    
                        int
                        Open judge C16H: Magical Balls 快速幂+逆元问题解析
                    

                    
                                                
                        本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 12:03:27
                    

                

                
                                
                    
                        select
                        关于cuowu类的错误提示和使用AdjustmentListener的问题
                    

                    
                                                
                        本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 22:09:56
                    

                

                
                                
                    
                        int
                        Java猜拳小游戏代码
                    

                    
                                                
                        本文介绍了一个Java猜拳小游戏的代码，通过使用Scanner类获取用户输入的拳的数字，并随机生成计算机的拳，然后判断胜负。该游戏可以选择剪刀、石头、布三种拳，通过比较两者的拳来决定胜负。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:39:08
                    

                

                
                                
                    
                        php
                        HDU 2372 El Dorado（DP）的最长上升子序列长度求解方法
                    

                    
                                                
                            
                        
                                                
                        本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法，通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:08:18
                    

                

                
                                
                    
                        int
                        差分约束系统求解House Man跳跃问题的思路与方法
                    

                    
                                                
                        本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度，要求从最低点跳跃到最高点，每次跳跃的距离不超过D，并且不能改变给定的顺序。通过建立差分约束系统，将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法，并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 11:49:51
                    

                

                
                                
                    
                        int
                        如何在有序字符序列中插入新字符并保持有序
                    

                    
                                                
                        本文介绍了如何在给定的有序字符序列中插入新字符，并保持序列的有序性。通过示例代码演示了插入过程，以及插入后的字符序列。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 11:16:33
                    

                

                
                                
                    
                        int
                        sklearn数据集库中的常用数据集类型介绍
                    

                    
                                                
                            
                        
                                                
                        本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 17:45:15
                    

                

                
                                
                    
                        stream
                        java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试
                    

                    
                                                
                        个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 14:20:23

















    

    
        
            
            
                
                
            

            
                jimscloudy            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    command
                
                                
                    flutter
                
                                
                    hashcode
                
                                
                    subset
                
                                
                    usb
                
                                
                    schema
                
                                
                    substring
                
                                
                    eval
                
                                
                    controller
                
                                
                    match
                
                                
                    uml
                
                                
                    hook
                
                                
                    int
                
                                
                    lua
                
                                
                    select
                
                                
                    httpclient
                
                                
                    nodejs
                
                                
                    search
                
                                
                    triggers
                
                                
                    metadata
                
                                
                    header
                
                                
                    split
                
                                
                    post
                
                                
                    byte
                
                                
                    stream
                
                                
                    cookie
                
                                
                    php
                
                                
                    process
                
                                
                    require
                
                                
                    typescript
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1Apache + Tomcat集群 + 负载均衡
                
                                
                    2关于go:go-make-slice-详解
                
                                
                    3然而大部分工程师的期权并没有什么用
                
                                
                    4计协C语言组第四次培训——数组+指针
                
                                
                    5win11安装后开始菜单无法使用的解决教程
                
                                
                    6支持_iOS 11.3 固件暗示：iPad Pro 将支持面容 ID
                
                                
                    7shirovue前后端分离中模拟登录遇到的坑
                
                                
                    8查找重复次数最多的子字符串
                
                                
                    9iTOPiMX6QPLUS开发板Android6.0下uboot添加网卡驱动
                
                                
                    10《寄薛三郎中（据）》翻译 原文赏析诗人唐杜甫　类型:代简
                
                                
                    11吐槽:团队遣散，我们该何去何从？
                
                                
                    12js pjax 和window.history.pushState,replaceState
                
                                
                    13关于物体（车辆）震颤（熄火）检测研究
                
                                
                    14c++多线程编程_Java并发编程系列：线程的五大状态，以及线程之间的通信与协作...
                
                                
                    15开发笔记:题解 P1286 两数之和