词频统计
词频统计是指统计文本中每个词出现的次数。词频统计可以用于文本分析、自然语言处理等领域。
手动统计
手动统计是指将文本中的每个词都统计一遍,并记录出现的次数。这种方法简单易行,但效率较低。
使用工具统计
使用工具统计是指使用专门的词频统计工具,可以快速统计文本中的词频。
Java 实现
Java 中可以使用以下方法来实现词频统计:
正则表达式可以用于分割文本中的单词,然后使用计数器记录每个词出现的次数。
Java
- import java.util.regex.Pattern;
-
- public class WordCount {
-
- public static void main(String[] args) throws Exception {
- String text = "今天天气很好,我去公园散步了。在公园里,我看到了许多花,也看到了许多小朋友在玩耍。";
-
- // 使用正则表达式分割文本中的单词
- Pattern pattern = Pattern.compile("\\W+");
- String[] words = pattern.split(text);
-
- // 使用计数器记录每个词出现的次数
- Map<String, Integer> wordCounts = new HashMap<>();
- for (String word : words) {
- if (word