从文本文件中读取数字并按逗号分隔成列表

本文旨在解决从包含逗号分隔数字的文本文件中读取数据,并将这些数字正确地存储到整数列表中的问题。核心问题在于如何处理两位数或更多位数的情况,避免将它们拆分成单独的数字。通过使用正则表达式分割字符串,可以有效地解决这个问题,确保数字被正确解析和存储。

在处理文本文件中的数值数据时,经常会遇到需要将逗号分隔的数字读取并存储到列表中的情况。然而,简单地使用逗号作为分隔符可能会导致多位数被错误地分割成单独的数字。本文将介绍一种使用正则表达式来解决此问题的方法,确保

数字被正确解析和存储。

使用正则表达式分割字符串

解决此问题的关键在于使用正则表达式 "\\D+" 作为字符串的分割符。该表达式的含义是“一个或多个非数字字符”。通过使用这个表达式,我们可以将字符串在非数字字符处分割,从而正确地提取出数字。

以下是修改后的代码示例:

import java.io.*;
import java.util.ArrayList;
import java.util.List;

public class ReadFile {

    public List readTestCase(String files) throws IOException {

        File file = new File(files);
        byte[] bytes = new byte[(int) file.length()];
        FileInputStream fis = new FileInputStream(file);
        fis.read(bytes);
        fis.close();
        String[] valueStr = new String(bytes).trim().split("\\D+");
        List arr = new ArrayList<>();

        for (String s : valueStr) {
            if (!s.isEmpty()) { // 确保字符串非空
                arr.add(Integer.parseInt(s));
            }
        }

        return arr;

    }


    public static void main(String[] args) {
        ReadFile reader = new ReadFile();
        try {
            List numbers = reader.readTestCase("numbers.txt"); // 替换为你的文件名
            System.out.println(numbers);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

}

代码解释:

  1. split("\\D+"): 这一行代码是关键。它使用正则表达式 "\\D+" 将读取到的字符串分割成字符串数组。"\\D+" 匹配一个或多个非数字字符,这意味着逗号、空格和其他非数字字符都会被作为分隔符。
  2. if (!s.isEmpty()): 分割后的数组中可能包含空字符串(例如,如果文件中存在连续的逗号)。为了避免 NumberFormatException,我们需要在使用 Integer.parseInt() 转换之前检查字符串是否为空。
  3. Integer.parseInt(s): 将分割后的字符串转换为整数,并添加到列表中。

注意事项:

  • 文件编码: 确保文本文件的编码方式与程序读取时使用的编码方式一致。如果文件包含非ASCII字符,可能会导致乱码问题。建议使用UTF-8编码。
  • 异常处理: 代码中包含了基本的异常处理,但实际应用中可能需要更完善的异常处理机制,例如处理 FileNotFoundException 或 IOException。
  • 数据验证: 在将字符串转换为整数之前,可以添加额外的数据验证步骤,以确保字符串确实包含有效的数字。例如,可以使用正则表达式 ^[0-9]+$ 检查字符串是否只包含数字。
  • 空文件处理: 如果文件为空,bytes.length 将为0,导致 new byte[(int) file.length()] 创建一个长度为0的数组。后续的 fis.read(bytes) 将不会读取任何数据,valueStr 数组可能为空。需要添加额外的判断来处理空文件的情况。

总结

通过使用正则表达式 "\\D+" 分割字符串,可以有效地从包含逗号分隔数字的文本文件中读取数据,并将这些数字正确地存储到整数列表中。这种方法能够处理多位数的情况,避免错误地分割数字。在实际应用中,还需要注意文件编码、异常处理和数据验证等问题,以确保程序的稳定性和可靠性。