Java Stream:合并从不同 CSV 文件读取的多个结果

本文介绍了如何使用 Java Stream 将从多个 CSV 文件读取的数据进行合并,并保持原始顺序。通过示例代码,详细展示了如何将城市数据和国家数据关联起来,最终为每个城市对象添加对应的国家名称。本文重点在于使用 Stream API 实现高效的数据关联,并提供了一种简洁明了的解决方案。

使用 Java Stream 合并 CSV 数据

在处理数据时,经常会遇到需要从多个来源(例如不同的 CSV 文件)读取数据,然后将这些数据合并的需求。本文将以城市和国家数据为例,展示如何使用 Java Stream API 高效地合并这些数据,并保持原始数据的顺序。

假设我们有两个 CSV 文件,分别包含城市和国家的数据。城市数据包含城市ID、城市名称和国家代码,而国家数据包含国家ID、国家名称和国家代码。我们的目标是根据国家代码将城市数据和国家数据关联起来,最终为每个城市对象添加对应的国家名称。

首先,定义城市和国家的实体类:

import com.opencsv.bean.CsvBindByPosition;

public class City {

    @CsvBindByPosition(position = 0)
    private Integer id;

    @CsvBindByPosition(position = 1)
    private String name;

    @CsvBindByPosition(position = 2)
    private String countryCode;

    private String countryName; // 新增字段,用于存储国家名称

    // getters and setters

    public Integer getId() {
        return id;
    }

    public void setId(Integer id) {
        this.id = id;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public String getCountryCode() {
        return countryCode;
    }

    public void setCountryCode(String countryCode) {
        this.countryCode = countryCode;
    }

    public String getCountryName() {
        return countryName;
    }

    public void setCountryName(String countryName) {
        this.countryName = countryName;
    }
}
import com.opencsv.bean.CsvBindByPosi

tion; public class Country { @CsvBindByPosition(position = 0) private Integer id; @CsvBindByPosition(position = 1) private String name; @CsvBindByPosition(position = 2) private String code; // getters and setters public Integer getId() { return id; } public void setId(Integer id) { this.id = id; } public String getName() { return name; } public void setName(String name) { this.name = name; } public String getCode() { return code; } public void setCode(String code) { this.code = code; } }

接下来,假设我们已经从 CSV 文件中读取了城市和国家数据,并将它们分别存储在 cities 和 countries 列表中。

import java.util.List;
import java.util.stream.Collectors;

public class DataMerger {

    public static void main(String[] args) {
        // 假设 cities 和 countries 已经从 CSV 文件中读取
        List cities = // 从 CSV 文件读取城市数据
        List countries = // 从 CSV 文件读取国家数据

        // 使用 Stream API 合并数据
        cities.forEach(city -> city.setCountryName(countries.stream()
                .filter(country -> country.getCode().equals(city.getCountryCode()))
                .map(Country::getName)
                .findAny()
                .orElse(null)));

        // 打印结果
        cities.forEach(city -> System.out.println(city.getName() + " - " + city.getCountryName()));
    }
}

这段代码使用 forEach 循环遍历城市列表,并使用 Stream API 在国家列表中查找与城市国家代码匹配的国家。找到匹配的国家后,将国家名称设置到城市对象的 countryName 属性中。findAny().orElse(null) 用于处理找不到匹配国家的情况,此时将 countryName 设置为 null。

代码解释:

  1. cities.forEach(city -> ...): 对城市列表进行迭代,对每个城市对象执行后续操作。
  2. countries.stream(): 将国家列表转换为 Stream。
  3. .filter(country -> country.getCode().equals(city.getCountryCode())): 使用 filter 方法过滤国家列表,只保留国家代码与当前城市国家代码匹配的国家。
  4. .map(Country::getName): 使用 map 方法将过滤后的国家对象转换为国家名称。
  5. .findAny(): 从 Stream 中找到任意一个元素(因为国家代码应该是唯一的,所以找到一个就足够了)。
  6. .orElse(null): 如果 Stream 为空(即没有找到匹配的国家),则返回 null。
  7. city.setCountryName(...): 将找到的国家名称设置到城市对象的 countryName 属性中。

注意事项:

  • 确保 CSV 文件读取正确,并将数据正确地映射到实体类中。
  • 如果国家代码不是唯一的,findAny() 方法可能会返回不同的结果,具体取决于 Stream 的实现。在这种情况下,可以考虑使用 findFirst() 方法来确保返回第一个匹配的结果。
  • 如果需要处理大量数据,可以考虑使用并行 Stream 来提高性能。但是,需要注意并行 Stream 可能会改变数据的顺序。如果需要保持原始顺序,可以使用 forEachOrdered() 方法代替 forEach() 方法。

总结:

本文展示了如何使用 Java Stream API 将从多个 CSV 文件读取的数据进行合并,并保持原始数据的顺序。通过示例代码,详细展示了如何将城市数据和国家数据关联起来,最终为每个城市对象添加对应的国家名称。使用 Stream API 可以简化代码,提高效率,并使代码更易于阅读和维护。