• 一个超级大的文件如何更快读


    一个超级大的文件如何更快读

    问题起因

    一个有千万的数据的txt文件如何发挥IO的全部性能更快的读和写。

    方案一

    使用ChatGPT4的方案

    在C#中,我们可以使用多线程来处理大量的数据并将其写入数据库。在处理大数据时,我们需要将任务分解为多个子任务,这样我们可以在不同的线程中并行执行它们以提高性能。

    这里是一种可能的解决方案,使用了Task Parallel Library (TPL)来实现多线程。假设我们使用的是SQL Server数据库,并且我们正在处理的文件是TSV(Tab-Separated Values)文件。

    using System;
    using System.IO;
    using System.Threading.Tasks;
    using System.Data.SqlClient;
    using System.Collections.Concurrent;
    
    class Program
    {
        static void Main()
        {
            string path = "yourFile.tsv";
            ConcurrentQueue<string[]> queue = new ConcurrentQueue<string[]>();
    
            var producer = Task.Run(() =>
            {
                using (var reader = new StreamReader(path))
                {
                    string line;
                    while ((line = reader.ReadLine()) != null)
                    {
                        var fields = line.Split('\t');
                        queue.Enqueue(fields);
                    }
                }
            });
    
            var consumers = new Task[4];
            for (int i = 0; i < consumers.Length; i++)
            {
                consumers[i] = Task.Run(() =>
                {
                    string connString = "Your connection string";
                    using (var conn = new SqlConnection(connString))
                    {
                        conn.Open();
                        while (true)
                        {
                            if (queue.TryDequeue(out string[] fields))
                            {
                                using (var cmd = new SqlCommand("Your insert command", conn))
                                {
                                    // Update parameters in cmd using fields
                                    cmd.ExecuteNonQuery();
                                }
                            }
                            else if (producer.IsCompleted)
                            {
                                break;
                            }
                        }
                    }
                });
            }
    
            Task.WaitAll(consumers);
        }
    }
    

    在上面的代码中,我们首先创建了一个生产者任务,该任务从TSV文件中读取每一行,然后将每一行分割为字段,并将结果存入队列。然后我们创建了4个消费者任务,每个消费者任务都从队列中

    题外话题

    如果这个文件是按照行去分割数据如何利用多线程去发挥更高性能?

    讨论 采用偏移值去分多个任务读,并且需要解决偏移值不一定还在每一行中的位置,使用需要设计好如何解决偏移值的位置问题。

    首先规定任务的偏移值提供案例:

    [
    	{
    	"start":0,
    	"end":10000
    	},
    	{
    	"start":10001,
    	"end":20000
    	},
    	{
    	"start":20001,
    	"end":30000
    	},
    	{
    	"start":30000,
    	"end":40000
    	}
    ]
    

    在这里提供了四个任务,每一个任务的偏移值都是固定的,请注意,我们的文件的数据是按照每个换行符去分割数据,如果使用了偏移值,我们无法保证偏移值的位置一定是每一行的开头,这个时候需要注意如何处理偏移值的问题,下面我提供一个简单的解决方法,采用伪代码

    var data = new object []{
       
    	{
    	"start":0,
    	"end":10000
    	},
    	{
    	"start":10001,
    	"end":20000
    	},
    	{
    	"start":20001,
    	"end":30000
    	},
    	{
    	"start":30000,
    	"end":40000
    	}
    }
    
    // 处理偏移值的方法
    
    // 提供多个线程任务去并发执行读
    
    

    通过伪代码我们可以看到,解决偏移值的问题是由先提供一个方法,将每一个偏移值去先处理一边在去执行任务。这样就可以解决问题。

    这个属于题外话题。如果大佬们有其他想法也可以讨论,话题不在意IO的瓶颈,如何更快的读

  • 相关阅读:
    初识设计模式 - 单例模式
    骨传导原理是什么,佩戴骨传导耳机的过程中对于耳道有无损害
    【AI视野·今日NLP 自然语言处理论文速览 第六十四期】Fri, 27 Oct 2023
    xss漏洞简单案例
    【毕业设计源码】Python学生兼职平台系统
    QT之tcp通信的简单例程
    169.多数元素
    如何保证 HTTPS 证书的有效性?
    【JVM】JVM垃圾回收机制GC
    Minio设置文件永久访问和下载
  • 原文地址:https://www.cnblogs.com/hejiale010426/p/17465628.html