LeetCode - 解题笔记 - 187 - Repeated DNA Sequences

Solution 1

由于题目的限制非常直观，因此解法也非常直观。

从初始位置不断向后寻找一个指定长度的子串，并用哈希表进行计数。满足要求时保存结果（注意避免重复判定的问题）。

我想了几个能够简化子串存取的方法（滑窗），但是都不能实际优化复杂度。

时间复杂度： $O (NM)$ ，其 $N$ 为输入的字符串长度， $M$ 为指定的子串长度，由于每一次判定需要取一个固定长度子串
空间复杂度： $O (NM)$ ，其 $N$ 为输入的字符串长度， $M$ 为指定的子串长度，子串存取和哈希表占用

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        int seqLen = 10;

        vector<string> ans;
        unordered_map<string, int> seqCounter;
        for (int i = 0; i < s.size(); ++i) {
            if (i >= seqLen - 1) {
                auto tempSeq = s.substr(i - seqLen + 1, seqLen);
                seqCounter[tempSeq]++;
                if (seqCounter[tempSeq] == 2) {
                    // 必须是等于2，不然就会重复计算了
                    ans.push_back(tempSeq);
                }
            }
        }
        
        return ans;
    }
};
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

Solution 2

【官方题解参考】官方题解基于位操作给出了一个滑窗优化方案。

因为题目限制了长度为10，涉及到四种位态，因此可以一个2位表示共20位的子串来保存当前状态，一个int整型数就能解决问题，能够优化扫描时间（滑窗）的同时也能节省存储（整型数的哈希）

时间复杂度： $O (N)$ ，其中 $N$ 为输入的字符串长度，滑窗浏览只需要线性扫描时间
空间复杂度： $O (N)$ ，其中 $N$ 为输入的字符串长度，子串状态存取和哈希表占用

class Solution {
public:
    vector<string> findRepeatedDnaSequences(string s) {
        int seqLen = 10;
        unordered_map<char, int> char2bin = {{'A', 0}, {'C', 1}, {'G', 2}, {'T', 3}};
        
        vector<string> ans;
        int tempSeq;
        unordered_map<int, int> seqCounter;
        for (int i = 0; i < s.size(); ++i) {
            if (i < seqLen - 1) {
                // 左移 + 右补
                tempSeq = (tempSeq << 2) | char2bin[s[i]];
            } else {
                // 左移 + 右补 + 去头（mask长度为20）
                tempSeq = ((tempSeq << 2) | char2bin[s[i]]) & ((1 << (seqLen * 2)) - 1);
                seqCounter[tempSeq]++;
                if (seqCounter[tempSeq] == 2) {
                    // 必须是等于2，不然就会重复计算了
                    ans.push_back(s.substr(i - seqLen + 1, seqLen));
                }
            }
        }
        
        return ans;
    }
};
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

Solution 3

Solution 1的Python实现

class Solution:
    def findRepeatedDnaSequences(self, s: str) -> List[str]:
        seqLen = 10
        
        ans = list()
        seqCounter = defaultdict(int)
        for i in range(len(s)):
            if i >= seqLen - 1:
                tempSeq = s[i - seqLen + 1: i + 1]
                seqCounter[tempSeq] += 1
                if seqCounter[tempSeq] == 2:
                    ans.append(tempSeq)
                    
        return ans
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Solution 4

Solution 2的Python实现

class Solution:
    def findRepeatedDnaSequences(self, s: str) -> List[str]:
        seqLen = 10
        char2bin = {'A': 0, 'C': 1, 'G': 2, 'T': 3}
        
        ans = list()
        seqCounter = defaultdict(int)
        tempSeq = 0
        for i in range(len(s)):
            if i < seqLen - 1:
                tempSeq = (tempSeq << 2) | char2bin[s[i]]
            else:
                tempSeq = ((tempSeq << 2) | char2bin[s[i]]) & ((1 << (seqLen * 2)) - 1)
                
                seqCounter[tempSeq] += 1
                if seqCounter[tempSeq] == 2:
                    ans.append(s[i - seqLen + 1: i + 1])

        return ans
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

相关阅读:
如何在 CentOS 8 上安装 OpenCV？
Matlab如何提取论文插图中的渐变色？一招轻松搞定
Linux之环境变量
QT sqlite的简单用法
Mockjs在vue中的使用
ESG评级分歧及其工具变量大合集（2015-2022年）
c++模板模式
【无标题】
Ubuntu 20.04 系统最快安装WRF软件手册
Actor-Critic Method

原文地址：https://blog.csdn.net/cary_leo/article/details/126035295