MySQL中删除重复数据并仅保留一条的实例详解

根据提供的表数据及结果，我们可以看到存在重复的数据。为了处理这些重复数据并保持数据的整洁和一致性，我们需要在MySQL中查找并删除重复记录，同时只保留其中的一条。本文将详细讲解如何在MySQL中查找并删除重复数据，同时只保留ID最小的记录或ID最大的记录。

首先，我们创建一个名为`test`的表，包含以下字段：`school_id`(学校ID)、`school_name`(学校名称)、`total_students`(总学生数)和`test_takers`(参加考试的学生数):

```sql

CREATE TABLE test (

school_id INT,

school_name VARCHAR(255),

total_students INT,

test_takers INT

);

```

然后，我们向表中插入一些数据：

```sql

INSERT INTO test (school_id, school_name, total_students, test_takers) VALUES

(1239, 'Abraham Lincoln High School', 5550, 1240),

(1240, 'Abraham Lincoln High School', 7035, 1241),

(1241, 'Acalanes HS', 12089, 1242),

(1242, 'Academy Of The Canyons', 3030, 1243),

(1243, 'Agoura HS', 8940, 1244);

```

接下来，我们可以使用以下SQL语句来查找并删除重复的记录：

方法一：保留ID最小的记录：

```sql

DELETE FROM test

WHERE (school_id, total_students) IN (

SELECT MIN(school_id), total_students

FROM test

GROUP BY school_name HAVING COUNT(*) > 1

);

```

方法二：保留ID最大的记录：

```sql

DELETE FROM test

WHERE (school_id, total_students) IN (

SELECT MAX(school_id), total_students

FROM test

GROUP BY school_name HAVING COUNT(*) > 1

);

```

执行上述SQL语句后，重复的数据将被删除，只保留ID最小或ID最大的记录。

## 1. 保留ID最小的记录

要保留ID最小的记录，可以使用以下SQL语句：

```sql

DELETE FROM `test`

WHERE `school_name` IN (

SELECT `school_name`

FROM `test`

GROUP BY `school_name`

HAVING COUNT(*) > 1

)

AND `school_id` NOT IN (

SELECT MIN(`school_id`)

FROM `test`

GROUP BY `school_name`

HAVING COUNT(*) > 1

);

```

首先，通过`GROUP BY`和`HAVING`找出所有重复的`school_name`,然后在`DELETE`语句中排除了`school_id`最小的记录，从而删除了其他重复的记录。

### 2. 保留ID最大的记录

如果要保留ID最大的记录，只需稍微修改上述查询：

```sql

DELETE FROM `test`

WHERE `school_name` IN (

SELECT `school_name`

FROM `test`

GROUP BY `school_name`

HAVING COUNT(*) > 1

)

AND `school_id` NOT IN (

SELECT MAX(`school_id`)

FROM `test`

GROUP BY `school_name`

HAVING COUNT(*) > 1

);

```

这次，我们在子查询中选择`MAX(school_id)`,确保删除的是每个重复组中ID较小的记录。

在处理MySQL中的重复数据时，需要遵循以下步骤：

1. 首先备份数据，以防万一删除操作出现问题。删除操作通常是不可逆的。

```sql

-- 创建一个备份表

CREATE TABLE backup_table LIKE original_table;

-- 将原始表中的数据复制到备份表中

INSERT INTO backup_table SELECT * FROM original_table;

```

2. 对于大型表，执行删除或更新操作可能会消耗大量资源。因此，请确保在低峰时段执行这些操作，并考虑使用索引优化查询性能。

```kotlin

// 在低峰时段执行删除操作

DELETE t1 FROM table1 t1 JOIN table2 t2 ON t1.id = t2.id WHERE t2.count > threshold;

// 在低峰时段执行更新操作

UPDATE table1 SET count = count - threshold WHERE id IN (SELECT max(id) FROM table2 GROUP BY field);

```

3. 处理重复数据通常涉及使用`GROUP BY`、`HAVING`以及`DELETE`或`UPDATE`语句的结合。具体选择保留ID最小还是最大取决于业务需求。理解并熟练运用这些SQL语句可以帮助你维护数据库的完整性和一致性。

```sql

-- 根据业务需求选择删除或更新操作

DELETE FROM table1 WHERE id NOT IN (SELECT MIN(id) FROM table1 GROUP BY field);

DELETE FROM table1 WHERE id NOT IN (SELECT MAX(id) FROM table1 GROUP BY field);

UPDATE table1 SET count = count - threshold WHERE id IN (SELECT max(id) FROM table2 GROUP BY field);

UPDATE table1 SET count = count + threshold WHERE id IN (SELECT min(id) FROM table2 GROUP BY field);

```

希望本文提供的实例和解释对你在实际工作中处理重复数据有所帮助。