Re: 5.3-REL: install problem, hardisk (mere info)

From: Jimmy Selgen (none@jsn--devlix.dk.lh.bsd-dk.dk)
Date: Fri 19 Nov 2004 - 00:00:07 CET


Subject: Re: 5.3-REL: install problem, hardisk (mere info)
From: Jimmy Selgen <none@jsn--devlix.dk.lh.bsd-dk.dk>
To: bsd-dk@bsd-dk.dk
Date: Fri, 19 Nov 2004 00:00:07 +0100


On Thu, 2004-11-18 at 23:51 +0100, Jimmy Selgen wrote:
> On Thu, 2004-11-18 at 20:13 +0100, Joachim Bondo wrote:
> > Der er nogen debug-information (Alt-F2), som måske kan hjælpe:
> >
> > ad2: WARNING - WRITE_DMA UDMA ICRC error (retrying request) LBA=63
> > ad2: WARNING - WRITE_DMA UDMA ICRC error (retrying request) LBA=63
> > ad2: FAILURE - WRITE_DMA status=51<READY,DSC,ERROR>
> > error=84<ICRC,ABORTED> LBA=63
> >
> Lyder meget som dem jeg får på min maxtor disk når den skal vågne fra
> power save.
> Underligt nok er det kun min maxtor disk, og ikke mine WD diske.
> Når først den har lavet en "FAILURE" så får jeg en "Bad file descriptor"
> på device filen.
> Ved en efterfølgende reboot laver den så en panic efter den har flushet
> disk buffers.
Hader at svare på egne mails, men lidt debug info kan man vel få plads
til :)
Jeg får flg. i messages :
ad1: TIMEOUT - READ_DMA retrying (2 retries left) LBA=260877503
ad1: FAILURE - READ_DMA timed out

LBA er sjældent den samme, og efterfølgende får jeg så det her :
chantry# ls -l /mnt/disk1
ls: /mnt/disk1: Bad file descriptor

Forsøg på at unmounte disken resulterer i 99% af tilfældene i en panic.

smartctl o.s.v. kan stadig tilgå disken :
===================================================================
chantry# ls -l /mnt/disk1
ls: /mnt/disk1: Bad file descriptor
chantry# smartctl -l selftest /dev/ad1
smartctl version 5.32 Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

The SMART RETURN STATUS return value (smartmontools -H option/Directive)
 can not be retrieved with this version of ATAng, please do not rely on
this value
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining
LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 4553
-
# 2 Extended offline Completed without error 00% 4522
-
# 3 Extended offline Completed without error 00% 4472
-
# 4 Extended offline Completed without error 00% 4440
-
===================================================================

Jeg har forsøgt at fange det med en debug kerne, men af en eller anden
grund får den aldrig gemt noget, måske sammenhængende med at crash sker
efter diskene er flushet.

Så indtil videre er bedste hint vel at det er noget der er committed
mellem BETA6 og BETA7. (hvis der skulle være nogen på listen der er
involveret i den slags udvikling.. personligt mistænker jeg stærkt PHK
for at have haft for meget fritid :D )

Skulle der være nogen bsd udviklere som mener at kunne blive klogere på
problemet ved at kigge lidt på maskinen, så kan et ssh login nok
arrangeres.

/Jimmy






This archive was generated by hypermail 2b30 : Wed 15 Nov 2006 - 18:24:46 CET